• Nenhum resultado encontrado

3.2 Interpretação sobre dados biomédicos e suas estratégias

3.2.1 Interpretação baseada em ontologias

Um ponto comum das abordagens existentes é a exploração, quase que única, daGOe a aplicação de métodos unicamente estatísticos para a análise e interpretação das características funcionais de genes e proteínas. Essa restrição nos métodos determina, inclusive, uma limitação no processo de interpretação que se torna muito dependente de cálculos estatísticos e que não exploram como esses termos são organizados dentro do domínio, e.g. como descrito nas próprias ontologias.

Como solução, alguns estudos, como os de SANTANA et al. (18) e HOEHNDORF et al. (16), demonstram a capacidade inferencial do uso de ontologias para avaliar dados provenientes de publicações científicas e BDs biomédicos. Em SANTANA et al. (18) (por exemplo), foi avaliado como o conteúdo tabular proveniente de publicações científicas pode ser explorado a partir do uso de raciocínio e ontologias formais, no sentido de interpretar o conteúdo a partir de ontologias. Em HOEHNDORF et al. (16), foram utilizadas ontologias (suportadas por raciocínio) para validar o conteúdo anotado de fenômenos biomédicos.

Como citado, a necessidade em explorar o papel das ontologias no contexto dos dados biológicos foi evidenciada por11,10e12. BOBED e MENA(12) apresentaram uma ferramenta chamada de QueryGen, capaz de analisar as palavras-chave fornecidas durante uma consulta do usuário para (com auxílio de ontologias e de raciocinadores) definir outras possíveis palavras- chave que estejam faltando na consulta. O processo depende do usuário para validar as consultas de forma que o conjunto de palavras-chave final é utilizado para recuperar dados em bancos de dados biológicos utilizando abordagens de integração semântica.

Apesar do trabalho desenvolvido por HOEHNDORF et al. (16) explorar o raciocínio para auxiliar na interpretação, e do trabalho de BOBED e MENA (12) ser capaz de (com a interação do usuário) identificar componentes de ontologias que podem ser aplicados ao problema do usuário, essas abordagens apresentam limitações. Por exemplo, o trabalho de BOBED e MENA (12) tem como foco a extração de palavras-chave, não capturando a semântica dos dados.

Já em16, há uma conversão direta do conteúdo doBDBioModels Database(113) em um arquivoOWL, sem fazer menção à constituição ontológica do conteúdo gerado a partir da conversão. Apesar de esclarecer a semântica do banco de dados em uma ontologia construída apenas para oBDem questão, não há uma descrição clara sobre como o processo é realizado, além das implicações que o modelo convertido representa no contexto das ontologias.

Nesse sentido, as abordagens existentes sobre a utilização de ontologias emBDs bio- médicos não deixam claro o contexto de interpretação dos dados numa perspectiva ontológica. Para exemplificar, consideramos que em uma tupla deBDbiomédico anotado, os valores de cada campo são anotações provenientes de ontologias biomédicas, como aGO,PROeSNOMED CT. Todavia, cada uma dessas ontologias é construída de forma independente, ainda que sendo criada segundo uma mesma fundamentação ontológica (e.g. aBFO).

O usuário pesquisador ou analista de laboratório, durante uma tarefa de comparação entre registros doUniProte Ensembl, pode não saber determinar (claramente) como as anotações são associadas entre si (figura16). Todavia, ao empregar uma ontologia biomédica supradomínio como aBTL2, as possíveis associações entre as anotações podem se tornar evidentes. Por exemplo, uma proteína MS é parte de um organismo (‘is part of’) (figura17). Essas relações não existem nas ontologiasGO,PRO,ChEBIouSNOMED CTde maneira isoladamente. Dessa forma, cabe unicamente ao usuário determinar a interpretação de cada um dos registros.

Já a interpretação ontológica prevê a utilização das ontologias para auxiliar o usuário nesse processo de identificação das relações existentes entre os valores dos campos em uma tupla deBDbiomédico. Na figura17são utilizadas relações daBTL2para criar mapeamentos entre as anotações provenientes (especificamente) daPRO(Proteína) eNCBITaxonomy (Organismo).

Todavia, a representação do conteúdo de umBDem uma ontologia formal revela diferen- ças entre ambos os paradigmas. Por exemplo, em umBDdescrito a partir de relações definidas em um esquema, definindo campos e tuplas que serão formadas e valoradas, cada um desses

Figura 16 – Exemplo em que há a indefinição sobre possíveis associações entre as entidades registradas noBDpelo usuário.

Figura 17 – Exemplo em que há a definição sobre possíveis associações entre as entidades regis- tradas noBDpelo usuário.

componentes é classificado (ontologicamente) como entidades de informação. Dessa forma, um

BDé uma entidade de informação derivada de um esquema e composto de relações, campos, tuplas e valores (i.e. o dado). Em uma ontologia, o dado representará sempre uma instância.

Ao utilizar anotações, são gerados problemas de ordem ontológica e representacional, que resultam diretamente em como o usuário, que interpretará dados anotados, precisa decidir. Por exemplo:

(i) O que um determinado registro significa dentro de uma ontologia, se as anotações repre- sentam classes ou indivíduos?

(ii) Como é realizada a extração direta da semântica e como tornar o processo reprodutível?

Do ponto de vista ontológico, a não consideração desses fatores impacta diretamente na capacidade de interpretação sobre os dados estudados. Esses problemas impactam diretamente na estratégia de representação. Se o conteúdo de umBDé interpretado como indivíduos de uma ontologia, é necessário que eles sejam importados e os referentes (i.e. as classes) representados refletindo o conteúdo doBD.

Por exemplo, supondo que um dado os23 é anotado com a subclasse de organismo Mouse e incluída como parte do registro, essa anotação tanto pode ser considerada uma referência a uma classe, quanto um indivíduo isolado. O discernimento entre a compreensão de uma anotação (como classe ou como indivíduo) implica em utilizar (ontologicamente) o dado a partir de indivíduos (os23), ou utilizar os referentes (Mouse) para representar o registro.

Representar como indivíduos ou como classes pode resultar em diferentes abordagens representacionais, e.g. como a população de ontologias (114), na qual há a importação dos registros como indivíduos de uma ontologia, sem fazer discernimento sobre o contexto ontológico das classes populadas. Ou, interpretar o conteúdo a partir dos referentes, permitindo que sejam identificadas relações ainda não descritas na ontologia.

Por exemplo, considerando os23e px9786dois indivíduos que são anotados como classes de Mouse e Insulin em umBDqualquer. Do ponto de vista computacional, não apresenta nenhum sentido. Para um especialista de domínio, significa que existe um organismo do tipo Mouse que inclui uma proteína do tipo Insulin. Ao realizar esse tipo de interpretação com ontologias axiomatizadas, como aGO,ChEBI,BTL2ouPRO, a interpretação do usuário pode ser avaliada, e.g.sobre a consistência das afirmações e até que ponto o fenômeno descrito é condizente com o domínio. Esse tipo de tarefa é suportado por raciocinadores utilizados juntamente com as ontologias formais.

Além disso, (ii) o formato do processo de extração determina tanto as escolhas representa- cionais realizadas, quanto como o conteúdo dos bancos de dados é interpretado. Se as anotações são consideradas indivíduos, significa que na prática as anotações são utilizadas apenas como vocabulário de consulta e recuperação, e.g. sem a identificação das classes referentes. Isso indica que a interpretação de como os dados se comportam ontologicamente é deixada de lado. Um dos motivos pode ser a falta de garantia de que existam axiomas nas ontologias que suportem como o usuário interpreta os dados

Entretanto, se a interpretação é construída sobre os referentes (i.e. as classes), é possível representar e tornar mais claro o contexto ontológico dos dados, como no exemplo entre Mouse e Insulin. Ao tornar o processo de interpretação mais claro, consequentemente, podem ser definidas estratégias para que torne o processo reprodutível. Por exemplo, verificação de como se deve identificar adequadamente os referentes das anotações como classes nas ontologias, a partir de relações identificadas pelo usuário. Esse é um dos pontos considerados neste trabalho e que será

tratado no capítulo4. Como um banco de dados inteiro é definido segundo um esquema único, o processo de interpretação (assim) pode ser propagado e reproduzido de forma semelhante para todos os dados disponíveis.

Portanto, sem uma interpretação formalizada, a reprodutibilidade de todos os dados existentes em um ou maisBDs é comprometida. Por exemplo, sem um processo de interpretação definido, o usuário pode recair em erros de interpretação como, por exemplo, interpretar funções moleculares incluídas naGOcomo um tipo de processo. NaGO, classes como a que referencia uma função molecular de ligação de proteínas (protein binding), ou que descreve a atividade de oxirredução6 por uma proteína (oxireductase activity) são interpretadas como funções 7.

Entretanto, do ponto de vista ontológico, funções não apresentam processos como partes, gerando um erro de interpretação. Esse tipo de erro de interpretação, que só é passível de identificação a partir do uso de raciocínio sobre a formalização da interpretação, como identificado por HOEHNDORF et al. (16).

É justamente para tentar resolver essas limitações, de origem ontológica e representacional, que esta tese foi construída.

6 Quando elétrons são perdidos de uma molécula para outra.

7 Entidades realizáveis inerentes em objetos materiais que determinam sua finalidade. Por exemplo, a função de

4 Interpretação ontológica de

bancos de dados biomédicos

Bancos de dados biomédicos, como descrito, são repositórios de resultados sumarizados, recuperados a partir de investigações científicas. Além de dados numéricos e desestruturados, os

BDs biomédicos também incluem anotações semânticas. Ontologias como aGO,PROeChEBI

são frequentemente utilizadas para esse propósito. Mesmo que essas ontologias de domínio – isoladamente – obedeçam a princípios formais e a boas práticas de representação (80,115), pouco foi formalizado sobre o sentido das anotações. A interpretação do que as anotações em umBD

significam, mesmo diante da existência de um dicionário ou um esquema deBD, é deixada para o usuário.

Por exemplo, em uma tupla doUniProt, a proteína Methionine synthase é ligada a um processo de methylation descrito naGO, indicando apenas uma relação entre as duas anotações, sem especificação ou sentido. Com anotações construídas e apresentadas de forma clara para o usuário, e.g. sem ambiguidades, comparações e hipóteses científicas podem ser estudadas e avaliadas com maior precisão.

Um exemplo é descrito na figura18, na qual há organismos relacionados a processos biológicos. O fato de existirem registros associados em colunas dos bancos de dados permite descrever que existe algum tipo de associação entre organismos e entre processos. Do ponto de vista ontológico, associações entre objetos (organismos) e processos (processo biológico) são de inclusão ou participação.

Na figura18não é possível determinar qual relação pode ser aplicada de forma simples sem definir claramente como é a interpretação. Indo além, o especialista do domínio, ao verificar que Homo sapiens e Mus musculus são mamíferos, pode criar outras interpretações do tipo:

• Se os três processos biológicos (respiração celular, metabolismo de aminoácidos e o metabolismo da glicose) são frequentemente relacionados à proteína insulina, será que há alguma associação entre o metabolismo da E. coli e o dos demais organismos?

Em outras palavras, se os três organismos incluem a insulina e podem participar dos mesmos processos biológicos, seria natural pensar que há alguma associação entre o metabolismo da E.colicom o do H. sapiens e o do M. musculus.

Para o especialista do domínio, criar esses tipos de associações pressupõe a compreensão sobre o que está apresentado na forma de dados (i.e. oBD), e o que pode ser interpretado a partir disso. A interpretação do conteúdo é baseada na expertise do usuário. Além disso, e mesmo que exista uma descrição informal, como um dicionário de dados, as associações existentes na

Organismo Processo Biológico

Homo sapiens respiração celular

Mus musculus metabolismo de aminoácido

Escherichia coli metabolismo da glicose

Organismo

Processo Biológico

Dados Representação

Escherichia coli metabolismo da

glicose

‘has participant’

includes

Mus musculus metabolismo de

aminoácidos

includes ‘has participant’

Homo sapiens respiração

celular

‘has participant’

includes

Figura 18 – Exemplo de registro de banco de dados e a representação informal das entidades.

figura18podem ser interpretadas de formas diferentes. Por exemplo, um usuário com menos experiência pode não ir além da relação registrada entre Homo sapiens e respiração celular e não considerar outras possíveis relações de Homo sapiens com metabolismo de aminoácido ou metabolismo da glicose.

Em um cenário real comBDs biomédicos (viz.UniProte Ensembl), a grande quantidade de dados existente tanto pode ser um benefício, quanto um problema. De um lado, há muito mais dados para construir análises. Do outro, a grande quantidade de dados pode fazer com que o usuário se perca no processo de interpretação. Esse problema pode ser ampliado pelo fato de existirem mapeamentos entreBDs biomédicos, viz. identificadores do Ensembl e doNCBI

Taxonomy, incluídos noUniProt. Esses mapeamentos são utilizados para expandir a análise e incluir mais dados de estudos científicos (116,117).

Especificamente, um extrato de registro doUniProtanotado com IDs das ontologiasGO,

PRO ou ChEBI, e mapeados com BDs, como o Ensembl e o NCBI Taxonomy, é descrito na tabela18.

Registros, como o da tabela18são capturados a partir do processamento de textos cientí- ficos, passando (posteriormente) pela revisão manual por um ou mais profissionais especialistas. Essas mesmas anotações podem ser coletadas por profissionais de laboratórios, especializados

Tabela 18 – Conteúdo típico da união dosBDsUniProt, Ensembl eNCBITaxonomy.

Entidade Fonte Conteúdo

Protein PRO Betaine–homocysteine S-methyltransferase 1

Organism NCBI Homo sapiens(Humano)

Biological GO reg. of homocysteine metabolic process;

process amino-acid betaine catabolic process;

L-methionine salvage; protein methylation;

choline catabolic process; . . .

Molecular GO BHMT activity;

function zinc ion binding; . . .

Cell components GO cytoplasm; cytosol; extracellular exosome Small molecules ChEBI Homocysteine; . . .

Phenotypes SNOMED intestine, decreased size; increased lean body mass; . . .

em análise de genes e proteínas (e.g. utilizando técnicas de sequenciamento).

Normalmente, os especialistas acessam osBDs em busca de identificar semelhanças entre os seus experimentos e outros já realizados. Ao mesmo tempo, são identificadas pesqui- sas científicas que tanto servem para documentar um exame, quanto para comparar trabalhos científicos. Na prática, as anotações auxiliam na revisão de um experimento e na interpretação dos resultados. Por exemplo, o registro #Q93088, ao qual se refere a tabela18, inclui resultados científicos de vários artigos, como por exemplo os trabalhos de118e119.

Mesmo empregando classes de ontologias, a interpretação do conteúdo dos bancos de dados não é transparente, e.g. não é claro como as entidades de um único registro se relaci- onam. Por exemplo, na tabela 18 não é possível definir se a proteína Betaine–homocysteine S-methyltransferase 1, em humanos, participa de processos biológicos do tipo protein methyla- tione choline catabolic process no cytoplasm ou em um extracellular exosome. Isso corrobora com o fato deBDs biológicos anotados incluírem observações sobre instâncias provenientes de publicações científicas. Dessa forma, não é possível definir axiomas generalizáveis do tipo “para todo A... há um B”.

Resumindo, o cenário é o seguinte:

• De um lado, temosBDs ricos e revisados, com uma estrutura tabular, mas que não apresen- tam uma semântica clara e definida. E.g. umBD, com campos para Protein, Organism, e Phenotype, preenchidos com símbolos Prot1, Org1, e Phen1, é aberto a interpretações, viz.

que organismos do tipo Org1, em que Prot1é disfuncional, apresentam uma disposição de

desenvolver um fenótipo patológico Phen1.

• Do outro lado, há ontologias em que axiomas construídos em lógica permitem realizar raciocínio, mas classes utilizadas como anotações emBDs não apresentam descrições que

as suportem na interpretação. Por exemplo, é possível recuperar a Doença de Parkinson quando buscando por doenças que afetam o sistema extrapiramidal:

‘Doença de Parkinson’ subClassOf

Situationand (‘is included in’ some ‘Sistema extra-piramidal (Estrutura)’)

dada que a definição lógica da ‘Doença de Parkinson’ é uma desordem localizada no gânglio basal do cérebro

‘Doença de Parkinson’ subClassOf

Situationand (‘is included in’ some ‘Gânglio Basal do Cérebro (Estrutura)’)

e que estruturas do gânglio basal são do sistema extrapiramidal.

‘Gânglio Basal do Cérebro (Estrutura)’ subClassOf ‘Sistema extra-piramidal (Estrutura)’

Da mesma forma que nesse exemplo, recuperar conteúdo utilizando raciocínio emDL

requer que as classes sejam descritas de forma clara e definida.

Uma maneira de facilitar o processo de interpretação dos dados, tanto explorando as anotações, quanto as ontologias utilizadas para anotar os dados, é a partir da criação de descrições de classe. Classes como pro:methionine synthase ou go:zinc ion binding apresentam relações classe-subclasse (tabela19).

Tabela 19 – Exemplos de relações de classe-subclasse go:‘zinc ion binding’ subClassOf go:‘transition metal ion binding’ pro:‘methionine synthase’ subClassOf pro:‘Protein’

Esse tipo de relação hierárquica pode ser utilizada no processo de raciocínio, e.g. para recuperar as subclasses de ‘transition metal ion binding’. Entretanto, as descrições de classes existentes nas ontologias utilizadas para anotação podem não ser suficientes para o usuário interpretar o conteúdo (figura19).

Na figura19, o registro #Q99707, doUniProt, inclui anotações para diversas classes, entre elas, ‘Methionine synthase’, ‘Homo sapiens’ e assim por diante.

4. Int er pr etação ont ológica de BDs biomédicos 84

Cada uma dessas classes é organizada a partir de hierarquias de subclasses, nas respectivas ontologias e terminologias. Adicionalmente, há descrições de classes, como segue.

‘methionine synthase’ subClassOf and ‘is part of’ some ‘Homo sapiens’

Isoladamente, não existe nenhum tipo de relação entre pro:‘methionine synthase’ e ncbi:‘Homo sapiens’. Entretanto, isso não impede o usuário de interpretar relações a partir do registro daUniProt. No exemplo da figura19, as relações ‘has participant’ e ‘is included in’ podem ser interpretadas pelo usuário para indicar que, pelo menos, uma instância do processo biológico ‘cobalamin metabolic process’ tem ao menos um participante ‘methionine synthase’. Outra interpretação possível seria afirmar que todas as instâncias da classe ‘Homo sapiens’ apresentam a capacidade de realizar um processo de ‘cobalamin metabolic process’.

É possível criar essa interpretação formal a partir do uso de ontologias supradomínio. No caso da figura19, foi empregada aBTL2. NaBTL2, objetos materiais (‘methionine synthase’ participam (‘has participant’) de processos (‘cobalamin metabolic process’). Ao aplicar ontolo- gias supradomínio, a interpretação do usuário tanto pode ser compreendida numa perspectiva ontológica (por fundamentar a interpretação com ontologias), quanto lógica (pelo uso de uma linguagem de representação formal, como aDL).

O conteúdo de um banco de dados anotado pode ser interpretado em mais de uma perspectiva. Os dados podem ser compreendidos como:

(i) Dados de um registro anotado são indivíduos de uma ontologia;

(ii) Dados de um registro anotado referenciam classes de uma ontologia.

Por exemplo, ao incluir uma anotação “Methionine synthase” em umBD, ela é tanto um indivíduo (de uma ontologia) (i), quanto a referência a uma classe pro:‘methionine synthase’, uma subclasse de Protein (ii). Isso ocorre pelo fato de um BDe seu conteúdo representarem entidades de informação, com relações, campos, valorações e tuplas. Nesse cenário, ao utilizar anotações para classes reais, temos que essas anotações representam indivíduos em uma onto- logia, classificados como um tipo de objeto de informação (tabela20). Em última instância, a interpretação pode ser considerada uma referência a uma classe da ontologia.

Tabela 20 – Entrada em um registro deBDreferencia uma ou mais classes definidas.

DatabaseEntryx type represents only

(DefinedClass1or DefinedClass2 or . . . or DefinedClassN)

A tabela20descreve que cada entrada em um registro deBDé uma instância (type) que representa uma ou mais classes.

Para exemplificar como as anotações fazem parte de um registro deBD, no cenário (i) elas são interpretadas como indivíduos (da ontologia). Por exemplo, noUniProtcada tupla apresenta

diversas anotações para proteínas (PRO), para funções moleculares (GO) e organismos (National Center for Biotechnology Information (NCBI) Taxonomy). Cada valor de campo (i.e. anotação) é um indivíduo da classe btl2:‘Information object’. Cada indivíduo, nesse cenário, referencia uma classe nomeada pela anotação na ontologia.

Entretanto, referenciar uma classe não significa determinar (por exemplo) que uma anotação A é o mesmo que a classe A. Isso significa que existe uma subclasse de A (à qual a anotação se refere); e que cada classe é definida em função das associações com outras classes referenciadas num mesmo registro (figura19).

Nessa perspectiva, um registro doUniProtque inclui uma anotação “zinc ion binding”