• Nenhum resultado encontrado

4.3 Discussão

4.3.1 Cenários de Uso

Considerando, tanto a aplicação em tarefas de recuperação, quanto o uso do raciocínio, possivelmente, a abordagem pela geração de subclasses (mesmo sendo muito produtiva) pode ser avaliada como a mais simples e aplicável ao processo de interpretação (um sumário com as vantagens, desvantagens e aplicação de cada abordagem é descrito na tabela49).

A representação como subclasses definidas é simples, pelo fato de gerar certas combina- ções das classes referenciadas, e todas elas são formadas de acordo com a combinação, tornando o processo facilmente replicável. Além disso, permite (teoricamente) tanto o uso em abordagens de integração semântica, quanto procedimentos complexos de recuperação por meio de raciocínio. Ainda, não necessita da criação de disposições, mantendo limitada a expressividade do conteúdo representado.

As abordagens de interpretação apresentadas podem ser úteis como um framework organizacional, permitindo a definição clara de como os dados de experimentos biomédicos são guardados, processados e convertidos em conhecimento ontológico. Especificamente, a interpretação ontológica pode ser aplicada pelos provedores dos dados, mantenedores e usuários, utilizando os dados de maneira uniforme, próximo da realidade e deixando claro o que significa cada registro.

Considerando a expressividade, possíveis aplicações para integração semântica e desem- penho do raciocínio, iremos explorar a representação como subclasses no próximo capítulo, como é empregada em um extrato de dados biomédicos reais, sendo avaliada sobre o desempenho, capacidade de recuperar classes com consultasDLe escalabilidade.

4. Int er pr etação ont ológica de BDs biomédicos 119

Representação Vantagens Desvantagens Cenários de Uso

Indivíduos

- Não requer vasto

conhecimento ontológico; - Consultas em DL.

- Não há incremento ontológico; - Raciocínio custoso com

ontologias axiomatizadas.

- OBDA

Subclasses

- Incremento ontológico;

- Raciocínio de baixa complexidade; - Consulta em DL.

- Criação de muitas subclasses; - Requer conhecimento ontológico.

- Consultas DL; - OBDA;

- Checagem de consistência de dados

Disposições Representação genérica

- Alto,custo para o raciocínio; - Pode não definir nada,

não servindo para consultas DL.

- Incremento Ontológico

Híbrido - Incremento ontológico; - Consulta em DL.

- Custo elevado de raciocínio; - Disposições não são incluídas nos bancos de dados.

- Consultas DL;

5 Re-interpretação de bancos de dados

biomédicos utilizando ontologias

A literatura descreve várias tentativas para incrementar a interpretação e a recuperação de dados biomédicos por meio de ontologias formais (19). As abordagens mais utilizadas são a aplicação de frameworks de integração semântica (13,136,138,8), ou a combinação de ontologias e aprendizado de máquina (139,140). Mesmo assim, ainda é necessário que o usuário revise manualmente o conteúdo recuperado. O suporte semiautomatizado disponível para recuperar e interpretar conteúdo deBDs é caracterizado por uma evolução concorrente e contínua de fontes de conhecimento (dados e ontologias) bastante estruturadas. Ao mesmo tempo, pouco progresso pode ser identificado com relação à interoperabilidade e à fundamentação ontológica.

Justamente sobre esses aspectos recai o uso superficial das ontologias. Normalmente, as ontologias são empregadas como vocabulários de consulta ou como fonte de anotação de registros, sem fundamentação ontológica. A utilização dada às ontologias (nesses contextos) restringe a aplicabilidade e (consequentemente) a utilidade na interpretação ontológica de dados. Na prática, ontologias servem não somente para representar o conteúdo do domínio, mas também para descrever e interpretar de forma clara (sem ambiguidades) como registros de BDs são compreendidos.

Por exemplo, o organismo Cavalo pode ser descrito (a partir daBTL2) como uma entidade material, capaz de apresentar funções (e.g. animal de montaria), ou ter disposições (e.g. ter febre) que são realizáveis em processos (e.g. cavalgar ou processo patológico, respectivamente). Em contrapartida, em umBD, essas informações podem ser abstraídas quando registrado apenas o identificador do animal (Cavalo) e a manifestação patológica identificada (Mormo). Justamente as informações que são abstraídas é que compõem a interpretação do usuário na prática.

Como evidenciado no capítulo anterior, bancos de dados biomédicos apresentam registros anotados com identificadores de ontologias biológicas, de forma a trazer sentido para o registro e facilitar a compreensão pelo usuário. Entretanto, nem o esquema nem a documentação dos bancos descreve o contexto de utilização das anotações. A geração das anotações segue um ou mais métodos de identificação e aproximação entre termos disponíveis em publicações científicas e o nome de classes em ontologias. Como resultado, é necessário realizar uma revisão manual para remover redundâncias nas anotações identificadas (99).

Como solução, apresentamos 4 formas diferentes de interpretar os dados numa perspectiva ontológica: representação como indivíduos, por subclasses, com disposições ou um híbrido. Entre estas formas de interpretação, a representação por subclasses (apesar de produtiva) apresenta a possibilidade, tanto de ser aplicada em tarefas de interpretação (que requerem raciocínio), como

também para a recuperação de dados por meio de integração semântica.

Ao interpretar bancos de dados biológicos anotados com identificadores de ontologias, são evidenciadas tanto as classes quanto o contexto dos dados a partir do conteúdo de um registro, e.g.o que cada classe utilizada como anotação significa isoladamente e em relação às demais classes utilizadas como anotação nos registros. Neste capítulo, essas afirmações são investigadas com a aplicação do método de interpretação por subclasses em um subconjunto de ontologias e

BDs biológicos. Dessa forma, são propostos:

• A aplicação de um framework de interpretação ontológica que torne explícito o conteúdo anotado dos bancos de dados;

• Descrever o processo de interpretação ontológica utilizando identificadores deGO,ChEBI

ePROa partir dosBDs biológicosUniProt, Ensembl eNCBItaxonomy;

• Validar experimentalmente as classes e axiomas gerados a partir da interpretação sobre como o usuário pode se beneficiar do mecanismo de interpretação a partir de consultas realizadas comDL;

• Mostrar que na interpretação por subclasses, um produto do framework apresenta vantagens diante das abordagens atuais de interpretação deBDs biológicos anotados;

• E, avaliar experimentalmente a consistência e escalabilidade da solução.

Assim, é levantada a hipótese de que, com uma visão formalizada e explícita dos dados na forma de uma interpretação ontológica pela geração de subclasses, os usuários são melhor servidos para integrar, recuperar, validar, mas principalmente para interpretar os dados. Esse fato é justificado pela capacidade de aplicar raciocínio automatizado a ontologias escritas emDL, de forma a:

• Classificar (9), e.g. determinar que um inseto é um artrópode a partir de afirmações como Um mosquito é uma subclasse de insetoe que inseto é uma subclasse de artrópode;

• Checar consistência (9), e.g. (por definição) um processo é realizado apenas em decorrência de funções, papéis ou disposições. A afirmação de que existem classes da go:‘molecular function’ que são subclasses de Function é contradito pela representação existente naGO. Nela, subclasses de ‘molecular function’ apresentam como parte (‘has part’) classes de processos go:‘biological process’. Por definição, funções não têm como parte processos; apenas processos têm como parte outro(s) processo(s); e,

• Verificar se o conteúdo derivado a partir da interpretação com subclasses apresenta enga- jamento ontológico a partir da criação de consultas escritas emDL. Por exemplo, com a interpretação com subclasses é possível verificar se existem organismos do tipo Oxque

incluem processos biológicos do tipo Bpy em que proteínas do tipo Pzsão participantes, assumindo que o modelo não contém classes vazias.

Essa hipótese é investigada a partir da aplicação da interpretação pela geração de subclas- ses sobre um conjunto de dados doUniProt, Ensembl eNCBITaxonomy. EssesBDs são anotados com as ontologiasGO,PRO,SNOMED CTeChEBI. Para que seja possível interpretar os dados e organizar essas ontologias, é utilizada a ontologia supradomínioBTL2. Nesse contexto, aBTL2

é necessária para organizar as ontologias utilizadas para anotar os dados, segundo uma mesma fundamentação.

Como produto da interpretação dos dados (e.g.UniProt, Ensembl eNCBITaxonomy), é disponibilizado um arquivo contendo a interpretação, escrita na mesma linguagem de repre- sentação (nesse caso,OWL2) das demais ontologias utilizadas (nesse caso:BTL2,PRO,ChEBI

eSNOMED CT). O intuito (por trás da geração desse arquivo) é permitir que o usuário possa importá-lo nas ontologias como um instrumento para criação de consultas sobre a semântica dos dados, e.g. incrementando a representação existente. Na prática, o arquivo de interpretação atua como uma extensão ao conteúdo existente nas ontologias utilizadas para a interpretação, com axiomas de definição de classe pertinentes ao contexto dosBDs interpretados.

O caso de uso, criado sobre o domínio biomédico, é construído a partir de um conjunto de consultas escritas e traduzidas paraDL, aplicadas diretamente sobre o arquivo com os axiomas de interpretação. O intuito dessa análise é, basicamente, evidenciar que o modelo como subclasses (capítulo4):

(i) É factível, e.g. permitindo a construção da interpretação ontológica de forma clara e definida;

(ii) É útil, e.g. por permitir recuperar conteúdo que não era possível (apenas) consultando os própriosBDs ou ontologias (isoladamente ou em conjunto); e,

(iii) Tem desempenho satisfatório de raciocínio e recuperação quando a quantidade de dados anotados é escalado.

Nas próximas seções, são apresentados os procedimentos metodológicos utilizados no processo de aplicação da interpretação como subclasses; como a interpretação é construída (na prática); uma análise sobre consultas do domínio; e, a avaliação sobre a escalabilidade dos dados. Por fim, são apresentadas ponderações sobre a aplicação da estratégia de interpretação e sua aplicação.