• Nenhum resultado encontrado

2.2 Representação de Ontologias

2.2.1 Description Logics DL

2.2.1.1 Sintaxe, semântica e sublinguagens DL

Como descrito, aDLé composta de um conjunto de linguagens definidas em associação com um conjunto de construtores permitidos. Do ponto de vista prático, a linguagem mínima de interesse é a Attribute language (AL) (62). Considerando duas classes arbitrárias C e D, aALé formada a partir dos seguintes construtos:

C,DA | (conceito atômico)

> | (conceito universal) ⊥ | (conceito inferior) ¬A | (negação atômica) C u D | (interseção)

∀R.C | (restrição de valor)

∃R.> | (quantificação existencial)

ComAL, é possível descrever, sendo Pessoa e Feminino classes, (Pessoa u Feminino) e (Pessoa u ¬ Feminino) como axiomas. Pode-se (intuitivamente) interpretar a primeira afirmação como “as pessoas que são do sexo feminino” e a segunda como “as pessoas que não são do sexo feminino’ (9).

Formalmente, a semântica daALé descrita como segue: são consideradas as interpreta- ções I que consistem em um conjunto não vazio ∆I (domínio de interpretação) e uma função de interpretação, e que afirma que para todo conceito atômico A um conjunto AI ⊆ ∆I, e para todo papel atômico R uma relação binária RI ⊆ ∆I × ∆I (9). A função interpretação é extensível para descrições de conceitos pela seguinte fórmula indutiva:

>I = II =(¬AI) = ∆I \ AI (C u D)I = CI ∩ DI (∀R.C)I = na ∈ ∆I | ∀b.(a, b) ∈ RI → b ∈ CIo (∃R.>)I = na ∈ ∆I | ∃b.(a, b) ∈ RIo

C ≡ D, se CI = DI para todas as interpretações I. A partir daAL, é possível escrever axiomas para a Tbox (tabela2) e para a Abox (tabela3).

Tabela 2 – Axioma escrito comALno nível de Tbox. Aminoácido sulfurado0 ≡ 0Aminoácido0u ∃hasPart.Enxofre

Homocisteína v 0Aminoácido sulfurado0

0

Metabolismo da homocisteína em organismo0 ≡

0Processo metabólico0 u

∃hasParticipant.Homocisteína u ∃isLocatedIn.Organismo

A tabela2 descreve (de forma exemplificada) que um ‘Aminoácido sulfurado’ é um ‘Aminoácido’ composto de (pelo menos) uma molécula de enxofre. Ainda, que a Homocisteína é uma subclasse de ‘Aminoácido sulfurado’; e que ‘Metabolismo da homocisteína em organismo’ é um ‘Processo metabólico’ que tem participante uma molécula de Homocisteína e é localizado em um Organismo.

Tabela 3 – Axioma escrito comALno nível de Abox. Homocisteína(h1), Homocisteína(h2)

Enxofre(e346)

hasPart(h1, e346)

0Metabolismo da homocisteína em organismo0

(met61)

hasParticipant(met61, h2)

A tabela 3 descreve vários tipos de indivíduos das classes Homocisteína, Enxofre e ‘Metabolismo da homocisteína’. A partir dos axiomas definidos na Tbox (tabela2), é possível aplicar a relação (por exemplo) hasPart entre indivíduos das classes Homocisteína e Enxofre.

Incrementos de expressividade podem ser obtidos se outros construtores forem adiciona- dos à Attribute language. Para identificar cada um, são adicionadas letras para as quais refletem o tipo de construtor utilizado. A título de exemplo:

• U indica para a união, como em Gato u Cão;

• E para restrição existencial, como em P essoa u (∃temP arte.P erna)

Tabela 4 – Sintaxe e semântica de construtores daDL.

Nome Sintaxe Semântica DL

Superior > ∆I AL

Inferior ⊥ AL

Interseção C u D CI ∩ DI AL

União C t D CI ∪ DI U

Negação ¬CI \ CI C

Restrição de valor ∀R.C na ∈ ∆I | ∀b.(a, b) ∈ RI → b ∈ CIo AL

Quantificação ∃R.C na ∈ ∆I | ∃b.(a, b) ∈ RI∧ b ∈ CIo E existencial Restrição > n R na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RIo > n o numérica 6 n R na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RIo 6 n o N não-qualificada = n R na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RIo = n o Restrição > n R.C na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RI∧ b ∈ CIo > n o numérica 6 n R.C na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RI∧ b ∈ CIo 6 n o Q qualificada = n R.C na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RI∧ b ∈ CIo = n o

Mapeamento R v S na ∈ ∆I | ∀b.(a, b) ∈ RI → (a, b) ∈ SIo

papel-valor R ≡ S na ∈ ∆I | ∀b.(a, b) ∈ RI ↔ (a, b) ∈ SIo

Concordância u1 . = u2 n a ∈ ∆I|∃b ∈ ∆I· uI 1(a) = b = uI2(a) o F e desconcordância u1 6 . = u2 n a ∈ ∆I|∃b ∈ ∆I· uI 1(a) = b1 6= b2 = uI2(a) o Nominal {a} {aI} O

Para a representação de ontologias no domínio biológico, são utilizadas frequentemente as sublinguagens EL + + (24) e ALC3(62). Neste trabalho, a EL + + é utilizada (particularmente) por permitir a criação de axiomas de Tbox com expressividade, mas com uma linguagem restrita o suficiente para manter o raciocínio em tempo polinomial (PTime) (60).

2.2.1.1.1 EL++

A EL + + é uma sublinguagem DL composta de um conjunto restrito de construtores e que tem como princípio ser eficiente em tarefas de raciocínio como subsunção, classificação e satisfatibilidade (24). A vantagem da EL + + é que permite tratar essas tarefas de raciocínio, bem como oferecer expressividade suficiente para a criação de ontologias, e.g. no domínio biomédico, como aSNOMED CT(7). ASNOMED CT, por exemplo, é uma ontologia escrita em EL + + que inclui milhares de classes e axiomas, mas ainda assim é processada por raciocinadoresDL

com bom desempenho, mesmo com hardware limitado.

A linguagem EL + + é derivada da EL. A EL é composta de alguns construtores básicos, e.g.Superior (>), interseção (u) e a quantificação existencial (∃r.C) (24). Na EL + +, conceitos

(ou classes) são definidos indutivamente a partir de um conjunto de conceitos NC, um conjunto de papéis (ou relações) NRe um conjunto de indivíduos NI.

Para referir às classes, utilizaremos os símbolos C e D; r para relação; e, a e b para indivíduos. A semântica da EL + + é definida em termos da interpretação I = (∆I, ·I), em que ∆Ié o domínio de interpretação e ·I uma função de interpretação que mapeia cada nome de conceito A ∈ NC para um subconjunto AIde ∆I; cada relação r ∈ NRpara uma relação binária rIem ∆I; e, cada nome de indivíduo a ∈ N

I para um indivíduo a ∈ ∆I(24). A lista de todos os construtores, bem como as respectivas interpretações (semântica) estão descritas na tabela5.

Uma adição da EL + + são os domínios concretos D1, . . . , Dnem que D corresponde a tipos de dados representados naOWL2(detalhes mais a seguir), permitindo referências a dados como texto, booleanos, entre outros. Formalmente, um domínio concreto é um par (∆D, PD) com ∆D um conjunto e PD um conjunto de nomes de predicados. Para cada p ∈ P há uma aridade associada n > 0 e a extensão pD ⊆ (∆D)n.

Para determinar uma associação entre domínios concretos e aDL, é introduzido um conjunto de nomes de características NF. É utilizado p para denotar um predicado de um domínio concreto e f1, . . . , fk para denotar nomes de características. Uma função de interpretação é requerida para mapear uma característica f para uma função parcial de ∆I paraS

1≤i≤ni.

Tabela 5 – Construtores da EL + +.

Nome Sintaxe Semântica

Superior > ∆I

Inferior ⊥

Nominal {a} {aI}

Interseção C u D CI ∩ DI

Quantificação existencial ∃r.C na ∈ ∆I | ∃b.(a, b) ∈ rI∧ b ∈ CIo Domínio concreto p(f1, . . . , fk) para {x ∈ ∆i | ∃y1, . . . , yk ∈ ∆Dj : fiI(x) = yi

p ∈ PDj para 1 ≤ i ≤ k ∧ (y

1, . . . , yk) ∈ pDj}

GCI C v D CI ⊆ DI

Inclusão de relações r1◦ . . . ◦ rk v r r1I◦ . . . ◦ rkI ⊆ r

Restrição de domínio dom(r) v C rI ⊆ CI× ∆I

Restrição de imagem ran(r) v C rI ⊆ ∆I× CI

Definição de indivíduo C(a) aI ∈ CI

Relações entre indivíduos r(a, b) (aI, bI) ∈ rI

Com a EL + + é possível construir axiomas para descrever que (por exemplo) um processo biológico Methylation tem como participante pelo menos um organismo Mus musculus:

Methylation ≡ ‘Biological process0 u ∃hasParticipant.‘Mus musculus0

ou que determinados organismos do tipo Homo sapiens incluem em sua estrutura proteína do tipo Myosin:

‘Homo sapiens0 v ‘Cellular organism0 u ∃includes.Myosin

A sublinguagem da DL EL + + é uma linguagem frequentemente empregada para representação de conteúdo no domínio biológico. Ontologias como aSNOMED CTe aGO, e o tesauro do National Cancer Institute (NCI) (63) são escritos utilizando a EL + +. Nessa sublinguagem, o raciocínio (sem o uso de GCIs) em DL tem complexidade PSpace-hard (24). Considerando a expressividade da EL + + e o desempenho satisfatório do raciocínio de grandes bases de conhecimento (64), essa é a linguagem que será utilizada nesta tese.