2.2 Representação de Ontologias
2.2.1 Description Logics DL
2.2.1.1 Sintaxe, semântica e sublinguagens DL
Como descrito, aDLé composta de um conjunto de linguagens definidas em associação com um conjunto de construtores permitidos. Do ponto de vista prático, a linguagem mínima de interesse é a Attribute language (AL) (62). Considerando duas classes arbitrárias C e D, aALé formada a partir dos seguintes construtos:
C,D → A | (conceito atômico)
> | (conceito universal) ⊥ | (conceito inferior) ¬A | (negação atômica) C u D | (interseção)
∀R.C | (restrição de valor)
∃R.> | (quantificação existencial)
ComAL, é possível descrever, sendo Pessoa e Feminino classes, (Pessoa u Feminino) e (Pessoa u ¬ Feminino) como axiomas. Pode-se (intuitivamente) interpretar a primeira afirmação como “as pessoas que são do sexo feminino” e a segunda como “as pessoas que não são do sexo feminino’ (9).
Formalmente, a semântica daALé descrita como segue: são consideradas as interpreta- ções I que consistem em um conjunto não vazio ∆I (domínio de interpretação) e uma função de interpretação, e que afirma que para todo conceito atômico A um conjunto AI ⊆ ∆I, e para todo papel atômico R uma relação binária RI ⊆ ∆I × ∆I (9). A função interpretação é extensível para descrições de conceitos pela seguinte fórmula indutiva:
>I = ∆I ⊥I = ∅ (¬AI) = ∆I \ AI (C u D)I = CI ∩ DI (∀R.C)I = na ∈ ∆I | ∀b.(a, b) ∈ RI → b ∈ CIo (∃R.>)I = na ∈ ∆I | ∃b.(a, b) ∈ RIo
C ≡ D, se CI = DI para todas as interpretações I. A partir daAL, é possível escrever axiomas para a Tbox (tabela2) e para a Abox (tabela3).
Tabela 2 – Axioma escrito comALno nível de Tbox. Aminoácido sulfurado0 ≡ 0Aminoácido0u ∃hasPart.Enxofre
Homocisteína v 0Aminoácido sulfurado0
0
Metabolismo da homocisteína em organismo0 ≡
0Processo metabólico0 u
∃hasParticipant.Homocisteína u ∃isLocatedIn.Organismo
A tabela2 descreve (de forma exemplificada) que um ‘Aminoácido sulfurado’ é um ‘Aminoácido’ composto de (pelo menos) uma molécula de enxofre. Ainda, que a Homocisteína é uma subclasse de ‘Aminoácido sulfurado’; e que ‘Metabolismo da homocisteína em organismo’ é um ‘Processo metabólico’ que tem participante uma molécula de Homocisteína e é localizado em um Organismo.
Tabela 3 – Axioma escrito comALno nível de Abox. Homocisteína(h1), Homocisteína(h2)
Enxofre(e346)
hasPart(h1, e346)
0Metabolismo da homocisteína em organismo0
(met61)
hasParticipant(met61, h2)
A tabela 3 descreve vários tipos de indivíduos das classes Homocisteína, Enxofre e ‘Metabolismo da homocisteína’. A partir dos axiomas definidos na Tbox (tabela2), é possível aplicar a relação (por exemplo) hasPart entre indivíduos das classes Homocisteína e Enxofre.
Incrementos de expressividade podem ser obtidos se outros construtores forem adiciona- dos à Attribute language. Para identificar cada um, são adicionadas letras para as quais refletem o tipo de construtor utilizado. A título de exemplo:
• U indica para a união, como em Gato u Cão;
• E para restrição existencial, como em P essoa u (∃temP arte.P erna)
Tabela 4 – Sintaxe e semântica de construtores daDL.
Nome Sintaxe Semântica DL
Superior > ∆I AL
Inferior ⊥ ∅ AL
Interseção C u D CI ∩ DI AL
União C t D CI ∪ DI U
Negação ¬C ∆I \ CI C
Restrição de valor ∀R.C na ∈ ∆I | ∀b.(a, b) ∈ RI → b ∈ CIo AL
Quantificação ∃R.C na ∈ ∆I | ∃b.(a, b) ∈ RI∧ b ∈ CIo E existencial Restrição > n R na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RIo > n o numérica 6 n R na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RIo 6 n o N não-qualificada = n R na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RIo = n o Restrição > n R.C na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RI∧ b ∈ CIo > n o numérica 6 n R.C na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RI∧ b ∈ CIo 6 n o Q qualificada = n R.C na ∈ ∆I | n b ∈ ∆I | (a, b) ∈ RI∧ b ∈ CIo = n o
Mapeamento R v S na ∈ ∆I | ∀b.(a, b) ∈ RI → (a, b) ∈ SIo –
papel-valor R ≡ S na ∈ ∆I | ∀b.(a, b) ∈ RI ↔ (a, b) ∈ SIo
Concordância u1 . = u2 n a ∈ ∆I|∃b ∈ ∆I· uI 1(a) = b = uI2(a) o F e desconcordância u1 6 . = u2 n a ∈ ∆I|∃b ∈ ∆I· uI 1(a) = b1 6= b2 = uI2(a) o Nominal {a} {aI} O
Para a representação de ontologias no domínio biológico, são utilizadas frequentemente as sublinguagens EL + + (24) e ALC3(62). Neste trabalho, a EL + + é utilizada (particularmente) por permitir a criação de axiomas de Tbox com expressividade, mas com uma linguagem restrita o suficiente para manter o raciocínio em tempo polinomial (PTime) (60).
2.2.1.1.1 EL++
A EL + + é uma sublinguagem DL composta de um conjunto restrito de construtores e que tem como princípio ser eficiente em tarefas de raciocínio como subsunção, classificação e satisfatibilidade (24). A vantagem da EL + + é que permite tratar essas tarefas de raciocínio, bem como oferecer expressividade suficiente para a criação de ontologias, e.g. no domínio biomédico, como aSNOMED CT(7). ASNOMED CT, por exemplo, é uma ontologia escrita em EL + + que inclui milhares de classes e axiomas, mas ainda assim é processada por raciocinadoresDL
com bom desempenho, mesmo com hardware limitado.
A linguagem EL + + é derivada da EL. A EL é composta de alguns construtores básicos, e.g.Superior (>), interseção (u) e a quantificação existencial (∃r.C) (24). Na EL + +, conceitos
(ou classes) são definidos indutivamente a partir de um conjunto de conceitos NC, um conjunto de papéis (ou relações) NRe um conjunto de indivíduos NI.
Para referir às classes, utilizaremos os símbolos C e D; r para relação; e, a e b para indivíduos. A semântica da EL + + é definida em termos da interpretação I = (∆I, ·I), em que ∆Ié o domínio de interpretação e ·I uma função de interpretação que mapeia cada nome de conceito A ∈ NC para um subconjunto AIde ∆I; cada relação r ∈ NRpara uma relação binária rIem ∆I; e, cada nome de indivíduo a ∈ N
I para um indivíduo a ∈ ∆I(24). A lista de todos os construtores, bem como as respectivas interpretações (semântica) estão descritas na tabela5.
Uma adição da EL + + são os domínios concretos D1, . . . , Dnem que D corresponde a tipos de dados representados naOWL2(detalhes mais a seguir), permitindo referências a dados como texto, booleanos, entre outros. Formalmente, um domínio concreto é um par (∆D, PD) com ∆D um conjunto e PD um conjunto de nomes de predicados. Para cada p ∈ P há uma aridade associada n > 0 e a extensão pD ⊆ (∆D)n.
Para determinar uma associação entre domínios concretos e aDL, é introduzido um conjunto de nomes de características NF. É utilizado p para denotar um predicado de um domínio concreto e f1, . . . , fk para denotar nomes de características. Uma função de interpretação é requerida para mapear uma característica f para uma função parcial de ∆I paraS
1≤i≤n∆i.
Tabela 5 – Construtores da EL + +.
Nome Sintaxe Semântica
Superior > ∆I
Inferior ⊥ ∅
Nominal {a} {aI}
Interseção C u D CI ∩ DI
Quantificação existencial ∃r.C na ∈ ∆I | ∃b.(a, b) ∈ rI∧ b ∈ CIo Domínio concreto p(f1, . . . , fk) para {x ∈ ∆i | ∃y1, . . . , yk ∈ ∆Dj : fiI(x) = yi
p ∈ PDj para 1 ≤ i ≤ k ∧ (y
1, . . . , yk) ∈ pDj}
GCI C v D CI ⊆ DI
Inclusão de relações r1◦ . . . ◦ rk v r r1I◦ . . . ◦ rkI ⊆ r
Restrição de domínio dom(r) v C rI ⊆ CI× ∆I
Restrição de imagem ran(r) v C rI ⊆ ∆I× CI
Definição de indivíduo C(a) aI ∈ CI
Relações entre indivíduos r(a, b) (aI, bI) ∈ rI
Com a EL + + é possível construir axiomas para descrever que (por exemplo) um processo biológico Methylation tem como participante pelo menos um organismo Mus musculus:
Methylation ≡ ‘Biological process0 u ∃hasParticipant.‘Mus musculus0
ou que determinados organismos do tipo Homo sapiens incluem em sua estrutura proteína do tipo Myosin:
‘Homo sapiens0 v ‘Cellular organism0 u ∃includes.Myosin
A sublinguagem da DL EL + + é uma linguagem frequentemente empregada para representação de conteúdo no domínio biológico. Ontologias como aSNOMED CTe aGO, e o tesauro do National Cancer Institute (NCI) (63) são escritos utilizando a EL + +. Nessa sublinguagem, o raciocínio (sem o uso de GCIs) em DL tem complexidade PSpace-hard (24). Considerando a expressividade da EL + + e o desempenho satisfatório do raciocínio de grandes bases de conhecimento (64), essa é a linguagem que será utilizada nesta tese.