Sylvie Ranwez, Directrice de Recherche (HDR), LGI2P, École des Mines d'Alès Directeur de thèse : Pascale Kuntz, Professeur, Ecole Polytechnique Université de Nantes Directeur de thèse : Giuseppe Berio, Professeur, Université de Bretagne Sud. Merci à tous ceux qui m'ont soutenu dans mes recherches et mon apprentissage.
De nouveaux besoins en ingénierie des ontologies
Une motivation liée à un contexte applicatif
Des relations de spécialisation ou de correspondance ont été identifiées entre les concepts de l'ontologie générique et les concepts des ontologies spécifiques. Et dans le contexte opérationnel, nous avons été amenés à nous interroger sur la qualité des ontologies ainsi produites.
Contributions de la thèse
Dans le projet, l'ontologie générique a été construite à la main sur la base d'une partie du standard STEP (STandard for the Exchange of Product model data) et en réutilisant des ontologies existantes. En revanche, la construction manuelle d’ontologies spécifiques nécessitait une forte expertise métier, dont l’acquisition était freinée par la faible disponibilité des experts des entreprises partenaires.
L’organisation du manuscrit
Dans la section 2.3, nous présentons diverses définitions qui ont été associées au concept d'ontologie, et nous détaillons les principaux composants d'une ontologie. La section 2.6, plus formellement, précise la structure d'une ontologie, formellement définie par Stumme et al.
Des données aux connaissances
Ce chapitre vise à clarifier le concept d'ontologie utilisé en technologie de la connaissance et à rappeler les définitions sur lesquelles nous nous basons dans la suite. Dans la première section (section 2.2), nous revenons aux données, informations et connaissances qui sont au cœur de la technologie de la connaissance.
Des connaissances aux ontologies
Les composants de base d’une ontologie
Les concepts
Les attributs peuvent avoir des valeurs différentes pour chacune des instances associées au concept. Les concepts primitifs, « dont l'existence est postulée »[87], sont décrits par des propriétés nécessaires (mais non suffisantes), tandis que les concepts définis sont décrits par des propriétés nécessaires et suffisantes.
Les relations
Les axiomes
Représentation des ontologies. Le langage OWL
Il apporte une plus grande expressivité (il permet par exemple la disjonction de propriétés) et établit trois nouveaux profils de langage destinés à faciliter l'utilisation et la mise en œuvre : OWL-EL garantit une complexité polynomiale des dérivations ; OWL-QL facilite l'implémentation de l'ontologie dans des bases de données et OWL-RL facilite l'implémentation de l'ontologie dans un moteur de règles. Puisque OWL 1.0 et OWL 2.0 sont devenus des standards et que OWL 1.0 reste toujours dominant, nous avons choisi d'utiliser OWL 1.0 dans cette thèse pour représenter les différentes ontologies.
Définitions formelles
Définition d’une ontologie en tant que structure composée
Une propriété d'objet (« propriétés d'objet », relations conceptuelles) pour définir des relations entre concepts : par exemple, la propriété grand_parent (Humain, Enfant) exprime la relation entre le concept Humain et le concept Enfant. Une propriété de type de données (attributs) pour définir les relations entre un concept et un type de données : par exemple, la propriété date_birth associe le type de données Date au concept Man.
Définition de l’ontologie en tant que conceptualisation
- Qu’est-ce qu’une conceptualisation ?
- Qu’est-ce qu’une spécification formelle et explicite d’une
Un « système » correspond à la réalité de la zone d'intérêt perçue à un niveau de grandeur donné et décrite à l'aide d'un ensemble de variables. Une ontologie OK est une théorie logique constituée d'un ensemble de formules de L, telle que son ensemble de modèles se rapproche « au mieux » de l'ensemble des modèles intentionnels du langage L selon K.
Conclusion
Dans cette thèse, nous nous concentrons sur les approches permettant de construire automatiquement des ontologies à partir de textes. Nous présentons également plusieurs approches de construction automatique qui ont fait l'objet d'une comparaison plus approfondie dans le chapitre 4 de cette thèse.
Méthodologies de construction d’ontologies
- Methontology
- On-To-Knowledge
- DILIGENT
- NeOn
Ce glossaire doit contenir tous les termes qui font référence aux connaissances qui doivent faire partie de l'ontologie. Dans un premier temps, les spécifications de l’ontologie sont enrichies et expliquées avec l’aide d’experts.
Construction semi-automatique d’ontologies
Le rôle de l’automatisation dans le processus de construction
Approches pour l’extraction et la composition d’éléments significa-
- Extraction de termes et formation de concepts
- Classification des termes et extraction de relations de sub-
Une version initiale de l'ontologie est construite par un groupe sélectionné d'experts, d'utilisateurs et d'ingénieurs. Les modèles utilisés pour identifier les relations de subsomption peuvent être prédéfinis ou appris lors de la construction de l'ontologie.
Approches de construction automatique
- Terminae
- Text-To-Onto et Text2Onto
- Sprat
- Asium
- OntoLearn
- OntoGen
- OntoLT
La deuxième solution propose, à l'aide de l'outil WCL System, l'extraction de relations taxonomiques basées sur l'analyse des définitions de termes identifiant les concepts. Pour l'extraction de relations non taxonomiques, OntoLearn s'appuie, comme Asium, mais avec un algorithme d'induction différent, sur l'apprentissage inductif de règles permettant d'identifier des concepts reliés par des relations prédéfinies.
Conclusion
Les problèmes d'ontologie plate (S9) sont détectables grâce à plusieurs mesures combinatoires (par exemple le rapport entre le nombre de concepts et celui des relations taxonomiques). Certains outils (par exemple OOPS! [108]) permettent de vérifier la conformité de l'ontologie à ces critères.
Critères d’analyse et de comparaison
Etat de l’art
Ils ont proposé trois types de critères : (1) des critères concernant les aspects génériques, (2) des critères concernant l'extraction et (3) des critères concernant la qualité de l'ontologie construite. Huit critères, répartis en trois groupes, portent sur la qualité de l'ontologie construite : – critères concernant la qualité syntaxique.
Limitations des travaux existants
Park et al ont utilisé ces critères pour comparer quatre outils : OntoLT, Terminae, Text2Onto et OntoBuilder1. Pour limiter la subjectivité dans l'évaluation de la qualité des ontologies construites par les différents outils, Park et al.
Notre proposition
- Comparaison basée sur le degré de complétude et d’auto-
- Comparaison basée sur les caractéristiques des outils
- Comparaison basée sur la qualité des résultats
- Schéma d’analyse pour la comparaison des approches
Cette analyse couvre la plupart des critères génériques et d'extraction utilisés par Park et al. Ligne de comparaison : éléments qui servent de support à la comparaison des approches (le référentiel de tâches Méthontologie, l'ontologie construite manuellement et le résultat de l'analyse technique des outils).
Analyse comparative de quatre approches
Comparaison par rapport au référentiel de tâches
Identification des définitions de termes (ce que représente un glossaire) - par recherche sur Internet - ES. Identification de relations génériques (définies par un verbe) – (en utilisant une stratégie d'analyse superficielle et des informations sur la fréquence des termes) – Di.
Comparaison technique
OntoLearn : SSI, TermExtractor et WCL sont fiables ; Les résultats de GlossExtractor sont soumis aux évolutions Internet. Text2Onto : l'outil Text2Onto nécessite la plate-forme GATE et l'analyseur TreeTagger pour l'analyse de texte ; il utilise les recherches WordNet et Internet comme ressources auxiliaires.
Comparaisons expérimentales
- La configuration utilisée
- Analyse des resultats – concepts et instances
- Analyse des resultats – relations taxonomiques
- Analyse des resultats – autres aspects
Trois outils permettent l'extraction entièrement automatique des relations taxonomiques : WCL System, Text2Onto et Sprat. Par conséquent, nous avons uniquement testé le système WCL sur un sous-ensemble représentatif des concepts d’ontologie.
Conclusion
Les approches d'évaluation d'ontologie proposées dans la littérature diffèrent par les critères utilisés pour définir la qualité des ontologies. Dans la première partie de ce chapitre, nous présentons l'état de la qualité des ontologies (Section 5.2).
Etat de l’art
L’évaluation de la qualité des ontologies
- Les modèles de qualité
- Les méthodes d’évaluation
Par exemple, la mesure de la validité syntaxique d'une ontologie est donnée par le rapport entre le nombre de règles syntaxiques qui ne sont pas respectées par les formules logiques qui définissent l'ontologie et le nombre de ces formules logiques. Pour mesurer l’écart entre ontologie et conceptualisation intentionnelle, les méthodes d’évaluation s’appuient sur une expression.
Problèmes affectant la qualité d’une ontologie
- Les erreurs de taxonomie
- Les anomalies de conception
- Les anti-patrons
- Les embûches
- Les défauts logiques
Dans le cas (2), l’ontologie est comparée à une référence (« gold standard ») – la structure qui exprime la conceptualisation intentionnelle. Les pièges des trois autres classes (compréhension de l'ontologie, clarté de l'ontologie et décisions de conception) peuvent être trouvés dans plusieurs classes de la typologie de Gomez-Perez et al.
Vers une typologie des problèmes
Cadre formel
- Les dimensions du cadre formel
Le cadre formel que nous proposons est composé de deux dimensions complémentaires : (1) erreurs vs situations indésirables et (2) aspect logique vs aspect social de l'ontologie. Les situations indésirables sont des problèmes qui affectent l’ontologie sans la rendre inutilisable ; l'ontologie est utilisable dans tous les cas d'usage prévus et les résultats obtenus correspondent aux attentes.
Proposition d’une typologie
- Problèmes qui affectent l’aspect logique des ontologies
- Problèmes qui affectent l’aspect social des ontologies
Situations où l'acteur social ne trouve pas de différence entre deux éléments ontologiques distincts. Des éléments de l'ontologie qui semblent inutiles, dans l'interprétation donnée par l'acteur social (analogie avec l'ontologie non minimale).
Positionnement des problèmes de l’état de l’art dans le cadre formel
Ces problèmes sont les suivants : manque de version d'ontologie certifiée, ontologie plate, éléments ontologiques indiscernables, manque de signification sociale et conclusions incorrectes. La majorité (16/20) des écueils liés à la dimension structurelle de l'ontologie correspondent à des erreurs dans notre typologie.
Conclusion
La typologie des problèmes de qualité proposée dans le chapitre précédent ouvre la voie à une vérification systématique des ontologies pour la détection d’éventuels problèmes de qualité. Dans la première partie, nous analysons pour chaque étape de l'activité de conceptualisation d'une ontologie la manière dont les implémentations imparfaites des différentes tâches impliquées dans une construction automatique conduisent à des résultats intermédiaires sous-optimaux associés à des problèmes de qualité dans la construction construite. ontologie.
Compromis d’implémentation associés aux problèmes de qualité
Retour sur l’implémentation des tâches du processus de construction . 86
Si un nombre significatif de relations taxonomiques requises ne sont pas identifiées (5), alors l'ontologie sera plate (S9). Si les relations requises ne sont pas identifiées, alors l'ontologie sera incomplète (L3, S4) et les concepts qui auraient dû être inclus dans ces relations resteront indiscernables (L7, S7).
Discussion
Les résultats sont également sous-optimaux s’ils contiennent des axiomes non revendiqués, conduisant à une ontologie non minimale (L12, S12) et compliquant le raisonnement (L11) ; Les axiomes non revendiqués peuvent entrer en conflit avec des modèles intentionnels ou des connaissances des utilisateurs (L2, S1) et peuvent conduire à des incohérences dans l'ontologie (L1) ou à des concepts insatisfaisants (L10). Si la description est incorrecte, l'ontologie sera inadéquate et contredira les connaissances de ses utilisateurs (L2, S1).
Retours d’expériences du cadre applicatif
Cadre expérimental
Bien que nous soyons conscients que de nombreux auteurs préconisent l’utilisation de scénarios d’utilisation pour concevoir des ontologies de domaines [1], nous n’avons considéré ici aucun modèle intentionnel ni ensemble d’exemples et contre-exemples qui pourraient les remplacer afin d’avoir des conditions expérimentales identiques. pour l’analyse de deux ontologies.
Problèmes identifiés
L1, L10. Pour détecter les incohérences logiques et la présence de concepts insatisfaisants, nous avons utilisé le moteur d'inférence PELLET intégré à l'éditeur d'ontologie Protégé2. L6.Pour identifier des groupes de concepts logiquement équivalents, nous avons utilisé le moteur d'inférence PELLET en lui faisant effectuer toutes les inférences possibles à partir de chaque ontologie construite par Text2Onto.
Discussion
Puisque O1 et O2 ne contiennent aucun concept défini, mais seulement des concepts primitifs, ils ne contiennent pas non plus de concepts du type « OU » ou « ET ». S4. Le caractère incomplet de O1 et O2 peut être considéré comme allant de soi, puisqu'ils ne contiennent que des concepts et des relations taxonomiques.
Conclusion
L12 et le nombre de problèmes S1 ne sont pas surprenants étant donné que les deux ontologies ne contiennent aucune instance ou relation non taxonomique. Outre ces différences, la combinaison des différents problèmes liés à la structure des ontologies montre que les ontologies O1 et O2 partagent les mêmes caractéristiques générales : leur structure est hétérogène et combine un grand nombre de concepts non liés avec des noyaux denses.
Introduction
Méthodes pour la détection des problèmes de qualité
La détection des problèmes affectant l’aspect logique des ontologies . 98
- Les problèmes extrinsèques
Dans ce cas, l'identification de problèmes d'ontologie inappropriés (L2) se résume à la recherche de contradictions dans l'ensemble des formules obtenues en combinant l'ontologie avec les modèles ou exemples intentionnels et à la présence de contre-exemples entre les formules qui peuvent être déduits de l'ontologie. ontologie. Chaque contradiction identifiée et chaque contre-exemple extrait de l'ontologie correspond à un problème d'ontologie inappropriée.
La détection des problèmes affectant l’aspect social des ontologies
La détection formelle de problèmes externes dans une ontologie nécessite les modèles intentionnels de l'ontologie ou, le cas échéant, un ensemble suffisamment large d'exemples et de contre-exemples. Cependant, elles ne permettent pas de mesurer l'effet des annotations dans le cadre de l'interprétation de l'ontologie par un utilisateur.
La détection des problèmes S8 – concepts ayant une étiquette polysémique
- Un rapide état de l’art
- Un nouvel algorithme pour la détection d’étiquettes polysémiques
- Expérimentation : détection manuelle vs. détection automatique
- Discussion : avantages et inconvénients de l’algorithme proposé
Néanmoins, nous avons analysé les raisons de l'absence de détection de marqueurs polysémiques par l'algorithme et de la détection de marqueurs polysémiques qui n'étaient pas détectés manuellement. Le principal avantage de la détection d’étiquettes polysémiques à l’aide de l’algorithme proposé est la contribution à l’automatisation d’un processus de détection manuelle fastidieux et sujet aux erreurs.
Conclusion
La construction de cette typologie a été motivée par la variété des propositions rencontrées dans notre état de l'art et l'absence d'approche standardisée. Confusion entre intersection et union : utilisation d'une intersection au lieu d'une union lors de la définition du domaine d'une relation ou d'un attribut.
Les anti-patrons
Les anti-patrons logiques
Le concepteur d'ontologie ajoute une contrainte existentielle (universelle) à une classe, oubliant qu'une contrainte universelle (existentielle) existe déjà dans cette classe ou l'une de ses classes parentes.
Les anti-patrons cognitifs
Les conseils
- De nouveaux besoins en ing ´ enierie des ontologies
- Une motivation li ee ´ a un contexte applicatif `
- Contributions de la th ese `
2007, «Ontogen : Semi-automatic ontology editor», dans Proceedings of the 2007 Conference on Human interface (HCI),Lecture Notes in Computer Science, vol. 2003, «Evaluering af ontologisk analyse», i Proceedings of the Semantic Integration Workshop (SI 2003) ved den 2. Internationale Semantiske Web Conference (ISWC 2003), vol.