• Nenhum resultado encontrado

The ultimate goal is the implementation of a user friendly interface which will be manage efficiently the huge and heterogeneous information of the Semantic Web

N/A
N/A
Protected

Academic year: 2023

Share "The ultimate goal is the implementation of a user friendly interface which will be manage efficiently the huge and heterogeneous information of the Semantic Web"

Copied!
132
0
0

Texto

(1)

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟ∆ΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ∆ΩΝ

ΚΑΤΕΥΘΥΝΣΗ ΠΡΟΗΓΜΕΝΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

∆ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Εφαρµογές και Τεχνολογίες του Σηµασιολογικού Ιστού στα Συστήµατα Ερωταποκρίσεων

Αικατερίνη Χ. Παπαντωνίου

Επιβλέποντες: Ευάγγελος Καρκαλέτσης, Ερευνητής Α’ Ε.Κ.Φ.Ε ∆ηµόκριτος Εµµανουήλ Κουµπαράκης, Καθηγητής ΕΚΠΑ

ΑΘΗΝΑ ΙΟΥΛΙΟΣ 2011

(2)

∆ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Εφαρµογές και Τεχνολογίες του Σηµασιολογικού Ιστού στα Συστήµατα Ερωταποκρίσεων

Αικατερίνη Χ. Παπαντωνίου Α.Μ.: Μ840

ΕΠΙΒΛΕΠΟΝΤΕΣ: Ευάγγελος Καρκαλέτσης, Ερευνητής Α’ Ε.Κ.Φ.Ε ∆ηµόκριτος Εµµανουήλ Κουµπαράκης, Καθηγητής ΕΚΠΑ

ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ: Μιχαήλ Χατζόπουλος, Καθηγητής ΕΚΠΑ

Ευάγγελος Καρκαλέτσης, Ερευνητής Α’ Ε.Κ.Ε.Φ.Ε

∆ηµόκριτος

Εµµανουήλ Κουµπαράκης, Καθηγητής ΕΚΠΑ

Ιούλιος 2011

(3)

ΠΕΡΙΛΗΨΗ

Η ταχύτατη αύξηση της πληροφορίας που προσφέρεται µέσω του Σηµασιολογικού Ιστού (Semantic Web) τα τελευταία χρόνια καθιστά επιτακτική τη µελέτη αποτελεσµατικών τρόπων αναζήτησης, που θα διαχειρίζονται αποτελεσµατικά και µε φιλικό προς τον τελικό χρήστη τρόπο αυτόν τον ετερογενή και τεράστιο όγκο πληροφορίας. Προς αυτή την κατεύθυνση, υπάρχει ένα αυξανόµενο ενδιαφέρον για τα συστήµατα ερωταποκρίσεων που εκµεταλλεύονται τη δοµηµένη σηµασιολογική πληροφορία για την εξαγωγή απαντήσεων.

Η παρούσα εργασία έχοντας σαν αφετηρία αυτό το αυξανόµενο ερευνητικό ενδιαφέρον έχει σαν στόχο την υλοποίηση ενός συστήµατος που θα εκµεταλλεύεται τεχνολογίες και εφαρµογές του Σηµασιολογικού Ιστού για να καλύψει πληροφοριακές ανάγκες των χρηστών που εκφράζονται µέσω φυσικής γλώσσας. Το σύστηµα αποτελείται από δυο υποσυστήµατα και καλύπτει ερωτήσεις που αφορούν πρόσωπα. Το πρώτο υποσύστηµα αφορά απλές (factoid) ερωτήσεις και ερωτήσεις λιστών και το δεύτερο καλύπτει βιογραφικές ερωτήσεις. Συνδετικός ιστός και για τα δυο υποσυστήµατα είναι η χρήση της DBPedia που είναι ίσως µια από τις πιο επιτυχηµένες εφαρµογές του Σηµασιολογικού Ιστού.

ΘΕΜΑΤΙΚΗ ΠΕΡΙΟΧΗ: Σηµασιολογικός Ιστός, Συστήµατα Ερωταποκρίσεων ΛΕΞΕΙΣ ΚΛΕΙ∆ΙΑ: DBPedia, Σηµασιολογικός Ιστός, Συστήµατα Ερωταποκρίσεων,

Βιογραφικές Ερωτήσεις, Σηµασιολογική Οµοιότητα

(4)

ABSTRACT

The rapid growth of information offered via the Semantic Web in recent years makes it imperative to study effective ways of searching. The ultimate goal is the implementation of a user friendly interface which will be manage efficiently the huge and heterogeneous information of the Semantic Web. To this end, there is a growing interest in question answering systems that use structured semantic information to extract answers.

This work having as a starting point this growing research interest aims at implementing a system that exploits technologies and Semantic Web applications to meet users' information needs, expressed through natural language. The system consists of two subsystems and covers questions related to the entity person. The first module covers factoid questions and list questions while the second covers biographical questions. Connection point for these two subsystems is the use of DBPedia which is one of the most successful applications of the Semantic Web.

SUBJECT AREA: Semantic Web, Question Answering Systems

KEYWORDS: DBPedia, Semantic Web, Question Answering Systems, Biographical Questions, Semantic Relatedness.

(5)

ΠΡΟΛΟΓΟΣ

Η παρούσα διπλωµατική εργασία εκπονήθηκε στο εργαστήριο Τεχνολογίας Γνώσεων και Λογισµικού του Ινστιτούτο Πληροφορικής και Τηελεπικοινωνιών του Ε.Κ.Ε.Φ.Ε

∆ηµόκριτος και στο Τµήµα Πληροφορικής και Τηλεπικοινωνιών του Εθνικού και Καποδιστριακού Πανεπιστηµίου Αθηνών στα πλαίσια του Μεταπτυχιακού Προγράµµατος Σπουδών.

Αντικείµενο της εργασίας είναι η ανάπτυξη και η µελέτη ενός συστήµατος ερωταποκρίσεων που στηρίζεται σε εφαρµογές και τεχνολογίες του Σηµασιολογικού Ιστού για την εξαγωγή απαντήσεων.

Ολοκληρώνοντας την εκπόνησή της εργασίας, νιώθω την ανάγκη να ευχαριστήσω εκείνους τους ανθρώπους, οι οποίοι συνέβαλαν στην ολοκλήρωση της. Πρωτίστως, ευχαριστώ θερµά τον Ερευνητή Α’ Ευάγγελο Καρκαλέτση για την καθοδήγηση και την στήριξη του σε όλη τη διάρκεια εκπόνησης της. Χωρίς τη βοήθεια του δεν θα ήταν δυνατή η ολοκλήρωση της εργασίας. Επίσης, ευχαριστώ ιδιαιτέρως τον καθηγητή Μανόλη Κουµπαράκη για την ανάθεση της εργασίας και τις πολύτιµές συµβουλές του.

Ακόµη θα ήθελα να ευχαριστήσω τον Ερευνητή Γεώργιο Παλιούρα, τον ∆ρ. Αλέξανδρο Ντούλα και τον ∆ρ. Γεώργιο Γιαννακόπουλο για τη συνεισφορά τους τόσο κατά τη φάση σχεδιασµού όσο και στην φάση υλοποίησης της παρούσας εργασίας. Ευχαριστώ ακόµη τους δυο εθελοντές που συµµετείχαν στην αξιολόγηση του συστήµατος κ. Ελευθέριο Τσούπρο και κ. Νικόλαο Σαµπάνη.

Τέλος, ευχαριστώ την οικογένεια µου για την στήριξη τους και αφιερώνω την παρούσα εργασία στη µνήµη του πατέρα µου.

(6)

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ

1. ΕΙΣΑΓΩΓΗ... 12

1.1 Συνεισφορά Εργασίας ... 13

1.2 Περίγραμμα Εργασίας ... 14

2. ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ ΚΑΙ ΣΗΜΑΣΙΟΛΟΓΙΚΑ ΛΕΞΙΚΑ ... 16

2.1 Σημασιολογικός Ιστός ... 16

2.1.1 Οντολογίες Σημασιολογικού Ιστού ... 16

2.1.2 OWL... 17

2.1.3 Linked Data ... 19

2.1.4 DBPedia ... 20

2.2 Σημασιολογικά Λεξικά και Θησαυροί ... 28

2.2.1 Το σημασιολογικό δίκτυο WordNet ... 28

2.2.2 Wiktionary ... 30

2.3 Σύνοψη ... 31

3. ΣΥΣΤΗΜΑΤΑ ΕΡΩΤΑΠΟΚΡΙΣΕΩΝ ... 32

3.1 Συστήματα Ερωταποκρίσεων ... 32

3.2 Ιστορική Εξέλιξη ... 35

3.3 Αξιολόγηση Συστημάτων Ερωταποκρίσεων ... 39

3.4 Κατηγορίες Ερωτήσεων ... 40

3.4.1 Απλές Ερωτήσεις ... 40

3.4.2 Ερωτήσεις Λιστών ... 42

3.4.3 Βιογραφικές Ερωτήσεις ... 42

3.5 Σχετική Εργασία ... 42

3.5.2 AnswerBus ... 43

3.5.3 Semantic Web Answering ... 44

3.6 Βιογραφικές Ερωτήσεις ... 50

3.7 Σύνοψη ... 53

4. ΣΥΣΤΗΜΑ DBPEDIAQA ... 54

(7)

4.1 Σημασιολογική πληροφορία στη DBPedia ... 54

4.1.1 DBPedia ως Σημασιολογικό Λεξικό ... 54

4.1.2 MATCHER: Αλγόριθμος για τον υπολογισμό σημασιολογικής σχετικότητας ... 55

4.2 Σύστημα για απλές ερωτήσεις και ερωτήσεις λιστών ... 56

4.2.1 Επεξεργασία ερωτήματος ... 59

4.2.2 Μετάφραση ερωτήματος σε ενδιάμεση μορφή... 61

4.2.3 Εύρεση Ιδιοτήτων ... 62

4.2.4 Κατασκευή Ερωτήματος και συλλογή αποτελεσμάτων ... 67

4.2.5 Ευρεστική Προσέγγιση ... 67

4.2.6 Επικύρωση Αποτελεσμάτων ... 68

4.2.7 Παρουσίαση Αποτελεσμάτων ... 71

4.3 Σύστημα για την διαχείριση Βιογραφικών Ερωτήσεων ... 72

4.3.1 Κατασκευή Οντολογίας ... 73

4.3.2 Επιλογή Κειμένων ... 74

4.3.3 Συσταδοποίηση... 75

4.3.4 Εξαγωγή σχέσεων και εννοιών ... 75

4.3.5 Εμπλουτισμός οντολογίας ... 77

4.3.6 Παρουσίαση Οντολογίας ... 78

4.3.7 Παραγωγή Αποτελεσμάτων ... 83

4.3.8 Αποστολή ερωτήματος ... 84

4.3.9 Προεπεξεργασία ... 84

4.3.10 Εξαγωγή υποψήφιων απαντήσεων και απομάκρυνση θορύβου ... 85

4.3.11 Επιλογή προτάσεων με βάση την οντολογία ... 86

4.3.12 Ταξινόμηση προτάσεων με βάση το περιεχόμενο ... 86

4.3.13 Κατηγοριοποίηση των προτάσεων ... 87

4.3.14 Εξαγωγή εννοιών ... 88

4.3.15 Παρουσίαση Αποτελεσμάτων ... 88

4.3.16 Σύνοψη ... 89

5. ΑΞΙΟΛΟΓΗΣΗ ... 92

5.1 Αξιολόγηση για ερωτήσεις λιστών και απλές ερωτήσεις ... 92

5.2 Αξιολόγηση για βιογραφικές ερωτήσεις ... 93

5.3 Περιγραφή Λειτουργικότητας ... 97

5.3.1 Κεντρική Σελίδα ... 97

5.3.2 Υποστήριξη χρηστών ... 98

5.3.3 Αποτελέσματα ... 99

(8)

6. ΣΥΜΠΕΡΑΣΜΑΤΑ ... 102

7. ΠΑΡΑΡΤΗΜΑ ... 105

8. ΕΡΩΤΗΣΕΙΣ ΑΞΙΟΛΟΓΗΣΗΣ ... 111

9. ΟΝΟΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ... 117

10. ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ... 118

11. ΣΥΝΤΜΗΣΕΙΣ – ΑΡΚΤΙΚΟΛΕΞΑ – ΑΚΡΩΝΥΜΙΑ ... 123

12. ΠΙΝΑΚΑΣ ΟΡΟΛΟΓΙΑΣ ... 123

13. ΑΝΑΦΟΡΕΣ ... 125

(9)

ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ

Σχήµα 6-1: Σηµασιολογικές Σχέσεις στη DBPedia ... 55 Σχήµα 6-2: ∆ιάγραµµα Ροής ... 58 Σχήµα 6-3: Παρουσίαση Σταδίων για το σύστηµα διαχείρισης Βιογραφικών Ερωτήσεων ... 73 Σχήµα 6-3: ∆ιάγραµµα Ροής για τις Βιογραφικές Ερωτήσεις ... 84

(10)

ΚΑΤΑΛΟΓΟΣ ΕΙΚΟΝΩΝ

Εικόνα 2-1: Στοίβα Σηµασιολογικού Ιστού ... 18

Εικόνα 2-2: Το νέφος του Linking Open Data Project ... 20

Εικόνα 2-3: Αριθµός Άρθρων Wikipedia ... 21

Εικόνα 2-4: Εξαγωγή Triples από τη Wikipedia ... 22

Εικόνα 2-5: Νέφος DBPedia ... 25

Εικόνα 2-6: Η εφαρµογή DBPedia Mobile ... 26

Εικόνα 2-7: Παράδειγµα SPARQL ερωτήµατος στο περιβάλλον SPARQL Explorer ... 27

Εικόνα 3-1: Πεδία στα οποία στηρίζονται τα συστήµατα ερωταποκρίσεων ... 33

Εικόνα 3-2: Αφαιρετική Αρχιτεκτονική Συστηµάτων Ερωταποκρίσεων ... 34

Εικόνα 3-3: Η διεπαφή του NLP-Reduce συστήµατος ... 47

Εικόνα 4-1: Κατηγορίες για το άρθρο της Wikipedia “Damian Adams” ... 65

Εικόνα 4-2: Κατηγορίες για το άρθρο της Wikipedia “Fish” ... 65

Εικόνα 4-3: Κατηγορίες για το άρθρο της Wikipedia “ Piazza_San_Marco” ... 65

Εικόνα 4-4: Παρουσίαση Αποτελεσµάτων για το ερώτηµα "Who is the spouse of Carla Bruni" ... 71

Εικόνα 4-5: Ιδιότητες Οντοτήτων στην Οντολογία ... 79

Εικόνα 4-6: Ιδιότητες ∆εδοµένων στην Οντολογία ... 80

Εικόνα 4-7: Η έννοια Award ... 81

Εικόνα 4-8: Έννοιες της οντολογίας ... 81

Εικόνα 4-9: Η έννοια Cleric και οι υποκλάσεις της ... 82

Εικόνα 4-10: Η έννοια Work και οι υποκλάσεις της ... 82

Εικόνα 21:Αποτελέσµατα για το ερώτηµα «Alexander Graham Bell» ... 89

Εικόνα 5-1: Κατανοµή ονοµάτων προς αξιολόγηση ... 94

Εικόνα 23: Αποτελέσµατα Αξιολόγησης ... 96

Εικόνα 5-3: Use Case Συστήµατος ... 97

Εικόνα 5-4: Κεντρική Σελίδα ... 98

Εικόνα 5-5: Επισήµανση ενδεχόµενου ορθογραφικού λάθους ... 98

Εικόνα 5-6: Προτάσεις για διόρθωση λάθους ... 99

Εικόνα 5-7: Ερώτηση χρήστη ... 100

Εικόνα 5-8: Λίστα αποτελεσµάτων ... 100

Εικόνα 5-9: Προτεινόµενες προτάσεις ανά κατηγορία ... 100

Εικόνα 5-10: Παρουσίαση Φωτογραφικού Υλικού ... 101

(11)

Εικόνα 5-11: Νέφος Σχετικών Εννοιών ... 101

ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ

Πίνακας 3-1: ∆ιασυνδεδεµένη γνώση στη DBPedia ... 24

Πίνακας 2-1: Κατανοµή Ερωτήσεων ... 41

Πίνακας 2-2: Αποτελέσµατα ∆ιαγωνισµών TREC για απλές ερωτήσεις ... 41

Πίνακας 2-3: Αποτελέσµατα ∆ιαγωνισµών TREC για ερωτήσεις λιστών ... 42

Πίνακας 2-4: Συγκριτικός Πίνακας Συστηµάτων ... 50

Πίνακας 2-5: Οντολογία Βιογραφικών Γεγονότων ... 52

Πίνακας 6-1: Εξαρτήσεις για την εξαγωγή ιδιοτήτων ... 63

Πίνακας 6-2: Εξαρτήσεις για τον εντοπισµό υποκειµένου ... 66

Πίνακας 6-3: Παράµετροι στο Weka ... 75

Πίνακας 6-4: Παραδείγµατα Σχέσεων Οντολογίας ... 76

Πίνακας 6-5: Παραδείγµατα Εννοιών Οντολογίας ... 77

Πίνακας 9: Ετικέτες Part Of Speech Tagger ... 108

(12)

12

1. ΕΙΣΑΓΩΓΗ

Τα ολοένα και αυξανόµενα δεδοµένα που δηµοσιεύονται στο Web σύµφωνα µε τις αρχές και τα πρότυπα του Σηµασιολογικού Ιστού, καθιστούν επιτακτική την ανάγκη ένας τυπικός χρήστης του Web να µπορεί να έχει εύκολη πρόσβαση σε όλη αυτή τη γνώση.

∆εν υπάρχουν πολλά πραγµατικά επιτυχηµένα παραδείγµατα συστηµάτων που επιτρέπουν στους τελικούς χρήστες να επωφεληθούν από την µεγάλη εκφραστική δύναµη των προτύπων του Σηµασιολογικού Ιστού µε ένα φιλικό προς το χρήστη τρόπο.

Η παρούσα διπλωµατική εργασία προσπαθεί να αξιοποιήσει τα πρότυπα και τις εφαρµογές του Σηµασιολογικού Ιστού [86] µέσα από το πρίσµα των συστηµάτων ερωταποκρίσεων. Τα συστήµατα ερωταποκρίσεων µπορούν να ορισθούν ως µια διαδραστική διαδικασία µεταξύ ανθρώπων και υπολογιστών που περιλαµβάνει την κατανόηση της πληροφοριακής ανάγκης του χρήστη που στις περισσότερες περιπτώσεις εκφράζεται µέσω φυσικής γλώσσας, την ανάκτηση σχετικών εγγράφων, δεδοµένων, γνώσης, από κάποια/ες πηγές, την εξαγωγή της απάντησης και τέλος την όσο το δυνατόν καλύτερη παρουσίαση της στον χρήστη.

Στην παρούσα διπλωµατική εργασία στόχος είναι η ανάπτυξη ενός συστήµατος ερωταποκρίσεων όπου ο χρήστης θα διατυπώνει σε φυσική γλώσσα το ερώτηµα του και το σύστηµα θα προσπαθεί να εξάγει την σωστή απάντηση µέσω της χρήσης προτύπων και εφαρµογών του Σηµασιολογικού Ιστού αλλά και του Web. Οι ερωτήσεις που καλύπτονται από το σύστηµα είναι δυο κατηγοριών. Η πρώτη είναι απλές ερωτήσεις (µαζί µε ερωτήσεις λιστών που αποτελούν επέκταση των απλών ερωτήσεων ) και η δεύτερη οι βιογραφικές ερωτήσεις. Οι δυο αυτές κατηγορίες ερωτήσεων καλύπτουν µεγάλο µέρος των ερωτήσεων που απευθύνουν οι χρήστες προς τις µηχανές αναζήτησης που ουσιαστικά αποτελούν το κυρίαρχο τρόπο ανάκτησης πληροφορίας από το Web σήµερα. Το σύστηµα δεν θέτει κανένα περιορισµό ως προς το πεδίο που θα αναφέρεται η ερώτηση, ο µοναδικός περιορισµός που έχει τεθεί στις απλές ερωτήσεις και τις ερωτήσεις λιστών είναι να αναφέρονται σε πρόσωπα και όχι σε άλλες οντότητες π.χ. ηµεροµηνίες. Το σύστηµα που αναπτύχθηκε προσφέρεται ως µια διαδικτυακή εφαρµογή που αποτελείται από δυο υποσυστήµατα ένα για κάθε τύπο ερωτήσεων. Στο πρώτο υποσύστηµα η τελική απάντηση είναι κάποιο πρόσωπο ή λίστα από ονόµατα ενώ στο δεύτερο υποσύστηµα που αφορά την βιογραφία ενός προσώπου η αναµενόµενη απάντηση είναι ένα σύνολο προτάσεων που αναφέρονται σε σηµαντικά γεγονότα της ζωής ενός ανθρώπου καθώς και συνοδευτικό υλικό (εικόνες,

(13)

13 σηµαντικές έννοιες κ.α.). Κάθε υποσύστηµα κεφαλαιοποιεί µε διαφορετικό τρόπο το Σηµασιολογικό Ιστό για να καλύψει την πληροφοριακή ανάγκη του χρήστη. Ειδικότερα, στο πρώτο υποσύστηµα που καλύπτει απλές ερωτήσεις και ερωτήσεις λιστών ο βασικός στόχος, που αποτελεί άλλωστε και τη µεγαλύτερη πρόκληση των συστηµάτων ερωταποκρίσεων, είναι η κατανόηση της φυσικής γλώσσας και η µετάφραση της σε µια µορφή συµβατή µε το πρότυπο RDF [89], που αποτελεί ακρογωνιαίο λίθο του Σηµασιολογικού Ιστού. Στο δεύτερο υποσύστηµα ο Σηµασιολογικός Ιστός αξιοποιείται για την ανάπτυξη µιας οντολογίας που θα αποτελέσει τη βάση για την κατασκευή των βιογραφικών κειµένων. Από το Web και ειδικότερα από τα αποτελέσµατα των µηχανών αναζήτησης αντλούνται οι υποψήφιες προτάσεις για τις βιογραφικές ερωτήσεις ενώ στο πρώτο υποσύστηµα τα αποτελέσµατα αυτά αξιοποιούνται σε ένα στάδιο επικύρωσης των απαντήσεων που έχουν εξαχθεί.

Βασικός σύµµαχος για την ανάπτυξη του συστήµατος είναι η DBPedia [80] που αποτελεί µια από τις πιο επιτυχηµένες εφαρµογές του Σηµασιολογικού Ιστού. Η DBPedia είναι µια σχετικά πρόσφατη συνεργατική προσπάθεια να εξαχθεί δοµηµένη γνώση από τη Wikipedia σε µορφή σύµφωνη µε τις αρχές του Σηµασιολογικού Ιστού.

Κάποια από τα ισχυρότερα πλεονεκτήµατα αυτής της προσπάθειας που οδήγησαν στην απόφαση χρήσης της είναι αφενός ο τεράστιος όγκος γνώσης που προσφέρει καθώς και το µεγάλο εύρος των θεµάτων που καλύπτει και αφετέρου το γεγονός ότι θεωρείται ο βασικός άξονας της προσπάθειας Linked Data που έχει ως στόχο την διασύνδεση των δεδοµένων του Σηµασιολογικού Ιστού. Η DBPedia αξιοποιείται µε πολλαπλούς τρόπους στα πλαίσια της εργασίας, συνοπτικά αποτελεί τη βάση γνώσης και ένα σηµασιολογικό λεξικό για το πρώτο υποσύστηµα και µια συλλογή κειµένων στην οποία θα στηριχθεί η κατασκευή της οντολογίας για το δεύτερο υποσύστηµα.

1.1 Συνεισφορά Εργασίας

Σε αυτή την διπλωµατική εργασία έγινε προσπάθεια να εφαρµοστούν και να αξιολογηθούν τεχνολογίες και εφαρµογές του Σηµασιολογικού Ιστού στο πεδίο των ερωταποκρίσεων. Ειδικότερα, η συνεισφορά της διπλωµατικής εργασίας µπορεί να συνοψιστεί στα ακόλουθα:

• Ένα σύστηµα ερωταποκρίσεων που βασίζεται σε οντολογίες και τεχνολογίες του Σηµασιολογικού Ιστού και καλύπτει ένα πλήθος πεδίων.

(14)

14

• Την µελέτη της χρήσης της DBPedia στα συστήµατα ερωταποκρίσεων.

• Μια µέθοδος που µετατρέπει ερωτήσεις εκφρασµένες σε φυσική γλώσσα σε τριπλέτες σύµφωνες µε τις αρχές του Σηµασιολογικού Ιστού, χρησιµοποιώντας σηµασιολογικές και γλωσσικές τεχνικές.

• Την εφαρµογή τεχνικών από τα συστήµατα ερωταποκρίσεων που βασίζονται στο web στα συστήµατα που βασίζονται στο Σηµασιολογικό Ιστό.

• Την εξαγωγή βιογραφικού προτάσεων από τις περιλήψεις που συνοδεύουν τα αποτελέσµατα των µηχανών αναζήτησης µε τη χρήση µη εποπτευόµενων τεχνικών µάθησης.

1.2 Περίγραµµα Εργασίας

Τα κεφάλαια της εργασίας είναι οργανωµένα ως εξής:

Κεφάλαιο 1 – χωρίζεται σε δυο βασικά µέρη και δίνει έµφαση στην περιγραφή εφαρµογών και τεχνολογιών που αξιοποιούνται στα πλαίσια της διπλωµατικής εργασίας. Στο πρώτο µέρος παρέχεται µια συνοπτική περιγραφή του Σηµασιολογικού Ιστού, των τεχνολογιών στις οποίες βασίζεται καθώς και κάποιων εφαρµογών του.

Ιδιαίτερη αναφορά γίνεται στην περιγραφή της DBPedia. Το δεύτερο µέρος περιγράφει τη σηµασία των σηµασιολογικών λεξικών στα συστήµατα ερωταποκρίσεων και αναλύει δυο από τα σηµαντικότερα και πιο γνωστά το WordNet και το Wiktionary.

Κεφάλαιο 2 - αυτό το κεφάλαιο αναφέρεται στα συστήµατα ερωταποκρίσεων. Αρχικά, περιλαµβάνει µια περιγραφή του πεδίου των ερωταποκρίσεων ενώ γίνεται και µια αναφορά στα σηµαντικότερα στάδια εξέλιξης τους δίνοντας έµφαση στους τρόπους και το βαθµό που το Web επηρεάζει τα συστήµατα ερωταποκρίσεων. Στη συνέχεια, περιγράφονται οι τύποι ερωτήσεων που καλύπτονται στην εργασία και δίνονται στοιχεία για τον τρόπο αξιολόγησης που έχει επικρατήσει. Τέλος, το κεφάλαιο ολοκληρώνεται µε µια αναφορά στις πιο πρόσφατες και σχετικές µε τους στόχους της εργασίας προσεγγίσεις.

Κεφάλαιο 3 – Περιγράφει αναλυτικά το σύστηµα που αναπτύχθηκε, παρουσιάζοντας αρχικά το πρώτο υποσύστηµα που καλύπτει απλές ερωτήσεις και ερωτήσεις λιστών και τη DBPedia ως πηγή για την άντληση των απαντήσεων. Στη συνέχεια περιγράφεται το σύστηµα για την απάντηση βιογραφικών ερωτήσεων. Ιδιαίτερη έµφαση δίνεται στη

(15)

15 χρήση της DBPedia και γενικότερα του Σηµασιολογικού Ιστού καθώς και στη χρήση σηµασιολογικής γνώσης σε διάφορα στάδια ανάπτυξης του συστήµατος.

Κεφάλαιο 4 – στο κεφάλαιο αυτό παρουσιάζονται και αναλύονται τα αποτελέσµατα από την αξιολόγηση του συστήµατος. Το πρώτο σύστηµα αξιολογήθηκε ως προς το ποσοστό των σωστών απαντήσεων µιας ad-hoc συλλογής 70 ερωτήσεων ενώ για το δεύτερο υποσύστηµα πραγµατοποιήθηκε ποιοτική αποτίµηση. Μετά την ανάλυση των αποτελεσµάτων περιγράφεται η λειτουργικότητα της διεπαφής της εφαρµογής.

Κεφάλαιο 5 – στο τελευταίο κεφάλαιο δίνονται τα συµπεράσµατα και προτάσεις για µελλοντική επέκταση του συστήµατος.

(16)

16

2. ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ ΚΑΙ ΣΗΜΑΣΙΟΛΟΓΙΚΑ ΛΕΞΙΚΑ

Στο κεφάλαιο αυτό θα περιγραφούν έννοιες και τεχνολογίες οι οποίες αποτελούν θεµέλιους λίθους για την εργασία. Ειδικότερα, δυο είναι βασικοί άξονες αυτού του κεφαλαίου. Ο πρώτος αφορά τον Σηµασιολογικό Ιστό και τις εφαρµογές του και ο δεύτερος την περιγραφή σηµασιολογικών λεξικών και θησαυρών. Το σύστηµα που αναπτύχθηκε στηρίζεται στις αρχές του Σηµασιολογικού Ιστού και στην DBPedia που είναι µια από τις σηµαντικότερες εφαρµογές του Σηµασιολογικού Ιστού ενώ όπως και σε πλήθος άλλων συστηµάτων γίνεται χρήση σηµασιολογικών λεξικών και θησαυρών, η γνώση των οποίων είναι πολύτιµη σε ένα σύστηµα ερωταποκρίσεων.

2.1 Σηµασιολογικός Ιστός

Το όραµα του Semantic Web όπως διατυπώθηκε από τον θεµελιωτή του τον Tim Berners-Lee στο βιβλίο του µε τίτλο “Weaving the Web” [59] αφορά τη δυνατότητα η πληροφορία να είναι κατανοητή όχι µόνο από τους ανθρώπους αλλά και από τις µηχανές έτσι ώστε οι πράκτορες λογισµικού (software agents) να είναι σε θέση να βρουν, να συνδυάσουν και να εκτελέσουν ενέργειες µε βάση την διαθέσιµη πληροφορία.

Ο Σηµασιολογικός Ιστός αποτελεί ένα εξελικτικό στάδιο του WWW και αποτελεί την τεχνολογία που πραγµατώνει το Web 3.0. Έτσι ενώ η πρώτη έκδοση του WWW (Web 1.0) συνδέει ανθρώπους µε το World Wide Web δίνοντας έµφαση στη σύνταξη του περιεχοµένου χωρίς να λαµβάνει υπόψη του την σηµασιολογία του και η δεύτερη έκδοση του (Web 2.0) συνδέει ανθρώπους που χρησιµοποιούν το WWW µέσω των blogs και της συµµετοχής του σε συζητήσεις, το Web 3.0 προάγει τη συνεργασία µεταξύ των ανθρώπων, µε χαρακτηριστικό παράδειγµα τη συνεισφορά µέσω wikis. Ο στόχος του Σηµασιολογικού Ιστού είναι ο σχηµατισµός ενός τεράστιου κατανεµηµένου συστήµατος, βασισµένου στη γνώση. Με άλλα λόγια είναι µια προσπάθεια να δηµιουργηθεί ένα κοινό πρότυπο που θα επιτρέπει δεδοµένα να διαµοιράζονται και να επαναχρησιµοποιούνται σε επίπεδο µιας εφαρµογής, µιας εταιρείας µιας κοινότητας κ.α.

2.1.1 Οντολογίες Σηµασιολογικού Ιστού

Κύριο εργαλείο για την αναπαράσταση γνώσης στο Σηµασιολογικό Ιστό είναι οι οντολογίες. Ο όρος οντολογία σύµφωνα µε το λεξικό Webster [67] περιγράφει «µια συγκεκριµένη θεωρία για τη φύση της ύπαρξης ή τα είδη της ύπαρξης». Στη

(17)

17 βιβλιογραφία υπάρχουν διατυπωµένοι αρκετοί ακόµη ορισµοί σχετικά µε το τι πρέπει να εκφράζει µια οντολογία [68]. Ένας ακόµη ορισµός µε µεγάλη αποδοχή φαίνεται να είναι αυτός που διατυπώθηκε από τον Gruber [69].

«Οντολογία είναι µια τυπική, ρητή προδιαγραφή µιας κοινής εννοιολογικής θεώρησης ενός φαινοµένου».

Αν και οι οντολογίες πρωτοχρησιµοποιήθηκαν στο χώρο της φιλοσοφίας, ο όρος οντολογία έχει χρησιµοποιηθεί από ερευνητές πολλών πεδίων όπως η τεχνητή νοηµοσύνη, η ανάκτηση πληροφορίας (IR), η θεωρία των βάσεων δεδοµένων, η γλωσσολογία και το ηλεκτρονικό εµπόριο. Στα συστήµατα λογισµικού παρέχουν τη δυνατότητα επαναχρησιµοποίησης και διαµοιρασµού της πληροφορίας ενώ στο χώρο της ανάκτησης της πληροφορίας υποβοηθούν την αναζήτηση µέσω χρήσης µεταδεδοµένων. Σε περιοχές όπως το ηλεκτρονικό εµπόριο και τα γεωγραφικά πληροφοριακά συστήµατα αναπτύσσονται συχνά µεγάλου εύρους οντολογίες.

Υπάρχουν πολλοί µέθοδοι για την αναπαράσταση µιας οντολογίας και αυτός που θα επιλεγεί κάθε φορά εξαρτάται σε µεγάλο βαθµό από το απαιτούµενο επίπεδο λεπτοµέρειας και τις ιδιαίτερες απαιτήσεις της περιοχής. Πρακτικά, ένας θησαυρός, µια ιεραρχία εννοιών, ένα σηµασιολογικό δίκτυο µπορούν να αναπαρασταθούν µέσω µιας οντολογίας.

2.1.2 OWL

Στο χώρο του σηµασιολογικού ιστού η πιο διαδεδοµένη γλώσσα για τη δηµιουργία οντολογιών είναι ή Web Ontology Language (OWL) [88]. Η γλώσσα OWL αποτελεί µέρος των συστάσεων του World Wide Web Consortium (W3C) για τον σηµασιολογικό ιστό και ουσιαστικά είναι µια βελτιωµένη έκδοση της γλώσσας DAML+OIL. Στις 27 Οκτωβρίου 2009 η W3C ανακοίνωσε την νέα έκδοση της OWL, την OWL 2 [70], µία επέκταση και ανασκόπηση της αρχικής έκδοσης.

Η γλώσσα OWL έχει δοµηθεί πάνω από αρκετά και πολύ διαδεδοµένα πρότυπα όπως φαίνεται και στην εικόνα που παρουσιάζει µε τη µορφή στοίβας την υποδοµή του Σηµασιολογικού Ιστού.

(18)

18

Εικόνα 2-1: Στοίβα Σηµασιολογικού Ιστού

Πιο αναλυτικά η γλώσσα βασίζεται στα παρακάτω πρότυπα:

XML - Extensible Markup Language που αποτελεί ένα απλό αλλά πολύ ευέλικτο πρότυπο κειµένου που επιτρέπει την έκφραση δεδοµένων κειµένου µε µια δοµή δέντρου που αποτελείται από κόµβους µε ιδιότητες. Η XML προτείνεται ως το καλύτερο µέσο για τη συγγραφή οντολογιών.

XML Schema - αποτελεί µια βασισµένη στη XML γλώσσα για τον ορισµό της δοµής, του περιεχοµένου και της σηµασιολογίας XML εγγράφων. Στις οντολογίες OWL χρησιµοποιείται για τον ορισµός των βασικών τύπου δεδοµένων.

RDF - Resource Description Framework [89], είναι µια γενικού σκοπού γλώσσα για την αναπαράσταση της πληροφορίας στο Web, επιτρέπει τον προσδιορισµό πόρων µε µοναδικό τρόπο κάνοντας χρήση προσδιοριστών URI (Uniform Resource Identifiers) και τις σχέσεις µεταξύ αυτών των πόρων.

RDF Schema - ένα πρότυπο που περιγράφει τη χρήση του RDF για να περιγράψει RDF λεξιλόγια στο Web όπως είναι οι οντολογίες.

Βασιζόµενη στα παραπάνω πρότυπα η γλώσσα OWL µεταξύ άλλων είναι σε θέση να εκφράσει σχέσεις µεταξύ κλάσεων (π.χ. µη αλληλοεπικάλυψη), πληθικότητα (π.χ.

(19)

19

«ακριβώς ένα»), ισοδυναµία, πλουσιότερους τύπους ιδιοτήτων, χαρακτηριστικά ιδιοτήτων (π.χ. συµµετρία) και απαριθµητές κλάσεις. Όλα τα παραπάνω την κατατάσσουν στις γλώσσες Περιγραφικής Λογικής (Description Logic).

Η τεκµηρίωση της γλώσσας OWL περιλαµβάνει τον ορισµό τριών υπό-γλωσσών που διαφέρουν ως προς τον βαθµό της εκφραστικότητας τους. Αυτές είναι:

OWL Lite

OWL DL

OWL Full

Η OWL Lite υποστηρίζει χρήστες οι οποίοι χρειάζονται µια ιεραρχία και απλούς περιορισµούς. Για παράδειγµα, ενώ υποστηρίζει περιορισµούς απόλυτων αριθµητικών, επιτρέπει τιµές µόνο 0 ή 1.

Η OWL DL υποστηρίζει χρήστες οι οποίοι θέλουν τη µέγιστη εκφραστικότητα. Ωστόσο υπάρχουν περιορισµοί, όπως για παράδειγµα, µια κλάση µπορεί να είναι υποκλάση πολλών κλάσεων αλλά µια κλάση δεν µπορεί να είναι στιγµιότυπο µιας άλλης.

Η OWL FULL προορίζεται για χρήστες οι οποίοι θέλουν τη µέγιστη εκφραστικότητα και τη συντακτική ελευθερία της RDF χωρίς υπολογιστικές εγγυήσεις. Η OWL FULL µπορεί να ληφθεί ως επέκταση της RDF, ενώ οι OWL Lite και OWL DL µπορούν να ληφθούν ως επεκτάσεις µιας “περιορισµένων” δυνατοτήτων RDF. Κάθε OWL (FULL, DL, LITE) έγγραφο είναι RDF έγγραφο και κάθε RDF έγγραφο µπορεί να ληφθεί ως OWL FULL έγγραφο, αλλά µόνο κάποια RDF έγγραφα θα είναι OWL LITE και OWL DL έγκυρα έγγραφα.

2.1.3 Linked Data

Ο όρος Linked Data χρησιµοποιείται για να περιγράψει τη διασύνδεση των δεδοµένων στο Web και µπορεί να θεωρηθεί ως µια υποκατηγορία του Semantic Web. Προτείνει έναν τρόπο να δηµοσιευτούν δεδοµένα στο Web µε στόχο την επαναχρησιµοποίηση τους, τη µείωση του πλεονασµού των δεδοµένων και της προσθήκης αξίας στα δεδοµένα µέσα στο δίκτυο. Στηρίζεται στη χρήση URI για τον προσδιορισµό αντικειµένων, στη χρήση HTTP URIs έτσι ώστε κάθε αντικείµενο να προσδιορίζεται µοναδικά και οι πράκτορες ή οι άνθρωποι να έχουν πρόσβαση στο συγκεκριµένο πόρο και στο RDF για την περιγραφή αυτών των αντικειµένων καθώς και των σχέσεων τους.

(20)

20 Το Linking Open Data Project είναι µια συνεργατική πρωτοβουλία ερευνητικών φορέων που στηρίζεται από το W3C έτσι ώστε ήδη υπάρχοντα δεδοµένα να γίνουν διαθέσιµα στο Web σε µορφή RDF και να διασυνδεθούν µε άλλα. Η προσπάθεια αυτή ξεκίνησε στις αρχές του 2007 και ήδη τον Οκτώβριο του ίδιου έτους τα διασυνδεδεµένα δεδοµένα περιλάµβαναν 2 δισεκατοµµύρια RDF triples ενώ το Μάιο του 2009 ο αριθµός αυτός ξεπερνούσε τα 4.2 δισεκατοµµύρια RDF triples. Η παρακάτω εικόνα αναπαριστά τα δεδοµένα που είχαν διασυνδεθεί ως το Σεπτέµβριο του 2010 [74]. Το µέγεθος τους είναι ενδεικτικό της ποσότητας διασυνδεδεµένης πληροφορίας που προσφέρουν.

Εικόνα 2-2: Το νέφος του Linking Open Data Project

2.1.4 DBPedia

Ένα από τα πιο χαρακτηριστικά και ενδιαφέροντα κοµµάτια του Linked Data αποτελεί η βάση γνώσης DBPedia [79][80]. Ο στόχος της DBPedia είναι να εξάγει δοµηµένη γνώση

(21)

21 από τη Wikipedia και να διαθέσει αυτή τη γνώση στο Web έτσι ώστε να µπορούν να απαντηθούν σύνθετα ερωτήµατα µε τη βοήθεια τεχνικών του Σηµασιολογικού Ιστού και επιπλέον να συνδεθούν δεδοµένα από άλλες πηγές γνώσης µε τα δεδοµένα της Wikipedia.

H εγκυκλοπαίδεια της Wikipedia αποτελεί µια από τις µεγαλύτερες διαθεµατικές και πολυγλωσσικές συλλογές δεδοµένων στο ∆ιαδίκτυο ενώ συνεχώς εµπλουτίζεται, µε την βοήθεια χιλιάδων ανθρώπων που συνεισφέρουν στο περιεχόµενο της µε νέα άρθρα. Η µεγάλη επισκεψιµότητα την καθιστά έναν από τους δηµοφιλέστερους ιστοτόπους (σύµφωνα µε το alexa.com [75]) και έναν από τα πιο επιτυχηµένα παραδείγµατα του Web 2.0. Η παρακάτω εικόνα δείχνει τον αριθµό των άρθρων της αγγλόφωνης έκδοσης της Wikipedia από τη δηµιουργία της το 2001 έως σήµερα.

Εικόνα 2-3: Αριθµός Άρθρων Wikipedia

Η DBPedia προσπαθεί να εκµεταλλευτεί τα δυνατά σηµεία της Wikipedia και να βελτιώσει τις δυνατότητες αναζήτησης και διασύνδεσης µε τον υπόλοιπο Web καθώς και να απλοποιήσει τη δηµιουργία εφαρµογών και mashup που στηρίζονται σε αυτήν. H DBPedia πρωτοπαρουσιάστηκε το 2007 ως αποτέλεσµα της συνεργασίας των

(22)

22 Πανεπιστηµίων Leipzig και Freie και της εταιρείας OpenLink Software ενώ συνεχίζεται αδιάκοπα η προσπάθεια ανάπτυξης και βελτίωσης της. Αυτή τη στιγµή βρίσκεται στην έκδοση 3.6.

Για τη δηµιουργία της βάσης γνώσης χρησιµοποιείται ένα αυτοµατοποιηµένος µηχανισµός που εξάγει δοµηµένη πληροφορία µε τη µορφή RDF triples από τα άρθρα της Wikipedia όπως για παράδειγµα πληροφορία από τα infoboxes των άρθρων, την κατηγοριοποίηση των άρθρων, συνδέσεις σε εξωτερικές πηγές, εικόνες, συνδέσµους στα αντίστοιχα άρθρα άλλων γλωσσών κ.α. και την οµαδοποιεί στα αντίστοιχα RDF datasets. Η διαδικασία εξαγωγής αποτυπώνεται στην παρακάτω εικόνα και περιλαµβάνει τη συγκέντρωση των αρχικών δεδοµένων που αποτελούν τα άρθρα της Wikipedia, την µετατροπή των δοµηµένων στοιχείων των άρθρων σε RDF triples, την αποθήκευση αυτών των triples στα αντίστοιχα dataset καθώς και διαδικασίες κανονικοποίησης και µετατροπής δεδοµένων [118].

Εικόνα 2-4: Εξαγωγή Triples από τη Wikipedia

Κάθε οντότητα που περιλαµβάνεται στη βάση γνώσης περιγράφεται µε ένα µοναδικό URI προσδιοριστή το όνοµα του οποίου ακολουθεί το πρότυπο http://dbpedia.org/Name όπου Name προκύπτει από το URL του αντίστοιχου πόρου της Wikipedia και είναι ο τίτλος του άρθρου της Wikipedia. Ανάλογα µε την πληροφορία που περιέχουν η DBPedia προσφέρει 11 βασικά datasets τα οποία παρουσιάζονται παρακάτω:

Labels: περιλαµβάνονται οι τίτλοι των άρθρων της Wikipedia

Abstracts: περιλαµβάνουν τα εισαγωγικά κείµενα των άρθρων της Wikipedia.

Παρέχονται σε δυο εκδόσεις µια εκτεταµένη και µια πιο σύντοµη µε τα κατηγορήµατα dbpedia:abstract και dbpedia:comment αντιστοίχως.

Links: περιλαµβάνουν οι σύνδεσµοι µεταξύ άρθρων µε το ίδιο θέµα στις διάφορες εκδόσεις της Wikipedia

Images: περιλαµβάνονται σύνδεσµοι προς τις εικόνες της Wikimedia Commons µε το κατηγόρηµα foaf:depiction

(23)

23

Redirects: µια σελίδα ανακατεύθυνσης στη Wikipedia είναι µια σελίδα που δεν περιέχει περιεχόµενο αλλά ανακατευθύνει τον αναγνώστη σε κάποιο άλλο άρθρο της Wikipedia. Αυτό µπορεί να συµβαίνει στην περίπτωση συνώνυµων λέξεων, ορθογραφικών λαθών, εναλλακτικών ονοµάτων κ.α. Οι εναλλακτικοί αυτοί όροι για κάθε άρθρο περιέχονται σε αυτό το dataset και περιγράφονται µε το κατηγόρηµα dbpedia:redirect

Disambiguation: αυτό το dataset περιλαµβάνει τις διαφορετικές έννοιες οµωνύµων και περιγράφεται µε το κατηγόρηµα dbpedia:disambiguates.

External links: τα άρθρα περιέχουν αναφορές σε εξωτερικές πηγές του Web και αναπαρίστανται µέσω της ιδιότητας dbpedia:reference.

Homepages: περιλαµβάνει συνδέσµους σε σελίδες οντοτήτων όπως εταιρείες και οργανισµούς. Αναπαρίστανται µέσω της ιδιότητας foaf:homepage.

Categories: τα άρθρα της Wikipedia αντιστοιχίζονται σε κατηγορίες και αναπαριστώνται χρησιµοποιώντας το λεξιλόγιο SKOS [71].

Pagelinks: περιλαµβάνονται οι σύνδεσµοι µεταξύ άρθρων της Wikipedia και αναπαριστώνται µέσω της ιδιότητας dbpedia:wikilink.

Geo-coordinates: περιλαµβάνει συντεταγµένες χρησιµοποιώντας το λεξιλόγιο Geo Vocabulary [73] και την κωδικοποίηση GeoRSS Simple [72].

Παράλληλα, µε αυτά τα datasets η DBPedia µε στόχο να εµπλουτιστεί περισσότερο, διασυνδέεται µε διάφορες άλλες πηγές δεδοµένων στον Web σύµφωνα µε τις αρχές του Linked Data. Επιπροσθέτως, αυξάνεται συνεχώς και ο αριθµός των dataset που παρέχουν RDF συνδέσµους προς τις οντότητες της DBPedia, καθιστώντας τη DBPedia σαν έναν από τους κεντρικότερους κόµβους του Web of Data. Κάποια από τα dataset µε τα οποία διασυνδέεται καθώς και ο αριθµός των συνδέσεων από και προς αυτά φαίνεται στον παρακάτω πίνακα (Πίνακας 2-1) ενώ το νέφος που ακολουθεί παρουσιάζει το βαθµό διασύνδεσης της DBPedia.

Dataset Αριθµός Συνδέσεων

Freebase 2.400.000

Flickr wrappr 1.950.000

WordNet 330.000

(24)

24

GeoNames 85.000

OpenCyc 60.000

UMBEL 20.000

Bio2RDF 25.000

WikiCompany 25.000

MusicBrainz 23.000

US Census 12.000

New York Times 10.000

Book Mashup 7.000

Project Gutenberg 2.500

Sider 750

Drugbank 730

DBLP Bibliography 200

World Factbook 200

EuroStat 200

Dailymed 50

Πίνακας 2-1: ∆ιασυνδεδεµένη γνώση στη DBPedia

(25)

25

Εικόνα 2-5: Νέφος DBPedia

Εκτός από το µηχανισµό για την αυτοµατοποιηµένη εξαγωγή γνώσης που περιγράφηκε η DBPedia προσφέρει και µια οντολογία OWL που έχει δηµιουργηθεί µε µη αυτόµατο τρόπο για να αποφευχθούν προβλήµατα µε συνώνυµες ιδιότητες και πολλαπλά πρότυπα (templates) που χρησιµοποιούνται για το ίδιο τύπο αντικειµένων από τη Wikipedia. Ο απώτερος στόχος της δηµιουργίας αυτής της οντολογίας είναι ο εµπλουτισµός της µε περισσότερες σχέσεις και αξιώµατα έτσι ώστε να επιτρέπεται η δυνατότητα ελέγχου συνέπειας της DBPedia αλλά και συµπερασµού.

Τέλος, πρέπει να αναφερθεί ότι η DBPedia εξασφαλίζει την επικαιροποίηση των δεδοµένων καθώς η Wikipedia έχει δώσει δικαιώµατα πρόσβασης στον µηχανισµό αυτόµατης αναφοράς αλλαγών στα άρθρα της Wikipedia.

Για να δοθεί µια διάσταση του µεγέθους της DBPedia αρκεί να σηµειωθεί ότι η DBPedia σήµερα περιγράφει 3.4 εκατοµµύρια οντότητες από τις οποίες τα 1.5 εκατοµµύρια περιλαµβάνονται στην οντολογία, συµπεριλαµβανοµένων 312.000 ατόµων, 413.000 περιοχών, 94.000 µουσικών album και 49.000 ταινιών κ.α. Επιπροσθέτως, παρέχει µια σύντοµη περιγραφή καθώς και µια περίληψη του άρθρου σε 92 διαφορετικές γλώσσες.

Η βάση γνώσης της DBPedia αποτελείται συνολικά από 1 δισεκατοµµύριο RDF triples

(26)

26 από τα οποία τα 257 εκατοµµύρια έχουν εξαχθεί από την αγγλική έκδοση και τα υπόλοιπα από τις άλλες εκδόσεις.

Η DBPedia από την πρώτη στιγµή της εµφάνισης της προσέλκυσε το ενδιαφέρον τόσο του ερευνητικού χώρου όσο και εµπορικών εταιρειών που διέκριναν τις δυνατότητες αξιοποίησης της. Ήδη µέχρι σήµερα έχει χρησιµοποιηθεί σε ένα πλήθος από εφαρµογές. Στη συνέχεια θα γίνει µια συνοπτική αναφορά σε κάποιες από αυτές.

Το DBPedia Mobile [81] είναι µια εφαρµογή για κινητές συσκευές που προσφέρει στους χρήστες την δυνατότητα να δουν οπτικοποιηµένη πληροφορία από τη DBPedia αλλά και από τα υπόλοιπα dataset µε τα οποία διασυνδέεται µε βάση έναν χάρτη. Για παράδειγµα, µπορεί κάποιος να δει ποιοι συγγραφείς έζησαν σε µια συγκεκριµένη περιοχή και στη συνέχεια να βρει περισσότερες πληροφορίες για αυτούς µε βάση τα dataset RDF Book Mashup ή το Project Gutenberg.

Εικόνα 2-6: Η εφαρµογή DBPedia Mobile

Πέρα από τη χρήση της DBPedia σαν το κεντρικό σηµείο διασύνδεσης για δεδοµένα του Web άλλη µια εφαρµογή της DBPedia αφορά την επισηµείωση περιεχοµένου στο Web.

Χαρακτηριστικά παραδείγµατα εφαρµογών που εµπίπτουν σε αυτήν την κατηγορία είναι το OpenCalais [76], το Faviki [77], το Zemanta [78] και πλήθος άλλων. Μια τρίτη κατηγορία εφαρµογών που αξιοποιούν τη DBPedia είναι οι εφαρµογές που εκµεταλλεύονται τη µεγάλη ποσότητα και γενικότερα τη γνώση που προσφέρει για την απάντηση περίπλοκων ερωτήσεων για ένα πολύ ευρύ φάσµα θεµάτων. Παράδειγµα, αποτελεί το DBPedia Query Builder και το SPARQL Explorer. Οι εφαρµογές αυτές επιτρέπουν στο χρήστη να κατασκευάσει τα δικά του ερωτήµατα χρησιµοποιώντας είτε

(27)

27 κάποιο γραφικό περιβάλλον είτε διατυπώνοντας το ερώτηµα του στη γλώσσα SPARQL αποκλείοντας µε αυτό τον τρόπο χρήστες µη εξοικειωµένους µε τον Σηµασιολογικό Ιστό. Η εφαρµογή που αναπτύχθηκε στην παρούσα διπλωµατική προσπαθεί να αξιοποιήσει τη DBPedia για την άντληση απαντήσεων σε ερωτήµατα χρηστών προσφέροντας στον τελικό χρήστη την άνεση να διατυπώσει σε φυσική γλώσσα τα ερωτήµατα του.

Εικόνα 2-7: Παράδειγµα SPARQL ερωτήµατος στο περιβάλλον SPARQL Explorer

Παρόµοιους στόχους µε τη DBPedia δηλαδή την εξαγωγή σηµασιολογικής πληροφορίας από την Wikipedia έχουν παρουσιαστεί σε διάφορες εργασίες και µια πλήρης καταγραφή τους έχει γίνει από τον Michael Bergman [94] καθώς και από ένα σχετικό άρθρο της Wikipedia [95].

Μια από τις πιο γνωστές και συστηµατικές πρoσεγγίσεις είναι η YAGO [96] που αναπτύχθηκε από το ινστιτούτο Max-Planck. Η YAGO εξάγει 14 είδη σχέσεων αξιοποιώντας πληροφορία από το σύστηµα κατηγοριοποίησης της Wikipedia και από το σύστηµα ανακατεύθυνσης που προσφέρει ενώ η πληροφορία αυτή συνδέεται µε το WordNet. Η YAGO έχει γνώση για 2 εκατοµµύρια οντότητες και 20 εκατοµµύρια γεγονότα (facts) όπως ονοµάζει την γνώση για αυτές τις οντότητες. Σε αντίθεση µε τη DBPedia η YAGO δεν ανακτά την πληροφορία των infoboxes. Η DBPedia ενσωµατώνει το σύστηµα κατηγοριοποίησης της YAGO παρέχοντας σχετικό dataset.

(28)

28 2.2 Σηµασιολογικά Λεξικά και Θησαυροί

Ένας χρήστης µπορεί να υποβάλει ερωτήσεις σε φυσική γλώσσα διατυπώνοντας ρητά το νόηµα που θέλει να εκφράσει. Ωστόσο, από την πλευρά των µηχανών αναζήτησης αυτό το νόηµα δεν µπορεί εύκολα να καθοριστεί. Για να γεφυρωθεί αυτό το χάσµα είναι απαραίτητη η χρήση σηµασιολογικής και γραµµατικής γνώση. Η σηµασιολογική γνώση προσφέρεται από τα σηµασιολογικά λεξικά που χρησιµοποιούνται ευρύτατα σε εφαρµογές επεξεργασίας φυσικής γλώσσας.

Στη συνέχεια παρουσιάζονται τα πιο διαδεδοµένα ίσως σηµασιολογικά λεξικά, το WordNet και το Wiktionary. Το πρώτο ανήκει στην κατηγορία των λεξικών που έχουν δηµιουργηθεί από ειδικούς ενώ το Wiktionary είναι ένα συνεργατικό λεξικό που βασίζεται στην κοινότητα των χρηστών του για την ανάπτυξη του.

2.2.1 Το σηµασιολογικό δίκτυο WordNet

Το σηµασιολογικό δίκτυο WordNet [60] που χρησιµοποιήθηκε σε διάφορα στάδια ανάπτυξης της παρούσας εργασίας, αποτελεί ένα από τα πιο συχνά χρησιµοποιούµενα εργαλεία για την επεξεργασία φυσικής γλώσσας. Το WordNet είναι ένα σηµασιολογικό λεξικό για την αγγλική γλώσσα που δηµιουργήθηκε και συντηρείται από το εργαστήριο Γνωστικής Επιστήµης του Πανεπιστηµίου Princeton (Cognitive Science Laboratory, Princeton University) µε επικεφαλής τον καθηγητή ψυχολογίας George Miller. Η ανάπτυξη του ξεκίνησε το 1985 ενώ η πιο πρόσφατη έκδοση είναι η έκδοση 3.0 από τον

∆εκέµβριο του 2006.

Ο σκοπός του είναι διπλός:

• Να προσφέρει ένα λεξικό και ένα θησαυρό σε µια ενιαία και εύχρηστη µορφή

• Να υποστηρίξει την αυτόµατη ανάλυση κειµένων και γενικότερα εφαρµογές τεχνητής νοηµοσύνης. To WordNet έχει κατά καιρούς χρησιµοποιηθεί σε ένα πλήθος εφαρµογών συµπεριλαµβανοµένων εφαρµογών αποσαφήνισης εννοιών, ανάκτησης πληροφοριών, υπολογισµού σηµασιολογικής οµοιότητας, αυτόµατης κατηγοριοποίησης κειµένου και αυτόµατης παραγωγής περιλήψεων.

Η βάση δεδοµένων του WordNet καθώς και διάφορα εργαλεία που την υποστηρίζουν είναι ελεύθερα διαθέσιµα. Υπάρχουν υλοποιήσεις για διάφορες γλώσσες προγραµµατισµού καθώς και για διάφορα λειτουργικά συστήµατα ενώ προσφέρεται και ως διαδικτυακή υπηρεσία [61].

(29)

29 Οι λέξεις στο WordNet οµαδοποιούνται σε σύνολα συνωνύµων που ονοµάζονται synsets (synonym sets) και για κάθε λέξη είναι διαθέσιµη µια σύντοµη περιγραφή (gloss) καθώς και σηµασιολογικές σχέσεις µεταξύ αυτών συνόλων συνωνύµων. Τα σύνολα συνωνύµων δηλαδή αποτελούνται από λήµµατα µε συνώνυµες ερµηνείες τις οποίες θεωρούµε ισοδύναµες, υπό την έννοια πως µπορεί να αντικαταστήσει η µια την άλλη σε οποιαδήποτε πρόταση χωρίς να µεταβάλλει το νόηµα της. ∆ιαφορετικές έννοιες της ίδιας λέξης βρίσκονται σε διαφορετικό synset (πολυσηµία). Οι έννοιες αυτές στο WordNet είναι ταξινοµηµένες µε βάση τη συχνότητα εµφάνισης τους. Η συχνότητα εµφάνισης κάθε έννοιας έχει υπολογιστεί σε διάφορες συλλογές κειµένων.

Το WordNet διαχωρίζει τις λέξεις σύµφωνα µε το µέρος του λόγου στο οποίο ανήκουν (ουσιαστικά, ρήµατα, επίθετα και επιρρήµατα) επειδή κάθε µέρος του λόγου ακολουθεί διαφορετικούς γραµµατικούς κανόνες και συνδέεται µε διαφορετικές σχέσεις µε τα σύνολα συνωνύµων.

Οι προσφερόµενες σηµασιολογικές σχέσεις για κάθε κατηγορία λέξεων είναι:

Ουσιαστικά (nouns)

Υπερώνυµα (hypernyms): Ο όρος Υ είναι υπερώνυµο του όρου X αν κάθε Χ είναι εξειδίκευση του Υ.

Υπώνυµα (hyponyms): Ο όρος Υ είναι υπώνυµο του όρου Χ αν κάθε Y είναι εξειδίκευση του Χ.

Συνεργατικοί Όροι (coordinate terms): Ο όρος Υ είναι συνεργατικός όρος του Χ αν οι Χ και Υ έχουν ένα κοινό υπερώνυµο.

Ολώνυµο (holonym): Ο όρος Υ είναι ολώνυµο του Χ αν ο Χ είναι µέρος του Υ.

Μερώνυµο (meronym): Ο όρος Υ είναι µερώνυµο του Χ αν ο Y είναι µέρος του Χ.

Ρήµατα (verbs)

Υπερώνυµο (hypernym): Το ρήµα Υ είναι υπερώνυµο του ρήµατος Χ αν η δραστηριότητα που υποδηλώνει το Χ είναι εξειδίκευση της δραστηριότητας του Υ.

Τροπώνυµο (troponym): το ρήµα είναι τροπώνυµο του ρήµατος Χ αν η δραστηριότητα του Υ κάνει την δραστηριότητα του Χ κατά κάποιο τρόπο.

Συνεργατικοί Όροι (coordinate terms): Τα ρήµατα που έχουν κοινό υπερώνυµο.

Referências

Documentos relacionados

Τι κράτησε το πληθυσµό της για τόσους αιώνες, µε τόσους κατακτητές και διώξεις, ακόµη και φυσικές καταστροφές όπως ξηρασία και λιµοί σε αυτή τη γωνιά της Κύπρου; Προσπάθεια µου, είναι