• Nenhum resultado encontrado

ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΩΝ - ΣΥΓΚΡΙΣΗ ΜΕΤΑΜΗΧΑΝΩΝ ΑΝΑΖΗΤΗΣΗΣ

N/A
N/A
Protected

Academic year: 2023

Share "ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΩΝ - ΣΥΓΚΡΙΣΗ ΜΕΤΑΜΗΧΑΝΩΝ ΑΝΑΖΗΤΗΣΗΣ"

Copied!
101
0
0

Texto

(1)

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΒΑΛΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ

ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΩΝ

ΣΥΓΚΡΙΣΗ ΜΕΤΑΜΗΧΑΝΩΝ ΑΝΑΖΗΤΗΣΗΣ

ΜΠΟΓΙΑΝΝΙΔΟΥ ΙΩΑΝΝΑ

ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ : ΒΑΛΣΑΜΙΔΗΣ ΣΤΑΥΡΟΣ ΚΑΒΑΛΑ ΙΟΥΝΙΟΣ 2006

(2)

Ευχαριστίες

Για την πραγματοποίηση αυτής της πτυχιακής εργασίας, ευχαριστώ πάρα πολύ τον επιβλέποντα καθηγητή μου, κύριο Βαλσαμίδη Σταύρο για την πολύτιμη βοήθειά του και την άριστη συνεργασία μας.

Αφιερώνεται σε όλους αυτούς που αγωνίζονται προσφέροντας την επιστημονική τους γνώση, για την καλυτέρευση της ζωής των ανθρώπων. Σε όλους αυτούς που πιστεύουν ότι η επιστήμη πρέπει να είναι προς όφελος όλων των λαών της γης.

(3)

ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1

ΠΛΗΡΟΦΟΡΙΑ /ΚΩΔΙΚΟΠΟΙΗΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ... 5

1.1 Γενικότητες ... 5

1.2 Τεχνικές κωδικοποίησης και πληροφορίας ... 6

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΠΟΙΕΣ ΟΙ ΔΙΑΦΟΡΕΣ ΜΕ ΤΗΝ ΑΝΑΚΤΗΣΗ ΔΕΔΟΜΕΝΩΝ ... 10

2.1 Η Ανάγκη της πληροφορίας στο κέντρο του ενδιαφέροντος/ Παγκόσμιος ιστός ... 11

2.2 Βασικές έννοιες ... 12

2.2.1 Η διαδικασία του χρήστη ... 12

2.2.2 Η διαδικασία της ανάκτησης ... 14

2.3 Ανάκτηση και ακρίβεια ... 15

2.4 Μοντελοποίηση ... 17

2.4.1 Είδη μοντέλων ... 18

2.4.1.1 Το Boolean μοντέλο ... 19

2.4.1.2 Το Vector Space ... 20

2.4.1.3 Το Πιθανοτικό μοντέλο ... 21

ΚΕΦΑΛΑΙΟ 3 ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΩΝ ΣΤΟ ΔΙΑΔΙΚΤΥΟ ... 23

3.1 Ιδιαιτερότητες της ανάκτησης πληροφοριών στο Διαδίκτυο ... 23

3.2 Ταξινόμηση ... 24

3.3 CRAWLING τις ιστοσελίδες ... 25

ΚΕΦΑΛΑΙΟ 4 ΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ... 26

ΕΙΣΑΓΩΓΗ 4.1 Μηχανές αναζήτησης ... 27

4.2 Μειονεκτήματα μηχανών αναζήτησης ... 27

4.3 Μέθοδοι Ranking των αποτελεσμάτων ... 28

4.4 Page Rank ... 28

4.5 Υπολογισμός του Page Rank ... 29

4.6 Η χρησιμότητα των μηχανών αναζήτησης ... 30

4.7 Τα τμήματα των μηχανών αναζήτησης ... 31

4.8 Επεκτασιμότητα ... 35

4.9 Η μέθοδος ταξινόμησης στις μηχανές αναζήτησης ... 36

ΚΕΦΑΛΑΙΟ 5 ΜΕΤΑΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ /ΔΙΑΔΙΚΑΣΙΑ ΑΝΑΖΗΤΗΣΗΣ ... 37

5.1 Μεταμηχανές αναζήτησης ... 37

5.2 Τα βασικά μέρη των μεταμηχανών αναζήτησης ... 38

5.3 Η λειτουργία μιας μεταμηχανής ... 38

5.4 Κριτήρια αξιολόγησης ... 39

5.5 Πλεονεκτήματα και μειονεκτήματα των μεταμηχανών ... 39

5.6 Μέθοδοι Ranking των αποτελεσμάτων των μεταμηχανών ... 41

5.7 Η σημασία των διαφημίσεων στις μεταμηχανές αναζήτησης ... 42

5.8 Συμπεράσματα των μεταμηχανών σε σχέση με τις μεταμηχανές ... 43

(4)

ΚΕΦΑΛΑΙΟ 6

GOOGLE ΙΣΤΟΡΙΚΗ ΑΝΑΔΡΟΜΗ ΤΗΣ ΜΗΧΑΝΗΣ

ΑΝΑΖΗΤΗΣΗΣ ... 44

6.1 Σχεδιαστικοί στόχοι ... 44

6.2 Χαρακτηριστικά συστήματος ... 45

6.2.1 Anchor Text ... 45

6.2.2 Άλλα χαρακτηριστικά ... 46

6.2.3 Η γενική επισκόπηση της μεταμηχανής Google ... 47

6.3 Η μηχανή Google σήμερα ... 49

6.4 Η Google σε αριθμούς ... 49

6.5 Χρήστες ... 50

6.6 Διοίκηση ... 50

6.7 Επιχειρηματικό μοντέλο ... 50

6.8 Μηχανισμός λειτουργίας / Τεχνολογικές καινοτομίες του Google ... 52

6.9 Τα πλεονεκτήματα –εργαλεία της μηχανής αναζήτησης Google ... 53

6.10 Ανεπτυγμένες λειτουργίες ... 56

6.11 Τεχνικές και αλγόριθμοι το «φιλτράρισμα» των σελίδων spam ... 56

6.12 Επίλογος ... 57

ΚΕΦΑΛΑΙΟ 7 ΑΠΟΤΕΛΕΣΜΑΤΑ ΑΠΟ ΤΙΣ ΜΗΧΑΝΕΣ ΚΑΙ ΜΕΤΑΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ ... 58

7.1 Αποτελέσματα από τη χρήση των μεγαλύτερων μεταμηχανών ... 58

7.1.1 Παρατηρήσεις στα αποτελέσματα για το πρώτο ερώτημα ... 58

7.1.2 Παρατηρήσεις στα αποτελέσματα για το δεύτερο ερώτημα ... 59

7.2 Η έννοια της μετά-αναζήτησης στις βιβλιοθήκες ... 61

ΚΕΦΑΛΑΙΟ 8 ΣΥΓΚΡΙΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΑΠΟ ΚΑΠΟΙΕΣ ΜΕΤΑΜΗΧΑΝΕΣ ΑΝΑΖΗΤΗΣΗΣ ... 62

8 Αποτελέσματα των μεταμηχανών Google, In, Yahoo, AltaVista, Big, Phantis και HotBot ... 62

ΒΙΒΛΙΟΓΡΑΦΙΑ ... 101

(5)

ΚΕΦΑΛΑΙΟ ΠΡΩΤΟ

1. ΠΛΗΡΟΦΟΡΙΑ / ΚΩΔΙΚΟΠΟΙΗΣΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ

Η θεωρία της πληροφορίας ασχολείται με το τι είναι πληροφορία[1], πως μετράτε και ποιοι είναι οι νόμοι που διέπουν τα πληροφοριακά συστήματα.

Με τον όρο πληροφορία εννοούμε το δεδομένο εκείνο το οποίο θα υποστεί επεξεργασία και θα μας επιφέρει το αποτέλεσμα το οποίο επιδιώκουμε.

Η θεωρία της κωδικοποίησης ασχολείται με το πρόβλημα της αξιόπιστης επικοινωνίας, μεταξύ του αποστολέα και του παραλήπτη, ενός μηνύματος στο χωροχρόνο, δηλαδή την αποστολή, μεταφορά-μετάδοση και λήψη ενός μηνύματος ένα σύστημα επικοινωνίας χωρίς αλλοίωση. Στην πράξη, τα δεδομένα που πρόκειται να αποσταλούν ή να αποθηκευτούν συμπιέζονται.

Έτσι, καταλαμβάνουν μικρότερο αποθηκευτικό χώρο και μεταδίδονται σε μικρότερο χρόνο.

Η θεωρία Πληροφορίας και η θεωρία της κωδικοποίησης αποτελούν κλάδους της Γενικότερης Θεωρίας Επικοινωνίας .

Σαν σύστημα επικοινωνίας εννοούμε μία δομή που αποτελείται από τα εξής υποσυστήματα:

1. Πηγή πληροφορίας (Information source).

2. Μετατροπέας πληροφορίας (κωδικοποιητής -encoder).

3. Δίαυλος επικοινωνίας, μεταφορά-μετάδοση της πληροφορίας (communication channel).

4. Μετατροπέας πληροφορίας (Αποκωδικοποιητής-decoder).

5. Δέκτης, Αποδέκτης, Παραλήπτης, Προορισμός πληροφορίας (Receiver, Acceptor, Information destination).

ΠΙΝΑΚΑΣ 1

1.1 ΓΕΝΙΚΟΤΗΤΕΣ

Η πηγή πληροφορίας παρέχει ένα μήνυμα στο κωδικοποιητή που το μετατρέπει σε κατάλληλη μορφή και με τη σειρά του το μεταδίδει, δια μέσου του διαύλου επικοινωνίας στον ακωδικοποίητη. Αυτός αποκαθιστά, εάν είναι δυνατό, το μήνυμα στην αρχική του μορφή, ώστε ο αποδέκτης να έχει ακριβώς το ίδιο

ΠΗΓΗ ΠΛΗΡΟΦΟΡΙΑΣ (ΜΗΝΥΜΑΤΩΝ)

ΚΩΔΙΚΟΠΟΙΗΤΗΣ ΜΗΝΥΜΑΤΩΝ (ΕΝCODER)

ΔΙΑΥΛΟΣ ΜΕΤΑΔΟΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ (ΜΗΝΥΜΑΤΩΝ)

ΑΠΟΚΩΔΙΚΟΠΟΙΗ ΤΗΣ

ΜΗΝΥΜΑΤΩΝ (DECODER)

ΔΕΚΤΗΣ

ΠΛΗΡΟΦΟΡΙΑΣ (ΜΗΝΥΜΑΤΩΝ)

(6)

μήνυμα με αυτό του αποστολέα.

Η αδυναμία αποκατάστασης ενός μηνύματος οφείλεται στο γεγονός ότι ο δίαυλος εισάγει σφάλματα (errors), στα μηνύματα, δηλαδή, αλλοιώνει τα σύμβολα των μηνυμάτων, εξαιτίας της παρουσίας θορύβου (noise), εγγενούς ή εξωγενούς.

Τα υποσυστήματα 1 και 2 αναφέρονται και σαν πομπός ή αποστολέας (emmider-sender), της πληροφορίας, ενώ τα υποσυστήματα 4 και 5 σαν δέκτης ή παραλήπτης (receiver), της πληροφορίας, ή ακριβέστερα των μηνυμάτων που εμπεριέχουν την πληροφορία. Η αδυναμία αποκατάστασης του αρχικού μηνύματος μπορεί να οφείλεται και στην μέθοδο κωδικοποίησης που εσκεμμένα έχει επιλεχθεί π.χ σε κώδικες με απώλειες (lossy codes).

Η ποσότητα της πληροφορίας που εμπεριέχεται σε ένα μήνυμα μπορεί να μετρηθεί. Δυο διαφορετικά μηνύματα μπορεί να έχουν την ίδια ποσότητα πληροφορίας. Η ποσότητα πληροφορίας ενός μηνύματος έχει σχέση με την χωρητικότητα (channel capacity), του διαύλου μετάδοσης (transmission rate) της πληροφορίας.

Σαν χωρητικότητα ενός διαύλου, δηλαδή το πλήθος των αποστελλόμενων συμβόλων (συνήθως δυαδικών- bits) στην μονάδα χρόνου.

1.2 ΤΕΧΝΙΚΕΣ ΚΩΔΙΚΟΠΟΙΗΣΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΣ

Στην σημερινή ψηφιακή εποχή την πληροφορία την παράγουμε, την παριστάνουμε, την επεξεργαζόμαστε, την αποθηκεύουμε και την μεταδίδουμε σε διακριτές ποσότητες.

Η ελάχιστη και τυποποιημένη ποσότητα παράστασης ψηφιακής πληροφορίας είναι η δυαδική ποσότητα της μιας δυαδικής μονάδας, το bit. Η λέξη αυτή είναι τεχνητή και δημιουργήθηκε από την κατάτμηση κα συγχώνευση μερών των λέξεων binary unit.

Σαν πληροφορία εδώ εννοείται η μέτρηση με κοινό αποδεκτό μέτρο και η αποτίμηση κάθε μεγέθους. Καμιά σχέση με τον αυστηρό ορισμό της ποσότητας πληροφορίας ενός γεγονότος που ορίζει η Θεωρία Πληροφοριών. Αποτίμηση σημαίνει η παραγωγή ενός και μοναδικού αριθμού, μετά από σύγκριση με το κοινό αποδεκτό μέτρο κάποιου μεγέθους σε κάποια χρονική στιγμή χωρίς στιγμιαία διάρκεια.

Αν συμφωνηθεί το μέτρο και η διαδικασία μέτρησης κάποιου μεγέθους, τότε σε αυτό αντιστοιχείται ο παραγόμενος αριθμός ή μια ακολουθία από αριθμούς.

(7)

Με αυτήν την έννοια κάθε μέγεθος του χωροχρονικού κόσμου

«πραγματικό» ή «ιδεολόγημα», μπορεί να παρασταθεί σαν πληροφορία. Είναι θέμα κοινής γλώσσας, κοινής αποδεκτής συμφωνίας. Παρόλο που, όπου υπεισέρχεται η έννοια του χρόνου, τα υπό παρατήρηση ή περιγραφή μεγέθη θεωρούνται

«συνεχή», και τα κύρια συνεχή μεγέθη παρίστανται ή περιγράφονται με ακρίβεια από συνεχή μαθηματικά μοντέλα, η επιστήμη και τεχνολογία της ψηφιακής παράστασης του κόσμου, επιτυγχάνει να περιγράψει και να ερμηνεύσει τα συνεχή μεγέθη με διακριτά μαθηματικά μοντέλα εξίσου επιτυχώς και ίσως περισσότερο αποτελεσματικά σε περιπτώσεις που το συνεχές μοντέλο είναι αδύνατο ή δυσκολότατο να το επεξεργαστούμε.

Θεωρητικά, λοιπόν κάθε τι μπορεί να παρασταθεί σαν πληροφορία - αριθμός του μεγέθους του-. Χρόνος, μήκος, μάζα, ηλεκτρικό και μαγνητικό φορτίο πεδίου, δυνάμεις ηλεκτρομαγνητικών, και μαγνητικών πεδίων γενικώς φυσικοχημικά μεγέθη και ιδιότητες της ύλης, ακόμη αστάθεια, πολυπλοκότητα, διακύμανση, ασάφεια, κατάσταση συστημάτων, αγάπη, μίσος, πάθος, τρόμος και ότι μπορεί να συμφωνηθεί.

Το συνεχές μέγεθος ψηφιοποιείται με μια ακολουθία στιγμιαίων μετρήσεων, όσο πυκνά και απαραίτητο είναι για να περιγράψει με ακρίβεια το συνεχές μέγεθος. Η διαδοχική παραγωγή των στιγμιαίων μετρήσεων λέγεται δειγματοληψία. Στην διαδικασία δειγματοληψίας υπεισέρχεται η έννοια του σφάλματος (error).

Σφάλμα είναι η απόκλιση της μέτρησης ενός μεγέθους, από την πραγματική του τιμή την συγκεκριμένη στιγμή της μέτρησης.

Δηλαδή η διαφορά της αποτίμησης της μέτρησης από την πραγματική τιμή του προς μέτρηση μεγέθους. Η εισαγωγή σφάλματος οφείλεται είτε στην αδυναμία της απόκτησης του πραγματικού μεγέθους, είτε στην αδυναμία καταγραφής του αριθμού που αντιπροσωπεύει το πραγματικό μέγεθος.

Η περιγραφή-κατάσταση κάποιου ‘όντος’ γίνεται με μια διακριτή πεπερασμένη ακολουθία πραγματικών αριθμών αντί μια συνεχούς συνάρτησης.

Δηλαδή, με ένα διάνυσμα ενός πεπερασμένου πολυδιάστατου χώρου που απεικονίζει ένα σημείου του χώρου αυτού (γεγονός, κατάσταση) σε κάποια συγκεκριμένη χρονική στιγμή ή καθ’όλη την διάρκεια ενός χρονικού διαστήματος. Η πληροφορία που αποκτήθηκε από μέτρηση και αποτίμηση κάποιου μεγέθους αφορά έννοιες που έχουν σχέση με τις 5 αισθήσεις του ανθρώπου και απευθύνεται σε αυτές ή πηγάζει από αυτές ή αφορά έννοιες που απευθύνονται στο «νου» του ανθρώπου, δηλαδή αφηρημένες

(8)

έννοιες.

Τελικά πληροφορία είναι ένα πεπερασμένο πραγματικό διάνυσμα μια πεπερασμένη ακολουθία πραγματικών αριθμών.

Τελικά μια πεπερασμένη ακολουθία δυαδικών ψηφίων, δηλαδή bits, που παριστάνει και περιγράφει: εικόνα, ακολουθία εικόνων (video), ήχο, ομιλία, κείμενο(text), δηλαδή, μια σειρά από σύμβολα κάποιας φυσικής ή τεχνητής γλώσσας ή αφηρημένη έννοια όπως θερμότητα, ασάφεια κ.τ.λ

Ο αποδέκτης της πληροφορίας είναι αυτός που ερμηνεύει την πληροφορία. Δηλαδή, ενώ μια εικόνα αποτελεί κατά παραδοχή πληροφορία, αποδεκτή από το σύνολο του κόσμου, σαν στοιχείο μιας «κοινής γλώσσας», ένα ηχητικό μήνυμα είναι ίσως αποδεκτό από όλους ή ίσως από όσους είναι γνώστες της φυσικής γλώσσας, στοιχείο της οποίας παριστά. Εξετάζουμε, λοιπόν τη παράσταση της πληροφορίας χωρίς καμία σημασιολογική διάσταση.

Η σημασία (semantics) είναι μέρος της ερμηνευτικής διαδικασίας του αποδέκτη της πληροφορίας, όταν βρίσκεται σε μορφή που απευθύνεται στις αισθήσεις ,δηλαδή στη όραση. την ακοή, την όσφρηση, την γεύση, και την αφή ή απευθύνεται στο νου του.

Όταν η πληροφορία αποθηκεύεται, μεταδίδεται, μετασχηματίζεται, ή γίνεται επεξεργασία της σε κάποιο πληροφοριακό σύστημα, βρίσκεται σε δυαδική ψηφιακή μορφή, κατάλληλη για ερμηνεία και επεξεργασία, μόνο από το πληροφοριακό σύστημα.

Η αποθήκευση της πληροφορίας γίνεται στα μέσα αποθήκευσης ενός πληροφοριακού συστήματος, σε εύχρηστες -λογικές ποσότητες-ενότητες που ονομάζονται αρχεία (files). Τα αρχεία είναι κωδικοποιημένα στο δυαδικό ψηφιακό σύστημα.

Η κωδικοποίηση έχει σαν σκοπό την τυποποίηση των τύπων των αρχείων, αλλά και την καταχώρηση της πληροφορίας που περιέχουν στο μικρότερο δυνατό μέγεθος. Η «κατανόηση» της κωδικοποιημένης πληροφορίας γίνεται από το πληροφορικό υποσύστημα, ή την εφαρμογή που τα χειρίζεται. Δηλαδή, ένα δυαδικό αρχείο που περιέχει πρόγραμμα προς εκτέλεση, είναι

«κατανοητό» μόνο από τον επεξεργαστή του πληροφοριακού συστήματος στο οποίο απευθύνεται και μόνο κάτω από το ίδιο λειτουργικό σύστημα. Υπάρχουν τυποποιημένες κωδικοποιήσεις αρχείων για κάθε τύπο πληροφοριακού και λειτουργικού συστήματος, όπως αρχεία τύπου ASCII, PDF, HTML, GIF κ.τ.λ και αρχεία τυποποιημένα μόνο κάτω από ένα συγκεκριμένο λειτουργικό σύστημα όπως αρχεία ΒΜΡ, DOC, ΕΧΕ, ΒΙΝ κ.τ.λ .Η κωδικοποίηση που αφορά στην συμπίεση του μεγέθους των

(9)

αρχείων επιτρέπει, εκτός από την καταχώρηση τους σε μικρότερο χώρο του αποθηκευτικού μέσου και την μετάδοση τους με ταχύτερο ρυθμό σε ένα δίκτυο πληροφοριών.

Τελικά η κωδικοποίηση των αρχείων πληροφοριών αφορά την

Τυποποίηση τους, δηλαδή την δυνατότητα αναγνώρισης ερμηνείας και επεξεργασίας κάποιου αρχείου πληροφοριών, από τον κατάλληλο αποδέκτη- εφαρμογή

Συμπίεση τους, δηλαδή, την ελαχιστοποίηση του μήκους των, για χρηστικούς αποθηκευτικούς λόγους και η ταχύτερη μετάδοσή τους σε ένα πληροφοριακό δίκτυο

Διαφύλαξη του απορρήτου, του περιεχομένου της. Αυτή η μορφή κωδικοποίησης αποτελεί αντικείμενο μελέτης της επιστήμης της κρυπτογραφίας.

(10)

ΚΕΦΑΛΑΙΟ ΔΕΥΤΕΡΟ

2.ΣΥΓΚΡΙΣΗ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΔΕΔΟΜΕΝΩΝ Η Επιστήμη της ανάκτησης της πληροφορίας(ΑΠ), ασχολείται με την αναπαράσταση, την αποθήκευση την οργάνωση και την πρόσβαση σε πληροφοριακά αντικείμενα-συστήματα. Η αναπαράσταση και η οργάνωση των αντικειμένων πρέπει να γίνονται με τρόπο τέτοιο, ώστε να παρέχουν στον ανθρώπινο παράγοντα, εύκολη πρόσβαση στην πληροφορία που τον ενδιαφέρει. Δυστυχώς όμως ο καθορισμός της πληροφοριακής ανάγκης του χρήστη, είναι ένα δύσκολο πρόβλημα[2].

Σε αντίθεση η ανάκτηση δεδομένων σε ένα περιβάλλον ΑΠ, συνίσταται στην εύρεση όλων των κειμένων τα οποία περιέχουν κάποια από τις λέξεις κλειδιά που εμφανίζονται σε ένα ερώτημα προς το σύστημα. Αυτή η προσέγγιση δίνει συχνά κάτι διαφορετικό από αυτό που ζητάει ο χρήστης. Στην πράξη, αυτό που περισσότερο ενδιαφέρει τον χρήστη ενός συστήματος ΑΠ, είναι να ανακτήσει πληροφορίες για ένα συγκεκριμένο θέμα, παρά η ανάκτηση δεδομένων για κάποιο σχετικό ερώτημα. Μια γλώσσα ανάκτησης δεδομένων στοχεύει, στοχεύει στην ανάκτηση όλων των αντικειμένων, που ικανοποιούν ένα σύνολο καλά ορισμένων συνθηκών, που διατυπώνονται με μια κανονική έκφραση ή με σχεσιακή άλγεβρα. Επίσης σε ένα σύστημα ανάκτησης δεδομένων, τα δεδομένα είναι οργανωμένα σε καλά ορισμένη δομή και συγκεκριμένη σημασιολογία. Έτσι, σε ένα σύστημα ανάκτησης δεδομένων , η ανάκτηση ενός και μόνο λανθασμένου αποτελέσματος, είναι καταστροφική.

Αντίθετα στα συστήματα ανάκτησης πληροφοριών, τα ανακατωμένα αποτελέσματα, μπορεί να είναι ανακριβή και η εμφάνιση κάποιον λαθών στα αποτελέσματα, περνά συχνά απαρατήρητη. Ο λόγος αυτής της διαφοροποίησης είναι ότι το σύστημα ΑΠ, διαχειρίζεται κείμενα γραμμένα σε φυσική γλώσσα.

τα οποία δεν είναι πάντα επαρκώς δομημένα και είναι συχνά αμφίσημα. Μην ξεχνάμε άλλωστε και την δυσκολία της διατύπωσης της ακριβούς πληροφοριακής ανάγκης με την χρήση λέξεων κλειδιά.

Έτσι ενώ η ανάκτηση δεδομένων δίνει λύσεις στον χρήστη ενός συστήματος βάσης δεδομένων , δεν λύνει το πρόβλημα της ανάκτησης πληροφορίας, σχετικής με κάποιο θέμα. Για να μπορέσει ένα σύστημα ΑΠ, να ανταποκριθεί στην πληροφοριακή ανάγκη του χρήστη, θα πρέπει να είναι σε θέση, να

«διερμηνεύσει». Με κάποιο τρόπο το σημασιολογικό περιεχόμενο

(11)

των αντικειμένου που διαχειρίζεται, και να τα διατάξει σύμφωνα με τον βαθμό σχετικότητας τους, προς το ερώτημα του χρήστη.

Η διαδικασία της διερμηνείας συνίσταται στην εξαγωγή συντακτικής και σημασιολογικής πληροφορίας από τα κείμενα, η οποία θα χρησιμοποιηθεί για να ανταποκριθεί το σύστημα στην πληροφοριακή ανάγκη του χρήστη. Το πρόβλημα δεν εντοπίζεται μόνο στην εξαγωγή της παραπάνω πληροφορίας, επιπλέον θα πρέπει να μπορούμε να χρησιμοποιούμε την εξαγόμενη πληροφορία για να αποφασίσουμε τη σχετικότητα προς κάποιο ερώτημα . Ο κύριος στόχος άλλωστε ενός συστήματος ΑΠ, είναι να μπορεί να επιστρέψει όλα τα κείμενα που είναι σχετικά προς κάποιο ερώτημα, επιστρέφοντας παράλληλα και όσο τον δυνατόν λιγότερα μη σχετικά κείμενα.

Γι' αυτό το λόγο η έννοια της σχετικότητας, διαδραματίζει κυρίαρχο ρόλο στην ανάκτηση πληροφορίας.

2.1 Η ΑΝΑΓΚΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟ ΚΕΝΤΡΟ ΤΟΥ ΕΝΔΙΑΦΕΡΟΝΤΟΣ-ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ

Η αρχική ανάγκη για ανάπτυξη της ανάκτησης της πληροφορίας ήταν η αυτοματοποιημένη δεικτοδότηση κειμένων και η ανάπτυξη μεθόδων για την αναζήτηση χρήσιμων κειμένων σε μια συλλογή.

Στις ημέρες μας η έρευνα έχει επεκταθεί σε πολλούς παραπάνω τομείς, συμπεριλαμβάνοντας την οπτικοποίηση δεδομένων , την αρχιτεκτονική του συστήματος, τις διεπαφές προς τον χρήστη κτλ.

Η άποψη που επικρατούσε μέχρι στις αρχές τις δεκαετίας του '90, ήταν ότι η ανάκτηση της πληροφορίας απευθυνόταν μόνο σε εφαρμογές βιβλιοθηκονομίας. Όλα τα παραπάνω άλλαξαν δραματικά με την έλευση του Παγκόσμιου Ιστού.

Ο Παγκόσμιος Ιστός γίνεται μια ολοένα και μεγαλύτερη παρακαταθήκη ανθρώπινης γνώσης, που επιτρέπει την χωρίς προηγούμενο ανταλλαγή πληροφορίας και ιδεών και σε έκταση πολύ μεγαλύτερη από ότι είχαμε δει μέχρι τώρα. Η επιτυχία του Ιστού συνίσταται στην ευκολία που παρέχει στον χρήστη να δημιουργήσει τις δικές του ιστοσελίδες, όντας έτσι ένα εύκολα προσβάσιμο και σχετικά φθηνό μέσο προσωπικής έκφρασης.

Επιπλέον, η ύπαρξη του Ιστού θέτει νέους τρόπους επικοινωνίας, επανορίζοντας τις έννοιες χρόνος και απόστασης. Τέλος, οι τρέχουσες εξελίξεις ,στην ολοκλήρωση διαφορετικών υπηρεσιών γύρω από τον Ιστό, έχουν αλλάξει τον τρόπο που ο άνθρωπος βλέπει τον υπολογιστή. Έννοιες όπως Ηλεκτρονικό Εμπόριο, και

(12)

WEB BANKING είναι δημοφιλείς και δημιουργούν νέες και πολλά υποσχόμενες αγορές.

Παρά την επιτυχημένη διάδοση του Παγκόσμιου Ιστού, η εύρεση χρήσιμης πληροφορίας στις ιστοσελίδες, γίνεται μια ολοένα και πιο δύσκολη και επίπονη διαδικασία. Μια προσέγγιση εδώ είναι ο χρήστης, να περιπλανιέται στον κυβερνοχώρο, ακολουθώντας συνδέσμους που οδηγούν από σελίδα σε σελίδα, και να προσπαθεί να εντοπίσει την πληροφορία που καλύπτει την πληροφοριακή του ανάγκη. Η παραπάνω διαδικασία περιπλάνησης είναι συχνά αναποτελεσματική, λόγω του μεγέθους του Παγκόσμιου Ιστού, και γιατί τις περισσότερες φορές ο χρήστης δεν γνωρίζει ένα καλό ‘σημείο εκκίνησης’. Για τους άπειρους χρήστες το πρόβλημα της αναζήτησης γίνεται πολύ πιο δύσκολο, οδηγώντας τους σε απογοητευτικά αποτελέσματα. Το κύριο εμπόδιο εδώ είναι, η απουσία ενός καλά ορισμένου μοντέλου δεδομένων για τον Παγκόσμιο Ιστό, το οποίο σημαίνει ότι ο ορισμός και η δόμηση της πληροφορίας είναι χαμηλής ποιότητας. Αυτές οι δυσκολίες έστρεψαν το ενδιαφέρον στον τομέα της ΑΠ και οδήγησαν στην υιοθέτηση των τεχνικών που χρησιμοποιούνται στο πεδίο της ΑΠ, ως πολλά υποσχόμενες λύσεις..

2.2 ΒΑΣΙΚΕΣ ΈΝΝΟΙΕΣ

Η αποδοτική ανάκτηση κειμένων [3] επηρεάζεται τόσο από την διαδικασία χρήστη όσο και από την λογική αναπαράσταση των κειμένων, όπως αυτή υιοθετείται από το σύστημα.

2.2.1 Η ΔΙΑΔΙΚΑΣΙΑ ΤΟΥ ΧΡΗΣΤΗ

Σε ένα σύστημα ανάκτησης ο χρήστης πρέπει να μετατρέψει την πληροφοριακή του ανάγκη, σε μορφή ερωτήματος σύμφωνα με την γλώσσα που του παρέχεται από το σύστημα. Σε ένα σύστημα ανάκτησης πληροφορίας, η παραπάνω διαδικασία ανάγεται στην επιλογή από τον χρήστη, ενός καταλλήλου συνόλου λέξεων, αντιπροσωπευτικές για τη σημασιολογία της πληροφοριακής του ανάγκης. Σε ένα σύστημα ανάκτησης δεδομένων, η διατύπωση ενός ερωτήματος, για παράδειγμα με τη χρήση μιας κανονικής έκφρασης, είναι ο καθορισμός του συνόλου των περιορισμών που θα πρέπει να ικανοποιεί το

(13)

σύνολο της απάντησης. Και στις δύο περιπτώσεις, λέμε πως ο χρήστης αναζητά χρήσιμη πληροφορία και κατά συνέπεια εκτελεί μια διαδικασία ανάκτησης.

Έστω ότι το ενδιαφέρον του χρήστη είτε δεν είναι καλά ορισμένο είτε καλύπτει ένα αρκετά ευρύ φάσμα πληροφορίας. Για παράδειγμα ο χρήστης μπορεί να ενδιαφέρεται για κείμενα σχετικά με αγώνες αυτοκινήτου. Σ’ αυτή την περίπτωση θα μπορούσε ο χρήστης απλά να διαβάζει κείμενα από μια συλλογή για αγώνες αυτοκινήτου και την ώρα εκείνη να στρέψει την προσοχή σε μια παραπομπή για οδηγίες πρόσβασης σε κάποιον αγώνα αυτοκινήτου και από εκεί για τον τουρισμό στη συγκεκριμένη περιοχή.

Σ’ αυτή την περίπτωση λέμε ότι ο χρήστης δεν ψάχνει τη συλλογή αλλά φυλλομετρά (browses) τα κείμενα της. Η φυλλομέτρηση είναι και αυτή μια διαδικασία ανάκτησης πληροφορίας, της οποίας όμως οι σκοποί δεν είναι ξεκάθαρα προσδιορισμένοι τη στιγμή της εκκίνησης και που μπορεί να μεταβληθούν κατά τη διάρκεια της αλληλεπίδρασης με το σύστημα.

Η διαδικασία χρήστη σε ένα σύστημα ανάκτησης μπορεί να λαμβάνει δύο διακριτές μορφές: ανάκτηση δεδομένων ή πληροφορίας και φυλλομέτρηση.

Τα κλασσικά συστήματα ανάκτησης πληροφορίας παρέχουν συνήθως μόνο τη δυνατότητα ανάκτησης.

Τα συστήματα Υπερκειμένου (Hypertext), είναι συνήθως κατασκευασμένα με γνώμονα την εύκολη φυλλομέτρηση. Στις μοντέρνες Ψηφιακές Βιβλιοθήκες όμως καθώς και στις Μηχανές Αναζήτησης στο Διαδίκτυο. υπάρχει προσπάθεια να συνδυαστούν οι δυο παραπάνω για την βελτίωση των δυνατοτήτων ανάκτησης.

Η παρακάτω εικόνα δείχνει την αλληλεπίδραση με το χρήστη μέσα από τις διαφορετικές διαδικασίες που αναφέραμε. Αξίζει να σημειωθεί ότι οι μορφές διαδικασίας χρήστη μπορούν να εναλλάσσονται.

Τα περισσότερα σύγχρονα συστήματα ανάκτησης πληροφορίας, παρέχουν τη δυνατότητα ανάκτησης δεδομένων και πληροφορίας. Επίσης τα περισσότερα από αυτά συνήθως παρέχουν και κάποιες στοιχειώδεις μορφές φυλλομέτρησης (συνήθως οδηγώντας μέσω υπερσυνδέσμου σε κάποια σελίδα που επιστράφηκε ως αποτέλεσμα μιας ερώτησης).

(14)

ΑΝΑΚΤΗΣΗ

ΦΥΛΛΟΜΕΤΡΗΣΗ

ΣΧΗΜΑ 2.2.1 ΑΛΛΗΛΕΠΙΔΡΑΣΗ ΤΟΥ ΧΡΗΣΤΗ ΜΕ ΤΟ ΣΥΣΤΗΜΑ ΑΠ

2.2.2 Η ΔΙΑΔΙΚΑΣΙΑ ΤΗΣ ΑΝΑΚΤΗΣΗΣ

Για να περιγράψουμε τη διαδικασία της ανάκτησης, χρησιμοποιούμε μια απλή και γενικευμένη αρχιτεκτονική λογισμικού, όπως αυτή που φαίνεται στην παρακάτω εικόνα.

Πρώτα' απ' όλα πριν καν να αρχικοποιηθεί η διαδικασία ανάκτησης, πρέπει να οριστεί η βάση δεδομένων των κειμένων.

Αυτό συνήθως γίνεται από τον υπεύθυνο της βάσης δεδομένων, οποίος ορίζει τα εξής: α) τα κείμενα που θα χρησιμοποιηθούν, β) τις πράξεις που θα εφαρμοστούν στα κείμενα γ) το μοντέλο των κειμένων (δηλαδή τη δομή των κειμένων και ποια είναι τα ανακατωμένα στοιχεία).

Από τη στιγμή που καθορίζεται η λογική αναπαράσταση των κειμένων, ο υπεύθυνος της Βάσης Δεδομένων κατασκευάζει χρησιμοποιώντας τη Μονάδα Διαχείρισης βάσης δεδομένων, το ευρετήριο (index) των κειμένων. Το ευρετήριο είναι μια πολύ κρίσιμη δομή δεδομένων, γιατί επιτρέπει αποδοτική αναζήτηση σε μεγάλο όγκο δεδομένων. Μπορεί να χρησιμοποιηθεί μεγάλη ποικιλία δομών δεικτοδότησης αλλά η πιο δημοφιλής δομή είναι αυτή των ανεστραμμένων αρχείων όπως φαίνεται και στο σχήμα 2.2.2. Τα έξοδα σε χώρο και χρόνο για τον καθορισμού της βάσης δεδομένων και την κατασκευή του ανεστραμμένου αρχείου, κατανέμονται εκτελώντας πολλά ερωτήματα πάνω στη βάση.

ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ

(15)

ΣΧΗΜΑ 2.2.2 Η ΔΙΑΔΙΚΑΣΙΑ ΤΗΣ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Δεδομένου του ότι έχουμε κατασκευάσει ευρετήριο για τη βάση δεδομένων, η διαδικασία της ανάκτησης μπορεί να ξεκινήσει. Ο χρήστης αρχικά καθορίζει μια ανάγκη χρήστη, η οποία αναλύεται συντακτικά και στην οποία εφαρμόζονται όλες οι πράξεις που εφαρμόζονται και στα κείμενα της βάσης. Στη συνέχεια πρέπει να εφαρμοστούν οι λεγόμενες πράξεις στο ερώτημα (query operations), για να προκύψει το πραγματικό ερώτημα, το οποίο αποτελεί, αναπαράσταση σε επίπεδο συστήματος, της ανάγκης, χρήστη.

Κατόπιν το ερώτημα επεξεργάζεται για να προκύψουν τα ανακτημένα κείμενα. Η επεξεργασία του ερωτήματος γίνεται γρήγορα, χάρη στο ευρετήριο, που χτίστηκε στο προηγούμενο βήμα.

Πριν παρουσιαστούν τα αποτελέσματα στο χρήστη, τα ανακτημένα κείμενα κατατάσσονται με βάση μια εκτίμηση για σχετικότητα τους. Έπειτα ο χρήστης εξετάζει το σύνολο των καταταγμένων κειμένων για να εντοπίσει χρήσιμη πληροφορία. Σ' αυτό το σημείο μπορεί να καταδείξει μια σειρά από κείμενα που είναι βέβαιο ότι ικανοποιούν την πληροφοριακή του ανάγκη και να ξεκινήσει έτσι έναν κύκλο ανάδρασης χρήστη (user feedback).

Κατά τη διάρκεια ενός τέτοιου κύκλου, το σύστημα χρησιμοποιεί τα κείμενα που επιλέχθηκαν από τον χρήστη για να

Διεπαφή χρήστη

Πράξεις στο κείμενο

Πράξεις στα

ερωτήματα Δεικτοδότηση Μονάδα

Διαχείρισης ΒΔ

Αναζήτηση Ευρετηρίου

Κατάταξη ΒΔ

Κειμένου Ανάγκη χρήστη

Λογική

Αναπαράσταση

Ανακτημένα κείμενα

Ανάδραση χρήστη

(16)

ξαναδιατυπώσει το ερώτημα, με την ελπίδα ότι το ξαναδιατυπωμένο ερώτημα είναι καλύτερη αναπαράσταση της πραγματικής ανάγκης χρήστη.

Δεδομένων των διαθέσιμων διεπαφών χρήστη που είναι διαθέσιμες στα σύγχρονα συστήματα ανάκτησης πληροφορίας (Μηχανές Αναζήτησης και Web browsers), εύκολα διαπιστώνει κανείς ότι ο χρήστης δεν διατυπώνει σχεδόν ποτέ την πραγματική του πληροφοριακή ανάγκη. Αυτό που στην πράξη συμβαίνει, είναι ο χρήστης να καλείται να παρέχει μια απευθείας διατύπωση του ερωτήματος που θα επεξεργαστεί το σύστημα. Μια και οι περισσότεροι χρήστες δεν έχουν γνώση των πράξεων που εφαρμόζονται στο κείμενο και στα ερωτήματα, το ερώτημα που παρέχουν είναι συχνά ανεπαρκώς διατυπωμένο. Γι' αυτό δεν ξενίζει το γεγονός ότι ελλιπώς διατυπωμένα ερωτήματα, οδηγούν σε κακή ανάκτηση πληροφορίας (όπως συμβαίνει συχνά στο Διαδίκτυο).

2.3 ΑΝΑΚΤΗΣΗ ΚΑΙ ΑΚΡΙΒΕΙΑ

Έστω Ι μία πρότυπη πληροφοριακή ανάγκη (σε μία συλλογή κειμένων αναφοράς) και R. το σύνολο των σχετικών της κειμένων.

Έστω επίσης |R| ο αριθμός των κειμένων στο σύνολο R.

Υποθέστε ότι μία δοσμένη στρατηγική ανάκτησης (της οποίας η απόδοση εκτιμάται) επεξεργάζεται την πληροφοριακή ανάγκη Ι και παράγει ένα σύνολο κειμένων απάντησης Α. Έστω |Α| ο αριθμός των κειμένων στο σύνολο Α και έστω |Rα| ο αριθμός των κειμένων που είναι κοινά στα σύνολα R και Α. Τότε οι μετρικές ανάκληση (recall) και ακρίβεια (precision) ορίζονται ως εξής:

 Ανάκληση (Recall), είναι το ποσοστό των σχετικών κειμένων (σύνολο R)που έχει ανακτηθεί,

Ανάκληση=Ra/R

 Ακρίβεια (Precision), είναι το ποσοστό των ανακτηθέντων κειμένων (σύνολο Α) που είναι σχετικό

Ακρίβεια=Ra/A

Η ακρίβεια και η ανάκληση, όπως έχουν οριστεί, υποθέτουν ότι όλα τα κείμενα στο σύνολο απάντησης Α έχουν εξετασθεί από τον χρήστη.

Εντούτοις, ο χρήστης συνήθως δεν βλέπει όλα τα κείμενα του συνόλου απάντησης Α αμέσως, αλλά αντίθετα τα κείμενα του Α εμφανίζονται σε αυτόν ένα προς ένα διατεταγμένα με βάση το βαθμό σχετικότητας τους με την πληροφοριακή ανάγκη Ι (η διάταξη και ο βαθμός σχετικότητας παράγονται από τον αλγόριθμο ανάκτησης, άρα αποτελούν και αυτά αντικείμενα προς

(17)

εκτίμηση απόδοσης). Στην περίπτωση αυτή οι μετρικές ανάκλησης και ακρίβειας μεταβάλλονται καθώς ο χρήστης εξετάζει τα διάφορα κείμενα της ανακατωμένης συλλογής (από τα περισσότερο σχετικά προς τα λιγότερο σχετικά). Συνεπώς πλήρης εκτίμηση απόδοσης απαιτεί την σχεδίαση ενός διαγράμματος ακρίβειας/ ανάκλησης.

Η εκτίμηση απόδοσης ανάκτησης συστημάτων-ανάκτησης πληροφορίας γίνεται με την πραγματοποίηση διάφορων ερωτήσεων από το σύνολο των προτύπων πληροφοριακών αναγκών την σχεδίαση ατομικών διαγραμμάτων για κάθε ερώτημα και στη συνέχεια τη δημιουργία ενός συνολικού διαγράμματος όπου οι συντεταγμένες κάθε σημείου θα προκύπτουν ως ο μέσος όρος των αντίστοιχων σημείων στα ατομικά διαγράμματα για κάθε ερώτημα.

P 1

1 R

ΣΧΗΜΑ 1.3 ΑΚΡΙΒΕΙΑ / ΑΝΑΚΛΗΣΗ

Τα διαγράμματα ακρίβειας / ανάκλησης θεωρούνται ως μία από τις κλασσικές στρατηγικές εκτίμησης της απόδοσης ανάκλησης ενός συστήματος ανάκτησης πληροφορίας και χρησιμοποιούνται εκτεταμένα στην βιβλιογραφία των συστημάτων ανάκτησης. Τα διαγράμματα αυτά είναι χρήσιμα επειδή μας επιτρέπουν να εκτιμήσουμε ποσοτικά τόσο την ποιότητα του ανακατωμένου συνόλου κειμένων όσο και το εύρος του αλγορίθμου ανάκτησης.

Επιπλέον είναι απλά στην κατανόηση και μπορούν να συνοψιστούν και εύκολα με τη χρήση μίας απλής αριθμητικής τιμής.

2.4 ΜΟΝΤΕΛΟΠΟΙΗΣΗ

Η πιο συνηθισμένη πρακτική[4] για την δεικτοδότηση και την ανάκτηση κειμένων είναι η χρήση των όρων δεικτοδότησης (index terms). Ένας όρος δεικτοδότησης είναι μια λέξη κλειδί ή μια ομάδα εννοιολογικά συσχετιζόμενων λέξεων, η εμφάνιση των οποίον λαμβάνει από μόνη της μία αυτόνομη έννοια (π.χ. Computer

(18)

algorithm). Κατά μια πιο απλοποιημένη εκδοχή, ένας όρος δεικτοδότησης είναι απλά μια λέξη που εμφανίζεται σε ένα κείμενο της συλλογής. Η ανάκτηση που βασίζεται στο ταίριασμα όρων δεικτοδότησης ερωτήματος και κειμένων της συλλογής, είναι πολύ απλή αλλά εισάγει ένα σύνολο προβληματισμών για την αποτελεσματικότητα της. Για παράδειγμα, η βασική υπόθεση που εισάγει η παραπάνω στρατηγική, είναι ότι η σημασιολογία τόσο των κειμένων όσο και της πληροφοριακής ανάγκης του χρήστη, μπορεί να εκφραστεί με φυσικό τρόπο, μέσα από ένα σύνολο λέξεων. Στην πράξη ένα σημαντικό κομμάτι από τη σημασιολογία του κειμένου χάνεται κατά τη μεταφορά στο χώρο του ευρετηρίου.

Ο λόγος γι' αυτήν την απώλεια είναι ότι οι λέξεις αποκτούν την ερμηνεία τους ανάλογα με το πλαίσιο συμφραζομένων στο οποίο εμφανίζονται. Από αυτή την παρατήρηση πηγάζουν δυο φαινόμενα, η πολυσημία και η συνωνυμία. Στην πολυσημία, έχουμε το φαινόμενο ο ίδιος όρος να λαμβάνει διαφορετικές έννοιες ανάλογα με τα συμφραζόμενα. Έχοντας υπόψη μας τα παραπάνω προβλήματα και με δεδομένο ότι η διαδικασία της αντιστοίχησης του ερωτήματος στη συλλογή των κειμένων, γίνεται στο χώρο του ευρετηρίου, μπορούμε να κατανοήσουμε γιατί συχνά τα αποτελέσματα μιας ερώτησης διατυπωμένης με λέξεις- κλειδιά δεν είναι τα αναμενόμενα. Αν μάλιστα λάβουμε υπόψη μας και το γεγονός ότι πολλοί χρήστες δεν είναι σε θέση να επιλέξουν τις κατάλληλες λέξεις-κλειδιά για τον σχηματισμό ερωτήσεων, το πρόβλημα μεγαλώνει. Ένα καλό παράδειγμα του παραπάνω προβλήματος είναι τα απογοητευτικά αποτελέσματα σε πολλά από τα ερωτήματα που υποβάλλονται σε μια Μηχανή Αναζήτησης στο Διαδίκτυο (όπου και μεγάλο μέρος των χρηστών είναι χωρίς μεγάλη εμπειρία στο σχηματισμό ερωτήσεων). Η πρόκληση για ένα μοντέλο για ανάκτησης πληροφορίας, είναι να δημιουργήσει το υπόβαθρο, ώστε να υπάρξει ταίριασμα της πληροφοριακής ανάγκης χρήστη με τα κείμενα της συλλογής, παρά την ανακριβή αναπαράσταση και με όσο το δυνατόν μικρότερες αποκλίσεις που συνοδεύουν την εμφάνιση του. Στην συνωνυμία. διαφορετικοί όροι μπορούν να περιγράφουν την ίδια έννοια γιατί εμφανίζονται στα ίδια πλαίσια συμφραζομένων. Για παράδειγμα η έννοια

‛αυτοκίνητο’, μπορεί να περιγράφεται ισοδύναμα από τις λέξεις: ‛αυτοκίνητο’, ‛αμάξι’, προβλήματα που συνδέονται με τον τρόπο λογικής αναπαράστασης των κειμένων μέσω ευρετηρίου.

Έχοντας υπόψη μας τα προβλήματα και με δεδομένο ότι η διαδικασία της αντιστοίχησης του ερωτήματος στη συλλογή των κειμένων, γίνεται στο χώρο του ευρετηρίου, μπορούμε να κατανοήσουμε γιατί συχνά τα αποτελέσματα μιας ερώτησης

(19)

διατυπωμένης με λέξεις-κλειδιά δεν είναι τα αναμενόμενα. Αν μάλιστα λάβουμε υπόψη μας και το γεγονός ότι πολλοί χρήστες δεν είναι σε θέση να επιλέξουν τις κατάλληλες λέξεις-κλειδιά για τον σχηματισμό ερωτήσεων, το πρόβλημα μεγαλώνει. Ένα καλό παράδειγμα του παραπάνω προβλήματος είναι τα απογοητευτικά αποτελέσματα σε πολλά από τα ερωτήματα που υποβάλλονται σε μια Μηχανή Αναζήτησης στο Διαδίκτυο (όπου και μεγάλο μέρος των χρηστών είναι χωρίς μεγάλη εμπειρία στο σχηματισμό ερωτήσεων). Η πρόκληση για ένα μοντέλο ανάκτηση πληροφορίας, είναι να δημιουργήσει το υπόβαθρο, ώστε να υπάρξει ταίριασμα της πληροφοριακής ανάγκης χρήστη με τα κείμενα της συλλογής, παρά την ανακριβή αναπαράσταση και με όσο το δυνατόν μικρότερες αποκλίσεις.

Στο πνεύμα της ανάκτησης πληροφορίας, ταίριασμα σημαίνει εκτίμηση από το σύστημα, της σχετικότητας των

κειμένων ως προς το

ερώτημα. Μια τέτοια εκτίμηση επιτυγχάνεται με την χρήση ενός αλγορίθμου κατάταξης (ranking), με βάση τον οποίο, γίνεται μια απλή διάταξη των κειμένων Τα κείμενα που εμφανίζονται στης πρώτες θέσεις αυτής της διάταξης, θεωρούνται ως το πιο πιθανό να είναι σχετικά με την ερώτηση, με την πιθανότητα να φθίνει, όσο εξετάζουμε τη διάταξη προς τις χαμηλότερες θέσεις. Οι αλγόριθμοι κατάταξης έχουν ζωτική σημασία σε ένα σύστημα ανάκτησης πληροφορίας. Συνεπώς μια βασική λειτουργία του μοντέλου είναι να παρέχει έναν αλγόριθμο κατάταξης για κάθε ερώτημα που υποβάλλεται.

Ο τρόπος θεώρησης της λογικής αναπαράστασης των κειμένων και η συσχέτιση του με τον αλγόριθμο κατάταξης, είναι το βασικό χαρακτηριστικό που διαφοροποιεί τα μοντέλα ανάκτησης πληροφορίας. Στο κεφάλαιο αυτό εξετάζουμε μια κατηγοριοποίηση των μοντέλων, κάποιους τυπικούς ορισμούς και τέλος παρουσιάζουμε τα κυριότερα μοντέλα ανάκτησης πληροφορίας.

2.4.1 ΕΙΔΗ ΜΟΝΤΕΛΩΝ

Τα τρία κλασσικά μοντέλα στην Ανάκτηση Πληροφορίας είναι το Boolean, το Vector Space και το Πιθανοτικό.

Στο μοντέλο Boolean, τόσο τα κείμενα όσο και τα ερωτήματα αντιμετωπίζονται ως ένα σύνολο από όρους δεικτοδότησης. Κατά συνέπεια το μοντέλο μπορεί να θεωρηθεί ως σύνολο θεωρητικό.

Στο Vector Space, τα κείμενα και τα ερωτήματα αναπαρίστανται ως διανύσματα σε έναν t-διάστατο χώρο. Έτσι λέμε ότι το μοντέλο

(20)

είναι αλγεβρικό.

Το Πιθανοτικό μοντέλο, εισάγει έναν τρόπο αναπαράστασης, ο οποίος βασίζεται στην πιθανοθεωρία. Κατά συνέπεια το μοντέλο είναι πιθανοτικού χαρακτήρα.

Εκτός από την χρήση του περιεχομένου των κειμένων, ορισμένα μοντέλα εκμεταλλεύονται και την εσωτερική δομή που φυσιολογικά υπάρχει στο γραπτό λόγο. Σε αυτή την περίπτωση λέμε ότι έχουμε ένα δομημένο μοντέλο. Για τη δομημένη ανάκτηση κειμένου, συναντούμε δύο μοντέλα, τις μη επικαλυπτόμενες λίστες (non-overlapping lists) και τους κοντινούς κόμβους (proximal nodes).

Η διαδικασία του χρήστη μπορεί εκτός από αναζήτηση να έχει μορφή φυλλομέτρησης. Σε αυτή την κατηγορία εντοπίζουμε τρία μοντέλα για φυλλομέτρηση: επίπεδη (flat), καθοδηγούμενη από τη δομή (structure guided), φύλλομέτρηση υπερκειμένου (hypertext browsing).

ΣΧΗΜΑ 2.4.1 ΤΑΞΙΝΟΜΗΣΗ ΤΩΝ ΜΟΝΤΕΛΩΝ ΑΝΑΚΤΗΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

2.4.1.1 ΤΟ BOOLEAN ΜΟΝΤΕΛΟ

To Boolean μοντέλο, είναι ένα απλό μοντέλο ανάκτησης πληροφορίας που βασίζεται σε θεωρία συνόλων και άλγεβρα Boole. Το υπόβαθρο του είναι εύληπτο και ταυτόχρονα κομψό και καλά ορισμένο στη βάση της άλγεβρας συνόλων. Τα ερωτήματα μπορούν να αναπαρασταθούν με σαφή τρόπο, με χρήση άλγεβρας Boole. Συγκεκριμένα στο Boolean μοντέλο, κάθε όρος δεικτοδότησης θεωρείται ότι ανήκει εξ' ολοκλήρου ή δεν ανήκει σε

BOOLEAN VECTOR SPACE ΠΙΘΑΝΟΤΙΚΟ ΚΛΑΣΣΙΚΆ ΜΟΝΤΈΛΑ

ΔΟΜΗΜΕΝΑ ΜΟΝΤΕΛΑ ΜΗ ΕΠΙΚΑΛΥΠΤΟΜΕΝΕΣ ΛΙΣΤΕΣ ΚΟΝΤΙΝΟΙ ΚΟΜΒΟΙ

ΦΥΛΛΟΜΕΤΡΗΣΗ ΕΠΙΠΕΔΗ

ΚΑΘΟΔΗΓΟΥΜΕΝΗ ΑΠΟ ΔΟΜΗ ΥΠΕΡΚΕΙΜΕΝΟΥ

ΑΝΑΚΤΗΣΗ AD-HOC ΦΙΛΤΡΑΡΙΣΜΑ

ΦΥΛΛΟΜΕΤΡΗΣΗ ΔΙΑΔΙΚΑΣΙΑ

ΧΡΗΣΤΗ

ΑΣΑΦΕΣ(FUZZY) ΕΠΕΚΤΑΜΕΝΟ BOOLEAN

ΣΥΝΟΛΟΘΕΩΡΗΤΙΚΟ

ΓΕΝΙΚΕΥΜΕΝΟ VECTOR SPACE

ΛΑΝΘ.ΣΗΜΑΣ.ΔΕΙΚΤΟΔ ΟΤΗΣΗ

ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΑΛΓΕΒΡΙΚΟ

ΔΙΚΤΥΑ

ΕΞΑΓ.ΣΥΜΠΕΡΑΣΜΑΤΟΣ ΔΙΚΤΥΑΠΕΠΟΙΘΗΣΗΣ ΠΙΘΑΝΟΤΙΚΟ

(21)

ένα κείμενο. Κατά συνέπεια τα βάρη θεωρούνται δυαδικά, δηλαδή wi,j Ε {0,1},το κάθε ερώτημα θεωρείται ότι αποτελείται από όρους δεικτοδότησης οι οποίο συνδέονται με έναν από τους τελεστές and, or, not.

Τα κύρια πλεονεκτήματα Boolean μοντέλου είναι ο φορμαλισμός του και η απλότητα του. Το κύριο μειονέκτημα του είναι ότι δεν υπάρχει διαβάθμιση σχετικότητας ως προς το ερώτημα κάτι που μπορεί να οδηγήσει σε χαμηλής ποιότητας ανάκτηση πληροφορίας. Ένα δεύτερο μειονέκτημα του είναι ότι συχνά δεν είναι εύκολη η έκφραση της πληροφορικής ανάγκης του χρήστη με τον φορμαλισμό που επιβάλλει το Boolean μοντέλο (με Boolean άλγεβρα). Η πληροφοριακή ανάγκη μπορεί να έχει τόσο συγκεκριμένη μορφή, όταν για παράδειγμα ψάχνουμε σε μια βιβλιοθήκη για ένα περιοδικό. Τότε αρκεί να εισάγουμε τον τίτλο του και να ανακτήσουμε τις ανάλογες εγγραφές. Λόγω αυτόν των χαρακτηριστικών του, το Boolean μοντέλο έχει βρει εφαρμογή σε εμπορικά κυρίως συστήματα βιβλιοθηκών.

2.4.1.2 ΤΟ VECTOR SPACE ΜΟΝΤΕΛΟ

Το μοντέλο Vector Space [6], αντιμετωπίζει την ανεπάρκεια της ανάθεσης δυαδικών βαρών και εισάγει ένα υπόβαθρο στο οποίο επιτρέπεται προσεγγιστικό ταίριασμα. Τα βάρη που ανατίθενται στους όρους δεικτοδότησης, τόσο για τα κείμενα όσο και για τα ερωτήματα είναι μη δυαδικά και χρησιμοποιούνται για τον υπολογισμό του βαθμού ομοιότητας μεταξύ του ερωτήματος και κάθε αποθηκευμένου κειμένου.

Κατόπιν τα κείμενα διατάσσονται με φθίνουσα σειρά, με κριτήριο τον βαθμό ομοιότητας τους με το ερώτημα του χρήστη. Έτσι στο μοντέλο Vector Space λαμβάνονται υπόψη και κείμενα που ικανοποιούν μερικώς τις συνθήκες του ερωτήματος και το τελικό αποτέλεσμα είναι πολύ πιο ακριβές σε σχέση με την Boolean ανάκτηση.

Τα κύρια πλεονεκτήματα του μοντέλου Vector Space, είναι τα εξής:

1) το σχήμα υπολογισμού βαρών που χρησιμοποιεί, βελτιώνει την απόδοση της ανάκτησης,

2) η στρατηγική προσεγγιστικού ταιριάσματος επιτρέπει την ανάκτηση κειμένων που προσεγγίζουν τις συνθήκες του ερωτήματος,

3) ο τρόπος του υπολογισμού της κατάταξης με βάση το συνημίτονο: α) επιτρέπει την ταξινόμηση των κειμένων βάσει του βαθμού ομοιότητας τους με την ερώτηση β) υλοποιείται εύκολα με τις υπάρχουσες δομές δεικτοδότησης.

Referências

Documentos relacionados

Η ιδέα ότι μια μέρα θα έπαιζα στην Ορχήστρα του Θεοδωράκη, μπο- ρώ να πω ότι δεν είχε περάσει από τον νου μου, αλλά έγινε κι αυτή η συνεργασία [με τον Θεοδωράκη] και προέκυψε το βιβλίο: