• Nenhum resultado encontrado

Δημιουργία αποθήκης δεδομένων και διαχείριση αυτής με την βοήθεια ηλεκτρονικών πρακτόρων

N/A
N/A
Protected

Academic year: 2023

Share "Δημιουργία αποθήκης δεδομένων και διαχείριση αυτής με την βοήθεια ηλεκτρονικών πρακτόρων"

Copied!
134
0
0

Texto

(1)

Θέμα:

Δημιουργία Αποθήκης Δεδομένων και η Διαχείριση αυτής με την Βοήθεια

Ηλεκτρονικών Πρακτόρων.

Εισηγητής Χατζής Βασίλειος

Σπουδάστρια

Πολίτου Ουρανία

(2)

ΠΕΡΙΕΧΟΜΕΝΑ

ΚΕΦΑΛΑΙΟ 1 ... 1

Γιατί εφαρμόζουμε την εξόρυξη δεδομένων; Γιατί είναι σημαντική. ... 1

Έτσι, τι είναι εξόρυξη δεδομένων; ... 6

Εξόρυξη Δεδομένων. Σε ποιο είδος Δεδομένων; ... 12

Σχεσιακές βάσεις δεδομένων ... 13

Το Σχεσιακό Μοντέλο Δεδομένων ... 13

Έννοιες του Σχεσιακού Μοντέλου Δεδομένων ... 13

Πεδία Ορισμού, Πλειάδες, Γνωρίσματα Και Σχέσεις ... 14

Χαρακτηριστικά των Σχέσεων ... 17

Διάταξη των πλειάδων σε μια σχέση ... 17

Διάταξη των Τιμών μέσα σε μια Πλειάδα και Εναλλακτικός Ορισμός της σχέσης. 18 Ερμηνεία μιας σχέσης ... 20

Συμβολισμοί Του Σχεσιακού Μοντέλου ... 21

Αποθήκες δεδομένων ... 21

Βάσεις Δεδομένων Κινήσεων ... 24

Προηγμένα συστήματα βάσεων δεδομένων και προηγμένες εφαρμογές βάσεων δεδομένων ... 26

Αντικειμενοστραφείς βάσεις δεδομένων ... 26

Αντικειμενο-σχεσιακές βάσεις δεδομένων ... 27

Χωρικές (spatial) βάσεις δεδομένων ... 28

Χρονικές βάσεις δεδομένων και Τime-Series βάσεις δεδομένων ... 29

Βάσεις δεδομένων κειμένων και βάσεις δεδομένων πολυμέσων ... 29

Ετερογενείς βάσεις δεδομένων και Legacy βάσεις δεδομένων ... 31

Το World Wide Web ... 32

Λειτουργία Εξόρυξη Δεδομένων. Ποια είδη προτύπων μπορούν να εξαχθούν; ... 33

Περιγραφή έννοιας/ κατηγορίας: Χαρακτηρισμός και διάκριση ... 33

Ανάλυση συσχετίσεων ... 36

Ταξινόμηση και πρόβλεψη ... 38

Ανάλυση συμπλέγματος [cluster] ... 39

Outlier ανάλυση ... 40

Ανάλυση εξέλιξης ... 41

Είναι όλα τα πρότυπα ενδιαφέροντα; ... 42

Ταξινόμηση των συστημάτων εξόρυξης δεδομένων ... 44

Μερικά σημαντικά ζητήματα στην εξόρυξη δεδομένων ... 47

Μεθοδολογίες εξόρυξης και ζητήματα αλληλεπίδρασης χρηστών: ... 47

• Εξόρυξη διαφορετικών ειδών γνώσης στις βάσεις δεδομένων: ... 47

• Διαλογική εξόρυξη της γνώσης σε πολλαπλά επίπεδα αφαίρεσης: ... 48

• Ενσωμάτωση της γνώσης υποβάθρου: ... 48

• Γλώσσες διατύπωσης ερωτήσεων εξόρυξης δεδομένων και η ειδική εξόρυξη δεδομένων: ... 48

• Παρουσίαση και απεικόνιση των αποτελεσμάτων της εξόρυξης δεδομένων: ... 49

• Διαχείριση θορυβωδών και ελλιπών στοιχείων: ... 49

• Αξιολόγηση των προτύπων και το πρόβλημα του ενδιαφέροντος των προτύπων: 49 Ζητήματα απόδοσης: ... 50

(3)

• Αποδοτικότητα και εξελιξιμότητα των αλγορίθμων εξόρυξης δεδομένων: ... 50

• Παράλληλοι, διανεμημένοι, επαυξημένοι αλγόριθμοι εξόρυξης: ... 50

Ζητήματα σχετικά με την ποικιλομορφία των τύπων βάσεων δεδομένων: ... 51

• Χειρισμός των σχεσιακών και σύνθετων τύπων δεδομένων: ... 51

• Εξόρυξη πληροφορίας από ετερογενείς βάσεις δεδομένων και πληροφοριακά συστήματα ευρείας περιοχής: ... 51

ΚΕΦΑΛΑΙΟ 2 ... 52

ΜΕΘΟΔΟΛΟΓΙΑ ΤΗΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΟΥ ΚΑΙ ΤΗΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΣΕ ΧΡΟΝΟΣΕΙΡΕΣ ... 52

Πρώτο παράδειγμα ανάλυσης δεδομένων. ... 52

ΜΟΝΤΕΛΑ Box-Jenkins seasonal ARIMA ... 56

Δεύτερο παράδειγμα ανάλυσης δεδομένων. ... 58

ΠΡΟΣΕΤΑΙΡΙΣΤΙΚΟΙ ΚΑΝΟΝΕΣ ... 59

Προεπεξεργασία Δεδομένων ... 60

Παραγωγή των Κανόνων Ένωσης ... 60

Μετά-επεξεργασία των καθορισμένων κανόνων ένωσης ... 60

ΣΥΜΠΕΡΑΣΜΑΤΑ ... 61

ΒΙΒΛΙΟΓΡΑΦΙΑ ... 62

ΠΑΡΑΡΤΗΜΑ Α ... 64

Εισαγωγή... 65

Έννοια Χρονολογικής Σειράς ... 65

Χρονολογικές σειρές και προβλέψεις ... 66

Αιτιατά Υποδείγματα Πρόβλεψης: Πολυμεταβλητή Παλινδρόμηση ... 67

Μη αιτιατά υποδείγματα πρόβλεψης: υποδείγματα Χρονολογικών Σειρών ... 67

Παραδείγματα Χρονολογικών Σειρών ... 69

Καθοριστικά Υποδείγματα Χρονολογικών Σειρών ... 73

Ειδικά μαθηματικά υποδείγματα ... 73

Υποδείγματα Κινητών Μέσων Όρων ... 73

Κινητοί Μέσοι Όροι Εκθετικής Στάθμισης ... 74

Υποδείγματα Τάσης ... 75

Υποδείγματα Διαχωρισμού σε Επιμέρους Συνιστώσες ... 76

Άλλες Μέθοδοι ... 76

Ανακεφαλαίωση ... 77

ΣΤΟΧΑΣΤΙΚΗ ΔΙΑΔΙΚΑΣΙΑ ... 78

ΣΤΑΣΙΜΟΤΗΤΑ ... 79

Αυτοσυνδιακύμανση και Αυτοσυσχέτιση ... 79

Συνάρτηση Αυτοσυσχέτισης (correlogram) ... 80

Μερική Αυτοσυσχέτιση ... 81

Τυχαία Χρονολογική Σειρά (Λευκός Θόρυβος) ... 81

Υπόδειγμα Τυχαίας Διαδρομής... 82

Αυτοπαλίνδρομα Υποδείγματα, AR ... 82

Αυτοπαλίνδρομο Υπόδειγμα Πρώτης τάξης AR(1) ... 82

Τελεστής Υστέρησης ... 83

Αυτοπαλίνδρομο Υπόδειγμα Δευτέρας Τάξεως, AR(2) ... 83

Αυτοπαλίνδρομο υπόδειγμα AR(p) Τάξεως ... 83

Συναρτήσεις Αυτοσυσχέτισης για Υποδείγματα Μορφής AR ... 83

(4)

Υποδείγματα Κινητών Μέσων ... 84

Αντιστρεψιμότητα ... 84

Υποδείγματα MA(q) και Αυτοσυσχετίσεις ... 85

Μικτά υποδείγματα: Αυτοπαλίνδρομα Κινητών Μεσών, ARMA ... 85

Παραδείγματα Χρονολογικών Σειρών ... 87

Α. Υποδείγματα μορφής AR ... 87

Θεωρητικές συναρτήσεις αυτοσυσχέτισης μορφής AR(1) ... 87

Β. Υποδείγματα μορφής ΜΑ ... 88

Γ. Υποδείγματα μορφής ARMA ... 88

Μεθοδολογία Box-Jenkins και Προβλέψεις j ΑΑΙΜΑ Υποδειγμάτων ... 88

Ταυτοποίηση ARIMA Υποδειγμάτων ... 90

Εκτίμηση ARIMA Υποδειγμάτων ... 92

Διαγνωστικός Έλεγχος ... 94

Κριτήρια Επιλογής Υποδειγμάτων ... 96

Προβλέψεις με AR και ΜΑ Υποδείγματα ... 98

Προβλέψεις με ΜΑ(1) υποδείγμοτα: ... 101

Προβλέψεις με ARMA(1, 1) υποδείγματα: ... 103

Προβλέψεις με ΑRΜΑ και ARIMA υποδείγματα ... 104

Διαστήματα Εμπιστοσύνης της Πρόβλεψης ... 105

Μέτρα Αξιολόγησης Προβλέψεων ... 105

Άλλα Υποδείγματα ... 107

Παράδειγμα υποδείγματος ARIMA ... 108

ΝΤΕΤΕΡΜΙΝΙΣΤΙΚΟ ΧΑΟΣ ... 116

Μη γραμμικό δυναμικό σύστημα ... 117

CHAOS (χάος) ... 118

Διάσταση του χάους ... 119

Συσχέτιση διάστασης ... 120

Κλασματική Διάσταση ... 121

Τάξη Πίνακα Δεδομένων ... 122

Επίδραση του Φιλτραρίσματος στη Διάσταση ... 123

Το Χάος ως Μοντέλο Σήματος ... 123

ΠΑΡΑΡΤΗΜΑ Β ... 125

(5)

ΚΕΦΑΛΑΙΟ 1

Σε αυτό το κεφάλαιο θα κάνουμε μια εκτενή παρουσίαση για την εξόρυξη δεδομένων. Σκοπός μας είναι να παρουσιάσουμε πως από μια βάση δεδομένων εμείς μπορούμε με τις τεχνικές εξόρυξης δεδομένων να ανακαλύψουμε ενδιαφέροντα πρότυπα τα οποία κρύβονται στα μεγάλα σύνολα δεδομένων. Οι μέθοδοι που παρουσιάζονται στο πρώτο κεφάλαιο είναι προσανατολισμένες για την ανάπτυξη εξελίξιμων και αποδοτικών εργαλείων εξόρυξης δεδομένων. Επίσης θα παρουσιάσουμε το γιατί η εξόρυξη δεδομένων είναι σημαντική και πως καθορίζεται. Τέλος θα παρουσιάσουμε τη γενική αρχιτεκτονική των συστημάτων εξόρυξης δεδομένων όπως επίσης και θα αναλυθούν σε τι είδη δεδομένων μπορούν αυτά να εφαρμοστούν.

Γιατί εφαρμόζουμε την εξόρυξη δεδομένων; Γιατί είναι σημαντική.

Η ανάγκη της ανάπτυξης των τεχνικών εξόρυξης δεδομένων τον τελευταίο καιρό έχει γίνει επιτακτική στη βιομηχανία της πληροφόρησης επειδή υπάρχει τεράστια ποσότητα δεδομένων διαθέσιμη και χρειαζόμαστε να αντλήσουμε από αυτήν χρήσιμες πληροφορίες και γνώση. Οι πληροφορίες και η γνώση που λαμβάνονται μπορούν να χρησιμοποιηθούν για τις εφαρμογές που κυμαίνονται από την επιχειρησιακή διαχείριση, τον έλεγχο παραγωγής, και την ανάλυση αγοράς, ως την δημιουργία σχεδίων εφαρμοσμένης μηχανικής και την εξερεύνηση επιστήμης.

Η εξόρυξη δεδομένων μπορεί να αντιμετωπισθεί ως αποτέλεσμα της φυσικής εξέλιξης της τεχνολογίας πληροφοριών. Μια εξελικτική πορεία έχει παρατηρηθεί στη βιομηχανία βάσεων δεδομένων στην ανάπτυξη των ακόλουθων λειτουργιών (στο σχήμα που ακολουθεί): Δημιουργία συλλογής δεδομένων και βάσεων δεδομένων, διαχείριση στοιχείων (συμπεριλαμβανομένης της αποθήκευσης στοιχείων, της ανάκτησης, και της επεξεργασίας των SQL εντολών σε μια βάση δεδομένων), και της ανάλυσης δεδομένων και κατανόησης (περιλαμβάνοντας την αποθήκευση δεδομένων και την εξόρυξη δεδομένων). Παραδείγματος χάριν, αρχικά δόθηκε έμφαση στη δημιουργία συλλογών δεδομένων, το οποίο είχε συνεπακόλουθο την δημιουργία μηχανισμών που χρησίμευαν για την αποτελεσματική αποθήκευση και ανάκτηση δεδομένων. Επίσης αναπτύχθηκαν η δημιουργία σύνθετων ερωτήσεων και η επεξεργασία για την διεκπεραίωση των διαφόρων εντολών. Σαν φυσική εξέλιξη στα συστήματα βάσεων δεδομένων που προσφέρουν τα

(6)

παραπάνω στοιχεία το επόμενο βήμα ήταν να αναπτυχθεί η ανάλυση δεδομένων και κατανόησή τους.

Από τη δεκαετία του '60, η βάση δεδομένων και η τεχνολογία πληροφοριών έχουν εξελιχθεί συστηματικά από τα πρωτόγονα συστήματα επεξεργασίας αρχείων στα περίπλοκα και ισχυρά συστήματα βάσεων δεδομένων. Η έρευνα και η ανάπτυξη στα συστήματα βάσεων δεδομένων από τη δεκαετία του '70 έχουν προχωρήσει από τα αρχικά ιεραρχικά και δικτυακά συστήματα βάσεων δεδομένων στην ανάπτυξη των σχεσιακών συστημάτων βάσεων δεδομένων (όπου τα στοιχεία αποθηκεύονται σε δομές σχεσιακών πινάκων), τα εργαλεία μορφοποίησης δεδομένων, και τις τεχνικές οργάνωσης ,ευρετηρίασης και των δεδομένων. Οι χρήστες πλέον έχουν στη διάθεσή τους ισχυρά και ευέλικτα εργαλεία για την πρόσβαση στα δεδομένα μέσω των γλωσσών διατύπωσης ερωτημάτων. Επίσης λειτουργικά και εύχρηστα συστήματα διεπαφής καθώς και συστήματα βελτιστοποίησης των συστημάτων διατύπωσης των ερωτήσεων. Εδώ θα πρέπει επίσης να αναφέρουμε ότι η διαδικασία ενημέρωσης κινήσεων σε μια σχεσιακή βάση δεδομένων έχει αναπτυχθεί πολύ. Αποδοτικές μέθοδοι για την σε πραγματικό χρόνο σύνδεση με το σύστημα ενημέρωσης κινήσεων της βάσης δεδομένων έχουν αναπτυχθεί. Αυτοί οι μέθοδοι δίνουν την δυνατότητα στον χρήστη βλέποντας τα ερωτήματα αναζήτησης σαν μια κίνηση μόνο ανάγνωσης, για την καλύτερη και αποδοτικότερη αποθήκευση, ανάκτηση και την διαχείριση μεγάλων ποσοτήτων δεδομένων. Τα παραπάνω κατέστησαν την τεχνολογία των σχεσιακών βάσεων δεδομένων μια από τις πιο διαδεδομένες.

(7)

Συλλογή δεδομένων και δημιουργία βάσεων δεδομένωνδεκαετία του '60και νωρίτερα)

-Πρωτόγονη επεξεργασία αρχείων

Συστήματα διαχείρισης βάσεων δεδομένων (δεκαετία του '70-πρόωρος η δεκαετία του '80)

- Συστήματα ιεραρχικών και βάσεων δεδομένων δικτύων - Συστήματα σχεσιακών και βάσεων δεδομένων δικτύων

- Εργαλεία διαμόρφωσης στοιχείων: πρότυπο οντότητα- σχέσης, κτλ.

- Τεχνικές ευρετηρίασης και οργάνωσης στοιχείων:

Β+-tree, hashing , etc..

- Γλώσσες διατύπωσης ερωτήσεων: SQL, etc.

- Ενδιάμεσα με τον χρήστη, μορφές και εκθέσεις - Επεξεργασία ερώτησης και βελτιστοποίηση ερώτησης - Διαχείριση συναλλαγής: αποκατάσταση,

έλεγχος συναγωνισμού, κλπ.

- Σε απευθείας σύνδεση επεξεργασία κατά δοσοληψία (OLTP)

Προηγμένα συστήματα βάσεων δεδομένων

(μέσος-δεκαετία του '80-παρόν) -Προηγμένα πρότυπα στοιχείων:

επεκτεινο-συγγενικός, αντικειμενοστραφής, αντικειμενο-συγγενικός, παραγωγικός

- Προσανατολισμένος στις εφαρμογές:

χωρικός, χρονικός,

πολυμέσα, ενεργός, επιστημονικά, βάσεις γνώσεων

Βασισμένα στο WEB συστήματα βάσεων δεδομένων

(δεκαετία του '90-παρόν)

-XML -βασισμένα συστήματα βάσεων δεδομένων

-Μεταλλεία Ιστού

Αποθήκευση στοιχείων και ανάσυρση δεδομένων (πρόσφατο δεκαετία του '80-παρόν)

- Αποθήκη εμπορευμάτων στοιχείων και τεχνολογία OLAP

- Ανακάλυψη ανάσυρσης δεδομένων και γνώσης

Νέα γενεά των ενσωματωμένων συστημάτων πληροφοριών (2000-…)

(8)

Η τεχνολογία βάσεων δεδομένων από τα μέσα της δεκαετίας του '80 έχει χαρακτηριστεί από την υιοθέτηση της δημοφιλούς σχεσιακής τεχνολογίας και μια άνοδο των δραστηριοτήτων έρευνας και ανάπτυξης στα νέα και ισχυρά συστήματα βάσεων δεδομένων. Αυτή χρησιμοποιεί τα προηγμένα μοντέλα δεδομένων όπως αντικειμενοστραφή, αντικειμενο-σχεσιακά, και παραγωγικά πρότυπα. Τα προσανατολισμένα στις εφαρμογές συστήματα βάσεων δεδομένων, συμπεριλαμβανομένων των χωρικών, χρονικών, πολυμέσων, των ενεργών, και επιστημονικών βάσεων δεδομένων, των βάσεων γνώσεων, και των βάσεων πληροφοριών γραφείων, έχουν ακμάσει. Τα ζητήματα σχετικά με τη διανομή, τη διαφοροποίηση, και την κοινή χρήση των δεδομένων έχουν μελετηθεί εκτενώς. Τα ετερογενή συστήματα βάσεων δεδομένων και τα βασισμένα στο Διαδίκτυο συστήματα πληροφοριών όπως το World Wide Web (WWW) παίζουν έναν ζωτικής σημασίας ρόλο στη βιομηχανία πληροφόρησης.

Η σταθερή και καταπληκτική πρόοδος της τεχνολογίας υλικού υπολογιστών στις προηγούμενες τρεις δεκαετίες έχει οδηγήσει την προμήθεια ισχυρών υπολογιστών, του εξοπλισμού συλλογής δεδομένων, και των μέσων απομνημόνευσης. Αυτή η τεχνολογία παρέχει μια μεγάλη ώθηση στη βάση δεδομένων και τη βιομηχανία πληροφόρησης, και κάνει έναν τεράστιο αριθμό βάσεων δεδομένων και αποθηκών πληροφοριών διαθέσιμων για τη διαχείριση διαδικασίας ενημέρωσης κινήσεων, την ανάκτηση πληροφοριών, και την ανάλυση στοιχείων.

Τα στοιχεία μπορούν τώρα να αποθηκευτούν σε πολλούς διαφορετικούς τύπους βάσεων δεδομένων. Μια αρχιτεκτονική βάσεων δεδομένων που έχει προκύψει πρόσφατα είναι η αποθήκη δεδομένων, μια αποθήκη των πολλαπλών ετερογενών πηγών δεδομένων, οργανώνεται κάτω από ένα ενοποιημένο σχήμα σε ένα ενιαίο χώρο προκειμένου να διευκολυνθεί η διοικητική λήψη αποφάσεων. Η τεχνολογία αποθήκης δεδομένων περιλαμβάνει τα δεδομένα που καθαρίζουν, την ολοκλήρωση των δεδομένων, και την σε απευθείας σύνδεση αναλυτική επεξεργασία (OLAP), δηλαδή τεχνικές ανάλυσης με τις λειτουργίες όπως η περιληπτική παρουσίαση της πληροφορίας, η συσχέτιση, και η συνάθροιση, καθώς επίσης και η δυνατότητα να αναλυθούν οι πληροφορίες από τις

(9)

Εικόνα 1: Είμαστε πλούσιοι από δεδομένα, αλλά φτωχοί από πληροφορίες

διαφορετικές γωνίες. Αν και τα εργαλεία OLAP υποστηρίζουν την πολυδιάστατη ανάλυση και τη λήψη απόφασης, τα πρόσθετα εργαλεία ανάλυσης δεδομένων απαιτούνται για την σε βάθος ανάλυση, όπως η ταξινόμηση στοιχείων, η συγκέντρωση, και το χαρακτηρισμό των αλλαγών των δεδομένων κατά τη διάρκεια του χρόνου.

Η αφθονία στοιχείων, που συνδέεται με την ανάγκη για τα ισχυρά εργαλεία ανάλυσης στοιχείων, έχει περιγραφεί ως πλούσια σε δεδομένα αλλά φτωχή σε πληροφορίες κατάσταση. Η ταχέως αναπτυσσόμενη, ποσά δεδομένων, που εισάγεται και που αποθηκεύεται στις μεγάλες και πολυάριθμες βάσεις δεδομένων, έχει υπερβεί μακρά την ανθρώπινη δυνατότητά μας για την κατανόηση χωρίς ισχυρά εργαλεία (εικόνα 1).

Κατά συνέπεια, τα στοιχεία που συλλέγονται στις μεγάλες βάσεις δεδομένων γίνονται αρχεία "data tobs"- επισκέπτονται σπάνια οι χρήστες. Συνεπώς, οι σημαντικές αποφάσεις λαμβάνονται συχνά βασισμένες όχι στα πλούσια σε πληροφορίες στοιχεία που αποθηκεύονται στις βάσεις δεδομένων αλλά μάλλον σε έναν χρήστη που δεν έχει τα εργαλεία για να εξαγάγει την πολύτιμη γνώση που ενσωματώνεται στα απέραντα ποσά δεδομένων. Επιπλέον, χαρακτηριστικό παράδειγμα είναι οι τρέχουσες τεχνολογίες έμπειρων συστημάτων, οι οποίες υποχρεώνουν στους χρήστες ή τους εμπειρογνώμονες για να εισάγουν με το χέρι τη γνώση στις βάσεις γνώσεων. Δυστυχώς, αυτή η διαδικασία

How can I analyze this data?

(10)

είναι επιρρεπή σε προκαταλήψεις και λάθη, και είναι εξαιρετικά χρονοβόρα και δαπανηρή. Τα εργαλεία εξόρυξης δεδομένων εκτελούν την ανάλυση στοιχείων και μπορούν να αποκαλύψουν τα σημαντικά πρότυπα δεδομένων, που συμβάλλουν πολύ στις επιχειρησιακές στρατηγικές, τις βάσεις γνώσεων, και την επιστημονική και ιατρική έρευνα. Το χάσμα μεταξύ των στοιχείων και των πληροφοριών απαιτεί μια συστηματική ανάπτυξη των εργαλείων εξόρυξης δεδομένων που θα μετατρέψει τους σορούς δεδομένων σε "χρυσά ψήγματα" της γνώσης.

Εικόνα 2: Εξόρυξη δεδομένων, ψάχνοντας για γνώση (ενδιαφέροντα πρότυπα) στα δεδομένα μας

Έτσι, τι είναι εξόρυξη δεδομένων;

Απλά δηλωμένη, η εξόρυξη δεδομένων αναφέρεται εξαγωγή γνώσης ή στο "να εξαγάγει γνώση" από τα μεγάλα ποσά δεδομένων. Ο όρος είναι πραγματικά μια ακυριολεξία. Θυμηθείτε ότι η μεταλλεία του χρυσού από τους βράχους ή την άμμο αναφέρεται ως χρυσή μεταλλεία παρά τη μεταλλεία βράχου ή άμμου. Κατά συνέπεια, η εξόρυξη δεδομένων πρέπει να έχει ονομαστεί καταλληλότερα ως "εξόρυξη γνώσης από δεδομένα," που είναι δυστυχώς κάπως μακρύς όρος. Η "εξόρυξη γνώσης," ένας μικρότερος όρος μπορεί να μην δίνει την έμφαση στην εξόρυξη από τα μεγάλη ποσότητα δεδομένων. Εντούτοις, το να εξορίσω είναι ένας ζωηρός όρος χαρακτηρίζοντας τη διαδικασία που βρίσκει ένα μικρό σύνολο προηγούμενων ψηγμάτων από πρώτη ύλη σε

knowledge

(11)

μεγάλη ποσότητα (εικόνα 2). Κατά συνέπεια, μια τέτοια ακυριολεξία που φέρνει και "τα δεδομένα" και "την εξόρυξη" έγινε μια δημοφιλής επιλογή. Υπάρχουν πολλοί άλλοι όροι φέρνοντας μια παρόμοια ή ελαφρώς διαφορετική έννοια στην εξόρυξη δεδομένων, όπως η εξόρυξη γνώσης από τις βάσεις δεδομένων, η εξαγωγή γνώσης, τα δεδομένα ανάλυσης προτύπων, και η αρχαιολογία των δεδομένων.

Πολλοί άνθρωποι μεταχειρίζονται την εξόρυξη δεδομένων ως συνώνυμο για έναν άλλο γενικά χρησιμοποιημένο όρο, την ανακάλυψη γνώσης στις βάσεις δεδομένων, ή KDD. Εναλλακτικά, άλλοι βλέπουν την εξόρυξη δεδομένων ως ένα ουσιαστικό βήμα στο στάδιο της ανακάλυψης γνώσης στις βάσεις δεδομένων. Η ανακάλυψη γνώσης ως διαδικασία απεικονίζεται στην εικόνα 3 και αποτελείται από μια σειρά βημάτων:

1. Καθαρισμός δεδομένων (για να αφαιρέσουν το θόρυβο και τα ασυμβίβαστα δεδομένα)

2. Ολοκλήρωση δεδομένων (όπου οι πολλαπλές πηγές στοιχείων μπορούν να συνδυαστούν)

3. Επιλογή δεδομένων (όπου τα δεδομένα σχετικά με το στόχο ανάλυσης ανακτώνται από τη βάση δεδομένων)

4. Μετασχηματισμός δεδομένων (όπου τα δεδομένα μετασχηματίζονται ή παγιώνονται σε μορφές κατάλληλες για την εξόρυξη με την εκτέλεση παραδείγματος χάριν των διαδικασιών περιλήψεων ή συνάθροισης)

5. Εξόρυξη δεδομένων (μια ουσιαστική διαδικασία όπου οι ευφυείς μέθοδοι εφαρμόζονται προκειμένου να εξαχθούν τα πρότυπα δεδομένων)

6. Αξιολόγηση προτύπων (για να προσδιορίσουν τα ενδιαφέροντα αντιπροσωπευτικά πρότυπα γνώσης που βασίζονται σε σωστά μέτρα)

7. Παρουσίαση γνώσης (όπου οι τεχνικές απεικόνισης και αντιπροσώπευσης γνώσης χρησιμοποιούνται για να παρουσιάσουν την εξαγόμενη γνώση στο χρήστη)

(12)

Εικόνα 3: Εξόρυξη δεδομένων σαν βήμα στην πρόοδο της γνώσης ανακάλυψης

knowledge

Patterns Evaluation and Presentation

Data Mining

Selection and Transformation

Data warehouse Cleaning and

Integration

Databases

..

..

Flat files

0 10 20 30 40

(13)

Το βήμα εξόρυξης δεδομένων μπορεί να αλληλεπιδράσει με το χρήστη ή μια βάση γνώσεων. Τα ενδιαφέροντα πρότυπα παρουσιάζονται στο χρήστη, και μπορούν να αποθηκευτούν ως νέα γνώση στη βάση γνώσεων. Μπορούμε να πούμε ότι σύμφωνα με αυτήν την άποψη, η εξόρυξη δεδομένων είναι μόνο ένα βήμα σε μια ολόκληρη διαδικασία, αν και ουσιαστική δεδομένου ότι αποκαλύπτει τα κρυμμένα πρότυπα για την αξιολόγηση.

Συμφωνούμε ότι η εξόρυξη δεδομένων είναι ένα βήμα στη διαδικασία ανακάλυψης γνώσης. Εντούτοις, στη βιομηχανία, στα μέσα, και στο ερευνητικό περιβάλλον βάσεων δεδομένων. Ο όρος εξόρυξη δεδομένων γίνεται δημοφιλέστερος του όρου “ανακάλυψης γνώσης στις βάσεις δεδομένων” που είναι μεγαλύτερος. Επομένως, επιλέγουμε να χρησιμοποιήσουμε την εξόρυξη δεδομένων όρου. Υιοθετούμε μια ευρεία άποψη της λειτουργίας εξόρυξης δεδομένων: η εξόρυξη δεδομένων είναι η διαδικασία ανακάλυψης ενδιαφέρουσας γνώσης από τη μεγάλη ποσότητα δεδομένων που αποθηκεύονται είτε στις βάσεις δεδομένων, τις αποθήκες δεδομένων, είτε άλλες αποθήκες πληροφοριών.

Με βάση αυτήν την άποψη, η αρχιτεκτονική ενός χαρακτηριστικού συστήματος εξόρυξης δεδομένων μπορεί να έχει τα ακόλουθα σημαντικά συστατικά:

Βάση δεδομένων, αποθήκη δεδομένων στοιχείων, ή άλλη αποθήκη πληροφοριών: Αυτό είναι ένα ή ένα σύνολο βάσεων δεδομένων, αποθηκών δεδομένων, υπολογισμών με λογιστικό φύλλο (spreadsheet), ή άλλων ειδών αποθηκών πληροφοριών.

Ο καθαρισμός δεδομένων και η ολοκλήρωσή τους μπορούν να εκτελεσθούν πάνω στα δεδομένα.

Κεντρικός υπολογιστής αποθηκών βάσεων δεδομένων: Ο κεντρικός υπολογιστής αποθηκών ή βάσεων δεδομένων είναι αρμόδιος για την εξόρυξη των σχετικών δεδομένων τα οποία στο αίτημα ανάσυρσης δεδομένων του χρήστη είναι σχετικά.

(14)

Εικόνα 4: Αρχιτεκτονική ενός τυπικού συστήματος εξόρυξης δεδομένων

Βάση γνώσεων: Αυτό είναι η βάση γνώσεων που χρησιμοποιείται για την καθοδήγηση της αναζήτησης, ή για να αξιολογήσει το ενδιαφέρον των προτύπων. Η γνώση αυτή μπορεί να περιλάβει την ιεραρχία, που χρησιμοποιείται για την οργάνωση των ιδιοτήτων ή την αποδοτικότητα τιμών στα διαφορετικά επίπεδα αφαίρεσης. Μπορεί να περιληφθεί η γνώση όπως οι πεποιθήσεις χρηστών, που μπορούν να χρησιμοποιηθούν για την αξιολόγηση του ενδιαφέροντος ενός προτύπου. Άλλα παραδείγματα της βάσης γνώσεων είναι πρόσθετα περιορισμοί ή κατώτατα όρια ενδιαφέροντος. (π.χ., που περιγράφουν τα στοιχεία από τις πολλαπλές ετερογενείς πηγές).

Μηχανή εξόρυξης δεδομένων: Αυτό είναι ουσιαστικό στο σύστημα εξόρυξης Graphical user interface

Pattern evaluation

Data mining engine

Database or Data warehouse server

Knowledge base

Data cleaning Data integration

Filtering

Data warehouse Database

(15)

δεδομένων και αποτελείται από ένα σύνολο λειτουργικών ενοτήτων που έχει σαν στόχο τον χαρακτηρισμό, η ένωση, η ταξινόμηση, ανάλυση συνόλων, και η ανάλυση εξέλιξης και απόκλισης.

Ενότητα αξιολόγησης προτύπων: Αυτό το συστατικό του συστήματος υιοθετεί τα χαρακτηριστικά τα μέτρα ενδιαφέροντος των προτύπων και αλληλεπιδρά με τα εργαλεία εξόρυξης δεδομένων ώστε να στραφεί η αναζήτηση προς τα ενδιαφέροντα πρότυπα. Μπορεί να χρησιμοποιήσει τα κατώτατα όρια ενδιαφέροντος για να φιλτράρει το σύνολο προτύπων. Εναλλακτικά, η ενότητα αξιολόγησης προτύπων μπορεί να ενσωματωθεί με την ενότητα εξόρυξης, ανάλογα με την εφαρμογή της μεθόδου εξόρυξης δεδομένων που χρησιμοποιείται. Για την αποδοτική εξόρυξη δεδομένων, συστήνεται ιδιαίτερα να ωθηθεί η αξιολόγηση των ενδιαφερόμενων προτύπων όσο το δυνατόν βαθύτερα στη διαδικασία εξόρυξης ώστε να περιοριστεί η αναζήτηση μόνο στα ενδιαφέροντα πρότυπα.

Γραφικό ενδιάμεσο με τον χρήστη: Αυτή η ενότητα επικοινωνεί μεταξύ των χρηστών και του συστήματος εξόρυξης δεδομένων, και επιτρέπει στο χρήστη να διευκρινίσει μια ερώτηση στο σύστημα ή την αλλαγή ενός στόχου εξόρυξης δεδομένων, την παροχή των πληροφοριών για να βοηθήσει την αναζήτηση, και επίσης την εκτέλεση της διερευνητικής εξόρυξης δεδομένων βασισμένης στα ενδιάμεσα αποτελέσματα εξόρυξης δεδομένων. Επιπλέον, αυτό το συστατικό επιτρέπει στο χρήστη για να κοιτάξει τα σχήματα αποθηκών, βάσεων δεδομένων ή τις δομές δεδομένων, να αξιολογήσει τα εξαγόμενα πρότυπα, και να απεικονίσει τα πρότυπα με διαφορετικές μορφές.

Από μια άλλη οπτική γωνία στην αποθήκη δεδομένων, η εξόρυξη δεδομένων μπορεί να αντιμετωπισθεί ως προχωρημένο στάδιο της σε απευθείας σύνδεση αναλυτικής επεξεργασίας (OLAP). Εντούτοις, η εξόρυξη δεδομένων πηγαίνει αρκετά πέρα από το στενό πεδίο της αναλυτικής επεξεργασίας και παρουσίασης της πληροφορίας των συστημάτων αποθηκών, δεδομένων με την ενσωμάτωση των πιο προηγμένων τεχνικών για την κατανόηση προτύπων.

Ενώ μπορούν να υπάρξουν πολλά "συστήματα εξόρυξης δεδομένων" στην αγορά, όχι όλα μπορούν να εκτελέσουν την αληθινή εξόρυξη δεδομένων. Ένα σύστημα ανάλυσης στοιχείων που δεν χειρίζεται τη μεγάλη ποσότητα στοιχείων πρέπει να ταξινομηθεί καταλληλότερα ως σύστημα εκμάθησης, εργαλείο ανάλυσης στατιστικών

(16)

στοιχείων, ή πειραματικό σύστημα προτύπων. Ένα σύστημα που μπορεί μόνο να εκτελέσει την εξόρυξη δεδομένων ή πληροφοριών, συμπεριλαμβανομένης της εύρεσης των συνολικών τιμών, ή που πραγματοποιεί την εκτέλεση ερώτησης απαντώντας με δεδομένα που βρίσκονται στις μεγάλες βάσεις δεδομένων πρέπει να ταξινομηθεί καταλληλότερα ως σύστημα βάσεων δεδομένων, σύστημα ανάκτησης πληροφοριών, ή παραγωγικό σύστημα βάσεων δεδομένων.

Η εξόρυξη δεδομένων περιλαμβάνει μια ολοκλήρωση των τεχνικών από διάφορες επιστήμες όπως η τεχνολογία βάσεων δεδομένων, στατιστική, τεχνική νοημοσύνης, υπολογιστική υψηλών αποδόσεων, αναγνώριση προτύπων, νευρικό δίκτυο, απεικόνιση στοιχείων, ανάκτηση πληροφοριών, εικόνα και επεξεργασία σήματος, και χωρική ανάλυση στοιχείων (spatial). Υιοθετούμε εδώ μια προοπτική βάσεων δεδομένων στην εξόρυξη δεδομένων μας. Δηλαδή δίνεται έμφαση στις αποδοτικές και εξελικτικές τεχνικές εξόρυξης δεδομένων για τις μεγάλες βάσεις δεδομένων. Για έναν αλγόριθμο για να είναι εξελικτικός, ο τρέχοντας χρόνος του πρέπει να αυξηθεί γραμμικά αναλογικά προς το μέγεθος της βάσης δεδομένων, λαμβάνοντας υπόψη τους διαθέσιμους πόρους συστημάτων όπως η κύρια μνήμη και το μέγεθος των δίσκων. Με την εκτέλεση της εξόρυξης δεδομένων, η γνώση που μας ενδιαφέρει, πληροφορίες υψηλών επιπέδων μπορούν να εξαχθούν από τις βάσεις δεδομένων και να αντιμετωπισθούν ή να αναλυθούν από διαφορετικές γωνίες. Η γνώση που αποκτήθηκε μπορεί να εφαρμοστεί στη λήψη αποφάσεων, τον έλεγχο διεργασίας, τη διαχείριση πληροφοριών, και την επεξεργασία ερώτησης. Επομένως, η εξόρυξη δεδομένων θεωρείται ένα από τα ενεργώς σημαντικότερα στα συστήματα βάσεων δεδομένων και μια από τις πιο ελπιδοφόρες διεπιστημονικές εξελίξεις στη βιομηχανία πληροφόρησης.

Εξόρυξη Δεδομένων. Σε ποιο είδος Δεδομένων;

Εδώ εμείς εξετάζουμε διάφορα καταστήματα δεδομένων στα οποία η εξόρυξη μπορεί να διενεργηθεί. Σε γενικές γραμμές, η εξόρυξη δεδομένων πρέπει να ισχύει σε οποιοδήποτε είδος αποθήκης πληροφοριών. Αυτό περιέλαβε τις σχεσιακές βάσεις δεδομένων, τις αποθήκες δεδομένων, τις συναλλαγές βάσεων δεδομένων, τα προηγμένα συστήματα βάσεων δεδομένων, τα επίπεδα αρχεία, και το World Wide Web. Τα προηγμένα συστήματα βάσεων δεδομένων περιλαμβάνουν τις αντικειμενοστραφείς και αντικειμενο-σχεσιακές βάσεις δεδομένων, και τις βάσεις δεδομένων για συγκεκριμένες

(17)

εφαρμογές, όπως οι spatial βάσεις δεδομένων, time-series βάσεις δεδομένων, οι βάσεις δεδομένων κειμένων, και οι βάσεις δεδομένων πολυμέσων. Οι προκλήσεις και οι τεχνικές εξόρυξης μπορούν να διαφέρουν για κάθε ένα από τα συστήματα βάσεων δεδομένων.

Σχεσιακές βάσεις δεδομένων

Ένα σύστημα βάσεων δεδομένων, αποκαλούμενο επίσης σύστημα διαχείρισης βάσεων δεδομένων (ΠΔΒΔ (πρόγραμμα διαχείρισης βάσεων δεδομένων)), αποτελείται από μια συλλογή αλληλένδετων δεδομένων, γνωστή ως βάση δεδομένων, και ένα σύνολο προγραμμάτων λογισμικού για την διάκριση και αναζήτηση των δεδομένων. Τα προγράμματα λογισμικού περιλαμβάνουν τους μηχανισμούς για τον καθορισμό των δομών των βάσεων δεδομένων για την αποθήκευση στοιχείων για ταυτόχρονη, κοινή, ή διανεμημένη πρόσβαση στοιχείων και για την εξασφάλιση της συνέπειας και της ασφάλειας των πληροφοριών που αποθηκεύονται, παρά την πτώση των συστημάτων ή τις προσπάθειες στην αναρμόδια πρόσβαση.

Το Σχεσιακό Μοντέλο Δεδομένων

Το σχεσιακό μοντέλο δεδομένων εισήχθη από τον Codd. Βασίζεται σε μια απλή και ομοιόμορφη δομή δεδομένων (τη σχέση) και έχει ένα στέρεο θεωρητικό υπόβαθρο.

Το σχεσιακό μοντέλο καθιερώνεται σταθερά στον κόσμο των εφαρμογών βάσεων δεδομένων και υπάρχουν πολλά εμπορικά σχεσιακά πακέτα ΣΔΒΔ.

Εδώ θα εστιάσουμε στην περιγραφή των βασικών αρχών του σχεσιακού μοντέλου δεδομένων.

Έννοιες του Σχεσιακού Μοντέλου Δεδομένων

Το σχεσιακό μοντέλο παριστάνει τη βάση δεδομένων ως μια συλλογή από σχέσεις. Μιλώντας χωρίς αυστηρότητα, μπορούμε να πούμε ότι κάθε σχέση μοιάζει με ένα πίνακα, ή κατά κάποιον τρόπο με ένα απλό αρχείο. Ωστόσο, υπάρχουν σημαντικές διαφορές μεταξύ σχέσεων και αρχείων, όπως θα δούμε παρακάτω.

Όταν μια σχέση αντιμετωπίζεται ως ένας πίνακας τιμών, κάθε γραμμή στον πίνακα παριστάνει μια συλλογή από τιμές δεδομένων που σχετίζονται. Οι τιμές αυτές μπορούν να ερμηνευτούν ως γεγονότα που περιγράφουν μια οντότητα ή συσχέτιση του πραγματικού κόσμου.

(18)

Το όνομα του πίνακα και τα ονόματα των στηλών χρησιμοποιούνται βοηθητικά προκειμένου να ερμηνευτεί η σημασία των τιμών σε κάθε γραμμή του πίνακα.

Όλες οι τιμές σε μια στήλη είναι του ίδιου τύπου δεδομένων. Στην ορολογία του σχεσιακού μοντέλου, μια γραμμή λέγεται πλειάδα, η επικεφαλίδα μιας στήλης λέγεται γνώρισμα και ολόκληρος ο πίνακας λέγεται σχέση. Ο τύπος δεδομένων που περιγράφει τους τύπους τιμών που μπορούν να εμφανιστούν σε κάθε στήλη λέγεται πεδίο ορισμού.

Παρακάτω ορίζουμε αυτούς τους όρους (πεδίο ορισμού, πλειάδα, γνώρισμα και σχέση) με μεγαλύτερη ακρίβεια.

Πεδία Ορισμού, Πλειάδες, Γνωρίσματα Και Σχέσεις

Ένα πεδίο ορισμού D είναι ένα σύνολο από ατομικές τιμές. Με τον όρο ατομικές τιμές εννοούμε ότι καμιά τιμή από το πεδίο ορισμού δεν μπορεί να διασπαστεί, στα πλαίσια του σχεσιακού μοντέλου.

Μια κοινή πρακτική για τον προσδιορισμό ενός πεδίου ορισμού είναι να προσδιοριστεί ένας τύπος δεδομένων από τον οποίο επιλέγονται οι τιμές δεδομένων που σχηματίζουν το πεδίο. Είναι χρήσιμο να οριστεί ένα όνομα για το πεδίο ορισμού, έτσι ώστε αυτό να βοηθήσει στην ερμηνεία των τιμών του. Ακολουθούν μερικά παραδείγματα πεδίων ορισμού:

 Αριθμοί_τηλεφώνων_ΗΠΑ: Το σύνολο των 10ψήφιων αριθμών τηλεφώνου που ισχύουν για τις Ηνωμένες Πολιτείες.

 Τοπικοί_αριθμοί_τηλεφώνων: Το σύνολο των 7ψήφιων αριθμών τηλεφώνου που ισχύουν μέσα στην περιοχή ενός συγκεκριμένου κωδικού.

 Αριθμός_μητρώου: Το σύνολο των επιτρεπόμενων 5ψήφιων αριθμών μητρώου.

 Ονόματα: Το σύνολο των ονομάτων ανθρώπων.

 Βαθμολογία: Επιτρεπόμενοι βαθμοί με τιμές μεταξύ 0 και 10

 Ηλικίες_εργαζομένων: Πιθανές ηλικίες των εργαζομένων μιας εταιρίας. Κάθε μία πρέπει να έχει τιμή μεταξύ 16 και 80 ετών.

 Ακαδημαϊκά_τμήματα: Το σύνολο των ακαδημαϊκών ενός πανεπιστημίου, όπως Πληροφορική, Οικονομικό, Φυσική.

(19)

Τα ανωτέρω είναι λογικοί ορισμοί πεδίων ορισμού. Ένας τύπος δεδομένων data types ή μια μορφοποίηση (format) προσδιορίζεται επίσης για κάθε πεδίο ορισμού.

π.χ., ο τύπος δεδομένων για το πεδίο ορισμού Αριθμοί_τηλεφώνων_ΗΠΑ όπου κάθε d είναι ένα αριθμητικό (δεκαδικό) ψηφίο και τα τρία πρώτα ψηφία σχηματίζουν ένα έγκυρο κωδικό τηλεφώνου περιοχής. Ο τύπος δεδομένων για το Ηλικίες_Εργαζομένων είναι ένας ακέραιος μεταξύ 16 και 80. Για τα Ακαδημαϊκά_τμήματα , ο τύπος δεδομένων είναι το σύνολο όλων των συμβολοσειρών που παριστάνουν έγκυρα ονόματα κωδικούς τμημάτων.

Επομένως, σε κάθε πεδίο ορισμού δίνεται ένα όνομα, ένας τύπος δεδομένων και μια μορφοποίηση. Μπορεί επίσης να δοθούν επιπλέον πληροφορίες για την ερμηνεία των τιμών του πεδίου ορισμού. π.χ. ένα αριθμητικό πεδίο όπως το βάρος_ατόμου πρέπει να έχει προσδιορισμένη τη μονάδα μέτρησης_λίμπρες ή κιλά. Στη συνέχεια ορίζουμε την έννοια του σήματος σχέσης, που περιγράφει τη δομή μιας σχέσης.

Ένα σχήμα σχέσης (relation schema) R, που δηλώνεται με R (Α12,…,Αn) αποτελείται από ένα όνομα σχέσης R και μια λίστα από γνωρίσματα Α12,…,Αn. Κάθε γνώρισμα (attribute) Ai είναι το όνομα ενός ρόλου που παίζει κάποιο πεδίο ορισμού D στο σχήμα σχέσης R.

Το D λέγεται πεδίο ορισμού του Ai και συμβολίζεται dom (Ai). Ένα σχήμα σχέσης χρησιμοποιείται για την περιγραφή μιας σχέσης· το R λέγεται όνομα (name) αυτής της σχέσης. Ο βαθμός μιας σχέσης (degree of relation) είναι το πλήθος n των γνωρισμάτων του σχήματος της.

Ένα παράδειγμα σχήματος για μια σχέση βαθμού 7, που περιγράφει φοιτητές πανεπιστημίου είναι το επόμενο.

ΦΟΙΤΗΤΗΣ (Όνομα, Αρ.Ταυτ., Τηλ. οικίας, Διεύθυνση, Τηλ. Γραφείου, Ηλικία, Μβαθμός). Για το παρόν σχήμα σχέσης, ΦΟΙΤΗΤΗΣ είναι το όνομα της σχέσης η οποία έχει επτά γνωρίσματα. Μπορούμε να προσδιορίσουμε τα ακόλουθα πεδία ορισμού για μερικά γνωρίσματα της σχέσης φοιτητής:

dom (όνομα)=ονόματα, dom (Αριθ. Ταυτ.)=Αριθμοί_Ταυτότητας, dom (Τηλ.

οικίας)=Τοπικοί_αριθμοί_Τηλεφώνου, dom (Μβαθμός)=Μέσος_όρος_Βαθμολογίας.

Μια σχέση (ή ένα στιγμιότυπο σχέση) v του σχήματος σχέσης R (Α12,…,Αn) που συμβολίζεται και r (R), είναι ένα σύνολο από n-πλειάδες r={t1,t2,…,tn}. Κάθε n-

(20)

πλειάδα είναι μια διατεταγμένη λίστα από n τιμές t=v1,v2,…,vn>, όπου κάθε τιμή vi 1 I

n, είναι ένα στοιχείο του dom (Ai) ή μια ειδική τιμή null. Συχνά για ένα στιγμιότυπο r (R) μιας σχέσης χρησιμοποιούνται οι όροι έκταση ή κατάσταση σχέσης και για το σχήμα R μιας σχέσης ο όρος πρόσθεση σχέσης.

Η παρακάτω εικόνα δείχνει ένα παράδειγμα της σχέσης ΦΟΙΤΗΤΗΣ που αντιστοιχεί στο σχήμα φοιτητής που ορίστηκε παραπάνω

Κάθε πλειάδα στη σχέση παριστάνει μια συγκεκριμένη οντότητα φοιτητή Όνομα σχέσης Γνωρίσματα

ΦΟΙΤΗΤΗΣ Όνομα ΑρΤαυτ ΤηλΟικίας Διεύθυνση ΤηλΓραφ. Ηλικία Μβαθμ.

Benjamin Bayer

3056124 35

373- 1616

2918 Bluebonet

null 19 3.21

Katherine Ashly

3816212 45

375- 4409

125 Kirby Road

null 18 2.89

Dick Davidson

4221123 20

null 3452 Elgin Road

749- 1253

25 3.53

Charles Cooper

4892211 00

376982 1

265 Lark Lane

749649 2

28 3.93

Barbara Benson

5336912 38

839846 1

7384 Fontana

null 19 3.25

Πίνακας 1: Τα γνωρίσματα και οι πλειάδες της σχέσης ΦΟΙΤΗΤΗΣ

Δείχνουμε μια σχέση ως πίνακα, όπου κάθε πλειάδα παριστάνεται ως μια γραμμή και κάθε γνώρισμα αντιστοιχεί στην επικεφαλίδα μιας στήλης και δηλώνει το ρόλο ή την ερμηνεία των τιμών στη στήλη αυτή.

Οι τιμές null παριστάνουν γνωρίσματα που οι τιμές τους είναι άγνωστες ή δεν υπάρχουν για κάποιες συγκεκριμένες πλειάδες της ΦΟΙΤΗΤΗΣ.

Ο πιο πάνω ορισμός διατυπώνει όπως ακολουθεί.

Μια σχέση r(R) είναι ένα υποσύνολο του καρτεσιανού γινομένου των πεδίων ορισμού που ορίζουν την R:

r (R) C (dom(A1) X dom (A2) X…X (An))

(21)

Από όλους αυτούς τους πιθανούς συνδυασμούς, ένα στιγμιότυπο της σχέσης μια δεδομένη χρονική στιγμή (η τρέχουσα κατάσταση σχέσης) περιλαμβάνει μόνο τις έγκυρες πλειάδες που παριστάνουν μια συγκεκριμένη κατάσταση του πραγματικού κόσμου.

Γενικά, όταν αλλάξει η κατάσταση του πραγματικού κόσμου, αλλάζει και η σχέση, μετασχηματιζόμενη σε μια άλλη κατάσταση σχέσης.

Ωστόσο, το σχήμα R είναι σχετικά στατικό και δεν αλλάζει παρά εξαιρετικά σπάνια - για παράδειγμα, ως αποτέλεσμα της προσθήκης ενός γνωρίσματος που να παριστάνει νέα πληροφορία η οποία δεν είχε αρχικά αποθηκευτεί στη σχέση.

Είναι δυνατό πολλά διαφορετικά γνωρίσματα να έχουν το ίδιο πεδίο ορισμού. Τα γνωρίσματα δηλώνουν διαφορετικούς ρόλους ή ερμηνείες για το πεδίο ορισμού. Για παράδειγμα στη σχέση ΦΟΙΤΗΤΗΣ, το πεδίο Τοπικοί_αριθμοί_τηλεφώνου παίζει το ρόλο του ΤηλΟικίας, όταν αναφέρεται στον αριθμό τηλεφώνου του σπιτιού ενός φοιτητή και το ρόλο του ΤηλΓραφείου, όταν αναφέρεται στο τηλέφωνο του γραφείου ενός φοιτητή.

Χαρακτηριστικά των Σχέσεων

Ο προηγούμενος ορισμός των σχέσεων υποδηλώνει την ύπαρξη ορισμένων χαρακτηριστικών που καθιστούν μια σχέση διαφορετική από ένα αρχείο ή έναν πίνακα.

Εξετάζουμε σ’ αυτό το εδάφιο μερικά από τα χαρακτηριστικά αυτά.

Διάταξη των πλειάδων σε μια σχέση

Μια σχέση ορίζεται ως ένα σύνολο πλειάδων Μαθηματικά, τα αρχεία ενός συνόλου δεν έχουν διάταξη, επομένως, οι πλειάδες σε μια σχέση δεν έχουν καμία συγκεκριμένη διάταξη.

Ωστόσο, οι εγγραφές ενός αρχείου αποθηκεύονται φυσικά στο δίσκο και κατά συνέπεια πάντοτε υπάρχει μια διάταξή τους. Αυτή η διάταξη καθορίζει την πρώτη, την δεύτερη, την i-οστή, και την τελευταία εγγραφή σε ένα αρχείο. Παρομοίως, όταν απεικονίζουμε μια σχέση ως πίνακα, οι γραμμές παρουσιάζονται σε κάποια συγκεκριμένη (ορισμένη) σειρά.

Η διάταξη των πλειάδων δεν αποτελεί μέρος του ορισμού μιας σχέσης, διότι μια σχέση προσπαθεί να παραστήσει κάποια γεγονότα σε λογικό ή αφηρημένο επίπεδο.

(22)

Πολλές λογικές διατάξεις μπορούν να οριστούν σε μια σχέση. π.χ. οι πλειάδες της σχέσης ΦΟΙΤΗΤΗΣ στην παραπάνω εικόνα θα μπορούσαν να διαταχθούν λογικά ως προς τις τιμές των όνομα, ΑρΤαυτ., Ηλικία, ή κάποιου άλλου γνωρίσματος.

Ο ορισμός μιας σχέσης δεν προσδιορίζει κάποια διάταξη: δεν υπάρχει καμία προτίμηση για κάποια λογική διάταξη σε σχέση με κάποια άλλη. Επομένως, η σχέση που παρουσιάζεται στην παρακάτω εικόνα θεωρείται ταυτόσημη με αυτήν της πιο πάνω εικόνας. Όταν μια σχέση υλοποιεί αρχείο, μια φυσική διάταξη μπορεί να οριστεί πάνω στις εγγραφές του αρχείου.

ΦΟΙΤΗΤΗΣ Όνομα ΑρΤαυτ ΤηλΟικίας Διεύθυνση ΤηλΓραφ. Ηλικία Μβαθμ.

Dick Davidson

42211232 0

null 3452 Elgin Road

749- 1253

25 3.53

Barbara Benson

53369123 8

839846 1

7384 Fontana

null 19 3.25

Charles Cooper

48922110 0

376982 1

265 Lark Lane

749649 2

28 3.93

Katherine Ashly

38162124 5

375- 4409

125 Kirby Road

null 18 2.89

Benjamin Bayer

30561243 5

373- 1616

2918 Bluebonet

null 19 3.21

Πίνακας 2: Η ίδια σχέση ΦΟΙΤΗΤΗΣ της πρώτης εικόνας με διαφορετική διάταξη γραμμών

Διάταξη των Τιμών μέσα σε μια Πλειάδα και Εναλλακτικός Ορισμός της σχέσης.

Σύμφωνα με τον προηγούμενο ορισμό μιας σχέσης, μία n-πλειάδα είναι μια διατεταγμένη λίστα των n τιμών, δηλαδή η διάταξη των τιμών μέσα σε μια πλειάδα (και επομένως των γνωρισμάτων στον ορισμό ενός σχήματος σχέσης) είναι σημαντική.

Ωστόσο, σε λογικό επίπεδο η διάταξη των γνωρισμάτων και των τιμών τους δεν είναι πραγματικά σημαντική, εφόσον διατηρείται η αντιστοιχία μεταξύ γνωρισμάτων και τιμών.

Μπορεί να δοθεί ένας εναλλακτικός ορισμός μιας σχέσης που καθιστά μη απαραίτητη την διάταξη των τιμών σε μία πλειάδα. Με τον ορισμό αυτό, ένα σχήμα σχέσης R (Α12,…,Αn) είναι ένα σύνολο από γνωρίσματα και μια σχέσης r (R) είναι ένα πεπερασμένο σύνολο από απεικονίσεις (mappings) r ={t1,t2,…,tm}, όπου κάθε πλειάδα t1 είναι μια απεικόνιση από το R στο D και το D είναι μια ένωση πεδίων ορισμού των

(23)

γνωρισμάτων, δηλαδή D=dom (A1) Udom (A2) U…Udom (An). Με τον ορισμό αυτό, το t(Ai) πρέπει να ανήκει στο dom (Ai) για 1  i  n και για κάθε απεικόνιση t στο v. Κάθε απεικόνιση ti λέγεται πλειάδα.

Σύμφωνα με τον ορισμό αυτό, μια πλειάδα μπορεί να θεωρηθεί ως ένα σύνολο, από ζεύγη της μορφής (<γνώρισμα> , <τιμή>) όπου κάθε ζεύγος δίνει την τιμή της απεικόνισης από ένα γνώρισμα Ai σε μια τιμή Vi από το dom (Ai). Η διάταξη των γνωρισμάτων δεν είναι σημαντική, διότι το όνομα κάθε γνωρίσματος εμφανίζεται μαζί με την τιμή του. Με τον ορισμό αυτό οι δυο πλειάδες που φαίνονται στην παρακάτω εικόνα είναι ταυτόσημες. Αυτό αποκτά νόημα σε αφηρημένο ή λογικό επίπεδο, καθώς δεν υπάρχει πραγματικά κάποιος λόγος για τον οποίο να προτιμούμε να εμφανίζεται η τιμή ενός γνωρίσματος πριν από την τιμή ενός άλλου σε μια πλειάδα.

Όταν μια σχέση υλοποιείται ως αρχείο, τα γνωρίσματα μπορούν να διαταχθούν φυσικά ως πεδία μέσα σε μια εγγραφή. Θα χρησιμοποιήσουμε τον πρώτο ορισμό της σχέσης, όπου τα γνωρίσματα και οι τιμές ανάμεσα στις πλειάδες είναι διατεταγμένα, επειδή αυτό απλουστεύει σημαντικά τους συμβολισμούς. Ωστόσο, ο εναλλακτικός ορισμός που δίνεται εδώ είναι γενικότερος.

Δυο ταυτόσημες πλειάδες όταν η διάταξη των γνωρισμάτων και των τιμών δεν είναι μέρος του ορισμού της σχέσης.

Τιμές στις πλειάδες. Κάθε τιμή σε μια πλειάδα είναι μια ατομική τιμή, κατά την έννοια ότι στα πλαίσια του σχεσιακού μοντέλου δεν μπορεί να διαιρεθεί σε συστατικά στοιχεία. Επομένως, σύνθετα και πλειότιμα γνωρίσματα δεν επιτρέπονται. Μεγάλο μέρος της θεωρίας του σχεσιακού μοντέλου έχει αναπτυχθεί έχοντας κατά νου αυτήν την υπόθεση, που ονομάζεται υπόθεση πρώτης κανονικής μορφής (first normal form). Τα πλειότιμα γνωρίσματα πρέπει να αναπαρασταθούν με ξεχωριστές σχέσεις και τα σύνθετα

T= <(Όνομα, “Dick Davidson”), ΑρΤαυτ, «422112320»), (ΤηλΟικίας, null), (Διεύθυνση, “3452 Elgin Road”),(ΤηλΓραφείου, “7491253”),(Ηλικία, 25), (Μβαθμός, 6,54)>

t=<(Διεύθυνση, “3452 Elgin Road”),(Όνομα, “Dick Davidson”),(ΑρΤαυτ,

“422112320”),(Ηλικία, 25),(ΤηλΓραφείου, “7491253”), (Μβαθμός, 6,54), (ΤηλΟικίας, null)>

Referências

Documentos relacionados

Η σταθερότητα των τιμών πρέπει να διατηρείται μεσοπρόθεσμα, ενώ προκειμένου να αξιολογηθούν οι προοπτικές για την εξέλιξη και οι κίνδυνοι για τη μελλοντική σταθερότητα των τιμών,