• Nenhum resultado encontrado

Δημιουργία αποθήκης δεδομένων για την κατανάλωση ηλεκτρικής ενέργειας

N/A
N/A
Protected

Academic year: 2023

Share "Δημιουργία αποθήκης δεδομένων για την κατανάλωση ηλεκτρικής ενέργειας"

Copied!
111
0
0

Texto

(1)

m i A M A f f i

rmikwmimum

Θέμα:

Δημιουργία Αποθήκης Δεδομένων yia την κατανάλωση Ηλεκτρικής

ενέργειας.

Εκτηγητής Παντελής Αντωνιάδης

Σπουδαστής Χριστόδουλος Θωμόγλου

ΑΕΜ 1780

(2)

»Α Λ Α*

ΛΡ>· ·

ΠΕΡΙΕΧΟΜΕΝΑ

ΚΕΦΑΛΑΙΟ 1 ..

Γιατί εφαρμόζουμε την εξόρυξη δεδομένων; Γιατί είναι σημανηκη... 1

Έτσι, τι είναι εξόρυξη δεδομένων;... 6

Εξόρυξη Δεδομένων. Σε ποιο είδος Δεδομένων;... 12

Σχεσιακές βάσεις δεδομένω ν... 13

Το Σχεσιακό Μοντέλο Δεδομένω ν... 13

Έννοιες του Σχεσιακού Μοτπέλου Δ εδομένω ν... 13

Πεδία Ορισμού, Πλειάδες, Γνωρίσματα Και Σχεσεις... 14

Χαρακτηριστικά των Σχέσεων... . 17

Διάταξη των πλειάδων σε μια σ χέσ η.. .17

Διάταξη των Τιμών μέσα σε μια Πλειαδα και Εναλλακτικός Ορισμός της σχέσης. 18 Ερμηνεία μιας σ χέσης... 20

Συμβολισμοί Του Σχεσιακού Μ οντέλου...21

Αποθήκες δεδομένω ν... .21

Βάσεις Δεδομένων Κ ινήσεω ν... 24

Προηγμένα συστήματα βάσεων δεδομένων και προηγμένες εφαρμογές βάσεων δεδομένω ν... 26

Αντικειμενοστραφείς βάσεις δεδομένων . 26 Αντικειμενο-σχεσιακές βάσεις δεδομένω ν... Χωρικές (spatial) βάσεις δεδομένω ν... ... Χρονικές βάσεις δεδομένων και Tim e-Senes βάσεις δεδομένω ν... Βάσεις δεδομένων κειμένων και βάσεις δεδομένων πολυμέσω ν... Ετερογενείς βάσεις δεδομένων και Legacy βάσεις δεδομένω ν... Το World Wide W eb... Λειτουργία Εξόρυξη Δεδομένων. Ποια είδη προτύπων μπορούν να εξαχθούν;., Περιγραφή έννοιας/ κατηγορίας: Χαρακτηρισμός και διάκριση... Ανάλυση συσχετίσεων... . Ταξινόμηση και πρ όβ λ εψ η... Ανάλυση συμπλέγματος [cluster]... Outlier α νάλυσ η... Ανάλυση εξέλιξης... Είναι όλα τα πρότυπα ενδιαφ έροντα;... Ταξινόμηση των συστημάτων εξορυξης δεδομένω ν... Μερικά σημαντικά ζητήματα στην εξόρυξη δεδομένω ν... Μ εθοδολογίες εξόρυξης και ζητήματα αλληλεπίδρασης χρηστώ ν;... • Εξόρυξη διαφορετικών ειδών γνώ σης στις βάσεις δεδομένω ν:... • Διαλογική εξόρυξη της γνώσης σε πολλαπλά επίπεδα αφαίρεσ ης:...48

• Ενσωμάτωση της γνώσης υποβάθρου:... .48

• Γλώσσες διατύπωσης ερωτήσεων εξόρυξης δεδομένων και η ειδική εξόρυξη δεδομένω ν:... .48

• Παρουσίαση και απεικόνιση των αποτελεσμάτων της εξόρυξης δεδομένω ν:...49

• Διαχείριση θορυβωδών και ελλιπών σ τοιχείω ν :... 49

• Αξιολόγηση των προτύπων και το πρόβλημα του ενδιαφέροντος των προτύπων: 49 Ζητήματα απ όδοσ ης:... 50

....28

.29 .29 .31 .32 .33 .33 ....36

.38 ,.47 ,.47 .. 47

(3)

• Αποδοτικότητα και εξελιξιμότητα των αλγορίθμων εξορυξης δεδομένων;...

• Παράλληλοι, διανεμημένοι, επαυξημένοι αλγόριθμοι εξορυξης;...

Ζητήματα σχετικά με την ποικιλομορφία των τύπων βάσεων δεδομένων;...

• Χειρισμός των σχεσιακών και σύνθετων τύπων δεδομένων;...

• Εξόρυξη πληροφορίας από ετερογενείς βάσεις δεδομένων και πληροφοριακά συστήματα ευρείας περιοχής:...

ΚΕΦΑΛΑΙΟ 2 ...

ΜΕΘΟΔΟΛΟΓΙΑ ΤΗΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΟΥ ΚΑΙ ΤΗΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΣΕ ΧΡΟΝΟΣΕΙΡΕΣ...

Πρώτο παράδειγμα ανάλυσης δεδομένων...

ΜΟΝΤΕΛΑ Box-Jenkins seasonal A R IM A ...

Δεύτερο παράδειγμα ανάλυσης δεδομένων ΠΡΟΣΕΤΑΙΡΙΣΤΙΚΟΙ ΚΑΝ Ο Ν ΕΣ...

Προεπεξεργασία Δ εδομένω ν...

Παραγωγή των Κανόνων Έ ν ω σ η ς...

Μετά-επεξεργασία των καθορισμένων κανόνων ένω σης...

ΣΥ Μ ΠΕΡΑΣΜ ΑΤΑ...

ΒΙΒΛ ΙΟ ΓΡΑ Φ ΙΑ ...

ΠΑΡΑΡΤΗΜΑ A ...

Εισαγωγή...

Έννοια Χρονολογικής Σειράς.,

Χρονολογικές σειρές και προβλέψεις... 66

Αιτιατά Υποδείγματα Πρόβλεψης: Πολυμεταβλητη Παλινδρόμηση... 67

Μη αιτιατά υποδείγματα πρόβλεψης: υποδείγματα Χρονολογικών Σ ειρώ ν...67

Παραδείγματα Χρονολογικών Σειρώ ν... ,. 69

Καθοριστικά Υποδείγματα Χ ρονολογικών Σ ειρ ώ ν... 72

Ειδικά μαθηματικά υποδείγματα... .. 72

Υποδείγματα Κινητών Μ έσων Ό ρ ω ν ... 73

Κινητοί Μ έσοι Όροι Εκθετικής Σ τάθμισ ης... ..73

Υποδείγματα Τάσης...75

Υποδείγματα Διαχωρισμού σε Επιμέρους Σ υνιστώ σες... 75

Άλλες Μ έθο δο ι... ..76

Ανακεφαλαίωση...76

ΝΤΕΤΕΡΜΙΝΙΣΤΙΚΟ ΧΑΟΣ .. 77

Μη γραμμικό δυναμικό σ ύσ τημα...78

CHAOS (χάος)... ..79

Διάσταση του χάους.. .. 80

Συσχέτιση διάστασης...81

Κλασματική Διάσταση...82

Τάξη Πίνακα Δεδομένων... 83

Επίδραση του Φιλτραρίσματος στη Δ ιάσ τασ η...84

Το Χάος ως Μοντέλο Σήματος...84

ΠΑΡΑΡΤΗΜΑ Β ... .!... .’... 86

(4)

ΚΕΦΑΛΑΙΟ 1

Σε αυτό το κεφάλαιο θα κάνουμε μια εκτενή παρουσίαση για την εξόρυξη δεδομένων. Σκοπός μας είναι να παρουσιάσουμε πως από μια βάση δεδομένων εμείς μπορούμε με τις τεχνικές εξόρυξης δεδομένων να ανακαλύψουμε ενδιαφέροντα πρότυπα τα οποία κρύβονται στα μεγάλα σύνολα δεδομένων. Ο ι μέθοδοι που παρουσιάζονται στο πρώτο κεφάλαιο είναι προσανατολισμένες για την ανάπτυξη εξελίξιμων και αποδοτικών εργαλείων εξόρυξης δεδομένων. Επίσης θα παρουσιάσουμε το γιατί η εξόρυξη δεδομένων είναι σημαντική και πως καθορίζεται. Τέλος θα παρουσιάσουμε τη γενική αρχιτεκτονική των συστημάτων εξόρυξης δεδομένων όπως εττίσης και θα αναλυθούν σε τι είδη δεδομένων μπορούν αυτά να εφαρμοστούν.

Γιατί εφαρμόζουμε την εξόρυξη δεδομένων; Γιατί είναι σημαντική.

Η ανάγκη της ανάπτυξης των τεχνικών εξόρυξης δεδομένων τον τελευταίο καιρό έχει γίνει επιτακτική στη βιομηχανία της πληροφόρησης επειδή υπάρχει τεράστια ποσότητα δεδομένων διαθέσιμη και χρειαζόμαστε να αντλήσουμε από αυτήν χρήσιμες πληροφορίες και γνώση. Οι πληροφορίες και η γνώση που λαμβάνονται μπορούν να χρησιμοποιηθούν για τις εφαρμογές που κυμαίνονται από την επιχειρησιακή διαχείριση, τον έλεγχο παραγωγής, και την ανάλυση αγοράς, ως την δημιουργία σχεδίων εφαρμοσμένης μηχανικής και την εξερεύνηση επιστήμης.

Η εξόρυξη δεδομένων μπορεί να αντιμετωπισθεί ως αποτέλεσμα της φυσικής εξέλιξης της τεχνολογίας πληροφοριών. Μια εξελικτική πορεία έχει παρατηρηθεί στη βιομηχανία βάσεων δεδομένων στην ανάπτυξη των ακόλουθων λειτουργιών (στο σχήμα που ακολουθεί): Δημιουργία συλλογής δεδομένων και βάσεων δεδομένων, διαχείριση στοιχείων (συμπεριλαμβανομένης της αποθήκευσης στοιχείων, της ανάκτησης, και της επεξεργασίας τωΐ' SQL εντολών σε μια βάση δεδομένων), και της ανάλυσης δεδομένων και κατανόησης (περιλαμβάνοντας την αποθήκευση δεδομένων κοα την εξόρυξη δεδομένων). Παραδείγματος χάριν, αρχικά δόθηκε έμφαση στη δημιουργία συλλογών δεδομένων, το οποίο είχε συνεπακόλουθο την δημιουργία μηχανισμών που χρησίμευαν για την αποτελεσματική αποθήκευση και ανάκτηση δεδομένων. Επίσης αναπτύχθηκαν η δημιουργία σύνθετων ερωτήσεων και η επεξεργασία για την διεκπεραίωση των διαφόρων εντολών. Σαν φυσική εξέλιξη στα συστήματα βάσεων δεδομένων που προσφέρουν τα

- 1 -

(5)

παραπάνω στοιχεία το επόμενο βήμα ήταν να αναπτυχθεί η ανάλυση δεδομένων και κατανόησή τους.

Από τη δεκαετία του '60, η βάση δεδομένων και η τεχνολογία πληροφοριών έχουν εξελιχθεί συστηματικά από τα πρωτόγονα συστήματα επεξεργασίας αρχείων στα περίπλοκα και ισχυρά συστήματα βάσεων δεδομένων. Η έρευνα και η ανάπτυξη στα συστήματα βάσεων δεδομένων από τη δεκαετία του '70 έχουν προχωρήσει από τα αρχικά ιεραρχικά και δικτυακά συστήματα βάσεων δεδομένων στην ανάπτυξη των σχεσιακών συστημάτων βάσεων δεδομένων (όπου τα στοιχεία αποθηκεύονται σε δομές σχεσιακών πινάκων), τα εργαλεία μορφοποίησης δεδομένων, και τις τεχνικές οργάνωσης ,ευρετηρίασης και των δεδομένων. Οι χρήστες πλέον έχουν στη διάθεσή τους ισχυρά και ευέλικτα εργαλεία για την πρόσβαση στα δεδομένα μέσω των γλωσσών διατύπωσης ερωτημάτων. Επίσης λειτουργικά και εύχρηστα συστήματα διεπαφής καθώς και συστήματα βελτιστοποίησης των συστημάτων διατύπωσης των ερωτήσεων. Εδώ θα πρέπει επίσης να αναφέρουμε ότι η διαδικασία ενημέρωσης κινήσεων σε μια σχεσιακή βάση δεδομένων έχει αναπτυχθεί πολύ. Αποδοτικές μέθοδοι για την σε πραγματικό χρόνο σύνδεση με το σύστημα ενημέρωσης κινήσεων της βάσης δεδομένων έχουν αναπτυχθεί. Αυτοί οι μέθοδοι δίνουν την δυνατότητα στον χρήστη βλέποντας τα ερωτήματα αναζήτησης σαν μια κίνηση μόνο ανάγνωσης, για την καλύτερη και αποδοτικότερη αποθήκευση, ανάκτηση και την διαχείριση μεγάλων ποσοτήτων δεδομένων. Τα παραπάνω κατέστησαν την τεχνολογία των σχεσιακών βάσεων δεδομένων μια από τις πιο διαδεδομένες.

(6)
(7)

Η τεχνολογία βάσεων δεδομένων από τα μέσα της δεκαετίας του '80 έχει χαρακτηριστεί από τηί' υιοθέτηση της δημοφιλούς σχεσιακής τεχνολογίας και μια άνοδο τωρ δραστηριοτήτων έρευνας και ανάπτυξης στα νέα και ισχυρά συστήματα βάσεων δεδομένων. Αυτή χρησιμοποιεί τα προηγμένα μοντέλα δεδομένων όπως αντικειμενοστραφή, οττικειμεΐΌ-σχεσιακά, και παραγωγικά πρότυπα. Τα προσανατολισμένα στις εφαρμογές συστήματα βάσεων δεδομένωΐ', συμπεριλαμβανομένων των χωρικών, χρονικών, πολυμέσων, των ενεργών, και επιστημονικών βάσεων δεδομένων, των βάσεων γνώσεων, και των βάσεων πληροφοριών γραφείων, έχουν ακμάσει. Τα ζητήματα σχετικά με τη διανομή, τη διαφοροποίηση, και την κοινή χρήση των δεδομένων έχουν μελετηθεί εκτενώς. Τα ετερογενή συστήματα βάσεων δεδομένων και τα βασισμένα στο Διαδίκτυο συστήματα πληροφοριών όπως το World Wide Web (WWW) παίζουν έναν ζωτικής σημασίας ρόλο στη βιομηχανία πληροφόρησης.

Η σταθερή και καταπληκτική πρόοδος της τεχνολογίας υλικού υπολογιστών στις προηγούμενες τρεις δεκαετίες έχει οδηγήσει την προμήθεια ισχυρών υπολογιστών, του εξοπλισμού συλλογής δεδομένων, και των μέσων απομνημόνευσης. Αυτή η τεχνολογία παρέχει μια μεγάλη ώθηση στη βάση δεδομένων και τη βιομηχανία πληροφόρησης, και κάνει έναν τεράστιο αριθμό βάσεων δεδομένων και αποθηκών πληροφοριών διαθέσιμων για τη διαχείριση διαδικασίας ενημέρωσης κινήσεων, την ανάκτηση πληροφοριών, και την ανάλυση στοιχείων.

Τα στοιχεία μπορούν τώρα να αποθηκευτούν σε πολλούς διαφορετικούς τύπους βάσεων δεδομένων. Μ ια αρχιτεκτονική βάσεων δεδομένων που έχει προκύψει πρόσφατα είναι η αποθήκη δεδομένων, μια αποθήκη των πολλαπλών ετερογενών ττηγών δεδομένων, οργανώνεται κάτω από ένα ενοποιημένο σχήμα σε ένα ενιαίο χώρο προ κειμένου να διευκολυνθεί η διοικητική λήψη αποφάσεων. Η τεχνολογία αποθήκης δεδομένων περιλαμβάνει τα δεδομένα που καθαρίζουν, την ολοκλήρωση των δεδομένων, κοίτην at απευθείας σύνδεση αναλυτική επεξεργασία (OLAP), δηλαδή τεχνικές ανάλυσης με τις λειτουργίες όπως η περιληπτική παρουσίαση της πληροφορίας, η συσχέτιση, και η συνάθροιση, καθώς επίσης και η δυνατότητα να αναλυθούν οι πληροφορίες από τις

(8)

Εικόνα 1: Είμαστε πλούσιοι από δεδομένα, αλλά φτωχοί από πληροφορίες

διαφορετικές γωνίες. Α ν και τα εργαλεία OLAP υποστηρίζουν την πολυδιάστατη ανάλυση και τη λήψη απόφασης, τα πρόσθετα εργαλεία ανάλυσης δεδομένω»' απαιτούνται για τη»' σε βάθος ανάλυση, όπως η ταξινόμηση στοιχείων, η συγκέντρωση, κοί το χαρακτηρισμό των αλλαγών των δεδομένων κατά τη διάρκεια του χρόνου.

Η αφθονία στοιχείων, που συνδέεται με την ανάγκη για τα ισχυρά εργαλεία ανάλυσης στοιχείων, έχει περιγραφεί ως πλούσια σε δεδομένα αλλά φτωχή σε πληροφορίες κατάσταση. Η ταχέως αναπτυσσόμενη, ποσά δεδομένων, του εισάγεται κοί που αποθηκεύεται στις μεγάλες και πολυάριθμες βάσεις δεδομένων, έχει υπερβεί μακρά την ανθρώπινη δυνατότητά μας για την κατανόηση χωρίς ισχυρά εργαλεία (εικόνα 1).

Κατά συνέπεια, τα στοιχεία που συλλέγονται στις μεγάλες βάσεις δεδομένων γίνονται αρχεία "data tobs"- επισκέπτονται σπάνια οι χρήστες. Συνεπώς, οι σημαντικές αποφάσεις λαμβάνονται συχνά βασισμένες όχι στα πλούσια σε πληροφορίες στοιχεία που αποθηκεύονται στις βάσεις δεδομένων αλλά μάλλον σε έναν χρήστη του δεν έχει τα εργαλεία για να εξαγάγει την πολύτιμη γνώση που ενσωματώνεται στα απέραντα ποσά δεδομένων. Επιπλέον, χαρακτηριστικό παράδειγμα είναι οι τρέχουσες τεχνολογίες έμπειρων συστημάτων, οι οποίες υποχρεώνουν στους χρήστες ή τους εμπειρογνώμονες για να εισάγουν με το χέρι τη γνώση στις βάσεις γνώσεων. Δυστυχώς, αυτή η διαδικασία

(9)

είναι ετηρρεττή σε προκαταλήψεις και λά&η, και είναι εξαιρετικά χρονοβόρα και δαπανηρή. Τα εργαλεία εξόρυξης δεδομένων εκτελούν την ανάλυση στοιχείωΐ' κα.

μπορούν να αποκαλύψουν τα σημαντικά πρότυπα δεδομένων, που συμβάλλουν πολύ στις ετιιχειρησιακές στρατηγικές, τις βάσεις γνώσεων, και την επιστημονική και ιατρική έρευνα. Το χάσμα μεταξύ των στοιχείων και των πληροφοριών απαιτεί μια συστηματική ανάπτυξη των εργαλείω ν εξόρυξης δεδομένων που θα μετατρέψει τους σορούς δεδομένων σε "χρυσά ψήγματα" της γνώσης.

Εικόνα 2: Εξόρυξη δεδομένων, ψάχνοντας για γνώση (ενδιαφέροντα πρότυπα) στα δεδομένα μας

Έτσι, τι είναι εξόρυξη δεδομένων;

Απλά δηλωμένη, η εξόρυξη δεδομένων αναφέρεται εξαγωγή γνώσης ή στο "μα εξαγάγει γνώση" από τα μεγάλα ποσά δεδομένων. Ο όρος είναι πραγματικά μια ακυριολεξία. Θυμηθείτε ότι η μεταλλεία του χρυσού από τους βράχους ή την άμμο αναφέρεται ως χρυσή μεταλλεία παρά τη μεταλλεία βράχου ή άμμου. Κατά συνέπεια, η εξόρυξη δεδομένων πρέπει να έχει ονομαστεί καταλληλότερα ως "εξόρυξη γνώσης από δεδομένα," που είναι δυστυχώς κάπως μακρύς όρος. Η "εξόρυξη γνώσης," ένας μικρότερος όρος μπορεί να μην δίνει την έμφαση στην εξόρυξη από τα μεγάλτ; τωσότητα δεδομένων. Εντούτοις, το μα εξορίσω είναι ένας ζωηρός όρος χαρακτηρίζοντας τη διαδικασία που βρίσκει ένα μικρό σύνολο προηγούμενων ψηγμάτων από πρώτη ύλη σί

(10)

μεγάλη ποσότητα (εικόνα 2). Κατά συνέπεια, μια τέτοια ακυριολεξία που φέρνει και "τα δεδομένα" κοί "την εξόρυξη" έγινε μια δημοφιλής ετιιλογή. Υπάρχουν πολλοί άλλοι όροι φέρνοντας μια παρόμοια ή ελαφρώς διαφορετική έννοια στην εξόρυξη δεδομένων, όπως η εξόρυξη γνώσης από τις βάσεις δεδομένων, η εξαγωγή γνώσης, τα δεδομένα ανάλυσης προτύπων, κοί η αρχαιολογία των δεδομένων.

Πολλοί άνθρωποι μεταχειρίζονται την εξόρυξη δεδομένων ως συνώνυμο για έναν άλλο γενικά χρησιμοποιημένο όρο, την ανακάλυψη γνώσης στις βάσεις δεδομένων, ή KDD. Εναλλακτικά, άλλοι βλέπουν την εξόρυξη δεδομένων ως ένα ουσιαστικό βήμα στο στάδιο της ανακάλυψης γνώσης στις βάσεις δεδομένων. Η ανακάλυψη γνώσης ως διαδικασία απεικονίζεται στην εικόνα 3 και αποτελείται από μια σειρά βημάτων:

1. Καθαρισμός δεδομένων (για να αφαιρέσουν το θόρυβο και τα ασυμβίβαστα δεδομένα)

2. Ολοκλήρωση δεδομένων (όπου οι πολλαπλές πηγές στοιχείων μπορούν να συνδυαστούν)

3. Επιλογή δεδομένων (όπου τα δεδομένα σχετικά με το στόχο ανάλυσης ανακτώνται από τη βάση δεδομένων)

4. Μετασχηματισμός δεδομένων (όπου τα δεδομένα μίτασχηματίζονται ή παγιώνονται σε μορφές κατάλληλες για την εξόρυξη με την εκτέλεση παραδείγματος χάριί' των διαδικασιών περΛήψεων ή συνάθροισης) 5. Εξόρυξη δεδομένων (μια ουσιαστική διαδικασία όπου οι ευφυείς μέθοδοι

εφαρμόζονται προκειμένου να εξαχθούν τα πρότυπα δεδομένων)

6. Αξιολόγηση προτύπων (για να προσδιορίσουν τ α ενδιαφέροΐ'τα ατητροσωτευτικά πρότυπα γνώσης που βασίζονται ae σωστά μέτρα) 7. Παρουσίαση γνώσης (όπου οι τεχνικές απεικόνισης και αντιπροσώπευσης

γνώσης χρησιμοποιούνται για να παρουσιάσουν την εξαγόμενη γνώση στο χρήστη)

(11)
(12)

To βήμα εξόρυξης δεδομένων μπορεί να αλληλεπιδράσει με το χρήστη ή μια βάση γνώσεων. Τα ενδιαφέροντα πρότυπα παρουσιάζονται στο χρήστη, και μπορούν να αποθηκευτούν ως νέα γνώση στη βάση γνώσεων. Μπορούμε να πούμε ότι σύμφωνα με αυτήν την άποψη, η εξόρυξη δεδομένων είναι μόνο ένα βήμα σε μια ολόκληρη διαδικασία, αν και ουσιαστική δεδομένου ότι αποκαλύπτει τα κρυμμένα πρότυπα για την αξιολόγηση.

Συμφωνούμε ότι η εξόρυξη δεδομένων είναι ένα βήμα στη διαδικασία εΒΌκάλυψης γνώσης. Εντούτοις, στη βιομηχανία, στα μέσα, και στο ερευνητικό περιβάλλον βάσεων δεδομένων. Ο όρος εξόρυξη δεδομένων γίνεται δημοφιλέστερος του όρου “ανακάλυψης γνώσης στις βάσεις δεδομένων” που είναι μεγαλύτερος. Επομένως, επιλέγουμε να χρησιμοποιήσουμε την εξόρυξη δεδομένων όρου. Υιοθετούμε μια ευρεία άποψη της λειτουργίας εξόρυξης δεδομένων: η εξόρυξη δεδομένων είναι η διαδικασία ανακάλυψης ενδιαφέρουσας γνώσης από τη μεγάλη τωσότητα δεδομένων πυυ αποθηκεύονται είτε στις βάσεις δεδομένων, τις αποθήκες δεδομένων, είτε άλλες αποθήκες πληροφορώ)'.

Με βάση αυτήν την άποψη, η αρχιτεκτονική ενός χαρακτηριστικού συστήματος εξόρυξης δεδομένων μπορεί να έχει τα ακόλουθα σημαντικά συστατικά:

• Βάση δεδομένων, αποθήκη δεδομένω ν σ τοιχείων, ή άλλη αποθήκη πληροφοριώ ν: Αυτό είναι ένα ή ένα σύνολο βάσεων δεδομένων, αποθηκών δεδομένων, υπολογισμών με λογιστικό φύλλο (spreadsheet), ή άλλων ειδών αποθηκών πληροφοριών.

Ο καθαρισμός δεδομένων και η ολοκλήρωσή τους μπορούν να εκτελεσθούν πάνω στα δεδομένα.

• Κ εντρ ικός υπολογιστής απ οθηκώ ν βάσεων δεδομένων: Ο κεντρικός υπολογιστής αποθηκών ή βάσεων δεδομένων είναι αρμόδιος για την εξόρυξη των σχετικών δεδομένων τα οποία στο αίτημα ανάσυρσης δεδομένων του χρήστη είναι σχετικά.

(13)

Εικόνα 4: Αρχιτεκτονική ενός τυπικού συστήματος εξόρυξης δεδομένων

• Βάση γνώ σεων: Αυτό είναι η βάση γνώσεωρ που χρησιμοποιείται για την καθοδήγηση της αναζήτησης, ή για! να αξιολογήσει το ενδιαφέρον των προτύπων. Η γνώση αυτή μπορεί να περιλάβει την ιεραρχία; του χρησιμοποιείται για την οργάνωση των ιδιοτήτων ή την αποδοτικότητα τιμών στα διαφορετικά επίτιεδα αφαίρεσης. Μπορεί να περιληφθεί η γνώση όπως οι πεποιθήσεις χρηστών, που μπορούν να χρησιμοποιηθούν για την αξιολόγηση τον ενδιαφέροντος ενός προτύπου. Άλλα παραδείγματα της βάσης γνώσεων είναι πρόσθετα περιορισμοί ή κατώτατα όρια ενδιαφέροντος, (π.χ., του περιγράφουν τα στοιχεία από τις πολλαπλές ετερογενείς ττηγές).

• Μ ηχανή εξόρυξης δεδομένων: Αυτό είναι ουσιαστικό στο σύστημα εξόρυξης

(14)

δεδομένων και αποτελείται από ένα σύνολο λειτουργικών ενοτήτων που έχει σαν στόχο τον χαρακτηρισμό, η ένωση, η ταξινόμηση, ανάλυση συνόλων, και η ανάλυση εξέλιξης και απόκλισης.

• Ε νότητα αξιολόγησης προτύπω ν: Αυτό το συστατικό του συστήματος υιοθετεί τα χαρακτηριστικά τα μέτρα ενδιαφέροντος των προτύπων και αλληλεπιδρά με τα εργαλεία εξόρυξης δεδομένων ώστε να στραφεί η αναζήτηση προς τα ενδιαφέροντα πρότυπα. Μπορεί να χρησιμοποιήσει τα κατώτατα όρια ενδιαφέροντος για να φιλτράρει το σύνολο προτύπων. Εναλλακτικά, η ενότητα αξιολόγησης προτύπων μπορεί να (νσωματωθίί με την ενότητα εξόρυξης, ανάλογα με την εφαρμογή της μεθόδου εξόρυξης δεδομένων πυυ χρησιμοποιείται. Για την αποδοτική εξόρυξη δεδομένων, συστήνεται ιδιαίτερα να ωθηθεί η αξιολόγηση των ενδιαφερόμενων προτύπων όσο το δυνατόν βαθύτερα στη διαδικασία εξόρυξης ώστε να περιοριστεί η αναζήτηση μόνο στα ενδιαφέροντα πρότυπα.

• Γραφ ικ ό ενδιάμεσο με τον χρήστη: Αυτή η ενότητα επικοινωνεί μεταξύ των χρηστών και του συστήματος εξόρυξης δεδομένων, και επιτρέπει στο χρήστη να διευκρινίσει μια ερώτηση στο σύστημα ή την αλλαγή ενός στόχου εξόρυξης δεδομένων, την παροχή των πληροφοριών για να βοηθήσει την αναζήτηση, και επίσης την εκτέλεση της διερευνητικής εξόρυξης δεδομένων βασισμένης στα ενδιάμεσα αποτελέσματα εξόρυξης δεδομένων. Επιπλέον, αυτό το συστατικό επιτρέπει στο χρήστη για να κοιτάξει τα σχήματα αποθηκών, βάσεων δεδομένων ή τις δομές δεδομένων, να αξιολογήσει τα εξαγόμενα πρότυπα, και να απεικονίσει τα πρότυπα με διαφορετικές μορφές.

Από μια άλλη οπτική γωνία στην οτπυ^ήκη δεδομένων, η εξόρυξη δεδομένων μπορεί να αντιμετω ^σθεί ως προχωρημένο στάδιο της σε απευθείας σύνδεση αναλυτικής επεξεργασίας (OLAP). Εντούτοις, η εξόρυξη δεδομένων πηγαίνει αρκετά πέρα από το στενό πεδίο της αναλυτικής επεξεργασίας και παρουσίασης της πληροφορίας των συστημάτων αποθηκών, δεδομένων με την ενσωμάτωση των πιο προηγμένων τεχνικών για την κατανόηση προτύπων.

Ενώ μπορούν να υπάρξουν πολλά "συστήματα εξόρυξης δεδομένων" στην αγορά, όχι όλα μπορούν να εκτελέσουν την αληθινή εξόρυξη δεδομένων. Έ να σύστημα ανάλυσης στοιχείων που δεν χειρίζεται τη μεγάλη ποσότητα στοιχείων πρέπει να ταξινομηθεί καταλληλότερα ως σύστημα εκμάθησης, εργαλείο ανάλυσης στατιστικών

(15)

στοιχείων, ή πειραματικό σύστημα προτύπων. Έ να σύστημα που μπορεί μόνο να εκτελέσει την εξόρυξη δεδομένων ή πληροφοριών, συμπεριλαμβανομένης της εύρεσης των συνολικών τιμών, ή που πραγματοποιεί την εκτέλεση ερώτησης απαντώντας με δεδομένα που βρίσκονται στις μεγάλες βάσεις δεδομένων πρέπει να ταξινομηθεί καταλληλότερα ως σύστημα βάσεων δεδομένων, σύστημα ανάκτησης πληροφοριών, ή τιαραγιογικό σύστημα βάσεων δεδομένων.

Η εξόρυξη δεδομένων περιλαμβάνει μια ολοκλήρωση των τεχνικών από διάφορες ετηστήμες όπως η τεχνολογία βάσεων δεδομένων, στατιστική, τεχνική νοημοσύνης, υπολογιστική υψηλών αποδόσεων, αναγνώριση προτύπων, νευρικό δίκτυο, απεικόνιση στοιχείων, ανάκτηση πληροφοριών, εικόνα και επεξεργασία σήματος, και χωρική ανάλυση στοιχείων (spatial). Υιοθετούμε εδώ μια προοπτική βάσεων δεδομένων στην εξόρυξη δεδομένων μας. Δηλαδή δίνεται έμφαση στις αποδοτικές και εξελικτικές τεχνικές εξόρυξης δεδομένων για τις μεγάλες βάσεις δεδομένων. Για έναν αλγόριθμο για να είναι εξελικτικός, ο τρέχοντας χρόνος του πρέπει να αυξηθεί γραμμικά αναλογικά προς το μέγεθος της βάσης δεδομένων, λαμβάνοντας υπόψη τους διαθέσιμους πόρους συστημάτων όπως η κύρια μνήμη και το μέγεθος των δίσκων. Με την εκτέλεση της εξόρυξης δεδομένων, η γνώση που μας ενδιαφέρει, πληροφορίες υψηλών επιπέδων μπορούν να εξαχθούν από τις βάσεις δεδομένων και να αντιμετωπισθούν ή να αναλυθούν από διαφορετικές γωνίες. Η γνώση που αποκτήθηκε μπορεί να εφαρμοστεί στη λήψη αποφάσεων, τον έλεγχο διεργασίας, τη διαχείριση πληροφοριών, και την επεξεργασία ερώτησης. Επομένως, η εξόρυξη δεδομένων θεωρείται ένα από τα ενεργώς σημανηκότερα στα συστήματα βάσεων δεδομένων και μια από τις mo ελπιδοφόρες διεπιστημονικές εξελίξεις στη βιομηχανία πληροφόρησης.

Εξόρυξη Δεδομένων. Σε ποιο είδος Δεδομένων;

Εδώ εμείς εξετάζουμε διάφορα καταστήματα δεδομένων στα οποία η εξόρυξη μπορεί να διενεργηθεί. Σε γενικές γραμμές, η εξόρυξη δεδομένων πρέπει να ισ χύα σε οποιοδήποτε είδος αποθήκης πληροφοριών. Αυτό περιέλαβε τις σχεσιακές βάσεις δεδομένων, τις αποθήκες δεδομένων, τις συναλλαγές βάσεων δεδομένων, τα προηγμένα συστήματα βάσεων δεδομένων, τα επίπεδα αρχεία, και το World Wide Web. Τα προηγμένα συστήματα βάσεων δεδομένων περιλαμβάνουν τις αντικειμενοστραφείς και ανηκ€ίμ£νο-αχεσιακές βάσεις δεδομένων, και τις βάσεις δεδομένων για συγκεκριμένες

- 12-

(16)

εφαρμογές, όπως οι spatial βάσεις δεδομένων, time-series βάσεις δεδομένων, οι βάσεις δεδομένων κειμένων, και οι βάσεις δεδομένων πολυμέσων. Οι προκλήσεις και οι τεχνικές εξόρυξης μπορούν να διαφέρουν για κάθε ένα από τα συστήματα βάσεων δεδομένων.

Σχίσιακές βάσεις δεδομένων

Έ να σύστημα βάσεων δεδομένων, αποκαλούμενο επίσης σύστημα διαχείρισης βάσεων δεδομένων (ΠΔΒΔ (πρόγραμμα διαχείρισης βάσεων δεδομένων)), αποτελείται από μια συλλογή αλληλένδετων δεδομένων, γνωστή ως βάση δεδομένων, και ένα σύνολο προγραμμάτων λογισμικού για την διάκριση και αναζήτηση των δεδομένων. Τα προγράμματα λογισμικού περιλαμβάνουν τους μηχανισμούς για τον καθορισμό των δομών των βάσεων δεδομένων για την αποθήκευση στοιχείων για ταυτόχρονη, κοινή, ή διανεμημένη πρόσβαση στοιχείων και για την εξασφάλιση της συνέτιειας και της ασφάλειας των πληροφοριών που αποθηκεύονται, παρά την πτώση των συστημάτων ή τις προσπάθειες στην αναρμόδια πρόσβαση.

Το Σχεσιακό Μοντέλο Δεδομένων

Το σχεσιακό μοντέλο δεδομένων εισήχθη από τον Codd. Βασίζεται σε μια απλή και ομοιόμορφη δομή δεδομένων (τη σχέση) και έχει ένα στέρεο θεωρητικό υπόβαθρο.

Το σχεσιακό μοντέλο καθιερώνεται σταθερά στον κόσμο των εφαρμογών βάσεων δεδομένων και υπάρχουν πολλά εμπορικά σχεσιακά πακέτα ΣΔΒΔ.

Εδώ θα εστιάσουμε στην περιγραφή των βασικών αρχών του σχεσιακού μοντέλου δεδομένων.

Έννοιες του Σχεσιακού Μοντέλου Δεδομένων

Το σχεσιακό μοντέλο παριστάνει τη βάση δεδομένων ως μια συλλογή από σχέσεις. Μιλώντας χωρίς αυστηρότητα, μπορούμε να πούμε ότι κάθε σχέση μοιάζει με ένα πίνακα, ή κατά κάποιον τρόπο με ένα απλό αρχείο. Ωστόσο, υπάρχουν σημαντικές διαφορές μεταξύ σχέσεων και αρχείων, όπως θα δούμε παρακάτω.

Όταν μια σχέση αντιμετωπίζεται ως ένας πίνακας τιμών, κάθε γραμμή στον πίνακα παριστάνει μια συλλογή από τιμές δεδομένων που σχετίζονται. Οι τιμές αυτές μπορούν να ερμηνευτούν ως γεγονότα που περιγράφουν μια οντότητα ή συσχέτιση του πραγματικού κόσμου.

(17)

To όνομα του πίνακα και τα ονόματα των στηλών χρησιμοποιούνται βοηθητικά προκειμένου να ερμηνευτεί η σημασία των τιμών σε κάθε γραμμή του πίνακα.

Ό λες οι τιμές σε μια στήλη είναι του ίδιου τύπου δεδομένων. Στην ορολογία του σχεσιακού μοντέλου, μια γραμμή λέγεται πλειάδα, η ετηκεφαλίδα μιας στήλης λέγεται γνώρισμα και ολόκληρος ο πίνακας λέγεται σχέση. Ο τύπος δεδομένων που περιγράφει τους τύπους τιμών που μπορούν να εμφανιστούν σε κάθε στήλη λέγεται πεδίο ορισμού.

Παρακάτω ορίζουμε αυτούς τους όρους (πεδίο ορισμού, πλειάδα, γνώρισμα και σχέση) με μεγαλύτερη ακρίβεια.

Πεδία Ορισμού, Πλειάδες, Γνωρίσματα Και Σχέσεις

Έ να πεδίο ορισμού D είναι ένα σύνολο από ατομικές τιμές. Με τον όρο ατομικές τιμές εννοούμε ότι καμιά τιμή από το πεδίο ορισμού δεν μπορεί να διασπαστεί, στα πλαίσια του σχεσιακού μοντέλου.

Μια κοινή πρακτική για τον προσδιορισμό ενός τιεδίου ορισμού είναι να προσδιοριστεί ένας τύπος δεδομένων από τον οποίο επιλέγονται οι τιμές δεδομένων που σχηματίζουν το πεδίο. Είναι χρήσιμο να οριστεί ένα όνομα για το πεδίο ορισμού, έτσι ώστε αυτό να βοηθήσει στην ερμηνεία των τιμών του. Ακολουθούν μερικά παραδείγματα πεδίων ορισμού;

• Αριθμοί_τηλεφώνων_ΗΠΑ: Το σύνολο των ΙΟψήφιων αριθμών τηλεφώνου που ισχύουν για τις Η νωμένες Πολιτείες.

• Τοπικοί_αριθμοί_τηλεφώνων: Το σύνολο των Τψήφιων αριθμών τηλεφώνου που ισχύουν μέσα στην τιεριοχή ενός συγκεκριμένου κωδικού.

• Αριθμός_μητρώου: Το σύνολο των επιτρεπόμενων 5ψήφιων αριθμών μητρώου.

• Ονόματα: Το σύνολο των ονομάτων ανθρώπων.

• Βαθμολογία; Επιτρεπόμενοι βαθμοί με τιμές μεταξύ 0 και 10

• Ηλικίες^εργαζομένων: Πιθανές ηλικίες των εργαζομένων μιας εταιρίας. Κάθε μία πρέπει να έχει τιμή μεταξύ 16 και 80 ετών.

• Ακαδημαϊκά_τμήματα; Το σύνολο των ακαδημαϊκών ενός πανεπιστημίου, όπως Πληροφορική, Οικονομικό, Φυσική.

(18)

Τα ανωτέρω είναι λχιγικοί ορισμοί πεδίων ορισμού. Έ νας τύπος δεδομένων data types ή μια μορφοποίηση (format) προσδιορίζεται επίσης για κάθε πεδίο ορισμού, π.χ., ο τύπος δεδομένων για το πεδίο ορισμού Αριθμοί_τηλεφώνων_ΗΠΑ_όπου κάθε d είναι ένα αριθμητικό (δεκαδικό) ψηφίο και τα τρία πρώτα ψηφία σχηματίζουν ένα έγκυρο κωδικό τηλεφώνου περιοχής. Ο τύπος δεδομένων για το Ηλικίες_Εργαζομένων είναι ένας ακέραιος μεταξύ 16 και 80. Για τα Ακαδημαϊκά_τμήματα , ο τύπος δεδομένων είναι το σύνολο όλων των συμβολοσειρών που παριστάνουν έγκυρα ονόματα κωδικούς τμημάτων.

Επομένως, σε κάθε πεδίο ορισμού δίνεται ένα όνομα, ένας τύπος δεδομένων και μια μορφοποίηση. Μπορεί επίσης να δοθούν επιπλέον πληροφορίες για την ερμηνεία των τιμών του πεδίου ορισμού, π.χ. ένα αριθμητικό πεδίο όπως το βάρος_ατόμου_πρέπει να έχει προσδιορισμένη τη μονάδα ιιέτουσηε λίιιποεε ύ κιλά. Στη συνέχεια ορίζουμε την έννοια του σήματος σχέσης, που περιγράφει τη δομή μιας σχέσης.

Έ να σχήμα σχέσης (relation schema) R, που δηλώνεται με R (Ai,A2,...,A„) αποτελείτοι από ένα όνομα σχέσης R και μια λίστα από γνωρίσματα Ai,A2,...,A„ Κάθε γνώρισμα (attribute) Ai είναι το όνομα ενός ρόλου που παίζει κάποιο πεδίο ορισμού D στο σχήμα σχέσης R.

Το D λέγεται πεδίο ορισμού του Α; και συμβολίζεται dom (Aj). Ένα σχήμα σχέσης χρησιμοποιείται για την περιγραφή μιας σχέσης· το R λέγεται όνομα (name) αυτής της σχέσης. Ο βαθμός μιας σχέσης (degree o f relation) είναι το πλήθος η των γνωρισμάτων του σχήματος της.

Έ να παράδειγμα σχήματος για μια σχέση βαθμού 7, που περιγράφει φοιτητές πανεπιστημίου είναι το επόμενο.

ΦΟΙΤΗΤΗΣ (Ονομα, Αρ.Ταυτ., Τηλ. οικίας. Διεύθυνση, Τηλ. Γραφείου, Ηλικία, Μβαθμός). Για το παρόν σχήμα σχέσης, ΦΟΙΤΗΤΗΣ είναι το όνομα της σχέσης η οποία έχει επτά γνωρίσματα. Μπορούμε να προσδιορίσουμε τα ακόλουθα τιεδία ορισμού για μερικά γνωρίσματα της σχέσης φοιτητής:

dom (όνομα)=ονόματα, dom (Αριθ. Ταυτ.)=Αριθμοί_Ταυτότητας, dom (Τηλ.

οικίας)=Τοπικοί_αριθμοί_Τηλεφώνου, dom (Μβαθμός)=Μέσος_όρος_Βαθμολογίας.

Μια σχέση (ή ένα στιγμιότυπο σχέση) ν του σχήματος σχέσης R (Ai,A2,...,A„) που συμβολίζεται και r (R), είναι ένα σύνολο από η-πλειάδες r={ti,t2,...,tn}. Κάθε η-

(19)

πλειάδα είναι μια διατεταγμένη λίστα από η τιμές t=vi,V2,...,Vn>, όπου κάθε τιμή νϊ 1< I είναι ένα στοιχείο του dom (Αΐ) ή μια ειδική τιμή null. Συχνά για ένα στιγμιότυπο r (R) μιας σχέσης χρησιμοποιούνται οι όροι έκταση ή κατάσταση σχέσης και για το σχήμα R μιας σχέσης ο όρος πρόσθεση σχέσης.

Η παρακάτω εικόνα δείχνει ένα παράδειγμα της σχέσης ΦΟΙΤΗΤΗΣ που ανπστοιχεί στο σχήμα φοιτητής που ορίστηκε παραπάνω

Κάθε πλειάδα στη σχέση παριστάνει μια συγκεκριμένη οντότητα φοιτητή

Όνομα σχέσης Γνωρίσματα

Φ Ο ΙΤ Η Τ Η Σ Ό νομα Α ρΤ αυτ Τ ηλΟ ικία ς Διεύθυνση Τ ηλ Γ ραφ. Η λικία Μ βαθμ.

Benjamin Bayer

3056124 35

373- 1616

2918 Bluebonet

null 19 3.21

Katherine Ashly

3816212 45

375- 4409

125 Kirby Road

null 18 2.89

Dick Davidson

4221123 20

null 3452 Elgin

Road 749- 1253

25 3.53

Charles Cooper

4892211 00

376982 1

265 Lark Lane

749649 2

28 3.93

Barbara Benson

5336912 38

839846 1

7384 Fontana

null 19 3.25

Πίνακας 1: Τα γνωρίσματα και οι πλειάδες της σχέσης ΦΟ ΙΤΗ ΤΗ Σ

Δείχνουμε μια σχέση ως τήνακα, όπου κάθε πλειάδα παριστάνεται ως μια γραμμή και κάθε γνώρισμα αντιστοιχεί στην επικεφαλίδα μιας στήλης και δηλώνει το ρόλο ή την ερμηνεία των τιμών στη στήλη αυτή.

Οι τιμές null ττηριστάνουν γνωρίσματα που οι τιμές τους είναι άγνωστες ή δεν υπάρχουν για κάποιες συγκεκριμένες πλειάδες της ΦΟΙΤΗΤΗΣ.

Ο πιο πάνω ορισμός διατυπώνει όπως ακολουθεί.

Μια σχέση r(R) είναι ένα υποσύνολο του καρτεσιανού γινομένου των πεδίων ορισμού που ορίζουν την R:

r (R) C (dom(Ai) X dom (Α2) Χ ...Χ (A„))

(20)

Από όλους αυτούς τους πιθανούς συνδυασμούς, ένα στιγμιότυπο της σχέσης μια δεδομένη χρονική σηγμή (η τρέχουσα κατάσταση σχέσης) περΛαμβάνει μόνο τις έγκυρες πλειάδες που παριστάνουν μια συγκεκριμένη κατάσταση του πραγματικού κόσμου.

Γενικά, όταν αλλάξει η κατάσταση του πραγματικού κόσμου, αλλάζει και η σχέση, μετασχηματιζόμενη σε μια άλλη κατάσταση σχέσης.

Ωστόσο, το σχήμα R είναι σχετικά στατικό και δεν αλλάζει παρά εξαιρετικά σπάνια - για παράδειγμα, ως αποτέλεσμα της προσθήκης ενός γνωρίσματος που να παριστάνει νέα πληροφορία η οποία δεν είχε αρχικά αποθηκευτεί στη σχέση.

Είναι δυνατό πολλά διαφορετικά γνωρίσματα να έχουν το ίδιο πεδίο ορισμού. Τα γνωρίσματα δηλώνουν διαφορετικούς ρόλους ή ερμηνείες για το πεδίο ορισμού. Για παράδειγμα στη σχέση ΦΟΙΤΗΤΗΣ, το πεδίο Τοπικοί αριθμοί τηλεφώνου παίζει το ρόλο του ΤηλΟικίας, όταν αναφέρεται στον αριθμό τηλεφώνου του στιιτιού ενός φοιτητή και το ρόλο του ΤηλΓραφείου, όταν αναφέρεται στο τηλέφωνο του γραφείου ενός φοιτητή.

Χαρακτηριστικά των Σχέσεων

Ο προηγούμενος ορισμός των σχέσεων υποδηλώνει την ύπαρξη ορισμένων χαρακτηριστικών που καθιστούν μια σχέση διαφορετική από ένα αρχείο ή έναν πίνακα.

Εξετάζουμε σ ’ αυτό το εδάφιο μερικά από τα χαρακτηριστικά αυτά.

Διάταξη των πλειάδων σε μια σχέση

Μια σχέση ορίζεται ως ένα σύνολο πλειάδων Μαθηματικά, τα αρχεία ενός συνόλου δεν έχουν διάταξη, επομένως, οι πλειάδες σε μια σχέση δεν έχουν καμία συγκεκριμένη διάταξη.

Ωστόσο, οι εγγραφές ενός αρχείου αποθηκεύονται φυσικά στο δίσκο και κατά συνέπεια πάντοτε υπάρχει μια διάταξή τους. Αυτή η διάταξη καθορίζει την πρώτη, την δεύτερη, την ΐ-οστή, και την τελευταία εγγραφή σε ένα αρχείο. Παρομοίως, όταν απεικονίζουμε μια σχέση ως πίνακα, οι γραμμές παρουσιάζονται σε κάποια συγκεκριμένη (ορισμένη) σειρά.

Η διάταξη των πλειάδων δεν αποτελεί μέρος του ορισμού μιας σχέσης, διότι μια σχέση προσπαθεί να παραστήσει κάποια γεγονότα σε λογικό ή αφηρημένο επίπεδο.

(21)

Πολλές λογικές διατάξεις μπορούν να οριστούν σε μια σχέση, π.χ. οι πλειάδες της σχέσης ΦΟΙΤΗΤΗΣ στην παραπάνω εικόνα θα μπορούσαν να διαταχθούν λογικά ως προς η ς τιμές των όνομα, ΑρΤαυτ., Ηλικία, ή κάποιου άλλου γνωρίσματος.

Ο ορισμός μιας σχέσης δεν προσδιορίζει κάποια διάταξη; δεν υπάρχει καμία προτίμηση για κάποια λογική διάταξη σε σχέση με κάποια άλλη. Επομένως, η σχέση που παρουσιάζεται στην παρακάτω εικόνα θεωρείται ταυτόσημη με αυτήν της πιο πάνω εικόνας. Ό ταν μια σχέση υλοποιεί αρχείο, μια φυσική διάταξη μπορεί να οριστεί πάνω στις εγγραφές του αρχείου.

Φ Ο ΙΤ Η Τ Η Σ Ό νομα Α ρΤ αυτ Τ ηλ Ο ικία ς Διεύθυνση ΤηλΤραφ. Η λικία ΜΒαθμ.

Dick Davidson

42211232 0

null 3452 Elgin

Road 749- 1253

25 3.53

Barbara Benson

53369123 8

839846 1

7384 Fontana

null 19 3.25

Charles Cooper

48922110 0

376982 1

265 Lark Lane

749649 2

28 3.93

Katherine Ashly

38162124 5

375- 4409

125 Kirby Road

null 18 2.89

Benjamin Bayer

30561243 5

373- 1616

2918 Bluebonet

null 19 3.21

Πίνακας 2: Η ίδια σχέση Φ Ο ΙΤΗΤΗ Σ της πρώτης εικόνας με διαφορετική διάταξη γραμμών Διάταξη των Τιμών μέσα σε μια Πλειάδα και Εναλλακτικός Ορισμός της σχέσης.

Σύμφωνα με τον προηγούμενο ορισμό μιας σχέσης, μία η-πλειάδα είναι μια διατεταγμένη λίστα των η τιμών, δηλαδή η διάταξη των τιμών μέσα σε μια πλειάδα (και επομένως των γνωρισμάτων στον ορισμό ενός σχήματος σχέσης) είναι σημαντική.

Ωστόσο, σε λογικό επίπεδο η διάταξη των γνωρισμάτων και των τιμών τους δεν είναι πραγματικά σημαντική, εφόσον διατηρείται η αντιστοιχία μεταξύ γνωρισμάτων και τιμών.

Μπορεί να δοθεί ένας εναλλακτικός ορισμός μιας σχέσης που καθιστά μη απαραίτητη την διάταξη των τιμών σε μία πλειάδα. Με τον ορισμό αυτό, ένα σχήμα σχέσης R (Αι,Α2,...,Αη) είναι ένα σύνολο από γνωρίσματα και μια σχέσης r (R) είναι ένα πεπερασμένο σύνολο από απεικονίσεις (mappings) r ={ti,t2, . . . όπου κάθε πλειάδα tl είναι μια απεικόνιση από το R στο D και το D είναι μια ένωση πεδίων ορισμού των

(22)

γνωρισμάτων, δηλαδή D=dom (Ai) Udom (A2) U ...U doni (A„). Με τον ορισμό αυτό, το t(Aj) πρέπει να ανήκει στο dom (Aj) γιΟ! 1 < i < η και για κάθε απεικόνιση t στο ν. Κάθε απεικόνιση ti λέγεται πλειάδα.

Σύμφωνα με τον ορισμό αυτό, μια πλειάδα μπορεί να θεωρηθεί ως ένα σύνολο, από ζεύγη της μορφής (<γνώρισμα> , <τιμή>) όπου κάθε ζεύγος δίνει την τιμή της απεικόνισης από ένα γνώ ρισμα Αϊ σε μια τιμή Vi από το dom (Ai). Η διάταξη των γνωρισμάτων δεν είναι σημαντική, διότι το όνομα κάθε γνωρίσματος εμφανίζεται μαζί με την τιμή του. Με τον ορισμό αυτό οι δυο πλειάδες που φαίνονται στην παρακάτω εικόνα είναι ταυτόσημες. Αυτό αποκτά νόημα σε αφηρημένο ή λογικό επίπεδο, καθώς δεν υπάρχει πραγματικά κάποιος λόγος για τον οποίο να προτιμούμε να εμφανίζεται η τιμή ενός γνωρίσματος πριν από την τιμή ενός άλλου σε μια πλειάδα.

Ό ταν μια σχέση υλοποιείται ως αρχείο, τα γνωρίσματα μπορούν να διαταχθούν φυσικά ως πεδία μέσα σε μια εγγραφή. Θα χρησιμοποιήσουμε τον πρώτο ορισμό της σχέσης, όπου τα γνωρίσματα και οι τιμές ανάμεσα στις πλειάδες είναι διατεταγμένα, επειδή αυτό απλουστεύει σημαντικά τους συμβολισμούς. Ωστόσο, ο εναλλακτικός ορισμός που δίνεται εδώ είναι γενικότερος.

Τ= <0Ονομα, “Dick Davidson”), ΑρΤαυτ, «422112320»), (ΤηλΟικίας, null), (Διεύθυνση, “3452 Elgin Road”),(TηλΓραφείου, “7491253”),(Ηλικία, 25), (Μβαθμός, 6,54)>

ί=<(Διεύθυνση, “3452 Elgin Road”),(Ovopa, “Dick D avidson”),(A pTani,

“422112320”),(Ηλικία, 25),(ΤηλΓραφείου, “7491253”), (Μβαθμός, 6,54), (ΤηλΟικίας, null)>

Δυο ταυτόσημες πλειάδες όταν η διάταξη των γνωρισμάτων και των τιμών δεν είναι μέρος του ορισμού της σχέσης.

Tm ic στις πλειάδες. Κάθε τιμή σε μια πλειάδα είναι μια ατομική τιμή, κατά την έννοια ότι στα πλαίσια του σχεσιακού μοντέλου δεν μπορεί να διαιρεθεί σε συστατικά στοιχεία. Επομένως, σύνθετα και πλειότιμα γνωρίσματα δεν επιτρέπονται. Μεγάλο μέρος της θεωρίας του σχεσιακού μοντέλου έχει αναπτυχθεί έχοντας κατά νου αυτήν την υπόθεση, που ονομάζεται υπόθεση πρώτης κανονικής μορφής (first normal form). Τα πλειότιμα γνωρίσματα πρέπει να αναπαρασταθούν με ξεχωριστές σχέσεις και τα σύνθετα γνωρίσματα παριστάνονται μόνο με τα συστατικά τους απλά γνωρίσματα.

- 19-

(23)

Οι τιμές κάποιων γνωρισμάτων για μια συγκεκριμένη πλειάδα μπορεί να μην είναι γνωστές ή να μην ισχύουν για την πλειάδα αυτή. Στις περιπτώσεις αυτές χρησιμοποιείται μια ειδική τιμή που λέγεται null. Για παράδειγμα, μερικές πλειάδες φοιτητών έχουν τιμή null γυι το τηλέφωνο γραφείου διότι οι φοιτητές αυτοί δεν έχουν γραφείο.

Έ νας άλλος φοιτητής έχει τιμή null όπως “η τιμή είναι άγνωστη”, “το γνώρισμα δεν υφίσταται για την πλειάδα αυτή” ή “η πλειάδα αυτή δεν έχει τιμή για το γνώρισμα”.

Μερικές υλοποιήσεις επινοούν διαφορετικούς κωδικούς για τους διαφορετικούς τύπους null τιμών.

Η ενσωμάτωση διαφορετικών τύπων null τιμών στις πράξεις του σχεσιακού μοντέλου έχει αποδειχτεί δύσκολη και μια πλήρης μελέτη είναι εκτός των βασικών σκοπών του συγγράμματος αυτού.

Ερμηνεία μιας σχέσης

Το σχήμα μιας σχέσης μπορεί να ερμηνευθεί ως μια δήλωση ή ένας τύπος βεβαίωσης.

Για παράδειγμα, το σχήμα της σχέσης ΦΟΙΤΗΤΗΣ, βεβαιώνει ότι γενικά, μια οντότητα φοιτητή έχει Όνομα, ΑρΤαυτ., ΤηλΟικίας, Διεύθυνση, ΤηλΤραφείου, Ηλικία και Μβαθμό. Στη συνέχεια, κάθε πλειάδα της σχέσης μπορεί να ερμηνευθεί ως ένα γεγονός ή ένα συγκεκριμένο στιγμιότυπο της βεβαίωσης.

Σημειώστε ότι μερικές σχέσεις μπορούν να παριστάνουν γεγονότα σχετικά με οντότητες, ενώ άλλες σχέσεις μπορεί να παριστάνουν γεγονότα σχετικά με συσχετίσεις.

Για παράδειγμα, ένα σχήμα σχέσης ΦΟΙΤΑ (ΑρΤΑυτΦοιτ, Κωδικός Τμήματος) βεβαιώνει ότι οι φοιτητές σπουδάζουν σε ακαδημαϊκά τμήματα· μια πλειάδα της σχέσης αυτής συσχετίζει ένα φοιτητή με το τμήμα που σπουδάζει. Επομένως, το σχεσιακό μοντέλο παριστάνει ομοιόμορφα ως σχέσεις γεγονότα τόσο για οντότητες όσο και για συσχετίσεις.

Έ νας εναλλακτικός τρόπος να ερμηνευτεί ένα σχήμα σχέσης είναι ως κατηγόρημα στην περίπτωση αυτή, οι τιμές σε κάθε πλειάδα ερμηνεύονται ως τιμές που ικανοποιούν το κατηγόρημα. Αυτή η ερμηνεία είναι αρκετά χρήσιμη στα πλαίσια γλωσσών λογικού προγραμματισμού, όπως η PROLOG, επειδή επιτρέπει τη χρήση του σχεσιακού μοντέλου στις γλώσσες αυτές.

(24)

Συμβολισμοί Του Σχεσιακού Μοντέλου

Χρησιμοποιούμε τους ακόλουθους συμβολισμούς στην παρουσίασή μας:

• Έ να σχήμα σχέσηςΚ βαθμού η δηλώνεται ω ςΚ (Α ι, Α2, ..., An).

• Μια πλειάδα t μιας σχέσης r(R) δηλώνεται με t=<Vi, V2, ..., Vn>, Vi είναι η τιμή που αντιστοιχεί στο γνώρισμα Ai. Οι ακόλουθοι συμβολισμοί αναφέρονται στις συνιστώσες τιμές των πλειάδων:

- το t [Ai] αναφέρεται στην τιμή Vi τηςί για το γνώρισμα Ai.

- το t[Au, Aw, ..., Αζ], όπου Α„, Aw, ..., Αζ_είναι μια λίστα από γνωρίσματα από το R, αναφέρεται στην υποπλειάδα τιμών < Au, Aw, ..., Αζ> από την t που αντιστοιχούν στα γνωρίσματα που προσδιορίζονται στη λίστα.

• Τα γράμματα Q, R, S δηλώνουν ονόματα σχέσεων.

• Τα γράμματα q, r, s δηλώνουν καταστάσεις σχέσεων

• Τα γράμματα t,u,v δηλώνουν πλειάδες.

• Γενικά, το όνομα μιας σχέσης όπως ο ΦΟΙΤΗΤΗΣ δηλώνει το τρέχον σύνολο πλειάδων της σχέσης αυτής (την τρέχουσα κατάσταση ή το τρέχον στιγμιότυπο της σχέσης) ενώ ο ΦΟΙΤΗΤΗΣ (Ονομα, ΑρΤαυτ., ...) αναφέρεται στο σχήμα της σχέσης.

• Τα ονόματα των γνωρισμάτων μερικές φορές προσδιορίζονται με το όνομα της σχέσης στην οποίαν ανήκουν π.χ. ΦΟΙΤΗΤΗΣ. Ό νομα ή ΦΟΙΤΗΤΗΣ. Ηλικία.

Αποθήκες δεδομέμω ν

Υποθέτουμε ότι μια επιτυχής διεθνής επιχείρηση, έχει υποκαταστήματα σε όλο τον κόσμο. Κάθε υποκατάστημα έχει τη δίκιά του βάση δεδομένων. Ο Πρόεδρος μιας εταιρίας της AlIElectronics έχει ζητήσει μια ανάλυση των πωλήσεων της επιχείρησης ανά τύπο στοιχείων ανά κλάδο για το τρίτο τετράμηνο. Αυτό είναι ένας δύσκολος στόχος, ιδιαίτερα δεδομένου ότι τα σχετικά στοιχεία είναι εξαπλωμένα έξω από τις κεντρικές βάσεις δεδομένων, κοί βρίσκεται φυσικά at διαφορετικές τοποθεσίες.

Εάν η εταιρία είχε μια αποθήκη εμπορευμάτων στοιχείων, αυτός ο στόχος θα ήταν εύκολος. Μια αποθήκη δεδομένων είναι μια αποθήκη των πληροφοριών που συλλέγεται από τις πολλαπλές πηγές, που αποθηκεύονται κάτω από ένα ενοποιημένο σχήμα, και βρίσκεται σε μια τοποθεσία. Οι αποθήκες δεδομένων κατασκευάζονται μέσω μιας διαδικασίας των δεδομένων του ελέγχονται, του μετασχηματισμού των δεδομένων.

-21 -

Referências

Documentos relacionados

} Ταινίες που είναι στη λίστα των προτεινόμενων ταινιών Για την καταχώριση της στη βάση δεδομένων: Realm realm = Realm.getDefaultInstance; try { realm.beginTransaction;