• Nenhum resultado encontrado

Δημιουργία μοντέλου έγκρισης πιστωτικής κάρτας από ιστορικά δεδομένα

N/A
N/A
Protected

Academic year: 2023

Share "Δημιουργία μοντέλου έγκρισης πιστωτικής κάρτας από ιστορικά δεδομένα"

Copied!
119
0
0

Texto

(1)

ΤΕΙ ΚΑΒΑΛΑΣ

ΔΗΜΙΟΥΡΓΙΑ ΜΟΝΤΕΛΟΥ ΕΓΚΡΙΣΗΣ ΠΙΣΤΩΤΙΚΗΣ ΚΑΡΤΑΣ ΑΠΟ ΙΣΤΟΡΙΚΑ

ΔΕΔΟΜΕΝΑ

Σπουδάστρια

Αρχοντοπούλου Ελένη

Εισηγητής Καθηγητής

Ρ γ . Γκούμας Στέφανος

Καβάλα 2009

(2)

1

Περιεχόμενα

1. Εισαγωγή...

1.1. Οριοθέτηση της Περιοχής Μελέτης... 2

1.2. Επισκόπηση Περιεχομένων... 2

2. Εξόρυξη Δ εδομένω ν... 4

2.1. Η πορεία προς την Εξόρυξη Δεδομένων... 4

2.2. Τι είναι Εξόρυξη Δ εδομένω ν... 5

2.3. Η Διαδικασία της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων (KDD) ....7

2.4. Η διαδικασία Εξόρυξης Δεδομένω ν... 9

2.5. Ταξινόμηση των Μεθόδων Εξόρυξης Δεδομένω ν...10

2.6. Επισκόπηση των Βασικότερων Τεχνικών ΕΔ ...12

2.6.1. Κατηγοριοποίηση...12

2.6.1.1. Bayesian κατηγοριοποίηση...14

2.6.1.2. Δέντρα απόφασης...15

2.6.1.2.1. Ο Αλγόριθμος ID3...19

2.6.1.2.2. Οι Αλγόριθμοι C4.5 και C 5.0...23

2.6.1.2.3. Μάθηση εννοιών...25

2.6.1.2.4. Ο αλγόριθμος απαλοιφής υποψηφίων...25

2.6.1.2.5. Μάθηση κατά περίπτω ση...26

2.6.1.2.6. Ο αλγόριθμος των k-κοντινότερων γειτόνω ν...27

2.6.1.2.7. Νευρωνικά δίκτυα...29

2.6.1.2.8. Μηχανές διανυσμάτων υποστήριξης...32

2.6.2. Παρεμβολή...33

2.6.3. Ομαδοποίηση... 34

2.6.3.1. Ο Αλγόριθμος K-m eans... 37

(3)

38 2.6.4. Κανόνες Συσχέτισης...

2.6.4.Ι. Ο αλγόριθμος A p rio ri...41

2.7. Σκοπός προεπεξεργασίας δεδομένω ν...43

2.7.1. Καθαρισμός Δεδομένων... 44

2.7.1.1. Ελλιπείς τ ιμ έ ς ...45

2.7.Ι.2. Ενθόρυβα δεδομένα... 46

2.7.2. Μετασχηματισμός Δεδομένων... 46

2.7.3. Μείωση των δεδομένω ν... 47

2.7.4. Διακριτοποίηση δεδομένων... 47

3. Οριοθέτηση Προβλήματος...49

3.1. Π ιστωτι κές κά ρ τες... 49

3.1.1. Οι Βασικές Κατηγορίες Πιστωτικών Καρτώ ν...51

3.1.2. Η Χαρτογράφηση της Αγοράς Πιστωτικών Καρτών...51

3.2. Πιστωτικές κάρτες και πιστωτικός κίνδυνος...53

3.2.1. Επισκόπηση Τεχνικών Αξιολόγησης Π ελατώ ν...54

3.3. Το Πρόβλημα Μ ελέτης...58

4. Το πρόγραμμα W EKA...60

4.1. Πλατφόρμα εφαρμογής W EKA...60

4.1.1. Τα αρχεία στο W EKA...61

4.1.2. Το περιβάλλον Explorer...63

4.1.2.1. Το παράθυρο Classify...65

4.1.2.2. Το παράθυρο C lu ster...68

4.1.2.3. Το παράθυρο Associate...68

4.1.2.4. Το παράθυρο Select A ttribu tes...68

(4)

5. Εξόρυξη Γνώσης από τα Δεδομένα...69

5.1.1. Τα Χαρακτηριστικά του Προβλήματος...70

5.2. Κριτήρια Αξιολόγησης Αλγορίθμων...77

5.2.1. Πίνακας Σύγχυσης...77

5.2.2. Α κρίβεια...78

5.2.3. Ορθότητα...79

5.2.4. Ανάκληση...79

5.2.5. Μέτρο F ...79

5.3. Επιλογή Αλγορίθμων ...79

5.3.1. Ο αλγόριθμος J 4 8 ...80

5.3.2. αλγόριθμος J R IP ...90

5.3.3. Ο αλγόριθμος Ρ Α R T ...91

5.3.4. Ο αλγόριθμος Naïve B ayes...96

5.3.5. Ο αλγόριθμος BayesN et...98

5.3.6. Ο αλγόριθμος Multilayer Perceptron...98

5.3.7. Ο αλγόριθμος S M O ... 102

5.3.8. αλγόριθμος Simple Logistic... 106

6. Συμπεράσματα ... 111

Αναφ ορές... 113

(5)

1. Εισαγωγή

Ζούμε στην εποχή της πληροφορικής επανάστασης, η οποία στηρίζεται στην αποτελεσματική συλλογή, διαχείριση και επεξεργασία πληροφοριών και αποτελεί κρίσιμο παράγοντα για την επιτυχία της επιστημονικής έρευνας, των επιχειρηματικών δράσεων και γενικότερα της κοινωνικής εξέλιξης. Η διαρκής συσσώρευση δεδομένων μέσω καταγραφής συναλλαγών, παρακολούθησης φαινομένων και συλλογής μετρήσεων είναι πλέον ευρύτατα διαδεδομένη.

Η ικανότητα συλλογής και αποθήκευσης δεδομένων έχει προ πολλού ξεπεράσει την ικανότητα διαχείρισης και αξιοποίησής τους, με αποτέλεσμα συχνά να εγκαταλείπεται η πιθανότητα αξιοποίησης τους, είτε στα πλαίσια της επιστημονικής έρευνας, είτε στα πλαίσια των επιχειρηματικών δραστηριοτήτων. Προκύπτει, δηλαδή, ότι δεν υπάρχει αντίστοιχη βελτίωση της ικανότητας των ανθρώπων για κατανόηση και αξιοποίηση των αποθηκευμένων πληροφοριών.

Οι τεχνικές εξόρυξης δεδομένω ν (data m ining), αξιοποιούν μεθόδους και εργαλεία τα οποία παρέχονται από τις τεχνικές μηχανικής μάθησης (machine learning) και τα οποία αυτοματοποιούν σύνθετες και χρονοβόρες διαδικασίες επαγωγής γνώσης από δεδομένα, έτσι ώστε να καθίσταται εφικτή η ανάλυση μεγάλου όγκου δεδομένων και να συνάγονται χρήσιμα συμπεράσματα.

Στόχος της παρούσας διπλωματικής εργασίας είναι η αντιμετώπιση ενός πραγματικού προβλήματος, συγκεκριμένα της έγκαιρης, επιτυχούς και αξιόπιστης αξιολόγησης τω ν πελατών ενός χρηματοπιστωτικού ιδρύματος κατά τη διαδικασία έγκρισης πιστωτικής κάρτας, εφαρμόζοντας τεχνικές εξόρυξης δεδομένων. Κύριο κριτήριο για την αξιολόγηση των αποτελεσμάτων τη ς λύσης που δίδεται στο πρόβλημα είναι η δυνατότητα επιχειρησιακής αξιοποίησης της γνώσης που προκύπτει.

(6)

1.1. Οροθέτηση της Περιοχής Μ ελέτης

Η αγορά πιστωτικών καρτών, τα τελευταία χρόνια, παρουσιάζει μεγάλη ανάπτυξη στη χώρα μας. Ωστόσο, είναι γεγονός, ότι η πιστωτική κάρτα είναι ένα προϊόν υψηλού κινδύνου, γι' αυτό άλλωστε και τα επιτόκια των πιστωτικών καρτών διατηρούνται σε υψηλά επίπεδα. Αναμενόμενο είναι λοιπόν, από τη στιγμή που οι χρηματοδοτικοί οργανισμοί αποβλέπουν στη μεγιστοποίηση των κερδών τους, να επιδιώκουν τον περιορισμό των επισφαλειών που προέρχονται από τους αφερέγγυους πελάτες. Το σύνολο των πιστωτικών κινδύνων, που περιλαμβάνει τις καθυστερήσεις και τις επισφάλειες εκτιμάται ότι στη χώρα μας φθάνει το 15%

περίπου του χαρτοφυλακίου των δανείων των τραπεζών, όταν ο αντίστοιχος ευρωπαϊκός μέσος όρος κινείται στο 10,5%, μέγεθος που περιλαμβάνει και τις απάτες που πραγματοποιούνται μέσω των πιστωτικών καρτών.

Στο επίκεντρο του προβληματισμού των τραπεζών έχει τεθεί ο έλεγχος του υψηλού πιστωτικού κινδύνου που συνεπάγεται η διάδοση των πιστωτικών καρτών. Οι υψηλές επισφάλειες που συνεπάγεται η ανάπτυξη της αγοράς της πιστωτικής κάρτας, ανέδειξε και την αδυναμία που υπάρχει στη χώρα μας στο θέμα της αξιολόγησης της πιστωτικής ποιότητας των υποψηφίων πελατών.

Η παρούσα διπλωματική εργασία πραγματεύεται την επεξεργασία δεδομένων που αφορούν χαρακτηριστικά πελατών που τους χορηγήθηκε πιστωτική κάρτα, εφαρμόζοντας μεθόδους εξόρυξης γνώσης και τη δημιουργία μοντέλων που να μπορούν να προβλέπουν την πιστοληπτική ικανότητα των υποψηφίων πελατών. Για την επεξεργασία τους και την εξαγωγή πολύτιμης γνώσης από αυτά χρησιμοποιήθηκε το λογισμικό Weka, το οποίο περιέχει υλοποιημένους τους σημαντικότερους αλγορίθμους εξόρυξης γνώσης.

1.2. Επισκόπηση Περιεχομένων

ο

Η εργασία, εκτός της Εισαγωγής που αποτελεί και το 1 Κεφάλαιο, περιλαμβάνει ακόμα πέντε κεφάλαια και ολοκληρώνεται με το Παράρτημα.

(7)

Το 2 Κεφάλαιο αναφέρεται στον επιστημονικό τομέα της εξόρυξης γνώσης. Πα­

ρουσιάζονται συγγενή με αυτή αντικείμενα και περιγράφονται οι κυριότερες τεχνικές ανακάλυψης γνώσης από βάσεις δεδομένων και οι σημαντικότεροι αλγόριθμοι εξόρυξης γνώσης. Πιο συγκεκριμένα, αναλύονται τεχνικές όπως δέντρα απόφασης, Bayesian κατηγοριοποίηση, μάθηση εννοιών, μάθηση κατά περίπτωση, νευρωνικά δίκτυα, μηχανές διανυσμάτων υποστήριξης, κανόνες συσχέτισης, ομαδοποίηση, κτλ.

Στο 3 Κεφάλαιο δίνονται αρχικά κάποιες γενικές πληροφορίες για την αγορά των πιστωτικών καρτών και στη συνέχεια ακολουθεί η αναλυτική περιγραφή του προβλήματος της εργασίας.

Στο 4 Κεφάλαιο παρουσιάζεται το λογισμικό Weka που χρησιμοποιήθηκε για την επίλυση του προβλήματος της εργασίας. Περιγράφεται το γραφικό του κομμάτι (GUI) και η παρουσίαση εστιάζεται στο περιβάλλον Explorer του συστήματος, καθώς αυτό χρησιμοποιήθηκε κυρίως κατά την επίλυση του προβλήματος.

Στο 5° Κεφάλαιο παρουσιάζεται το σύνολο δεδομένων και οι αλγόριθμοι εξόρυξης γνώσης που χρησιμοποιήθηκαν. Συγκεκριμένα, γίνεται μια εκτενή αναφορά στο μέγεθος και στα χαρακτηριστικά των δεδομένων που χρησιμοποιήθηκαν. Έπειτα, παρουσιάζονται οι αλγόριθμοι που χρησιμοποιήθηκαν στο πρόγραμμα Weka και καταγράφονται τα μοντέλα που προέκυψαν σε κάθε περίπτωση, καθώς και η ακρίβειά τους.

Το 6 Κεφάλαιο περιλαμβάνει τα συμπεράσματα που προέκυψαν μετά την ολοκλή­

ρωση της εργασίας. Καταγράφονται, επίσης, κάποια θέματα που θα μπορούσαν μελλοντικά να αντιμετωπιστούν.

Ακολουθούν οι αναφορές στις πηγές που χρησιμοποιήθηκαν για τη συγγραφή της διπλωματικής εργασίας.

(8)

2. Εξόρυξη Δεδομένων

Η πρωτοφανής έκρηξη δεδομένων που πυροδοτήθηκε από την ανάπτυξη εργαλείων αυτόματης συλλογής τους και την μείωση του κόστους της μνήμης, έκανε επιτακτική την ανάγκη για επεξεργασία και ερμηνεία του μεγάλου αυτού όγκου δεδομένων. Αυτή η ανάγκη έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές, όπως είναι η τεχνητή νοημοσύνη, η στατιστική, οι αποθήκες δεδομένων, η διαδραστική ανάλυση και επεξεργασία δεδομένων, τα έμπειρα συστήματα και η οπτικοποίηση δεδομένων, με αποτέλεσμα να δημιουργηθεί ένας νέος ερευνητικός τομέας, γνωστός ως Εξόρυξη Δεδομένω ν και Γνώ σης (Data and Knowledge Mining).

2.1. Η πορεία προς την Εξόρυξη Δεδομένων

Ο βασικότερος λόγος για τον οποίο η εξόρυξη δεδομένων έχει εξελιχθεί σε τεχνολογία αιχμής είναι η διαθεσιμότητα και η πρόσβαση σε τεράστιες ποσότητες δεδομένων, σε συνδυασμό με την επιτακτική ανάγκη τα δεδομένα αυτά να μετατραπούν σε γνώση.

Η εξόρυξη δεδομένων μπορεί να θεωρηθεί ως η φυσική εξέλιξη της Τεχνολογίας της Πληροφ ορίας (Inform ation Technology). Παρακολουθώντας την πορεία της στο χρόνο (Εικόνα 2.1), τη δεκαετία του '60 γίνεται το πρώτο επαναστατικό βήμα με τη συλλογή δεδομένων (data collection), ενώ τη δεκαετία του '70 αναπτύσσεται το πρώτο Σχεσιακό Σχήμα Βάσεω ν Δεδομένω ν (RDBMS). Κατά τη δεκαετία του '80 αναπτύσσεται η τεχνολογία της προσπέλασης δεδομένων, με την εφαρμογή του σχεσιακού μοντέλου και την ανάπτυξη σχετικών γλωσσών προγραμματισμού [6].

Σε μικρό χρονικό διάστημα (δεκαετία '90) ακολουθεί και το επόμενο ρηξικέλευθο βήμα στο χώρο της διαχείρισης δεδομένων, η ανάπτυξη των Αποθηκώ ν Δεδομένω ν (Data W arehouses) και των Συστημάτω ν Στήριξης Αποφ άσεω ν (D ecision Support System s - DSS) [12].

(9)

Ωστόσο, παρά τα εντυπωσιακά αποτελέσματα των συστημάτων στήριξης αποφά­

σεων, κρίνεται αναγκαία η ανάπτυξη μιας νέας γενιάς εργαλείων και τεχνικών για ευφυή ανάλυση βάσεων δεδομένων, έτσι ώστε να επιτευχθεί η επίλυση του πλέον κύριου προβλήματος στις μεγάλες βάσεις δεδομένων, του "data-rich but information-poor". Αυτή η αδυναμία της ανθρώπινης αντίληψης να εξάγει συμπεράσματα από τα δεδομένα

ενός συστήματος, τα οποία αυξάνονται με ιλιγγιώδεις ρυθμούς, σε συνδυασμό με την ανάγκη ερμηνείας όλων αυτών των δεδομένων, οδήγησε σε αυτό που σήμερα ονομάζουμε Εξόρυξη Δεδομένων (Data Mining).

Data Collection (60’s)

Επεξεργασία σ τατικώ ν &

ανακεφ αλα ιυυπ κών δεδομένω ν

Δημιουργία DBMS & RDBMS

Εικόνα 2.1: Η εξέλιξη των τεχνολογιών προς την εξόρυξη δεδομένων

2.2. Τι είναι Εξόρυξη Δεδομένων

Η εξόρυξη γνώσης από μεγάλες αποθήκες δεδομένων έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, των μηχανών γνώσης, της στατιστικής, καθώς επίσης και ως μια σημαντική ευκαιρία για καινοτομία στις επιχειρήσεις. Λογικό είναι, λοιπόν, μέθοδοι παρόμοιες ή παραπλήσιες με την εξόρυξη δεδομένων να ταυτίζονται, λανθασμένα, με αυτήν.

Ορισμένες από τις μεθόδους αυτές είναι:

(10)

• Η ανάλυση προτύπων δεδομένων (data/ pattern analysis)

• Η αρχαιολογία δεδομένων (data archeology)

• Η συγκομιδή πληροφοριών (information harvesting)

• Η ευφυΐα συστημάτων επιχειρήσεων (business intelligence).

Ο όρος εξόρυξη δεδομένων προέρχεται από τις ομοιότητες που υπάρχουν μεταξύ της αναζήτησης σημαντικής πληροφορίας σε μια μεγάλη βάση δεδομένων και της εξόρυξης σε ένα όρος για κάποιο πολύτιμο μετάλλευμα. Και οι δύο διαδικασίες απαιτούν είτε την εξέταση με προσοχή μια τεράστιας ποσότητας υλικού είτε την ευφυή έρευνά της, προκειμένου να βρεθεί αξία.

Η εξόρυξη δεδομένων είναι στενά συνδεδεμένη με την ανακάλυψη γνώσης σ ε β ά σ εις δεδομένω ν (Knowledge D iscovery in Databases - KDD) και πολλές φορές οι ορισμοί των δύο αυτών διαδικασιών ταυτίζονται. Ωστόσο, η KDD αναφέρεται σε ολόκληρη τη διαδικασία ανακάλυψης χρήσιμης πληροφορίας από μεγάλα σύνολα δεδομένων. Ένας γενικός ορισμός, που παρουσιάζει με περισσότερη σαφήνεια την έννοια της KDD δόθηκε από τους Fayyad, Piatetsky-Shapiro, & Smyth [13], σύμφωνα με τον οποίο:

Η ανακάλυψη γνώσης σ ε β ά σ εις δεδομένω ν είναι η ντετερμινιστική διαδικασία της αναγνώρισης προτύπων - σχέσεων μέσα στα δεδομένα μιας βάσης, για τα οποία πρότυπα ισχύει ότι είναι καινούρια, έγκυρα, πιθανώς χρήσιμα και απόλυτα κατανοητά.

Με τον όρο πρότυπο εννοούμε ένα μοντέλο το οποίο εφαρμόζεται στα δεδομένα, έτσι ώστε να τους προσδίδει ορισμένα κοινά χαρακτηριστικά. Το εξαγόμενο πρότυπο πρέπει να είναι έγκυρο, δηλαδή συνεπές σε νέα δεδομένα με κάποιον βαθμό βεβαιότητας και κατανοητό, ώστε να μπορεί να οδηγήσει ακόμη και τους μη ειδικούς σε χρήσιμα συμπεράσματα για τη λήψη αποφάσεων.

Ο όρος διαδικασία συνεπάγεται ότι η KDD αποτελείται από πολλά βήματα, όπως η προ-επεξεργασία των δεδομένων, η έρευνα για πρότυπα και η αξιολόγηση - ερμηνεία των αποτελεσμάτων.

(11)

Η εξόρυξη δεδομένων είναι ένα από τα βήματα της KDD διαδικασίας, η οποία εν­

διαφέρεται κυρίως για τις μεθοδολογίες και τις τεχνικές εξαγωγής προτύπων δεδομένων ή τις περιγραφές δεδομένων από τις μεγάλες αποθήκες δεδομένων.

Για να διαφοροποιηθούμε μεταξύ της διαδικασίας και των εργαλείων θα χρησιμο­

ποιήσουμε τον όρο, KDD, για να περιγράψουμε ολόκληρη τη διαδικασία ανάλυσης ενός συνόλου δεδομένων, και τον όρο, εξόρυξη δεδομένων, για να αναφερθούμε κυρίως στις μεθόδους και τις τεχνικές που χρησιμοποιούνται στη διαδικασία ανάλυσης.

2.3. Η Διαδικασία της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων (KDD)

Η ανακάλυψη γνώσης από βάσεις δεδομένων (KDD) είναι μια διαδραστική και επαναληπτική διαδικασία , η οποία περιλαμβάνει τα ακόλουθα βήματα:

1. Την ανάπτυξη και κατανόηση του χώρου της εφαρμογής και την αναγνώριση των στόχων της KDD διαδικασία από την σκοπιά του τελικού χρήστη.

2. Την ολοκλήρωση των δεδομένων. Υπάρχουν διαφορετικά είδη αποθηκών πληροφοριών που μπορούν να χρησιμοποιηθούν στη διαδικασία εξόρυξης γνώσης. Κατά συνέπεια, απαιτείται η εξαγωγή των δεδομένων από αυτές και η οργάνωσή τους σε απλούστερες δομές.

3. Τη δημιουργία του στόχου - συνόλου δεδομένων (target data set). Επιλογή του συνόλου δεδομένων στο οποίο θα γίνει η εφαρμογή της εξόρυξης.

4. Τον καθαρισμό και την προ-επεξεργασία των δεδομένων. Σ' αυτό το βήμα αντιμετωπίζονται περιπτώσεις, όπως η αφαίρεση του θορύβου ή των outliers, η λήψη αποφάσεων για το χειρισμό πεδίων τα οποία δεν έχουν τιμές κ.λπ.

5. Τον μετασχηματισμό των δεδομένων. Τα δεδομένα μετασχηματίζονται για να διευκολυνθεί η διαδικασία της ανακάλυψης γνώσης. Χρήση των μεθόδων τη ς μείωσης τω ν διαστάσεων των δεδομένων (data reduction), της ομοιόμορφης κωδικοποίησης τη ς ποιοτικά ίδιας πληροφορίας, της εύρεσης

(12)

κατάλληλης αντιπροσώπευσης των δεδομένων χωρίς μεταβλητές, της μετατροπής συνεχόμενων αριθμητικών τιμών σε διακριτές τιμές (διακριτοποίηση) κλπ.

6. Την επιλογή των στόχων και των αλγορίθμων εξόρυξης δεδομένων. Σ' αυτό το στάδιο αποφασίζουμε το στόχο της διαδικασίας ανακάλυψης γνώσης, δηλαδή καθορίζεται τι είδους γνώση θα αναζητηθεί, κάτι που έμμεσα προσδιορίζει και την κατηγορία αλγορίθμων που θα χρησιμοποιηθούν. Τα παράγωγα της διαδικασίας ανακάλυψης γνώσης μπορεί να είναι:

8. Πρότυπα πληροφ όρησης (μάθηση χωρίς επίβλεψη), όπου στόχος είναι η ανακάλυψη πιθανών συσχετίσεων ή ομάδων στα δεδομένα.

^ Μ οντέλα πρόβλεψ ης (μάθηση με επίβλεψη), όπου στόχος είναι η μάθηση μιας συνάρτησης που συνδέει ένα σύνολο δεδομένων εισόδου - εξόδου.

7. Την εφαρμογή της εξόρυξης δεδομένων. Είναι ένα καθαρά υπολογιστικό στάδιο, στο οποίο γίνεται η ουσιαστική αναζήτηση της γνώσης στα δεδομένα.

8. Την αξιολόγηση των προτύπων. Τα ευρεθέντα πρότυπα αξιολογούνται προκειμένου να προσδιοριστούν τα αληθινά ενδιαφέροντα πρότυπα, δηλαδή αυτά που αντιπροσωπεύουν τη γνώση. Πιθανή επιστροφή σε ένα από τα βήματα 1-7 για περαιτέρω επανάληψη.

Την σταθεροποίηση και παρουσίαση της γνώσης. Αυτό μπορεί να σημαίνει είτε επικύρωση/ αναβάθμιση παλιότερα εξαγόμενων συμπερασμάτων, είτε παρουσίαση των συμπερασμάτων αυτών στους άμεσα ενδιαφερόμενους.

Η Κϋϋ διαδικασία αναπαρίσταται στην Εικόνα 2.2

(13)

δ εδ ο μ έν ο

Γ Ν Ω Ι Η

Εικόνα 2.2: Τα βήματα της διαδικασίας Κϋϋ

2.4. Η διαδικασία ΕξόρυξηςΔεδομένων

Η εξόρυξη δεδομένων έχει ως στόχο την εύρεση προτύπων και σχέσεων μεταξύ των δεδομένων. Υπάρχει μια μεγάλη ποικιλία αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς τομείς, όπως η στατιστική, η αναγνώριση προτύπων, η μηχανική μάθηση και οι βάσεις δεδομένων.

Δύο συνιστώσες μπορούν να οδηγήσουν σε επιτυχημένα αποτελέσματα εξόρυξης δεδομένων. Από τη μία ο σωστός προσδιορισμός του προβλήματος που θέλουμε να αντιμετωπίσουμε και από την άλλη η χρησιμοποίηση τω ν κατάλληλων δεδομένων.

Είναι πολύ σημαντικό πριν τη δημιουργία του μοντέλου, να εξεταστούν προσεκτικά τα δεδομένα ώστε να γίνουν κατανοητά [3].

Ο στόχος της εξόρυξης δεδομένων είναι η παραγωγή νέας γνώσης. Πριν ξεκινήσει, λοιπόν, η διαδικασία της εξόρυξης πρέπει να ληφθούν αποφάσεις σχετικά με τα παρακάτω θέματα:

• Σκοπός για τον οποίο γίνεται η εξόρυξη.

• Ποιος αλγόριθμος θα επιλεχθεί.

• Πλατφόρμα εφαρμογής, το εργαλείο δηλαδή που θα χρησιμοποιηθεί για την εξόρυξη των δεδομένων.

(14)

2.5. Ταξινόμηση των Μεθόδων Εξόρυξης Δεδομέ­

νων

Από την παραπάνω ανάλυση μπορεί να γίνει αντιληπτό ότι η εξόρυξη δεδομένων είναι μια διαδικασία πολύπλευρη και σύνθετη, μέρος μιας άλλης επαναληπτικής διαδικασίας, με σκοπό την εξαγωγή γνώσης και συμπερασμάτων. Επιπλέον, είναι ένας διεπιστημονικός τομέας που συνδυάζει τομείς όπως βάσεις δεδομένων, μηχανική μάθηση, στατιστική και ανάκτηση πληροφοριών. Εμπεριέχει, λοιπόν, τεχνολογίες αιχμής χωρίς να τις υποβαθμίζει, αλλά αντιθέτως τις συνδυάζει με διάφορους τρόπους (Εικόνα 2.3)

Εικόνα 2.3: Οι συγγενείς τεχνολογίες με την Εξόρυξη Δεδομένων

Ανάλογα με τον τρόπο με τον οποίο οι διάφορες τεχνολογίες συμμετέχουν στην εξόρυξη δεδομένων, υλοποιούνται και διαφορετικά συστήματα εξόρυξης δεδομένων. Η κατηγοριοποίηση των συστημάτων εξόρυξης δεδομένων μπορεί να γίνει με βάση τα ακόλουθα κριτήρια [3]:

αποθήκευσης πληροφορίας (π.χ. τα σχεσιακά δεδομένα, τα αντικειμενοστραφή συστήματα βάσεων δεδομένων, οι χωροχρονικές βάσεις δεδομένων, τα συστήματα βάσεων δεδομένων πολυμέσων κ.λπ.). Για παράδειγμα, ένα σύστημα που χρησιμοποιείται για την εξαγωγή γνώσης από αντικειμενοστραφείς βάσεις δε­

δομένων καλείται αντικειμενοστραφές σύστημα εξόρυξης δεδομένων. Επιπλέον,

(15)

όλοι οι αλγόριθμοι εξόρυξης δεδομένων δεν είναι εφαρμόσιμοι σε όλους τους τύπους δεδομένων.

Σύμφωνα μ ε τον τύπο της γνώσης που εξάγεται: Από ένα σύστημα εξόρυξης δεδομένων μπορούν να προκύψουν είτε πρότυπα πληροφόρησης (informative patterns), όπου περιγράφουν συσχετίσεις μεταξύ των δεδομένων και προκύπτουν με μάθηση χωρίς επίβλεψη, είτε μοντέλα πρόβλεψης (predictive models), όπου προβλέπουν την τιμή μιας μεταβλητής και προκύπτουν με μάθηση με επίβλεψη. Στα πρότυπα πληροφόρησης περιλαμβάνονται οι κανόνες συσχέτισης (association rules), τα ακολουθιακά πρότυπα (sequential patterns) και οι ομάδες (clusters), ενώ στα μοντέλα πρόβλεψης ανήκουν οι κανόνες κατηγοριοποίησης (classification rules), τα δέντρα απόφασης (decision trees), η μάθηση κανόνων (concept learning), η μάθηση με βάση τα παραδείγματα, η μάθηση με βάση την θεωρία του Bayes κλπ. Παράλληλα, ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί ανάλογα με το επίπεδο γενίκευσης της εξορυγμένης γνώσης (γενική, πρώτου επιπέδου ή πολυεπίπεδη γνώση).

Σύμφωνα μ ε την τεχνική που θα χρησιμοποιηθεί. Οι τεχνικές μπορούν να περιγραφούν είτε από το βαθμό παρέμβασης του χρήστη (αυτόνομα συστήματα, συστήματα οδηγούμενα από ερωτήματα, διαλογικά συστήματα κ.λπ.) είτε από την μέθοδο ανάλυσης των δεδομένων (συστήματα γενικής εξόρυξης, εξόρυξης βασισμένης στα πρότυπα, OLAP, εξόρυξης βασισμένης στη στατιστική ή στα μαθηματικά, νευρωνικά δίκτυα, κ.λπ.).

Σύμφωνα μ ε το πεδίο εφ αρμογής της εξόρυξης δεδομένων. Είναι δυνατή η ανάπτυξη συστημάτων εξόρυξης δεδομένων μόνο για συγκεκριμένου τύπου εφαρμογές, όπως για παράδειγμα οικονομικές, χρηματιστηριακές, γενετικές κ.λπ.

(16)

2.6. Επισκόπηση των Βασικότερων Τεχνικών ΕΔ

Ο σκοπός της KDD διαδικασίας καθορίζεται κατά περίπτωση από τον χρήστη.

Γενικά, διακρίνονται δύο είδη σκοπών: α) Επαλήθευση, όπου το σύστημα καλείται να επιβεβαιώσει την υπόθεση που έχει κάνει ο χρήστης (DSS) και β) Ανακάλυψη, όπου το σύστημα βρίσκει αυτόνομα νέα πρότυπα (Data Mining). Η Ανακάλυψη μπορεί να χωριστεί σε Πρόβλεψη και σε Περιγραφή. Η Πρόβλεψη στοχεύει στον υπολογισμό της μελλοντικής αξίας ή στην εύρεση μοντέλων με σκοπό την πρόβλεψη της μελλοντικής συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και εξαρτώνται από τη συμπεριφορά άλλων μεταβλητών. Η Περιγραφή στοχεύει στην ανακάλυψη προτύπων με σκοπό την παρουσίαση των δεδομένων μιας πολύπλοκης βάσης δεδομένων σε κάποιο χρήστη σε κατανοητή μορφή.

Ένας μεγάλος αριθμός εργαλείων εξόρυξης δεδομένων έχουν αναπτυχθεί για να ι­

κανοποιήσουν τις απαιτήσεις διαφορετικών εφαρμογών. Στη συνέχεια παρουσιάζονται οι βασικότερες διεργασίες εξόρυξης δεδομένων.

2.6.1. Κατηγοριοποίηση

Η κατηγοριοποίηση (classification) αποτελεί μία από τις σημαντικότερες διεργασίες εξόρυξης δεδομένων. Στόχος είναι η δημιουργία ενός μοντέλου το οποίο θα ταξινομεί ένα νέο αντικείμενο (μη κατηγοριοποιημένο), εξετάζοντας τα χαρακτηριστικά του, σε ένα προκαθορισμένο σύνολο κλάσεων. Τα αντικείμενα που πρόκειται να κατηγοριοποιηθούν αναπαρίστανται από τις εγγραφές της βάσης δεδομένων και η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κατηγορίες.

Ο ακριβής ορισμός της κατηγοριοποίησης είναι η διαδικασία εύρεσης κοινών χαρακτηριστικών σε ένα σύνολο οντοτήτων μιας βάσης δεδομένων και, στη συνέχεια, ο διαχωρισμός τους σε κλάσεις σύμφωνα με ένα μοντέλο ομαδοποίησης.

Οι βασικές απαιτήσεις για την σωστή εφαρμογή των αλγορίθμων κατηγοριοποίησης είναι:

i. Η ύπαρξη ήεξαγωγή ενός καλά ορισμένου συνόλου κλάσεων, και

(17)

ii. Ένα σύνολο εκπαίδευσης από προ-ταξινομημένα δεδομένα τα οποία θα είναι αντιπροσωπευτικά της απαιτούμενης ταξινόμησης. Πιο συγκεκριμένα, η κατηγοριοποίηση μπορεί να περιγραφεί ως μια διαδικασία δύο βημάτων:

a. 1 Βήμα: Μ άθηση (Learning) : Σε αυτό το βήμα, ένα αντιπροσωπευτικό δείγμα της βάσης δεδομένων, το οποίο καλείται σύνολο εκπαίδευσης (training data), αναλύεται από έναν αλγόριθμο κατηγοριοποίησης για να αναπτυχθεί ένα μοντέλο προκαθορισμένων κλάσεων (ομάδων) χρησιμοποιώντας τα γνωρίσματα τα οποία είναι διαθέσιμα στο σύνολο. Τα στοιχεία αυτού του υποσυνόλου επιλέγονται τυχαία από έναν πληθυσμό δεδομένων και ανήκουν σε μία από τις προκαθορισμένες κατηγορίες. Το μοντέλο που προκύπτει, γνωστό και ως κατηγοριοποιητής (classifier), αναπαρίσταται με τη μορφή κανόνων κατηγοριοποίησης (classification rules) ή δέντρων απόφασης (decision trees) ή μαθηματικών τύπων (mathematical formulas).

ο

b. 2 Βήμα: Κατηγοριοποιηση (Classification): Στο δεύτερο βήμα της διαδικασίας χρησιμοποιούνται τα δοκιμαστικά δεδομένα (test data) για να εκτιμηθεί η ακρίβεια του μοντέλου. Υπάρχουν διάφορες μέθοδοι για τον υπολογισμό της ακρίβειας του κατηγοριοποιητή (classifier). Η ακρίβεια του μοντέλου είναι το ποσοστό των δειγμάτων δοκιμής που κατηγοριοποιήθηκαν σωστά από το υπό εκπαίδευση μοντέλο. Εάν η ακρίβεια του μοντέλου θεωρείται αποδεκτή, το μοντέλο μπορεί να χρησιμοποιηθεί για την ταξινόμηση κάθε νέου συνόλου δεδομένων, δηλαδή δεδομένων των οποίων η κατηγοριοποίηση είναι άγνωστη.

Οι πιο διαδεδομένες μέθοδοι κατηγοριοποίησης είναι:

• Η Bayesian κατηγοριοποίηση

• Τα δέντρα απόφασης

• Η μάθηση εννοιών

(18)

Η μάθηση κατά περίπτωση

• Τα νευρωνικά δίκτυα

• Οι μηχανές διανυσμάτων υποστήριξης (Support Vector Machines) 2.6.1.1. Bayesian κατηγοροποίηση

Η Bayesian κατηγοριοποίηση προβλέπει τις πιθανότητες μια νέα εγγραφή να ανήκει σε μια από τις προκαθορισμένες κατηγορίες. Όπως είναι προφανές, στηρίζεται στο στατιστικό θεώρημα ταξινόμησης του Bayes, το οποίο υπολογίζει την μεταγενέστερη πιθανότητα ενός γεγονότος δεσμευμένου σε κάποιο άλλο.

Πρόκειται για μια προσέγγιση η οποία στηρίζεται στην υπόθεση ότι οι ποσότητες που μας ενδιαφέρουν διέπονται από κατανομές πιθανοτήτων και ότι η εξαγωγή συμπερασμάτων με αυτές τις πιθανότητες σε συνδυασμό με δεδομένα που παρατηρούνται μπορούν να οδηγήσουν στη λήψη βέλτιστων αποφάσεων. Οι απαιτήσεις για την ανάπτυξη και εφαρμογή μιας κατηγοριοποίησης είναι:

• Η γνώση της πρότερης πιθανότητας (prior probability) p(ci) για κάθε κλάση ci.

• Η γνώση της συνάρτησης πυκνότητας πιθανότητας υπό συνθήκη για p(x

l

ci)

e

[0,1].

Με τον τρόπο αυτό είναι δυνατή η εξαγωγή της μεταγενέστερης πιθανότητας q(ci

l

x), χρησιμοποιώντας τον τύπο του Bayes:

ρ(χ I Ci) PCCi}

--- P Ü H ---

όπου p(x) είναι η πρότερη πιθανότητα του δείγματος.

Κατά τη διάρκεια της ταξινόμησης κατά Bayes, για κάθε νέα περίπτωση υπολογίζεται η πιθανότητα να ανήκει σε μία από τις κλάσεις c1, c2, .... ,cn και κατατάσσεται στην κλάση με την υψηλότερη μεταγενέστερη πιθανότητα.

Στην κατηγοριοποίηση, κάθε παράδειγμα μπορεί προοδευτικά να αυξήσει ή να μειώσει την πιθανότητα μια υπόθεση να είναι σωστή, γεγονός που παρέχει έναν πιο ευέλικτο τρόπο μάθησης σε σχέση με άλλους αλγορίθμους που διαγράφουν τελείως

q(cil χ)

(19)

μια υπόθεση αν δεν είναι συμβατή έστω και με ένα μόνο παράδειγμα. Επιπλέον προϋπάρχουσα γνώση μπορεί να συνδυαστεί με τα δεδομένα εκπαίδευσης με τη μορφή αρχικών τιμών πιθανότητας για τις υπό εξέταση υποθέσεις.

Τα μειονεκτήματα της μεθόδου αυτής είναι ότι είναι απαραίτητη η γνώση όλων των πιθανοτήτων των κλάσεων εκ των προτέρων και το ιδιαίτερα μεγάλο υπολογιστικό κόστος. Αν δεν υπάρχει αυτή η γνώση, τότε πρέπει να υπολογιστεί κατ' εκτίμηση από παλαιότερα δεδομένα, εμπειρική γνώση, υποθέσεις για τη μορφή της κατανομής αυτών των πιθανοτήτων, κτλ.

Μια σημαντική απλουστευμένη εκδοχή της μάθησης κατά Bayes είναι ο απλός τα- ξινομητής Bayes, γνωστός και ως Naive Bayesian κατηγοριοποιητής. Αυτός υποθέτει ότι το αποτέλεσμα τη ς τιμής ενός χαρακτηριστικού για μια συγκεκριμένη κατηγορία είναι ανεξάρτητο από τις τιμές των άλλων χαρακτηριστικών. Αυτή η υπόθεση γίνεται για να απλοποιήσει τους υπολογισμούς που εμπλέκονται και καλείται υπό συνθήκη ανεξαρτησία (class conditional independence) κατηγορίας.

Μελέτες έχουν δείξει ότι η απόδοση του Naïve Bayes είναι συγκρίσιμη με αυτή των δέντρων απόφασης και των νευρωνικών δικτύων.

Ένας άλλος Bayesian κατηγοριοποιητής είναι τα Bayesian B e lie f Networks. Είναι γραφικά μοντέλα όπου χρησιμοποιούμενα, αντίθετα με τους Naïve Bayesian κατηγοριοποιητές, επιτρέπουν την παρουσίαση των εξαρτήσεων μεταξύ των υποσυνόλων των χαρακτηριστικών.

2.6.1.2. Δέντρα απόφασης

Τα δέντρα απόφ ασης είναι μία από τις πιο διαδεδομένες μεθόδους ταξινόμησης, γι' αυτό και ονομάζονται και δέντρα ταξινόμησης (classification trees), και χρησιμοποιούνται συχνά για την επίλυση προβλημάτων πρόβλεψης. Είναι μία μέθοδος που χρησιμοποιείται για να προσεγγίσει συναρτήσεις - στόχους που έχουν σαν έξοδο μόνο διακριτές τιμές. Ένα δέντρο απόφασης επάγεται από ένα σύνολο εκπαίδευσης, που αποτελείται από αντικείμενα. Κάθε αντικείμενο περιγράφεται πλήρως από ένα σύνολο χαρακτηριστικών και από μια ετικέτα κλάσης (class label).

Ο στόχος ενός αλγορίθμου αναφορικά με την κατασκευή ενός μοντέλου από ένα

(20)

σύνολο δεδομένων, είναι η όσο το δυνατόν μεγαλύτερη προσέγγιση της πραγματικής αντιστοίχισης ανάμεσα στο σύνολο των ιδιοτήτων και στην ετικέτα κλάσης.

Υπάρχουν δύο βασικά βήματα στην επίλυση ενός προβλήματος ταξινόμησης χρη­

σιμοποιώντας την τεχνική των δέντρων απόφασης [12]:

• Κατασκευή του δέντρου: Τα δεδομένα εκπαίδευσης χωρίζονται αναδρομικά με βάση κάποιο χαρακτηριστικό τους μέχρις ότου όλα τα στιγμιότυπα μιας ομάδας να ανήκουν στην ίδια κλάση. Για κάθε νέα περίπτωση, εφαρμόζεται το δέντρο απόφασης προκειμένου να οριστεί η κατηγορία στην οποία ανήκει.

Τα βασικά χαρακτηριστικά ενός δέντρου απόφασης είναι:

Ρίζα: Το γνώρισμα που επιλέγεται ως η βάση, πάνω στην οποία χτίζεται το δέντρο.

Εσω τερικός κόμβος. Ένα γνώρισμα το οποίο βρίσκεται στο εσωτερικό του δέντρου.

Κλάδος. Μια από τις πιθανές τιμές του γνωρίσματος που βρίσκεται στον κόμβο από τον οποίο ξεκινά ο κλάδος.

Φύλλο: Μια από τις καθορισμένες κλάσεις. Επομένως, κάθε κόμβος στο δέντρο ορίζει μια συνθήκη που ελέγχει την τιμή κάποιου χαρακτηριστικού των δεδομένων εκπαίδευσης και κάθε κλαδί που ξεκινά από τον κόμβο αυτό αντιστοιχεί σε μια διαφορετική διακριτή τιμή του συγκεκριμένου χαρακτηριστικού.

Η διαδικασία για την κατηγοριοποίηση (πρόβλεψη) μια νέας περίπτωσης με βάση ένα δέντρο απόφασης είναι η ακόλουθη:

• Ξεκινώντας από τη ρίζα του δέντρου και εξετάζοντας τις ιδιότητες που καθορίζονται από τον κόμβο αυτό προσδιορίζονται διαδοχικά οι εσωτερικοί κόμβοι που θα επισκεφτούμε έως ότου καταλήξουμε σε ένα φύλλο. Σε κάθε κόμβο ελέγχεται η τιμή της νέας περίπτωσης για το χαρακτηριστικό του κόμβου. Ο έλεγχος αυτός θα καθορίσει και το κλαδί που θα διασχίσουμε στη συνέχεια καθώς και τον επόμενο κόμβο που θα επισκεφτούμε. Ένα παράδειγμα ταξινομείται λανθασμένα από ένα δέντρο (πίΒΟ^ΒϋΊθφ, αν η

(21)

τιμή του φύλλου όπου καταλήγει είναι διαφορετική με την κατηγορία που πραγματικά ανήκει το συγκεκριμένο παράδειγμα. Το ποσοστό των παραδειγμάτων που ταξινομούνται σωστά καλείται ακρίβεια (accuracy), ενώ το ποσοστό των παραδειγμάτων που ταξινομούνται λανθασμένα ονομάζεται σφάλμα (error).

• Η αναπαράσταση που χρησιμοποιείται από τα δέντρα απόφασης είναι η διάζευξη, η οποία αποτελείται από συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών. Συγκεκριμένα, κάθε μονοπάτι από τη ρίζα προς κάποιο φύλλο αντιστοιχεί σε συζεύξεις περιορισμών στις τιμές των χαρακτηριστικών, ενώ το δέντρο συνολικά εκφράζει τη διάζευξη αυτών των συζεύξεων, αφού αποτελείται από όλα τα εναλλακτικά μονοπάτια [1].

Συγκριτικά με τις υπόλοιπες τεχνικές εξόρυξης δεδομένων, τα δέντρα απόφασης παρουσιάζουν αρκετά πλεονεκτήματα. Πιο συγκεκριμένα, τα δέντρα απόφασης [32]:

• Είναι εύκολα στην κατανόηση και στην ερμηνεία. Μπορούν να χρησιμοποιηθούν εύκολα και αποτελεσματικά. Η αναγνωσιμότητα τους μπορεί να βελτιωθεί αν αναπαρασταθούν ως σύνολα κανόνων if-then που αποκαλούνται κανόνες κατηγοριοποίησης (classification rules).

• Μπορούν να χρησιμοποιηθούν με επιτυχία σε μεγάλες βάσεις δεδομένων και αυτό επειδή το μέγεθος τη ς βάσης δεδομένων είναι ανεξάρτητο από το μέγεθος του δέντρου.

Το μοντέλο που προκύπτει με βάση το δέντρο απόφασης μπορεί εύκολα να αξιολογηθεί με τη βοήθεια στατιστικών ελέγχων. Συνεπώς, μπορούμε εύκολα να εκτιμήσουμε την ακρίβεια του μοντέλου.

Παρουσιάζουν ευρωστία και αρκετά μεγάλη ακρίβεια κατηγοριοποίησης ακόμη και σε μεγάλες βάσεις δεδομένων.

Από την άλλη πλευρά, οι αλγόριθμοι μάθησης δέντρων απόφασης παρουσιάζουν και μειονεκτήματα. Κατ' αρχάς, ορισμένοι αλγόριθμοι δεν μπορούν να χειριστούν σε ικανοποιητικό βαθμό δεδομένα με συνεχείς τιμές και συνεπώς απαιτείται διακριτοποίηση, δηλαδή ο μετασχηματισμός τους σ ' ένα πεπερασμένο σύνολο

(22)

διακριτών κατηγοριών. Ωστόσο, η εφαρμογή της παραπάνω πρακτικής εισάγει υποκειμενικότητα που επηρεάζει την τελική μορφή του δέντρου, καθώς υπάρχουν αρκετοί τρόποι με τους οποίους μπορεί να οριστούν οι κατηγορίες. Επιπρόσθετα, ο χειρισμός πεδίων με κενές τιμές είναι δύσκολος, καθώς σωστά κλαδιά στο δέντρο μπορεί να μην ακολουθηθούν. Παράλληλα, υπάρχει ο κίνδυνος της υπερμοντελοποίησης (overfitting) ως απόρροια της κατασκευής του δέντρου με βάση τα δεδομένα εκπαίδευσης. O κίνδυνος αυτός, όμως, μπορεί να περιοριστεί σε μεγάλο βαθμό ή ακόμη και να υπερκεραστεί με κλάδεμα (pruning) του δέντρου. Η φάση του κλαδέματος αφαιρεί κάποιες περιττές συγκρίσεις ή διαγράφει κάποια υποδέντρα με στόχο την επίτευξη καλύτερης απόδοσης. Τέλος, δεν λαμβάνονται υπόψη ενδεχόμενες συσχετίσεις μεταξύ των χαρακτηριστικών.

Οι βασικοί παράγοντες που επηρεάζουν την απόδοση των αλγορίθμων μάθησης δέντρων απόφασης είναι το μέγεθος του συνόλου εκπαίδευσης και ο τρόπος επιλογής του καλύτερου χαρακτηριστικού για διαχωρισμό (best splitting attribute).

Αναφορικά με το μέγεθος του συνόλου εκπαίδευσης, αν αυτό είναι πολύ μικρό, τότε το εξαγόμενο δέντρο ίσως να μη μπορεί να εφαρμοστεί σε γενικά δεδομένα.

Αντιθέτως, αν είναι πολύ μεγάλο, ελλοχεύει ο κίνδυνος της υπερμοντελοποίησης. Γι' αυτό κρίνεται πρωταρχικής σημασίας ο καθορισμός τόσο του κριτηρίου βάσει του οποίου θα σταματά η ανάπτυξη του δέντρου, όσο και του τρόπου με τον οποίο θα πραγματώνεται η τεχνική του κλαδέματος.

Επιπλέον, σημαντικά θέματα θεωρούνται η επιλογή των χαρακτηριστικών που θα χρησιμοποιηθούν για το διαχωρισμό, αφού κάποια χαρακτηριστικά είναι καλύτερα από κάποια άλλα, η σειρά με την οποία θα επιλεγούν αυτά τα χαρακτηριστικά, ο αριθμός των διασπάσεων (splits) που θα χρησιμοποιηθούν, καθώς και η δομή του δέντρου (τα μικρότερα σε βάθος δέντρα συνήθως προτιμώνται έναντι των μεγάλων δέντρων).

Υπάρχουν διάφοροι τρόποι κατασκευής δέντρων απόφασης, οι οποίοι χρησιμο­

ποιούν διαφορετικούς αλγόριθμους επιλογής του κριτηρίου διαχωρισμού του συνόλου των δεδομένων. Οι δημοφιλέστεροι από αυτούς είναι [3]:

• Ο ID3 και ο C4.5: Αλγόριθμοι κέρδους πληροφορίας.

(23)

• Ο DBLearn: Αλγόριθμος ο οποίος δημιουργεί περιγραφές προκαθορισμένων υποσυνόλων μιας σχεσιακής βάσης δεδομένων χρησιμοποιώντας γνώση του πεδίου ορισμού της εκάστοτε εφαρμογής.

• CLS: Αλγόριθμος ο οποίος εξετάζει όλα τα πιθανά δέντρα αποφάσεων μέχρι ενός συγκεκριμένου βάθους. Τελικά, επιλέγει αυτό το οποίο ελαχιστοποιεί το υπολογιστικό κόστος της ταξινόμησης ενός στοιχείου.

• Οι SLIQ και SPRINT : Αλγόριθμοι που επιλέγουν το χαρακτηριστικό που θα ελεγχθεί με βάση το δείκτη GINI και όχι το μέτρο εντροπίας. Το καλύτερο χαρακτηριστικό είναι αυτό που δίνει τη χαμηλότερη τιμή για το δείκτη GINI.

2.6.1.2.1. Ο Αλγόριθμος ID3

Ο ID3 αναπτύχθηκε από τον J. Ross Quinlan στο Πανεπιστήμιο του Sydney και παρουσιάστηκε για πρώτη φορά στο βιβλίο του "Machine Learning" το 1975.

Υπήρξε ο κυριότερος εκπρόσωπος των δέντρων απόφασης που η κατασκευή τους ξεκινά από την κορυφή προς τα κάτω (Top Down Induction o f D ecision Trees - TDIDT) μέχρι την έλευση του C4.5. Ήταν ο πρώτος αλγόριθμος που χρησιμοποίησε για κριτήριο διαχωρισμού (split criterion) το Κέρδος Π ληροφ ορίας (Inform ation

Gain).

Ο αλγόριθμος εφαρμόζεται μόνο σε κατηγορικά δεδομένα και στη γενική του μορφή περιγράφεται ως εξής [1]:

• Εύρεση του χαρακτηριστικού το οποίο αν χρησιμοποιηθεί ως κριτήριο διαχωρισμού των δεδομένων εκπαίδευσης θα οδηγήσει σε όσο το δυνατόν πιο διαφορετικούς μεταξύ τους κόμβους σε σχέση με την εξαρτημένη μεταβλητή.

• Πραγματοποίηση του διαχωρισμού.

• Επανάληψη της διαδικασίας διαχωρισμού στους κόμβους που προέκυψαν έως ότου να μην είναι δυνατός περαιτέρω διαχωρισμός.

Ο ID3 είναι αναδρομικός και κατασκευάζει το δέντρο άπληστα από πάνω προς τα κάτω ξεκινώντας με την επιλογή του πιο κατάλληλου χαρακτηριστικού για έλεγχο στη ρίζα. Η επιλογή αυτή στηρίζεται σε κάποιο στατιστικό μέτρο που υπολογίζεται

(24)

από τα δεδομένα. Στη συνέχεια, για κάθε δυνατή τιμή του χαρακτηριστικού δημιουργούνται οι αντίστοιχοι απόγονοι της ρίζας και τα δεδομένα μοιράζονται στους νέους κόμβους ανάλογα με την τιμή που έχουν για το χαρακτηριστικό που ελέγχεται στη ρίζα.

Η παραπάνω διαδικασία επαναλαμβάνεται για κάθε νέο κόμβο. Η επιλογή, όμως, του πιο κατάλληλου χαρακτηριστικό σε νέο κόμβο βασίζεται μόνο στα δεδομένα που ανήκουν σε αυτόν τον κόμβο. Η όλη διαδικασία περατώνει όταν οι κόμβοι γίνουν τερματικοί (ή φύλλα). Ένας κόμβος γίνεται φύλλο όταν όλα τα δεδομένα που ανήκουν σε αυτόν εντάσσονται στην ίδια κατηγορία. Οπότε, η κατηγορία αυτή γίνεται και η τιμή του φύλλου και ο κόμβος ονομάζεται αμιγής κόμβος (pure node).

Επιπλέον, αν σε κάποιο βάθος του δέντρου τελειώσουν τα χαρακτηριστικά προς έλεγχο, τότε ο κόμβος γίνεται τερματικός και λαμβάνει για τιμή την κατηγορία στην οποία ανήκει η πλειοψηφία των δεδομένων του κόμβου αυτού.

Για την επιλογή του καταλληλότερου χαρακτηριστικού ως κόμβου χρησιμοποιείται το στατιστικό μέτρο, το Κέρδος Πληροφορίας. Το κέρδος πληροφορίας μετρά τη μείωση της εντροπίας που θα προκληθεί αν τα δείγματα ενός συνόλου χωριστούν σε ομάδες, με βάση κάποιο χαρακτηριστικό τους. Βασίζεται, λοιπόν, στην ποσότητα τη ς Εντροπίας (Entropy), η οποία αναφέρεται στην ανομοιογένεια μιας συλλογής αντικειμένων. Όταν μειώνεται η πληροφοριακή εντροπία, αυξάνεται η πυκνότητα πληροφορίας και άρα η περιγραφή γίνεται περισσότερο συμπαγής.

Έστω S ένα σύνολο που περιέχει θετικά και αρνητικά δείγματα δεδομένων που α­

φορούν μια έννοια - στόχο. Αν ρ+ είναι το ποσοστό των θετικών και ρ-των αρνητικών παραδειγμάτων στο σύνολο S, τότε η εντροπία του συνόλου E(S) είναι:

E(S) = -ρ+ log2 (p+) - ρ- log2 (p-)

Στην περίπτωση όπου ρί το ποσοστό των παραδειγμάτων του S που ανήκουν στην κατηγορία i, η γενική σχέση υπολογισμού της εντροπίας για c διαφορετικές κατηγορίες είναι:

c

Ε(£) = - Σ Ρ / · 1ο82(Ρ.) /=Ι

(25)

Εάν Α ένα χαρακτηριστικό με σύνολο τιμών ν(Α), τότε το κέρδος πληροφορίας σε σχέση με αυτό το χαρακτηριστικό είναι:

E(S) είναι η εντροπία πληροφορίας του υπό εξέταση κόμβου, ενώ ο όρος αθροίσματος Σ είναι η εντροπία των παραδειγμάτων μετά το διαχωρισμό τους ανάλογα με την τιμή του χαρακτηριστικού Α και αποτελείται από το άθροισμα της εντροπίας για το κάθε σύνολο που προκύπτει μετά το διαχωρισμό, όπου u είναι μια από τις δυνατές τιμές του Α, Su είναι το πλήθος των εγγραφών με A=u και E(Su) η εντροπία πληροφορίας του υπό εξέταση κόμβου ως προς την τιμή.

Κατά την κατασκευή του δέντρου, ως ρίζα του δέντρου επιλέγεται το χαρακτηρι­

στικό με το μέγιστο κέρδος πληροφορίας συνολικά, ενώ ως κόμβος επιλέγεται το χαρακτηριστικό που παρουσιάζει το μέγιστο κέρδος πληροφορίας στο τρέχον σημείο κατασκευής.

Η στρατηγική αναζήτησης που ακολουθεί ο αλγόριθμος ID3 είναι η αναρρίχηση λόφων (hill climbing) και κατευθύνεται με βάση το κέρδος πληροφορίας. OID3 κάνει αναζήτηση σε έναν χώρο υποθέσεων που απαρτίζεται από όλα τα πιθανά δέντρα αποφάσεων. Οπότε, δεν διατρέχει τον κίνδυνο να μην υπάρχει η έννοια - στόχος στον χώρο αυτό και σε κάθε βήμα της αναζήτησης χρησιμοποιεί όλα τα δεδομένα εκπαίδευσης για να υπολογίσει το κέρδος πληροφορίας για τα εναλλακτικά χαρακτηριστικά.

Από την άλλη πλευρά, ο ID3 διατηρεί μόνο μια συμβατή υπόθεση με τα δεδομένα κατά την αναζήτηση και επομένως, δεν είναι σε θέση να βρει όλα τα δέντρα που είναι συμβατά με τα δεδομένα. Επιπλέον, δεν έχει τη δυνατότητα οπισθοδρόμησης (backtracking) κατά τη διάρκεια της αναζήτησης. Από τη στιγμή που επιλέξει ένα χαρακτηριστικό για έλεγχο σε κάποιο κόμβο, δεν μπορεί να επιστρέψει για να αλλάξει την επιλογή αυτή. Αυτό σημαίνει ότι διατρέχει τον κίνδυνο να βρει τοπικά βέλτιστα δέντρα.

Referências

Documentos relacionados

Σε ένα πρόβλημα υπολογίζει πως να χωρίσει κανείς το 10 σε δύο μέρη, έτσι ώστε όταν το ένα μέρος πολλαπλασιάζεται με τον εαυτό του, το άλλο με τη ρίζα του 8, και αφαιρείται από το