Μετά την παρουσίαση των συνόλων δεδομένων FG-NET και CACD-VS που χρησιμοποιήθηκαν, γίνεται περιγραφή της υλοποίησης, η οποία περιλαμβάνει όλες τις λεπτομέρειες της αρχιτεκτονικής του συστήματος που κατασκευάστηκε και τα ακριβή βήματα που ακολουθήθηκαν

(1)

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Αναγνώριση Προσώπου Ανεξαρτήτως Ηλικίας

Θεόδωρος Ε. Σταματούκος

Επιβλέπων Σταματόπουλος Παναγιώτης, Επίκουρος Καθηγητής

ΑΘΗΝΑ ΙΟΥΝΙΟΣ 2020

(2)

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Αναγνώριση Προσώπου Ανεξαρτήτως Ηλικίας

Θεόδωρος Ε. Σταματούκος Α.Μ.: 1115201400189

ΕΠΙΒΛΕΠΩΝ: Σταματόπουλος Παναγιώτης, Επίκουρος Καθηγητής

(3)

ΠΕΡΙΛΗΨΗ

Στόχος της παρούσας Πτυχιακής Εργασίας είναι να αναλυθεί το πρόβλημα της αναγνώρισης προσώπου ανεξαρτήτως ηλικίας και τελικά να υλοποιηθεί ένα σύστημα μηχανικής μάθησης για την επίλυση του. Αρχικά παρουσιάζεται μία ποικιλία παλαιότερων τεχνικών που έχουν εφαρμοστεί για το συγκεκριμένο πρόβλημα αλλά μεγαλύτερη έμφαση δίνεται σε προσεγγίσεις μηχανικής μάθησης. Στη συνέχεια, αφού εξεταστεί η διαδικασία της γήρανσης και το πως αυτή όπως και κάποιοι ακόμα σημαντικοί παράγοντες επιδρούν αρνητικά στα συστήματα αναγνώρισης προσώπου, περιγράφονται ορισμένες μέθοδοι μηχανικής μάθησης που έχουν καταφέρει να αντιμετωπίσουν τους παράγοντες αυτούς σε ικανοποιητικό βαθμό. Επίσης αναλύεται λεπτομερώς η δομή που ακολουθούν τα περισσότερα συστήματα αναγνώρισης προσώπου και πιο συγκεκριμένα η δομή των συνελικτικών δικτύων (CNN), όπως και κάποια από τα στοιχεία που καθιστούν τη συγκεκριμένη τεχνική τόσο ισχυρή.

Για τους σκοπούς της εργασίας υλοποιήθηκε ένα σύστημα ταυτοποίησης προσώπου και ένα σύστημα επαλήθευσης προσώπου τα οποία αξιολογήθηκαν σε γνωστά σύνολα δεδομένων που χρησιμοποιούνται κατά κύριο λόγο στην αναγνώριση προσώπου ανεξαρτήτως ηλικίας. Μετά την παρουσίαση των συνόλων δεδομένων FG-NET και CACD-VS που χρησιμοποιήθηκαν, γίνεται περιγραφή της υλοποίησης, η οποία περιλαμβάνει όλες τις λεπτομέρειες της αρχιτεκτονικής του συστήματος που κατασκευάστηκε και τα ακριβή βήματα που ακολουθήθηκαν. Τέλος αναφέρονται τα αποτελέσματα του συστήματος στα σύνολα δεδομένων που χρησιμοποιήθηκαν όπως και τα τελικά συμπεράσματα που προέκυψαν από το σύνολο της εργασίας.

ΘΕΜΑΤΙΚΗ ΠΕΡΙΟΧΗ: Τεχνητή Νοημοσύνη

ΛΕΞΕΙΣ ΚΛΕΙΔΙΑ: Συνελικτικά Νευρωνικά Δίκτυα, Αναγνώριση Προσώπου, Μηχανική Μάθηση, Μηχανική Όραση

(4)

ABSTRACT

The purpose of this thesis is to analyze the problem of age invariant face recognition and implement a machine learning system for its solution. First, we introduce a variety of older techniques that have been applied to this subject but we mainly focus on deep learning methods. After considering the whole aging process and some other important factors that affect the face recognition systems, we present some machine learning methods which have achieved coping with these factors. Subsequently we analyze in detail the structure that most of the face recognition systems follow focusing on the architecture of Convolutional Neural Networks, and on the features that make CNN based methods so powerful.

For the purpose of this thesis we implement two systems for face identification and face verification respectively and evaluate them on popular datasets which have been mostly used for age invariant face recognition. After the presentation of FG-NET and CACD-VS datasets we describe the overall process of implementation mentioning the exact steps we followed and explaining every detail of the system architecture. Finally, we report the results that derived from our implementation based on the two datasets.

SUBJECT AREA: Artificial Intelligence

KEYWORDS: Convolutional Neural Networks (CNN), Face Recognition, Deep Learning, Computer Vision

(5)

ΕΥΧΑΡΙΣΤΙΕΣ

Για τη διεκπεραίωση της παρούσας Πτυχιακής Εργασίας θα ήθελα να ευχαριστήσω τον επιβλέποντα Επίκουρο Καθηγητή κύριο Παναγιώτη Σταματόπουλο για την βοήθεια και την καθοδήγηση που μου προσέφερε.

(6)

ΠΕΡΙΕΧΟΜΕΝΑ

ΠΡΟΛΟΓΟΣ ... 11

1. ΕΙΣΑΓΩΓΗ ... 12

1.1 Περιγραφή ... 12

1.2 Υπό-προβλήματα αναγνώρισης προσώπου ... 13

1.3 Επίδραση της γήρανσης στη διαδικασία της αναγνώρισης ... 13

1.4 Εφαρμογές της αναγνώρισης προσώπου ... 14

2. ΠΡΟΣΕΓΓΙΣΕΙΣ ΓΙΑ ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΟΥ ΑΝΕΞΑΡΤΗΤΩΣ ΗΛΙΚΙΑΣ ... 15

2.1 Παλαιότερες μέθοδοι αναγνώρισης προσώπου ... 15

2.2 Σύγχρονες μέθοδοι αναγνώρισης προσώπου ... 15

2.2.1 Παραγωγική προσέγγιση – Generative ... 15

2.2.2 Διακριτική προσέγγιση – Discriminative ... 16

2.2.3 Προσέγγιση μηχανικής μάθησης – Deep Learning ... 16

3. ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΣΩΠΟΥ ΜΕ ΣΥΝΕΛΙΚΤΙΚΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ... 17

3.1 Η δομή ενός Συνελικτικού Νευρωνικού Δικτύου (CNN) ... 17

3.2 Μεταφορά γνώσης – Transfer Learning ... 18

3.3 Περιγραφή ενός συστήματος αναγνώρισης προσώπου ... 199

3.3.1 Επεξεργασία δεδομένων – Data preprocessing ... 20

3.3.2 Εξαγωγή χαρακτηριστικών – Feature Extraction ... 21

3.3.3 Ταξινόμηση - Classification ... 21

3.3.4 Αξιολόγηση - Evaluation ... 21

3.4 Πρόβλημα υπερφόρτωσης – Overfitting και ανεπάρκειας - Underfitting ... 22

4. ΕΞΕΙΔΙΚΕΥΜΕΝΕΣ ΤΕΧΝΙΚΕΣ ΓΙΑ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΣΩΠΟΥ ΑΝΕΞΑΡΤΗΤΩΣ ΗΛΙΚΙΑΣ ... 23

(7)

5. ΥΛΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΟΣ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΟΥ ΑΝΕΞΑΡΤΗΤΩΣ

ΗΛΙΚΙΑΣ ... 30

5.1 Εισαγωγή ... 30

5.2 Σύνολα δεδομένων FG-NET & CACD-VS ... 30

5.3 Προ-εκπαιδευμένο μοντέλο VGG-16 ... 31

5.4 Λεπτομέρειες υλοποίησης ταυτοποίησης προσώπου (Face Identification) ... 31

5.4.1 Προ-επεξεργασία δεδομένων ... 32

5.4.2 Εκπαίδευση μοντέλου VGG-16 και μεταφορά γνώσης στο σύνολο FG-NET ... 33

5.4.3 Αποτελέσματα ταυτοποίησης προσώπου στο σύνολο FG-NET ... 33

5.5 Λεπτομέρειες υλοποίησης επαλήθευσης προσώπου (Face Verification) ... 34

5.5.1 Εξαγωγή χαρακτηριστικών και σύγκριση εικόνων ... 35

5.5.2 Αποτελέσματα επαλήθευσης προσώπου στο σύνολο CACD-VS ... 35

5.6 Τεχνολογίες που χρησιμοποιήθηκαν ... 36

6. ΣΥΜΠΕΡΑΣΜΑΤΑ ... 37

ΠΙΝΑΚΑΣ ΟΡΟΛΟΓΙΑΣ ... 388

ΣΥΝΤΜΗΣΕΙΣ – ΑΡΚΤΙΚΟΛΕΞΑ – ΑΚΡΩΝΥΜΙΑ ... 399

ΑΝΑΦΟΡΕΣ ... 40

(8)

ΚΑΤΑΛΟΓΟΣ ΕΙΚΟΝΩΝ

Εικόνα 1: Εφαρμογή συνελικτικού φίλτρου σε εικόνα ... 18

Εικόνα 2: Υβριδικό μοντέλο CNN & LSTM δικτύων [10] ... 26

Εικόνα 3: Αρχιτεκτονική δικτύου OE-CNN [7] ... 28

Εικόνα 4: Αρχιτεκτονική μοντέλου VGG-16 ... 32

Εικόνα 5: Βήματα προ-επεξεργασίας εικοκόνων του συνόλου FG-NET ... 33

(9)

ΚΑΤΑΛΟΓΟΣ ΣΧΗΜΑΤΩΝ

Σχήμα 1: Δομή συστήματος αναγνώρισης προσώπου ... 20

(10)

ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ

Πίνακας 1: Αποτελέσματα επαλήθευσης προσώπου στο CACD-VS ... σελ. 35

(11)

ΠΡΟΛΟΓΟΣ

Η παρούσα Πτυχιακή Εργασία πραγματοποιήθηκε κατά τη διάρκεια των προπτυχιακών μου σπουδών στο Τμήμα Πληροφορικής και Τηλεπικοινωνιών του Εθνικού Καποδιστριακού Πανεπιστημίου Αθηνών κατά το ακαδημαϊκό έτος 2019-2020 υπό την επίβλεψη του επίκουρου καθηγητή Σταματόπουλου Παναγιώτη.

(12)

Θ. Σταματούκος 12

1. ΕΙΣΑΓΩΓΗ

1.1 Περιγραφή

Η αυτόματη αναγνώριση προσώπου αποτελεί έναν κλάδο της τεχνητής νοημοσύνης και συγκεκριμένα της μηχανικής όρασης (Computer Vision) που έχει κερδίσει ιδιαίτερη προσοχή μερικές δεκαετίες τώρα, όπου ειδικότερα την τελευταία δεκαετία η εξέλιξή της είναι ραγδαία. Οι προσεγγίσεις που έχουν μελετηθεί και αναπτυχθεί για το πρόβλημα αυτό είναι πολλές και η επίδοση αυτών έχουν φτάσει πλέον σε υψηλό επίπεδο.

Υπάρχουν όμως παράγοντες που δυσκολεύουν αρκετά την διαδικασία της αναγνώρισης ενός ατόμου από μία εικόνα. Αυτοί μπορεί να είναι για παράδειγμα η πόζα του ατόμου στην εικόνα, το μακιγιάζ, η χαμηλή ανάλυση εικόνας, ο φωτισμός, η ηλικία του ατόμου κ.α.

Ειδικότερα η ηλικία ενός ατόμου αποτελεί μία από τις δυσκολότερες προκλήσεις στην αναγνώριση προσώπου. Το πρόβλημα αυτό είναι γνωστό ως αναγνώριση προσώπου ανεξαρτήτως ηλικίας (Age Invariant Face Recognition) και συνίσταται στην ταυτοποίηση ενός ατόμου του οποίου το πρόσωπο έχει ήδη καταγραφεί σε διαφορετικές ηλικίες από αυτήν της υπό αναγνώρισης φωτογραφίας, όπου σε περιπτώσεις μεγάλων ηλικιακών διαφορών δυσκολεύει αρκετά ακόμα και τους ανθρώπους. Εξίσου σημαντική επίδραση στην αναγνώριση έχουν και οι ομοιότητες που παρουσιάζονται μεταξύ διαφορετικών ανθρώπων σε μικρές κυρίως ηλικίες αλλά όχι μόνο, μιας και πολλοί άνθρωποι που δεν έχουν καμία σχέση μεταξύ τους ενδέχεται να εμφανίζουν αρκετές ομοιότητες καθώς μεγαλώνουν. Παρ’ όλα αυτά υπάρχουν ορισμένα στοιχεία που, αν και όχι πάντα τόσο ευδιάκριτα, χαρακτηρίζουν ένα άτομο και παραμένουν αμετάβλητα στο πέρασμα του χρόνου, δίνοντας την δυνατότητα στους ανθρώπους να τα αναγνωρίζουν ως ένα βαθμό.

Η αναγνώριση λοιπόν ενός ατόμου στο πέρασμα του χρόνου, απαιτεί την εξαγωγή ορισμένων χαρακτηριστικών που καθορίζουν την ταυτότητα του ατόμου και παραμένουν αμετάβλητα, όμως η διαδικασία αυτή δεν είναι προφανής ούτε εύκολη.

Εκτός όμως από την εκμάθηση των χαρακτηριστικών αυτών είναι απαραίτητο να επιτευχθεί αποτελεσματικός διαχωρισμός ενός ατόμου από ένα άλλο. Το πρόβλημα λοιπόν φαίνεται να κατηγοριοποιείται σε δύο επιμέρους υπό-προβλήματα τα οποία είναι η εξαγωγή χαρακτηριστικών από ένα άτομο και η ταξινόμηση των ατόμων δηλαδή ο διαχωρισμός αυτών.

Μέχρι σήμερα αρκετές μέθοδοι έχουν αναπτυχθεί πάνω στο συγκεκριμένο πεδίο και είναι γεγονός πως η επίδοση αυτών αυξάνεται σημαντικά με το πέρασμα των χρόνων, έχοντας φτάσει πλέον σε σημείο να ανταγωνίζονται ή και να κερδίζουν τους ανθρώπους. Ξεκινώντας από τις παραγωγικές μεθόδους (generative) και τις διακριτικές μεθόδους (discriminative), η έρευνα σήμερα έχει στραφεί περισσότερο στην βαθιά μηχανική μάθηση (deep learning) [14]. Η συνεισφορά της μηχανικής μάθησης είναι τεράστια καθώς η χρήση της έχει αυξήσει κατά μεγάλο βαθμό την επίδοση των υπολογιστών στο συγκεκριμένο πρόβλημα. Τα τελευταία χρόνια τα νευρωνικά δίκτυα έχουν αποδείξει ότι αποτελούν ένα ισχυρό εργαλείο στον τομέα αυτό και έχουν χρησιμοποιηθεί με διαφορετικούς τρόπους πάνω στο πρόβλημα της αναγνώρισης προσώπου. Δύο από τους βασικότερους είναι η εξαγωγή χαρακτηριστικών προσώπου και η ταξινόμηση των ατόμων που θα αναλυθούν περισσότερο παρακάτω.

(13)

1.2 Υπό-προβλήματα αναγνώρισης προσώπου

Η αναγνώριση προσώπου έχει μελετηθεί από πολλές σκοπιές κάτι που είναι λογικό αν σκεφτεί κανείς την πολυπλοκότητα ενός τέτοιου προβλήματος. Το αρχικό πρόβλημα έχει πλέον διαιρεθεί σε μικρότερα υπό-προβλήματα με σκοπό να προκύψουν καλύτερα αποτελέσματα. Η αναγνώριση προσώπου με παραλλαγές πόζας αποτελεί ένα παρακλάδι του γενικού προβλήματος καθώς η γωνία, η κλίση ή η έκφραση του προσώπου είναι άμεσα εμπόδια στην αναγνώριση. Άλλο ένα παράδειγμα είναι η αναγνώριση σε εικόνες χαμηλής ανάλυσης, ατόμων με μακιγιάζ και άλλων παρόμοιων στοιχείων όπως γυαλιά καπέλα κ.α. ή ατόμων σε διαφορετικές χρονικές στιγμές. Όλα αυτά είναι στοιχεία που εμφανίζονται πολύ συχνά και έχουν τεράστια επίδραση στη διαδικασία της αναγνώρισης και συνεπώς έχουν αναπτυχθεί εξειδικευμένες μέθοδοι για το κάθε ένα από αυτά τα προβλήματα.

Ένας άλλος διαχωρισμός που γίνεται στην γενική αναγνώριση προσώπου είναι η ταυτοποίηση προσώπου (Face Identification) και η επαλήθευση προσώπου (Face Verification). Τόσο στην ταυτοποίηση όσο και στην επαλήθευση προσώπου, υπάρχει ένα σύνολο δεδομένων ή γνωστών εικόνων, στο οποίο βασίζεται η όλη διαδικασία εξαγωγής χαρακτηριστικών. Στην πρώτη περίπτωση το ζητούμενο είναι να βρεθεί η ταυτότητα ενός ατόμου με βάση την εικόνα του προσώπου του, όπου εξετάζεται πόσο ταιριάζει η εικόνα αυτή με τις υπόλοιπες γνωστές εικόνες. Αυτό συνήθως επιτυγχάνεται με την εξαγωγή χαρακτηριστικών από την υπό ανίχνευση εικόνα και στη συνέχεια με μία διαδικασία ταξινόμησης (Classification) αφού βέβαια έχει προηγηθεί κάποια εκπαίδευση πάνω στα αρχικά δεδομένα. Στην περίπτωση της επαλήθευσης προσώπου το ζητούμενο είναι να αποφανθεί αν δύο δοσμένες εικόνες ανήκουν στην ίδια ταυτότητα. Η διαδικασία αυτή πραγματοποιείται με την εξαγωγή χαρακτηριστικών από τις δύο εικόνες τα οποία χαρακτηριστικά στη συνέχεια συγκρίνονται με κάποια μέθοδο σύγκρισης όπως την Ευκλείδεια απόσταση ή την απόσταση συνημίτονου. Η ταυτοποίηση προσώπου δηλαδή μπορεί να θεωρηθεί ως μία αντιστοίχιση ένα προς πολλά (1-to-n) ενώ η επαλήθευση ως ένα προς ένα (1-to-1).

1.3 Επίδραση της γήρανσης στη διαδικασία της αναγνώρισης

Η γήρανση είναι μία πολύπλοκη διαδικασία η οποία δημιουργεί έντονες αλλαγές στην εμφάνιση ενός ατόμου. Οι αλλαγές αυτές μπορεί να είναι διαφορετικής φύσεως στα πρώτα χρόνια ενός ατόμου, δηλαδή στα χρόνια ανάπτυξής του, απ’ ότι αργότερα. Στα πρώτα χρόνια παρατηρείται ανάπτυξη στους μύες και στα κόκαλα, άρα συνολικά στο σχήμα του προσώπου, κάτι που σε επόμενα χρόνια σταματάει να συμβαίνει, τουλάχιστον στον ίδιο βαθμό. Στα χρόνια μετά την ενηλικίωση, οι αλλαγές της γήρανσης εμφανίζονται περισσότερο στην υφή του προσώπου, κυρίως με τη μορφή ρυτίδων, χαλάρωση του δέρματος, κλίση των ματιών που με το πέρασμα του χρόνου αυξάνονται.

Όλα αυτά τα φαινόμενα είναι κοινά για όλους τους ανθρώπους. Αυτό που διαφέρει από άνθρωπο σε άνθρωπο όμως είναι η στιγμή εμφάνισης τους όπως και ο βαθμός στον οποίο εμφανίζονται στον καθένα. Οι παράγοντες που επηρεάζουν τα παραπάνω μπορεί να είναι διαφόρων ειδών, από γονιδιακοί μέχρι διατροφικοί. Η γήρανση δηλαδή ενός ατόμου εξαρτάται από τον τρόπο ζωής του γενικότερα, από το περιβάλλον στο οποίο ζει, από το άγχος, την έκθεση στον ήλιο, πιθανές ασθένειες που έχει περάσει και άλλους εσωτερικούς ή εξωτερικούς παράγοντες. Όλοι αυτοί οι παράγοντες καθιστούν τη διαδικασία της γήρανσης περίπλοκη και απρόβλεπτη με αποτέλεσμα να δυσκολεύουν την μοντελοποίηση αυτής, εμποδίζοντας την αναγνώριση ενός προσώπου σε

(14)

διαφορετικές ηλικίες [14]. Είναι λοιπόν αναγκαίο να γίνεται διάκριση των χαρακτηριστικών ενός ατόμου που παραμένουν σταθερά στο πέρασμα του χρόνου και δεν επηρεάζονται από τους παραπάνω παράγοντες ώστε να είναι αποδοτική η αναγνώριση. Προφανώς τα χαρακτηριστικά αυτά είναι αρκετά δύσκολο να εντοπιστούν, καθώς επίσης και το πλήθος τους είναι αρκετά μεγάλο. Αυτά είναι τα προβλήματα που προσπαθούν να λύσουν όλες οι μέθοδοι που έχουν προταθεί με διαφορετικές προσεγγίσεις η καθεμία.

1.4 Εφαρμογές της αναγνώρισης προσώπου

Ένα σύστημα αναγνώρισης προσώπου είναι ιδιαίτερα χρήσιμο κυρίως σε νομικές εφαρμογές αλλά όχι μόνο. Πολλές εγκληματολογικές εφαρμογές βασίζονται πάνω στην ταυτοποίηση ενός ανθρώπου και βοηθούν στην εύρεση εγκληματιών. Επίσης συστήματα ασφαλείας χρησιμοποιούν τις τεχνικές αυτές για ελέγχους πρόσβασης ή ανίχνευση εξαπάτησης. Σήμερα ακόμα και τα μέσα κοινωνικής δικτύωσης χρησιμοποιούν αναγνώριση εικόνας γενικότερα προσθέτοντας αντίστοιχες λεζάντες που περιγράφουν το περιεχόμενό της. Υπάρχουν βέβαια και περιπτώσεις στις οποίες η αναγνώριση μεταξύ δύο διαφορετικών ηλικιών του ατόμου γίνεται περισσότερο αισθητή και αναγκαία. Κάποιες από αυτές είναι η εύρεση χαμένων παιδιών, η ανανέωση ή/και επαλήθευση ταυτότητας, διπλώματος, διαβατηρίου και άλλων παρόμοιων εγγράφων.

(15)

2. ΠΡΟΣΕΓΓΙΣΕΙΣ ΓΙΑ ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΑΝΑΓΝΩΡΙΣΗΣ ΠΡΟΣΩΠΟΥ ΑΝΕΞΑΡΤΗΤΩΣ ΗΛΙΚΙΑΣ

2.1 Παλαιότερες μέθοδοι αναγνώρισης προσώπου

Το πρόβλημα της αναγνώρισης προσώπου ανεξαρτήτως ηλικίας έχει μελετηθεί από διάφορες σκοπιές όλα αυτά τα χρόνια, όπου τελικά έχουν προκύψει αρκετές προσεγγίσεις για τη λύση του. Οι παραδοσιακές μέθοδοι βασίζονταν σε εξαγωγή χαρακτηριστικών «με το χέρι» όπως ακμές, γωνίες ή στοιχεία υφής που εμφανίζονται σε ένα πρόσωπο. Τα χαρακτηριστικά αυτά όμως θα πρέπει να είναι εύρωστα για τις παραλλαγές περιβάλλοντος που παρατηρούνται στην πραγματική ζωή και στα σύνολα δεδομένων (παραλλαγές ηλικίας, πόζας, φωτισμού κ.α.) ώστε η αναγνώριση να γίνεται επιτυχώς. Συνεπώς οι μέθοδοι θα έπρεπε να προσαρμόζονται ανάλογα με κάθε διαφορετική παραλλαγή κάτι που είναι επίπονο και μη αποτελεσματικό.

Οι γεωμετρικές μέθοδοι χρησιμοποιούσαν ανιχνευτές ακμών και περιγραμμάτων για να προσδιορίσουν κάποια μέρη του προσώπου και να μετρήσουν σχετικές αποστάσεις. Οι ολιστικές μέθοδοι (Holistic) βασίζονταν στην συνολική αναπαράσταση του προσώπου και στη συνέχεια εκτελούσαν μείωση των διαστάσεων των χαρακτηριστικών (dimensionality reduction) παραβλέποντας όσα είναι άχρηστα για την αναγνώριση. Οι μέθοδοι βασισμένες σε χαρακτηριστικά (feature base methods) εκτελούσαν εξαγωγή χαρακτηριστικών από ορισμένες περιοχές του προσώπου εστιάζοντας σε αυτά που είναι διακριτικά και όχι γενικά στην γεωμετρία. Τέλος υπήρξαν και διάφορες υβριδικές μέθοδοι που χρησιμοποιούσαν στοιχεία από τις προηγούμενες συνδυαστικά [19][20].

2.2 Σύγχρονες μέθοδοι αναγνώρισης προσώπου

Η δυσκολία κατασκευής των παλαιότερων μεθόδων και κυρίως η ανάγκη για βελτίωση της επίδοσης των συστημάτων αναγνώρισης προσώπου οδήγησαν στην ανάπτυξη νέων μεθόδων που προσφέρουν πολύ καλύτερα αποτελέσματα. Οι τρείς βασικές προσεγγίσεις που έχουν επικρατήσει είναι οι παραγωγικές (generative), οι διακριτικές (discriminative) και αυτές που βασίζονται στην βαθιά μηχανική μάθηση (deep learning) [14].

2.2.1 Παραγωγική προσέγγιση – Generative

Η παραγωγικές προσεγγίσεις ασχολούνται με το στάδιο αλλαγής της ηλικίας του υπό ανίχνευση ατόμου πριν από την αναγνώριση. Πιο συγκεκριμένα βασίζονται σε τεχνικές μετατροπής της ηλικίας του εικονιζόμενου ατόμου σε μία επιθυμητή ηλικία ώστε να γίνει στη συνέχεια πιο εύκολα και αποτελεσματικά η διαδικασία της αναγνώρισης. Κάτι τέτοιο απαιτεί αρχικά τον υπολογισμό ηλικίας ενός ατόμου και στη συνέχεια την δημιουργία ενός μοντέλου γήρανσης προσώπου το οποίο θα χρησιμοποιηθεί για την μετατροπή του προσώπου στην επιθυμητή ηλικία. Όπως έχει προαναφερθεί, η γήρανση είναι μία πολύπλοκη διαδικασία γεγονός που δεν ευνοεί την λειτουργία των μοντέλων γήρανσης με αποτέλεσμα να προκύπτουν σφάλματα τόσο στον υπολογισμό της ηλικίας του ατόμου όσο και στην μετατροπή ενός προσώπου σε προγενέστερη ή μεταγενέστερη ηλικία.

(16)

2.2.2 Διακριτική προσέγγιση – Discriminative

Οι διακριτικές προσεγγίσεις δεν βασίζονται στον υπολογισμό ηλικίας και στην παραγωγή νέων προσώπων αλλά προσπαθούν να εξάγουν χαρακτηριστικά του ατόμου πριν ξεκινήσει διαδικασία της αναγνώρισης. Οι συγκεκριμένες μέθοδοι χρησιμοποιούν τοπικούς περιγραφείς χαρακτηριστικών (Local Feature Descriptors) οι οποίοι αναπαριστούν στοιχεία του προσώπου και κωδικοποιούν χαρακτηριστικά τα οποία είναι αμετάβλητα στο πέρασμα του χρόνου. Πολλαπλοί τοπικοί περιγραφείς τελικά συνδυάζονται παρέχοντας μία αναπαράσταση του συνολικού προσώπου η οποία χρησιμοποιείται για την διαδικασία της ταξινόμησης (Classification). Οι τοπικοί αυτοί περιγραφείς παρουσιάζουν μία σχετική δυσκολία κατασκευής καθώς σχεδιάζονται από τους προγραμματιστές βασιζόμενοι σε οπτικά χαρακτηριστικά.

2.2.3 Προσέγγιση μηχανικής μάθησης – Deep Learning

Ορισμένες προσεγγίσεις μηχανικής μάθησης που έχουν αναπτυχθεί για το συγκεκριμένο πρόβλημα παρουσιάζουν ομοιότητες με τις προηγούμενες προσεγγίσεις που αναφέρθηκαν, όπως η εξαγωγή τοπικών χαρακτηριστικών ή σε άλλες περιπτώσεις και η σύνθεση ενός προσώπου σε μία επιθυμητή ηλικία. Παρ’ όλα αυτά οι μηχανισμοί που χρησιμοποιούνται για τις ενέργειες αυτές, που συγκεκριμένα είναι τα νευρωνικά δίκτυα, είναι αρκετά διαφορετικοί. Γι’ αυτόν το λόγο οι προσεγγίσεις μηχανικής μάθησης εξετάζονται ξεχωριστά.

Η χρήση μηχανικής μάθησης για το πρόβλημα της αναγνώρισης προσώπου γενικότερα έχει οδηγήσει σε τεράστια βελτίωση επιδόσεων των συστημάτων αναγνώρισης. Οι τεχνικές μηχανικής μάθησης χρησιμοποιούν νευρωνικά δίκτυα για την εξαγωγή αρκετά μεγάλου αριθμού χαρακτηριστικών ενός προσώπου, αποσπώντας λεπτομερείς πληροφορίες για ένα πρόσωπο μέσω μιας εικόνας. Η εξαγωγή αυτή πραγματοποιείται μέσω μίας διαδικασίας εκπαίδευσης των δικτύων, παρέχοντας σε αυτά την αυτονομία να εντοπίσουν και να καθορίσουν τα σημαντικότερα χαρακτηριστικά της εικόνας. Έτσι καταφέρνουν να συνθέσουν τελικά μία αποτελεσματική αναπαράσταση του προσώπου η οποία χρησιμοποιείται στο διαχωρισμό των ατόμων.

Τα πιο δημοφιλή νευρωνικά δίκτυα που χρησιμοποιούνται για την αναγνώριση προσώπου και γενικότερα κάθε είδους εικόνας, είναι τα συνελικτικά νευρωνικά δίκτυα (CNN-Convolutional Neural Networks). Η διαδικασία ξεκινάει με την εκπαίδευση του δικτύου που πραγματοποιείται με το πέρασμα ενός μεγάλου συνόλου δεδομένων από το δίκτυο. Η έξοδος του δικτύου αποτελεί τις αναπαραστάσεις των προσώπων του συνόλου εκπαίδευσης που ουσιαστικά είναι η διαδικασία εξαγωγής χαρακτηριστικών.

Αφού το δίκτυο εκπαιδευτεί με αρκετά δεδομένα, στη συνέχεια είναι έτοιμο να δεχτεί ως είσοδο ένα άλλο άγνωστο σύνολο δεδομένων ελέγχου το οποίο τελικά θα ταξινομήσει με βάση την αρχική του εκπαίδευση. Αυτή είναι η γενική ιδέα που ακολουθούν αρκετές μέθοδοι μηχανικής μάθησης για την αναγνώριση προσώπου που χρησιμοποιούν συνελικτικά δίκτυα (CNN).

(17)

3. ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΣΩΠΟΥ ΜΕ ΣΥΝΕΛΙΚΤΙΚΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

3.1 Η δομή ενός Συνελικτικού Νευρωνικού Δικτύου (CNN)

Τα συνελικτικά νευρωνικά δίκτυα (CNN) ανήκουν στην κλάση των προς τα εμπρός τροφοδοτούμενων δικτύων. Συγκεκριμένα αποτελούνται συνήθως από ένα στρώμα εισόδου (Input Layer), πολλαπλά κρυφά στρώματα (Hidden Layers) και ένα στρώμα εξόδου (Output Layer). Τα κρυφά στρώματα αποτελούνται από συνελικτικά (cnn), συγκεντρωτικά (pooling layer) και πλήρως συνδεδεμένα στρώματα (fully connected layer). Τα περισσότερα συστήματα αναγνώρισης εικόνων χρησιμοποιούν CNN καθώς αυτά βασίζονται στο γεγονός ότι τα στατιστικά των εικόνων είναι μεταφραστικά αμετάβλητα και συνεπώς μπορεί να γίνει εκμάθηση και αναπαράσταση πολλών χαρακτηριστικών μέσω φίλτρων που υπάρχουν στα συνελικτικά στρώματα [14]. Τα φίλτρα αυτά εφαρμόζονται στα εικονοστοιχεία της εικόνας με σκοπό να εξαχθούν τοπικά χαρακτηριστικά, όπου με την επανάληψη της διαδικασίας αυτής αποκτώνται χαρακτηριστικά υψηλότερου επιπέδου. Ένα φίλτρο είναι στην ουσία ένας πίνακας n x n που περιέχει ορισμένα βάρη w, τα οποία βάρη πολλαπλασιάζονται με τα pixels της εικόνας στοιχείο προς στοιχείο (element wise operation). Εφαρμόζοντας λοιπόν το φίλτρο σε μία εικόνα προκύπτει μία νέα αναπαράσταση αυτής, η οποία ενδέχεται να υποστεί περεταίρω επεξεργασία. Το μέγεθος του φίλτρου είναι συνήθως 3 x 3, 5 x 5 ή 7 x 7 αλλά γενικά μπορεί να πάρει οποιαδήποτε τιμή έτσι ώστε να μπορεί να εξάγει περισσότερα ή λιγότερα χαρακτηριστικά κάθε φορά. Ένα παράδειγμα φαίνεται στην Εικόνα 1, όπου από μία εικόνα μεγέθους 7 x 7 προκύπτει ένας χάρτης χαρακτηριστικών 5 x 5 μετά από εφαρμογή ενός φίλτρου μεγέθους 3 x 3. Τελικά τα χαρακτηριστικά που προκύπτουν από τα συνελικτικά στρώματα, αν και όχι αναγκαία, περνάνε στα συγκεντρωτικά στρώματα (Pooling Layers), που χρησιμεύουν στην αναπαράσταση των χαρακτηριστικών και κυρίως στην μείωση των διαστάσεών τους. Τα στρώματα αυτά λοιπόν προσφέρουν μία ισοδύναμη αναπαράσταση της εικόνας αλλά μικρότερου μεγέθους. Αυτό επιτυγχάνεται εφαρμόζοντας σε μικρές ομάδες εικονοστοιχείων μία πράξη όπως πρόσθεση, μέσος όρος, επιλογή μεγίστου όπου έχουμε SumPooling, AveragePooling και MaxPooling αντίστοιχα. Ο λόγος δηλαδή που η έξοδος ενός συνελικτικού στρώματος δίνεται ως είσοδος σε ένα συγκεντρωτικό στρώμα είναι η συμπύκνωση της πληροφορίας για θέματα απόδοσης. Τέλος τα πλήρως συνδεδεμένα στρώματα (Fully Connected Layers) είναι υπεύθυνα για την διαδικασία της ταξινόμησης μέσω συνδυασμού των χαρακτηριστικών που έχουν εξαχθεί με μη γραμμικό τρόπο και έτσι ουσιαστικά πραγματοποιείται η αντιστοίχιση της αρχικής εικόνας με μία κλάση. Αυτή είναι η απλούστερη αλλά βασική δομή ενός συνελικτικού νευρωνικού μοντέλου το οποίο μπορεί να εμπλουτιστεί και με άλλα ήδη στρωμάτων με σκοπό είτε την βελτίωση της χρονικής/χωρικής απόδοσης είτε την βελτίωση των αποτελεσμάτων.

Οι λεπτομέρειες της αρχιτεκτονικής ενός CNN δεν ακολουθούν κάποιον συγκεκριμένο κανόνα ο οποίος θα προσφέρει σίγουρα αποτελέσματα για ένα πρόβλημα και συνεπώς η επιλογή αυτών γίνεται εμπειρικά/πειραματικά. Κάποιες από αυτές τις λεπτομέρειες είναι το είδος των στρωμάτων και το πλήθος του κάθε είδους, η σειρά των στρωμάτων, οι διαστάσεις των φίλτρων οι συναρτήσεις απώλειας κ.α. Η επιλογή της δομής ενός μοντέλου επηρεάζεται σημαντικά από τα σύνολα δεδομένων στα οποία εκπαιδεύονται

(18)

και ελέγχονται. Μια μέθοδος που ακολουθείται συχνά σχετικά με το μέγεθος του δικτύου είναι αρχικά να δοκιμαστεί με σχετικά μικρό πλήθος στρωμάτων και σταδιακά να αυξάνεται όσο παρατηρείται βελτίωση απόδοσης. Μία γενική όμως παρατήρηση είναι πως όσο μεγαλώνει το μέγεθος των δεδομένων θα πρέπει να χρησιμοποιείται και μεγαλύτερο δίκτυο.

Εικόνα 1: Εφαρμογή συνελικτικού φίλτρου σε εικόνα

3.2 Μεταφορά γνώσης – Transfer Learning

Η εκπαίδευση ενός συνελικτικού δικτύου από το μηδέν είναι μία αρκετά χρονοβόρα διαδικασία ειδικά όταν γίνεται πάνω σε μεγάλα σύνολα δεδομένων που είναι και απαραίτητα για την καλή επίδοση του δικτύου. Από την άλλη μεριά υπάρχουν περιπτώσεις όπου δεν υπάρχουν κατάλληλα σύνολα δεδομένων ώστε να πραγματοποιηθεί εκπαίδευση ενός δικτύου. Η μέθοδος της μεταφοράς γνώσης είναι μια βελτιστοποίηση που χρησιμοποιείται για το συγκεκριμένο πρόβλημα. Πιο συγκεκριμένα ένα μοντέλο το οποίο έχει ήδη εκπαιδευτεί πάνω σε ένα σύνολο δεδομένων, μπορεί να προσφέρει τη γνώση που έχει αποκτήσει, εννοώντας τις παραμέτρους που έχουν προκύψει από την εκπαίδευσή του, επιταχύνοντας την εκπαίδευση ενός νέου μοντέλου.

Για να συμβεί αυτό θα πρέπει η γνώση του πρώτου μοντέλου να είναι αρκετά γενική όπως επίσης και τα δύο μοντέλα να προορίζονται για παρόμοια χρήση. Έτσι είναι σημαντικό το προ-εκπαιδευμένο μοντέλο να εκπαιδευτεί αρχικά σε ένα αρκετά μεγάλο σύνολο δεδομένων ώστε η μεταφορά γνώσης να γίνει επιτυχώς. Για παράδειγμα ένα μοντέλο το οποίο προορίζεται για γενική αναγνώριση προσώπου (GFR) μπορεί να χρησιμοποιηθεί για την εκπαίδευση ενός μοντέλου για αναγνώριση προσώπου ανεξαρτήτως ηλικίας. Έτσι λοιπόν το προ-εκπαιδευμένο μοντέλο χρησιμοποιείται ως αφετηρία εκπαίδευσης ενός νέου το οποίο με τη σειρά του μπορεί να εκπαιδευτεί περεταίρω, ή ακόμη το προ-εκπαιδευμένο μοντέλο μπορεί να χρησιμοποιηθεί αυτούσιο για εξαγωγή χαρακτηριστικών. Ορισμένα παραδείγματα προ-εκπαιδευμένων μοντέλων είναι το ResNet, VGG, MobileNet κ.α. τα οποία έχουν μεγάλο πλήθος στρωμάτων (Deep Networks) και έχουν εκπαιδευτεί πάνω σε σύνολα δεδομένων εκατομμυρίων εικόνων. Η συνηθέστερη διαδικασία που ακολουθείται στη μεταφορά γνώσης είναι να αποσπώνται τα τελευταία στρώματα του προ-εκπαιδευμένου μοντέλου (Fully Connected) και είτε να προστίθενται νέα πλήρως συνδεδεμένα στρώματα ώστε να εκπαιδευτούν στο νέο σύνολο δεδομένων, είτε να μείνει ως έχει αποτελώντας έτσι ένα μοντέλο εξαγωγής χαρακτηριστικών χωρίς να πραγματοποιεί τη λειτουργία της ταξινόμησης αυτόνομα.

(19)

Η τεχνική του Transfer Learning πολύ συχνά συνοδεύεται από μία άλλη τεχνική που ονομάζεται συντονισμός (Fine Tuning). Ένα προ-εκπαιδευμένο μοντέλο, όπως προ- αναφέρθηκε, μπορεί να αντικαταστήσει τα πλήρως συνδεδεμένα του στρώματα με νέα ώστε αυτά να εκπαιδευτούν πάνω σε ένα νέο σύνολο δεδομένων. Η τεχνική του συντονισμού ουσιαστικά συνεχίζει την εκπαίδευση του μοντέλου, παγώνοντας όλα τα στρώματα του δικτύου, δηλαδή δεν τους επιτρέπεται επιπλέον εκπαίδευση, εκτός από ορισμένα συνελικτικά στρώματα, συνήθως κάποια από τα τελευταία. Τα τελευταία συνελικτικά στρώματα σε αντίθεση με τα συγκεντρωτικά, μπορούν να εξάγουν χαρακτηριστικά, που ανάλογα με την θέση που βρίσκονται στο δίκτυο καθορίζεται και η λεπτομέρεια της πληροφορίας τους. Για παράδειγμα τα τελευταία συνελικτικά στρώματα εντοπίζουν χαρακτηριστικά υψηλότερου επιπέδου από τα πρώτα στρώματα και συνεπώς τα χαρακτηριστικά αυτά βοηθούν στον διαχωρισμό των ατόμων. Έτσι γίνεται περεταίρω εκπαίδευση μόνο σε αυτά τα στρώματα ούτως ώστε το μοντέλο να παρέχει καλύτερα αποτελέσματα [19].

3.3 Περιγραφή ενός συστήματος αναγνώρισης προσώπου

Από το 2014 κυρίως, οι τεχνικές μηχανικής μάθησης έχουν συνεισφέρει σε τεράστιο βαθμό στην αναγνώριση προσώπου και η χρήση τους στο συγκεκριμένο πρόβλημα έχει αυξηθεί σημαντικά. Μέσω της χρήσης τεχνικών μηχανικής μάθησης και συγκεκριμένα CNN δικτύων, εφαρμόζονται πολλαπλά στρώματα επεξεργασίας πάνω σε δεδομένα, έτσι ώστε να γίνει γνωστή η αναπαράστασή τους με πολλά επίπεδα εξαγωγής χαρακτηριστικών. Δημιουργώντας μία τέτοια αναπαράσταση για το πρόβλημα της αναγνώρισης προσώπου, μπορεί να επιτευχθεί η αναγνώριση ενός νέου προσώπου από το οποίο επίσης θα εξαχθούν χαρακτηριστικά και με βάση το εκπαιδευμένο πλέον δίκτυο θα προβλεφθεί η ταυτότητα του προσώπου αυτού.

Ένα σύστημα αναγνώρισης προσώπου αποτελείται από τρείς βασικές μονάδες. Πρώτη είναι η μονάδα εντοπισμού/προσδιορισμού του προσώπου στην εικόνα (Face Detection) έτσι ώστε να δοθεί στο δίκτυο μόνο το πρόσωπο και όχι άλλα άχρηστα μέρη της εικόνας. Δεύτερη είναι η μονάδα που ευθυγραμμίζει το πρόσωπο κανονικοποιώντας τις συντεταγμένες του και τρίτη είναι η μονάδα η οποία παίρνει σαν είσοδο τις προ- επεξεργασμένες εικόνες από τις προηγούμενες μονάδες και εκτελεί την αναγνώριση προσώπου. Η μονάδα της αναγνώρισης είναι αυτή που παρουσιάζει το μεγαλύτερο ενδιαφέρον και αυτή που θα αναλυθεί παρακάτω. Τα περισσότερα συστήματα αναγνώρισης προσώπου βασίζονται σε μία κοινή δομή και λογική. Με βάση αυτήν τη δομή διακρίνονται τρία στάδια στη συνολική διαδικασία τα οποία είναι η επεξεργασία εικόνων, η βαθιά εξαγωγή χαρακτηριστικών και τέλος η αντιστοίχιση προσώπων με τις αντίστοιχες ταυτότητες, βάσει των χαρακτηριστικών αυτών. Μετά τα βήματα αυτά είναι απαραίτητο να γίνει εκτίμηση της απόδοσης του συστήματος με βάση μία μετρική αξιολόγησης. Η δομή ενός συστήματος αναγνώρισης φαίνεται στο Σχήμα 1.

(20)

Σχήμα 1: Δομή συστήματος αναγνώρισης προσώπου

3.3.1 Επεξεργασία δεδομένων – Data preprocessing

Ένα σύστημα αναγνώρισης προσώπου σε ανεξέλεγκτο περιβάλλον είναι σημαντικό να εφαρμόζει μία επεξεργασία στο σύνολο δεδομένων / εικόνων (σύνολο εκπαίδευσης και ελέγχου). Αυτό προκύπτει καθώς παρά την ισχυρή αναπαράσταση που προσφέρουν οι τεχνικές Deep Learning πρέπει να εξαλειφθούν παράγοντες όπως η πόζα, η έκφραση, ο φωτισμός κ.α. που επηρεάζουν την επίδοση της αναγνώρισης. Οι παραλλαγές της πόζας που εμφανίζονται στα δεδομένα είναι ίσως το σημαντικότερο εμπόδιο του συστήματος. Για τη λύση του συγκεκριμένου προβλήματος παρουσιάζονται δύο προσεγγίσεις όπου η πρώτη με βάση μία μόνο εικόνα, παράγει πολλές εικόνες με διαφορετικές πόζες για να γίνει πληρέστερη εκμάθηση χαρακτηριστικών (One-to-many augmentation) [19]. Η δεύτερη προσέγγιση προσπαθεί να κανονικοποιήσει την εικόνα απαλείφοντας κατά κάποιον τρόπο την πόζα με στόχο να δημιουργηθεί μία εικόνα με το εμπρόσθιο μόνο μέρος του προσώπου (Many-to-one normalization). Άλλες ενέργειες που κατατάσσονται στο στάδιο της προ-επεξεργασίας σχετίζονται με το μέγεθος, το χρώμα ή την φωτεινότητα/αντίθεση των εικόνων.

(21)

3.3.2 Εξαγωγή χαρακτηριστικών – Feature Extraction

Αφού ολοκληρωθεί το στάδιο της επεξεργασίας δεδομένων ακολουθεί το στάδιο της εξαγωγής χαρακτηριστικών. Μία από τις αρχιτεκτονικές που ακολουθούνται στο στάδιο αυτό είναι η χρήση ενός βασικού ενιαίου δικτύου, στην περίπτωσή μας CNN, που αποτελεί τη ραχοκοκαλιά του συστήματος (Backbone Network) και τη βάση του μοντέλου αναγνώρισης. Υπάρχει αντίστοιχα και μία διαφορετική αρχιτεκτονική των πολλαπλών δικτύων όπου το καθένα είναι υπεύθυνο για μία συγκεκριμένη δουλεία (Assembled networks) όπως για παράδειγμα να αναγνωρίζει πρόσωπα σε διαφορετικές πόζες, φωτισμό, έκφραση κ.α. Σημαντικό εργαλείο για την εξαγωγή χαρακτηριστικών αποτελούν οι συναρτήσεις απώλειας (Loss Functions) οι οποίες αποτελούν τα σήματα επιτήρησης του δικτύου και το καθοδηγούν με σκοπό την αποτελεσματική εκπαίδευσή του. Οι συναρτήσεις απώλειας δηλαδή προσπαθούν να κάνουν τα χαρακτηριστικά όσο πιο διαχωρίσιμα γίνεται. Έχουν προταθεί διάφορες συναρτήσεις απώλειας όπως η ευκλείδεια, angular based margin [19], softmax κ.α.

3.3.3 Ταξινόμηση - Classification

Τελευταίο στάδιο του συστήματος αναγνώρισης είναι αυτό της αντιστοίχισης προσώπου – ταυτότητας με βάση τα χαρακτηριστικά που έχουν εξαχθεί. Αφού το δίκτυο εκπαιδευτεί με πολλά δεδομένα και κατάλληλη συνάρτηση απώλειας, κάθε εικόνα από το σύνολο δεδομένων ελέγχου δίνεται σε αυτό για να δημιουργηθεί μία αναπαράσταση χαρακτηριστικών, μέσω της οποίας θα γίνει η ταξινόμηση της εικόνας. Πολλές μέθοδοι υπολογίζουν απ’ ευθείας την ομοιότητα μεταξύ δύο χαρακτηριστικών μέσω απόστασης συνημίτονων ή L2 απόστασης που εφαρμόζονται κυρίως σε περιπτώσεις επαλήθευσης προσώπου (Face Verification). Στην περίπτωση της ταυτοποίησης προσώπου (Face Identification) η διαδικασία της ταξινόμησης μπορεί να γίνει είτε απ’ ευθείας από το δίκτυο μέσω των πλήρως συνδεδεμένων στρωμάτων, είτε να προστεθεί στο τέλος του κάποιος ταξινομητής. Συγκεκριμένα για την περίπτωση που προστίθεται ένας ταξινομητής στο τέλος του δικτύου, επιλέγεται κάποιο από τα προ-τελευταία πλήρως συνδεδεμένα στρώματα το οποίο δίνει την έξοδό του στον ταξινομητή. Έτσι ο ταξινομητής θα πάρει τα χαρακτηριστικά που εξάγονται από το συγκεκριμένο στρώμα για κάθε στοιχείο εκπαίδευσης όπως επίσης και τις κλάσεις αυτών και θα εκπαιδευτεί πάνω σε αυτά τα δεδομένα. Οι συνηθέστεροι ταξινομητές που χρησιμοποιούνται στη διαδικασία αυτή είναι ο ΚΝΝ και ο SVM αλλά γενικά μπορεί να χρησιμοποιηθεί οποιαδήποτε τεχνική ταξινόμησης ταιριάζει στο δεδομένο πρόβλημα [5] [16].

3.3.4 Αξιολόγηση - Evaluation

Αφού ένα σύστημα αναγνώρισης κάνει τις προβλέψεις για το σύνολο ελέγχου είναι σημαντικό να γίνει μία εκτίμηση της επίδοσής του. Υπάρχουν διάφορες μετρικές που δείχνουν πόσο καλά ήταν τα αποτελέσματα του συστήματος ανάλογα με το είδος της αναγνώρισης που εκτελείται. Η μετρική ROC (Receiver Operating Characteristic) μετράει τα αληθώς θετικά (true positive) και τα ψευδώς θετικά (false positive) δείγματα με βάση ένα δοσμένο όριο και χρησιμοποιείται σε περιπτώσεις δυαδικής ταξινόμησης (Binary Classification) όπως για παράδειγμα επαλήθευση προσώπου. Η μετρική ACC η οποία συναντάται σε παρόμοια σενάρια με την ROC, αναπαριστά το ποσοστό των

(22)

σωστών ταξινομήσεων. Επίσης στο στάδιο της αξιολόγησης εμφανίζεται και η μετρική Rank-K η οποία ουσιαστικά αναφέρεται στο πλήθος των δεκτών αποτελεσμάτων που επιστρέφει το μοντέλο αναγνώρισης. Για παράδειγμα αν εφαρμόζουμε Rank-1 recognition δεχόμαστε μόνο ένα στοιχείο/πρόβλεψη ως απάντηση του μοντέλου ενώ στην περίπτωση όπου K > 1 εξετάζουμε και τις K επιλογές που δίνει ως έξοδο το μοντέλο. Συνεπώς στην περίπτωση όπου Κ > 1 επιτρέπουμε ουσιαστικά ένα περιθώριο λάθους στο μοντέλο.

Μια ακόμη τεχνική για αξιολόγηση ενός μοντέλου είναι η Leave-one-out cross-validation η οποία χρησιμοποιείται κυρίως σε περιπτώσεις όπου το σύνολο δεδομένων είναι σχετικά μικρό. Στην συγκεκριμένη περίπτωση της αναγνώρισης προσώπου η τεχνική αυτή είναι γνωστή ως LOPO (Leave-one-person-out). Με βάση την μέθοδο αυτή έχοντας ένα σύνολο δεδομένων N στοιχείων, επαναλαμβάνεται η διαδικασία της εκπαίδευσης-αξιολόγησης Ν φορές, όπου κάθε φορά αφήνεται ένα στοιχείο εκτός του συνόλου εκπαίδευσης και αυτό και μόνο αποτελεί το σύνολο ελέγχου. Έτσι η εκπαίδευση γίνεται σε N-1 στοιχεία ενώ η αξιολόγηση σε 1. Τελικά η αξιολόγηση του μοντέλου είναι ο μέσος όρος των αποτελεσμάτων της κάθε επανάληψης, είτε αυτό είναι ACC είτε απώλεια του δικτύου (Loss) ή όποια άλλη μετρική έχει επιλεχθεί.

3.4 Πρόβλημα υπερεκπαίδευσης – Overfitting και ανεπάρκειας - Underfitting

Το πρόβλημα της υπερεκπαίδευσης (Overfitting) παρουσιάζεται σε περιπτώσεις όπου ένα νευρωνικό δίκτυο, όχι κατ’ ανάγκη CNN, είναι ιδιαίτερα πολύπλοκο περιέχοντας πολλά στρώματα για ορισμένους τύπους συνόλων δεδομένων. Το γεγονός αυτό καθιστά ένα τέτοιο δίκτυο μη αποτελεσματικό μιας και επηρεάζεται σημαντικά από τον θόρυβο των δεδομένων καθώς διαθέτει υπερβολικά πολλές παραμέτρους. Το ίδιο αποτέλεσμα έχει και η εκπαίδευση ενός δικτύου σε ανεπαρκές πλήθος δεδομένων. Στις περιπτώσεις αυτές το μοντέλο δεν γενικεύει ικανοποιητικά από το σύνολο εκπαίδευσης όπου παρουσιάζει καλά αποτελέσματα, στο σύνολο ελέγχου όπου έχει χαμηλή επίδοση.

Το συγκεκριμένο πρόβλημα είναι αρκετά συχνό στην αναγνώριση προσώπου ανεξαρτήτως ηλικίας καθώς για να γίνει αποτελεσματικά είναι απαραίτητο το σύνολο δεδομένων εκπαίδευσης να περιέχει πολλές εικόνες του ίδιου ατόμου όπως επίσης και πολλά διαφορετικά άτομα. Η αντιμετώπιση της υπερφόρτωσης επιτυγχάνεται με διάφορους τρόπους όπως η δημιουργία ενός απλούστερου / μικρότερου δικτύου, με την αύξηση των δεδομένων εκπαίδευσης (π.χ. δημιουργία νέας πόζας μέσω συμμετρικών εικόνων), με τον πρόωρο τερματισμό της εκπαίδευσης (Early Stopping) (π.χ. σε περίπτωση που δεν υπάρχει η επιθυμητή βελτίωση), με την τεχνική dropout όπου στο στάδιο της εκπαίδευσης και μόνο, τροποποιείται το δίκτυο αγνοώντας τυχαίους νευρώνες του δικτύου. Οι τεχνικές αυτές είναι σημαντικές για την αποφυγή της απομνημόνευσης συγκεκριμένων δεδομένων από το δίκτυο.

Το αντίθετο ακριβώς συμβαίνει στην περίπτωση όπου το μοντέλου που έχει επιλεχθεί είναι μικρό/απλό για το μέγεθος του συνόλου δεδομένων στο οποίο χρησιμοποιείται.

Έτσι ένα δίκτυο με λίγα στρώματα και συνεπώς λίγες παραμέτρους δεν μπορεί να ανταπεξέλθει επαρκώς σε ένα πολύ μεγάλο σύνολο δεδομένων καθώς αδυνατεί να εξάγει τα απαραίτητα διακριτικά χαρακτηριστικά των δεδομένων που απαιτούνται. Σε αυτή την περίπτωση παρουσιάζεται το πρόβλημα της ανεπάρκειας (Underfitting) το οποίο αντιμετωπίζεται ευκολότερα από το προηγούμενο, μέσω της αύξησης του μεγέθους του δικτύου [15].