• Nenhum resultado encontrado

Ανιχνευτές ακμών

N/A
N/A
Protected

Academic year: 2023

Share "Ανιχνευτές ακμών"

Copied!
43
0
0

Texto

(1)

Α .Τ.Ε.Ι. Κ Α ΒΑ Λ Α Σ

ΤΜ Η Μ Α Β ΙΟ Μ Η Χ Α Ν ΙΚ Η Σ Π Λ Η ΡΟ Φ Ο ΡΙΚ Η Σ

Π Τ Υ Χ ΙΑ Κ Η ΕΡΓΑ ΣΙΑ

"Α ΝΙΧΝΕΥΤΕΣ Α Κ Μ Ω Ν ”

ΤΑ ΣΟ Σ ΕΥ Α ΓΓΕΛ Ο Σ

ΕΠ ΙΒΛ ΕΠ Ω Ν Κ Α Θ Η ΓΗ ΤΗ Σ

Κ ΡΙΝ ΙΔΗ Σ ΣΤ Ε Λ Λ ΙΟ Σ

(2)

Περίληψη

Η παρακάτω πτυχιακή εργασία περιλαμβάνει την ανάπτυξη ορισμένων ανιχνευτών ακμών σε βίντεο (η εφαρμογή υποστηρίζει αρχεία τύπου AVI). Αυτοί οι ανιχνευτές ακμών έχουν την δυνατότητα να εφαρμοστούν σε ολόκληρο το βίντεο ή σε τμήμα του (δηλαδή από κάποιο frame του βίντεο σε κάποιο άλλο).

Οι ανιχνευτές που υλοποιούνται είναι :

• ανιχνευτής ακμών με μάσκες Sobel,

• ανιχνευτής ακμών με μάσκες Laplace

• ανιχνευτής ακμών με μάσκες Prewitt

• ανιχνευτής ακμών με τον αλγόριθμο Canny

Η παραπάνω διαδικασία πραγματοποιείται σε γλώσσα προγραμματισμού C. Το πρόγραμμα περιλαμβάνει παραθυρικό περιβάλλον ανοίγματος του αρχείου, επιλογής του ανιχνευτή που επιθυμεί ο χρήστης και των παραμέτρων αυτών μέσω του παραθυρικού περιβάλλοντος (κουμπιά και παράθυρα διαλόγων). Επίσης μέσω του παραθυρικού περιβάλλοντος ο χρήστης καθορίζει τα frames του αρχείου βίντεο που θέλει να εφαρμοστούν οι ανιχνευτές.

Τέλος ο χρήστης μπορεί να σώσει το επεξεργασμένο βίντεο σε ένα νέο αρχείο με το όνομα που ο ίδιος επιθυμεί.

C om piler (μεταγλω ττιστής)

Για την μεταγλώττιση του κώδικα χρησιμοποιήθηκε ο GCC compiler, ο οποίος μπορεί να βρεθεί στην ιστοσελίδα http://gcc.gnu.org

Π αραθυρικό Περιβάλλον (G rap h ical U ser In terface - GUI)

Για την δημιουργία του παραθυρικού περιβάλλοντος χρησιμοποιήθηκε το πλαίσιο FLTK.

To FLTK framework, είναι μια συλλογή από κλάσεις της C++, το οποίο βοήθα στη δημιουργία εφαρμογών των windows χωρίς την περαιτέρω γνώση από M icrosoft’s Win32 API. Το παραπάνω πλαίσιο βρίσκεται στην ιστοσελίδα http://www.fltk.org

Διάβασμα (R eading) αρχείω ν AVI

Για το διάβασμα των αρχείων τύπου AVI χρησιμοποιήθηκε το M icrosoft’s Video for Windows (VFW) API. Το συγκεκριμένο πρόγραμμα δίνει την δυνατότητα αναπαραγωγής από τα Windows ψηφιακών βίντεο.

Για την επεξεργασία της εικόνας, την αποθήκευση του βίντεο καθώς και την δημιουργία των ανιχνευτών χρησιμοποιήθηκε η γλώσσα προγραμματισμού C

(3)

1ο Κ ΕΦ Α Λ Α ΙΟ ...5

ΕΙΣΑ ΓΩ ΓΗ ... 5

1.1 Ανίχνευση Α κμών... 5

1.1.1 Επεξεργασία εικ ό να ς... 5

1.1.2 Computer V ision... 6

1.1.3 Κ ίνητρα... 6

2ο Κ ΕΦ Α Λ Α ΙΟ ...8

ΒΕΛΤΙΩΣΗ ΕΙΚΟΝΑΣ (ΦΙΛΤΡΑΡΙΣΜ Α)...8

2.1 Βαθυπερατά Φ ίλτρα... 10

2.1.1 Φίλτρα μέσης τιμής...10

2.1.2 Φίλτρα Gaussian μορφής... 12

2.1.3 Φίλτρα διάμεσης τιμής... 15

2.2 Ηψιπερατά φ ίλ τρ α ... 16

2.3 Uksharp m asking...16

2.4 Επεξεργασία έγχρωμης εικόνας...17

2.5 Ομομορφική επεξεργασία (Homomorplιίc Processing)... 18

3ο Κ ΕΦ Α Λ Α ΙΟ ... 20

ΑΝΙΧΝΕΥΣΗ ΑΚΜΩΝ (EDGE D ETEC TIO N )...20

3 . 1 Μ ια πρώτη προσέγγιση της διαδικασίας ανίχνευσης ακμών... 21

3 . 2 Α μέθοδος — 1η π α ρ ά γ ω γ ο ς (Βάθμωση - G radient)... 22

3.3 Β μέθοδος - 2η π α ρ ά γ ω γ ο ς (L a p la c ia n )... 26

3 .4 L a p l a c i a n o f G a u s s i a n ( L o G ) ... 28

3.5 Ανιχνευτής ακμής με την μέθοδο C anny... 30

3 . 6 Ανίχνευση ακμών σε έγχρωμη εικόνα... 32

3 . 7 Κριτήρια σωστής ανίχνευσης ακμώ ν... 33

3 .8 Ο Διανυσματικός χώρος τ ω ν σημάτων που αποτελούνται από n σημεία μίας εικόνας... 33

3.8.1 Ε ισαγω γικά... 34

4ο Κ ΕΦ Α Λ Α ΙΟ ... 36

GRAPHICAL USER INTERFACE (G U I)...36

4.1 ΠΕΡΙΒΑΛΛΟΝ (INTERFACE)... 36

4.1.1 OPEN A V I...37

4.1.2 INFORMATION B A R ...37

4.1.3 A LG O R ITH M ... 38

4.1.4 START FRAME-END FRA M E...38

4.1.5 THRESHOLD... 39

4.1.6 PLAY A V I...39

4.1.7 ΜΠΑΡΑ Κ Υ Λ ΙΣ Η Σ ... 40

4.1.8 SAVE A V I... 41

5. Ε Π ΙΛ Ο Γ Ο Σ ...42 Β ιβλιογραφία...Σφάλμα! Δεν έχει οριστεί σελιδοδείκτης.

Π ερ ιεχό μ ενα

(4)

Π ερ ιεχ ό μ ενα σ χη μ ά τω ν

Σχήμα 2. 1 Το αποτέλεσμα της συνέλιξης για την τιμή της εικόνας στη θέση nj,n2 που έχει τιμήΕ. y(n1,n2)=Aρ1+Βρ2+Cρ3,+Dρ4,+Ερ5+Fρ6+Gρ7+Hρ8+Ιρ9___________________9 Σχήμα 2. 2 Απόκριση συχνότητας (2 διαστάσεων) για το φίλτρο μέσης τιμής. Στις χαμηλές συχνότητες γύρω από το σημείο (0,0) το πλάτος είναι μεγάλο. Οι συχνότητες -1 και 1

αντιστοιχούν στο f s / 2________________________________________________________________ 11 Σχήμα 2.3 Η αρχική εικόνα και η φιλτραρισμένη έξοδος μάσκα μέσης τιμής 3χ3 και 7χ7.

Είναι εμφανής η θόλωση καθώς και η επίδραση του μήκους της μάσκας.________________ 11 Σχήμα 2.4 Εξασθένιση του θορύβου με 3χ3 κάσκα μέσης τιμής. ________________________12 Σχήμα 2. 5 11 έξοδος του φίλτρου διάμεσης τιμής είναι=20. Και προκύπτει ως η 5η τιμή στη αύξουσα διάταξη των τιμών των pixel του παραθύρου. Εαν εφαρμόζαμε φίλτρο μέσης τιμής (3.3) η έξοδος θυ τήταν 1/9(10+12+15+17+20+25+30+50+60)=26.55 Σφάλμα! Δεν έχει οριστεί σελιδοδείκτης.

Σχήμα 2. 6 Έξοδος median φίλτρου. Ο κρουστικός θόρυβος είναι 10% και εξαλείφεται εντελώς. _____________________________________________________________________________16 Σχήμα 2. 7Μερικές υψιπερατές μάσκες________________________________________________16 Σχήμα 2.8 Η αρχική εικόνα f(n 2,n2) λογαριθμειται και με τα δύο φίλτρα ξεχωρίζονται οι δυο συνιστώσες. Στο τέλος γίνεται η αντίστροφη πράξη με την εκθετική συνάρτηση.__________19 Σχήμα 3.1 (α) ιδανική βηματική ακμή (step), (β) ράμπα (ramp), (γ) ακμή τύπου οροφής

(ro o f) ______________________________________________________________________________21 Σχήμα 3.2 Η συνάρτηση εντάσεως f(χ) έχει πρώτη παράγωγο f '(χ) και δεύτερηβ'(χ). Όλα τα σημεία f '(χ) πάνω από το κατώφλιο θεωρούνται σημεία ακμής. Αντίθετα ένα μόνο σημείο υπάρχει όπου]”(χ). =0__________________________Σφάλμα! Δεν έχει οριστεί σελιδοδείκτης.

Σχήμα 3. 3 Σ το ν αρχικό υπολογισμό του Gradient υπολογίζεται η απόλυτη τιμή και στη συνέχεια θεωρείται σημείο α κ μ ή ς εάν η τιμή |V f ( χ ) είναι μεγαλύτερη από ένα κατώφλιο.

__________________________________________________________________________22 Σχήμα 3. 4 Η αρχική εικόνα α) επεξεργασμένη με R o b e r t s β) P r e w i t t γ) S o b e l δ )____25 Σχήμα 3.5 Το (γ) είναι η απόκριση τ ο υ (α) σ ε Laplacian. Ο μηδενισμός δεν εμφανίζεται αλλά φαίνεται καθαρά η θέση του λόγω του θετικού και αρνητικού σημείου. Σ τ ο (δ) που αντιστοιχεί στη ράμπα (β ) φαίνεται το σημείο μηδενισμού. ________________________27 Σχήμα 3.6 Χρήση της διακυμανσης σ2 (variance) σε συνδυασμό με τον τελεστή της Laplacian

για ανίχνευση ακμής__________________________________________________________________28 Σχήμα 3. 7 Η συναρτήσεις Gαυssίαn (α) και η -LοG (β) σε τομή. H σχέση μεταξύ w και σ συνήθως λαμβάνεται w = 2 ^ 2 σ . Το μήκος του παραθύρου είναι 3w x 3w. ______________29 Σχήμα 3. 8 Εφαρμογή LoG με τρεις διαφορετικές τιμές του σ .___________________________30

(5)

1ο ΚΕΦΑΛΑΙΟ

ΕΙΣΑΓΩΓΗ

1.1 Ανίχνευση Ακμών

Η ανίχνευση ακμών είναι μια ορολογία που αφορά την επεξεργασία εικόνας και την

«οπτική» των υπολογιστών (computer vision), ιδιαίτερα όσον αφορά τους τομείς της εξαγωγής χαρακτηριστικών και την δυνατότητα ανίχνευσης, και αναφέρεται σε αλγόριθμους που αποσκοπούν στον εντοπισμό σημείων σε μια ψηφιακή εικόνα στην οποία η φωτεινότητα αλλάζει δραστικά η πιο σωστά έχει ασυνέχειες.

1.1.1 Επεξεργασία εικόνας

Επεξεργασία εικόνας είναι κάθε είδους εξεργασία σήματος για την οποία είσοδος είναι μια εικόνα ( Πχ. φωτογραφίες ή frames από ένα βίντεο). Έξοδος αυτής της διεργασίας μπορεί να είναι είτε μια εικόνα είτε ένα σύνολο χαρακτηριστικών ή παραμέτρων που σχετίζονται με την εικόνα. Μερικές εφαρμογές της επεξεργασία εικόνας είναι :

• Ανίχνευση προσώπων.

Η ανίχνευση προσώπων είναι μια τεχνολογία των ηλεκτρονικών υπολογιστών που καθορίζει τις θέσεις και τα μεγέθη των ανθρώπινων προσώπων σε ψηφιακές εικόνες.

Ανιχνεύει χαρακτηριστικά και αγνοεί οτιδήποτε άλλο, όπως κτίρια, δεντρά και σώματα.

• Σύστημα προειδοποίησης αλλαγής λωρίδας

Στην ορολογία των οδικών μεταφορών ένα σύστημα προειδοποίησης αλλαγής λωρίδας είναι ένας μηχανισμός σχεδιασμένος να προειδοποιεί τον οδηγό όταν το όχημα αρχίζει να κινείται εκτός της λωρίδας κυκλοφορίας (εκτός και αν υπάρχει κάποιο σήμα) σε ένα αυτοκινητόδρομο.

• Non-photo realistic rendering (NPR)

«NPR» είναι ένας τομέας της δημιουργίας γραφικών μέσω υπολογιστή που επικεντρώνεται στο να επιτρέπει και να δημιουργεί μια μεγάλη γκάμα εκφραστικών στυλ πάνω στην ψηφιακή τέχνη. Η τεχνική αυτή εφαρμόζεται εκτεταμένα στις σημερινές ταινίες και βιντεοπαιχνίδια με την μορφή σκίασης καρτούν, στην ενδεικτική αρχιτεκτονική και στο πειραματικό animation. Ειδικότερα σε εφαρμογές 3D το αποτέλεσμα της τεχνικής αυτής είναι ένα 3D μοντέλο επεξεργασμένο και τροποποιημένο από το αρχικό πορτραίτο (φωτογραφία) με γεωμετρικές διαστάσεις και χαρακτηριστικά ακριβώς ίδια.

• Επεξεργασία ιατρικών εικόνων

Σαν ιατρικές εικόνες ή χάρτες εννοούμε όλες εκείνες τις τεχνικές και διεργασίες που υπάρχουν στον κλάδο της ιατρικής για την δημιουργία εικόνων του ανθρώπινου σώματος (ή μέρη του) για κλινικούς σκοπούς( διάγνωση ή εξέταση μιας ασθένειας).

Παραδείγματα τέτοιων εικόνων υπάρχουν πόλκα (μαγνητικός τομογράφος,

(6)

1.1.2 Computer Vision

Ειδικότερα, με τον όρο computer vision μιλάμε για την επιστήμη και την τεχνολογία μηχανών που βλέπουν. Ως επιστημονικό κλάδο, ορίζεται η θεωρία κατασκευής τεχνητών συστημάτων που λαμβάνουν πληροφορίες από τις εικόνες. Τα δεδομένα μιας εικόνας μπορούν να έχουν πολλές μορφές όπως είναι μια ακολουθία ενός βίντεο, η λήψη από πολλαπλές κάμαρες ή πολυδιάστατα ιατρικά δεδομένα από έναν ιατρικό ανιχνευτή - σαρρωτή.

Ως τεχνολογικός κλάδος, η «οπτική των υπολογιστών» αναζητά τρόπους να εφαρμοστούν οι θεωρίες και τα μοντέλα της στην κατασκευή συστημάτων με τέτοιου είδους ικανότητα.

Τέτοια παραδείγματα είναι και τα εξής :

• Ο έλεγχος διαδικασιών (Πχ. ένα βιομηχανικό ρομπότ ή ένα αυτόνομο όχημα)

• Ανίχνευση γεγονότων (Πχ. για την οπτική παρακολούθηση ή την καταμέτρηση ατόμων)

• Οργανωτικές πληροφορίες (Πχ. για την δημιουργία ευρετηρίου βάσεων δεδομένων εικόνων και αλληλουχιών εικόνων)

• Μοντελοποίηση δεδομένων ή περιβαλλόντων (Πχ. βιομηχανική επιθεώρηση, ανάλυση ιατρικών εικόνων ή τοπογραφική μοντελοποίηση)

• Αλληλεπίδραση (Πχ. ως τα δεδομένα εισόδου μιας συσκευής για την αλληλεπίδραση ανθρώπου-μηχανής)

Αλλά πεδία είναι η ανασυγκρότηση σκηνών (scene reconstruction), ανίχνευση γεγονότων, εντοπισμού (tracking), αναγνώριση αντικειμένων, εκμάθηση, δημιουργία ευρετηρίων (indexing), εκτίμηση κίνησης και αποκατάσταση εικόνας.

1.1.3 Κίνητρα

Ο σκοπός της ανίχνευση απότομων αλλαγών στην φωτεινότητα μιας εικόνας είναι για να συλλάβουμε τα σημαντικά γεγονότα και αλλαγές που υφίστανται στον κόσμο γύρω μας.

Μπορεί να αποδειχθεί ότι σύμφωνα με γενικές υποθέσεις για το μοντέλο σχηματοποίησης μιας εικόνας, ασυνέχειες στην φωτεινότητα μιας εικόνας ενδέχεται να αντιστοιχούν σε :

• Ασυνέχειες στο βάθος

• Ασυνέχειες στον προσανατολισμό της επιφάνειας

• Μεταβολές στις ιδιότητες των υλικών και

• Διακυμάνσεις στο σκηνικό φωτισμό

Στην ιδανική περίπτωση, το αποτέλεσμα της εφαρμογής ενός ανιχνευτή Άκμων σε μια εικόνα μπορεί να οδηγήσει σε ένα σύνολο συνδεόμενων καμπυλών που δείχνουν τα όρια των αντικειμένων, τα όρια των επιφανειακών σημάνσεων καθώς και καμπύλες που

(7)

θεωρούνται μικρής σημασίας, διατηρώντας παράλληλα τις σημαντικές διαρθρωτικές ιδιότητες μιας εικόνας. Εάν το βήμα ανίχνευσης είναι επιτυχές, το μετέπειτα έργο της ερμηνείας των πληροφοριών της αρχικής εικόνας μπορεί να απλουστευθεί σημαντικά.

Δυστυχώς όμως δεν είναι πάντα δυνατό να ληφθούν τέτοιου είδους ακμές από πραγματικές εικόνες ακόμα και μέτριας πολυπλοκότητας. Οι ακμές που προέρχονται από μη τετριμμένες εικόνες έχουν συχνά ένα μεγάλο εμπόδιο, τον κατακερματισμό. Οι καμπύλες των ακμών δηλαδή δεν είναι συνδεδεμένες, τμήματα ακμών τα οποία λείπουν καθώς και ψεύτικες ακμές οι οποίες δεν αντιστοιχούν σε ενδιαφέροντα φαινόμενα της εικόνας. Κατά αυτόν τον τρόπο το μετέπειτα έργο της ερμηνείας της εικόνας δυσχεραίνεται.

(8)

ΒΕΛΤΙΩΣΗ ΕΙΚΟΝΑΣ (ΦΙΛΤΡΑΡΙΣΜΑ) 2ο ΚΕΦΑΛΑΙΟ

Η βελτίωση εικόνας είναι συνήθως διαδικασία φιλτραρίσματος δηλ. συνέλιξης με συγκεκριμένη δισδιάτατη μάσκα και στοχεύει στην ανάδειξη χαρακτηριστικών ή ελάττωση θορύβου κλπ. ανεπιθύμητων χαρακτηριστικών.

Στη διαδικασία βελτίωσης εικόνας το αποτέλεσμα είναι επίσης εικόνα και όχι κάποιο χαρακτηριστικό.

Στο φιλτράρισμα εικόνας σπανιότατα χρησιμοποιούμε IIR φίλτρα ενώ αντίθετα FIR φίλτρα είναι η συνήθως χρησιμοποιούμενη διαδικασία.

Επομένως το φιλτράρισμα εικόνας είναι ουσιαστικά η πράξη συνέλιξης μεταξύ της αρχικής εικόνας και ενός συνόλου συντελεστών για το οποίο χρησιμοποιούνται οι όροι : παράθυρο, μάσκα (window, mask, template, kernel). Συνήθως τα παράθυρα

είναι τετραγωνικά και οι συντελεστές συμμετρικοί.

Δύο τέτοια παράθυρα είναι τα Α, Β που δεικνύονται παρακάτω.

Αν θεωρήσουμε μία εικόνα x(ni,n2) διαστάσεως Ν χΝ pixels και ένα παράθυρο h(ni,n2) τότε η συνέλιξη ) y(n^n2) = χ (m ,n2) * h (m ,n2) ορίζεται ως εξής:

N

-1

N

-1

y(nx,n2)

=

x ( k ,

k 2 ) *

h(n

- k i ,

n2 - k2) k1 k2

Η πράξη αυτή επειδή το h(n1sn2) είναι πεπερασμένου μήκους (3x3, 5χ5 κλπ) ουσιαστικά εκφράζει το άθροισμα των γινομένων που προέρχεται από την τιμή των pixels της εικόνας με τους αντίστοιχους συντελεστές του παραθύρου.

Το παράθυρο διατρέχει την εικόνα και κάθε φορά υπολογίζεται η παραπάνω τιμή για διαφορετικό σημείο της εικόνας. Δηλαδή:

• Η συνέλιξη είναι απλά ένα σταθμικό άθροισμα (weighted sum) των στοιχείων της εικόνας (pixel) σε μία περιοχή γύρω από το στοιχείο αναφοράς.

(9)

Στο επόμενο σχήμα 2.1 δεικνύεται ένα παράδειγμα συνέλιξης όπου h(n1,n2) είναι οι τιμές p1,p2 κλπ. και τα αντίστοιχα σημεία της εικόνας h(n1,n2) είναι A,B,C κλπ.

Σχήμα 2. 1 Το αποτέλεσμα της συνέλιξης για την τιμή της εικόνας στη θέση nt,n2 που έχει τιμή Ε.

y(n1,n2)=Ap1+Bp2+Cp3,+Dp4,+Ep5+Fp6+Gp7+Hp8+Ip9

Αξίζει να αναφέρουμε ότι πολλές μάσκες είναι διαχωρίσιμες. Δηλαδή η συνέλιξη με μία δυσδιάστατη μάσκα μπορεί να εκτελεστεί με δύο μάσκες 1ας διάστασης. Τέτοια μάσκα είναι η εξής:

" 1 2 1 ' ' 1 "

0 0 0 η οποία διαχωρίζεται στις εξής 0

- 1 - 2 - 1 - 1

και [1 2 1]

Τέλος πρέπει να αναφέρουμε ότι τα παραπάνω αναφέρονται σε εικόνες γκρίζες (gray scale).

• Μετασχηματισμός Fourier

Ο μετασχηματισμός Fourier F ^ ,v) μίας εικόνας f(k,l) ορίζεται ως εξής:

n m

F (u, v) = £ £ f (k , l )e -J^e ^

k

=

1 l

=

1 (3.3)

Οι τιμές υ,ν κοντά. στο 0,0 αντιστοιχούν σε χαμηλές συχνότητες. Η F ^ , ) είναι συνεχής

(10)

καλύτερα τον ταχύ μετασχηματισμό Fourier (FFT) για να εκτελέσουμε την πράξη της συνέλιξης στο πεδίο των συχνοτήτων.

2.1 Βαθυπερατά Φίλτρα

Τα βαθυπερατά φίλτρα, φιλτράρουν τις υψηλές συχνότητες που βασικά είναι ανεπιθύμητα σήματα - θόρυβος. Εκτός όμως από τον θόρυβο "λειαίνουν " απότομες μεταβολές στην ένταση. Η διαδικασία αυτή συνεπάγεται την θόλωση της εικόνα (blurring).

Τρεις βασικές κατηγορίες βα0υπερατών φίλτρων διακρίνουμε:

• Φίλτρα μέσης τιμής (mean filter)

• Φίλτρα μορφής Gaussian (Gaussian filter)

• Φίλτρα διάμεσης τιμής (median filter) Τα φίλτρα διάμεσης τιμής δεν είναι γραμμικά.

2.1.1 Φίλτρα μέσης τιμής

Η πιο απλή μορφή αυτών είναι τα ονομαζόμενα φίλτρα μέσης τιμής (mean filters, average filters). Μ ία μάσκα φίλτρου μέσης τιμής 9 σημείων ειναι η εξής :

KU j

)

1 9

1 1 1 1 1 1

1 1 1

1 1 1

9 9 9

1 1 1

9 9 9

1 1 1

9 9 9

O βαθυπερατός χαρακτήρας των φίλτρων αυτών φαίνεται από τον υπολογισμό του μετασχηματισμού Fοιιrier που δεικνύεται στο σχήμα 2.2

(11)

Σχήμα 2. 2 Απόκριση συχνότητας (2 διαστάσεων) για το φίλτρο μέσης τιμής. Στις χαμηλές συχνότητες γύρω από το σημείο (0,0) το πλάτος είναι μεγάλο. Οι συχνότητες -1 και 1 αντιστοιχούν

στο fs/2

• Θόλωση (Blurring)

Ας δούμε στο επόμενο σχήμα 2.3 το αποτέλεσμα της συνέλιξης με το παράθυρο (2.3).

Σαν βασικό οπτικό αποτέλεσμα όλων των βα0υπερατών φίλτρων είναι η θόλωση της αρχικής εικόνας λόγω λείανσης των μεταβολών εντάσεως.

Αρχική εικόνα Εφαρμογή φίλτρου 3χ3 Εφαρμογή φίλτρου 7χ7

Σχήμα 2.3 Η αρχική εικόνα και η φιλτραρισμένη έξοδος μάσκα μέσης τιμής 3χ3 και 7χ7. Είναι εμφανής η θόλωση καθώς και η επίδραση του μήκους της μάσκας.

• Ελάττωση Θορύβου

Το φίλτρο μέσης τιμής εξασθενεί τον θόρυβο δηλαδή ελαττώνει την σταθερή απόκλιση του αρχικού θορύβου. Η ελάττωση αυτή είναι αντίστροφη του μήκους του παραθύρου (μάσκας).

(12)

Αρχική εικόνα Εικόνα με θόουβο Μάσκα 3x3 μέσης τιμή

Σχήμα 2.4 Εξασθένιση του θορύβου με 3χ3 κάσκα μέσης τιμής.

Άλλα βαθυπερατά φίλτρα παρόμοια με αυτά της μέσης τιμής μπορούν να σχεδιασθούν λαμβάνοντας υπόψη ότι το κεντρικό σημείο πρέπει να έχει το μεγαλύτερο βάρος, να είναι συμμετρικά και θετικά και να έχουν άθροισμα συντελεστών =1.

" 1 1 1

16 8 16

1 1 1

Έ να τέτοιο παράθυρο είναι και το επόμενο :

8 4 8

1 1 1

16 8 16

2.1.2 Φίλτρα Gaussian μορφής

Σγεδιασμός

Τα Gaussian φίλτρα είναι γραμμικά φίλτρα με συντελεστές που επιλέγονται από το σχήμα της Gaussian συνάρτησης μηδενικής μέσης τιμής και σ τυπικής απόκλισης που (σε μία διάσταση) έχει την μορφή :

g ( x )

1 ν 2 π σ

x

2 σ 2

(3.4)

Για την επεξεργασία εικόνας και για εύρεση των συντελεστών του παραθύρου χρησιμοποιούμε την αντίστοιχη (διακριτή) σχέση:

(13)

g j ) = e

• 2 .2 i + J 2 2 σ2

(3.5)

όπου i,j είναι οι συντεταγμένες των σημείων του παραθύρου.

Εάν θεωρήσουμε σ = 2 και i,j μεταξύ -1 και 1 λαμβάνουμε την εξής Gaussian μάσκα:

1 5.01

0.1353 0.3679 0.1353 0.3679 1.0000 0.3679 0.1353 0.3679 0.1353

(3.6)

Έ νας απλός προσεγγιστικός τρόπος για να σχεδιάσουμε μία Gaussian μάσκα με ακέραιούς συντελεστές είναι η χρήση του τρίγωνου του Πασκάλ, ή ισοδύναμα οι συντελεστές του ιδιωνύμου:

(1 + χ ) '

ί , Λ ί η \η 0 ,

+ 1 ,

X + ν 2 ,

x 2 + ...+

η X

νη, (3.7)

πχ για n=4 έχουμε το εξής μονοδιάστατο, Gaussian παράθυρο: [1 4 6 4 1]

Πως θα χρησιμοποιηθεί αυτό για Gaussian φιλτράρισμα; Αρκεί να σκεφθούμε ότι οι δυσδιάστατες Gaussian μάσκες είναι διαχωρίσιμες. Δηλαδή η συνέλιξη με ορθογώνια Gaussian μάσκα αντιστοιχεί με συνέλιξη με μονοδύαστατη οριζόντια και στη συνέχεια με την αντίστοιχη κατακόρυφη.

Ιδιότητε£

Η Gaussian μάσκα είναι ιδιαίτερα χρήσιμη στην επεξεργασία σημάτων και εικόνας διότι έχει πολύ ελκυστικές ιδιότητες. Οι βασικότερες από αυτές είναι οι εξής:

• Είναι ανεξάρτητη της διεύ0υνσης

(14)

g 0 , J ) = e

2 ·2

J + J

2 σ2

= e

P 2 σ "

g ( P , 0 ) = g ( P )

, 2 .2 .2 οπου ρ = ι + j

• Έ χει ένα λοβό. Δηλαδή οι συντελεστές ελαττώνονται μονότονα με την απόσταση και είναι πάντα θετικοί. Αυτό έχει μεγάλη σημασία στη διαδικασία φιλτραρίσματος, διότι η έμφαση δίνεται στο κεντρικό pixel και επηρεάζει πολύ λίγο τις (γειτονικές) ακμές.

• μετασχηματισμός Fourier της Gaussian συνάρτησης είναι επίσης Gaussίan.

r o r o X '

,2

J{g( x)} = Jg( x)e

~ ]

mdx = J e σ e

~ ] m

dx =.... = Jxae

2V

(3.9)

- r o - r o

ω2

Η σχέση (3.9) εκφράζει και την σχέση μεταξύ των δύο πεδίων: χώρου και συχνότητας.

• Η Gaussian συνάρτηση είναι διαχωρίσιμη. Δηλαδή η συνέλιξη μίας εικόνας με τετραγωνική Gaussian μάσκα ισοδυναμεί με δύο διαδοχικές συνελίξεις 1ας διάστασης (οριζόντια και κάθετη).

• Διαδοχική εφαρμογή της Gaussian μάσκας ισοδυναμεί με Gaussian μάσκα μεγαλύτερης διακύμανσης (τεχνικές scale-space)

Σε μία διάσταση έχουμε:

J{g (x )} =

ξ2

ro

e σ

(x-ξ)2 2σ2 d ξ

-ro

(~+ξ)2 (--ξ)2

2 2

2σ2 2 σ'

ξ=ξή ro (2ξ2+ - )2 2

e

2σ2

dξ = ^Iπ^ nσe

2(4ϊσ)1

(3.10)

X2

ro

e

-ro -ro

(15)

2.1.3 Φίλτρα διάμεσης τιμής

• Τα φίλτρα αυτά είναι μη γραμμικά .

Μερικά από τα βασικά χαρακτηριστικά τους είναι η διατήρηση των ακμών (στη πράξη γίνεται μικρή λείανση ) και η πλήρης εξάλειψη του κρουστικού θορύβου (Impulsive, salt and pepper noise). Επομένως έχουν συμπεριφορά βαθυπερατού φίλτρου όσον αφορά την εξάλειψη του θορύβου και ταυτόχρονα συμπεριφορά υψιπερατού φίλτρου αφού διατηρούν τα χαρακτηριστικά των μεταβολών εντάσεως όπως είναι οι ακμές - περιγράμματα (edges).

Συνήθως εφαρμόζονται σε μια εικόνα επαναληπτικά. Διαδοχική εφαρμογή καταλήγει σε μία εικόνα που δεν επιδέχεται επιπλέον μεταβολές. Αυτή είναι σήμα - ρίζα για το συγκεκριμένο φίλτρο διάμεσο τιμής.

• Η υλοποίηση τους γίνεται με καθορισμό ενός παραθύρου - μάσκας. Έ χει μόνο μήκος και όχι συντελεστές. Το παράθυρο αυτό διατρέχει. όλη την εικόνα όπως και στα γραμμικά φίλτρα (μέσης τιμής κλπ) και

• τα pixels που περικλείονται από το παράθυρο σε κάθε θέση της εικόνας

• διατάσσονται κατά σειρά μεγέθους

• και επιλέγεται ως έξοδος η μεσαία (median) τιμή.

Στο επόμενο σχήμα 2.5 δεικνύετε ο τρόπος εξαγωγής της μεσαίας τιμής για ένα παράθυρο 3χ3. Στο επόμενο σχήμα 2.6 δίνεται ένα παράδειγμα εφαρμογής του φίλτρου σε εικόνα.

Διάταξη σύμφωνα με την τιμή του pixel

10 12 15 17

20 διάμεση τιμη

25 30 50 60

Σχήμα 2. 5 Η έξοδος του φίλτρου διάμεσης τιμής είναι=20. Και προκύπτει ως η 5η τιμή στη αύξουσα διάταξη των τιμών των pixel του παραθύρου. Εάν εφαρμόζαμε φίλτρο μέσης τιμής (3.3) η έξοδος θα ήταν 1/9(10+12+15+17+20+25+30+50+60)=26.55

10 15 20

50 30 12

60 17 25

(16)

Αρχική Εικόνα Εικόνα με κρουστικό Έξοδος median Filter Θόρυβο 10%

Σχήμα 2. 6 Έξοδος median φίλτρου. Ο κρουστικός θόρυβος είναι 10% και εξαλείφεται εντελώς.

2.2 Ηψιπερατά φίλτρα

Τα υψιπερατά φίλτρα εξασθενούν τις χαμηλές και τονίζουν τις υπάρχουσες υψηλές συχνότητες σε μία εικόνα. Δηλαδή έχουν αντίθετο αποτέλεσμα από τα βαθυπερατά φίλτρα (μέσης τιμής, Gaussian κλπ). Επομένως τονίζουν τις μεταβολές της εικόνας (contrast), δίνουν έμφαση στις λεπτομέρειες και ταυτόχρονα ενισχύουν τον θόρυβο. Τα αντίστοιχα παράθυρα έχουν μία θετική τιμή στο κέντρο και στην πλειοψηφία αρνητικούς τους υπόλοιπους συντελεστές.

Μερικές χαρακτηριστικές μάσκες για παράθυρα 3χ3 είναι οι εξής:

' 0 - 1 0 ' - 1 - 1 - 1 ' 1 - 2 1 "

- 1 5 - 1 (α) - 1 9 - 1 ( β ) - 2 5 - 2

0 - 1 0 - 1 - 1 - 1 1 - 2 1

' 1 1 1"

9 9 9

1 8 1

9 9 9

1 1 1

_ 9 9 9 _

Σχήμα 2. 7 Μερικές υψιπερατές μάσκες

Η τελευταία (δ) από τις παραπάνω μάσκες είναι η πλέον συνηθισμένη και έχει το επί πλέον χαρακτηριστικό ότι δεν ενισχύει (ούτε εξασθενεί) σταθερές περιοχές αφού το άθροισμα των συντελεστών είναι = 0.

Αξίζει να επισημάνουμε ότι σε μερικές περιπτώσεις εφαρμογής υψιπερατού φίλτρου μπορεί να προκύψoυν και αρνητικές τιμές, οπότε χρειάζεται σχετική διόρθωση.

2.3 Uksharp masking

(17)

φωτογράφους στα φιλμς.

Αναλυτικότερα από ένα κλάσμα α της αρχικής εικόνας f(ki,k2) αφαιρείται το αποτέλεσμα εξόδου βαθυπερατού φίλτρου f L(k1,k2). Και η έξοδος g(k^k2) είναι:

g((ki,k2)=a f(ki,k2) - fL(ki,k2)

(3.11)

Αν θεωρήσουμε ότι η αρχική εικόνα f (k^k2) αναλύεται σε ένα τμήμα

Υψιπερατό fΗ(k1,k2) και ένα άλλο βαθυπερατό fL,(k,k2) τότε η εικόνα g(k^k2) :

• εάν α=1 είναι ένα ηψιπερατό φίλτρο, ενώ

• εάν είναι_ α>Ι τότε ένα βαθυπερατο τμήμα της εικόνας προστίθεται στο αποτέλεσμα και αναδεικνύει χαμηλές συχνότητες μαζί με τις υψηλές που προέρχονται από το υψιπερατό φίλτρο f ^ k ^ k ^

Οι δύο διαδικασίες που περιλαμβάνονται στην (3.11) υλοποιούνται από την ακόλουθη μάσκα

1 1 1

9 9 9

1 w 1

όπου w = 9α - 1

9 9 9

1 1 1

9 9 9 _

2.4 Επεξεργασία έγχρωμης εικόνας

Οι επεξεργασία έγχρωμης εικόνας γίνεται είτε με βαθμωτές είτε με διανυσματικές διαδικασίες. •

• Στις βαθμωτές διαδικασίες επεξεργασίας εφαρμόζονται οι μέθοδοι που περιγράφηκαν προηγούμενα για γκρίζες (gray scale) εικόνες με δύο τρόπους:

α) ξεχωριστά σε κάθε κανάλι της εικόνας

β) στη συνιστώσα φωτεινότητας (Υ) αφού διαχωριστεί η εικόνα σε συνιστώσες φωτεινότητας (Υ) - χρωματικότητας (I,Q). Ο πλέον γνωστός μετασχηματισμός είναι ο RGB- -> YIQ. Μ πορεί επίσης να χρησιμοποιηθεί και ο μετασχηματισμός RGB--> HIS.

Το μειονέκτημα της (α) διαδικασίας είναι η παραγωγή τυχαίων χρωμάτων που δεν υπάρχουν στην αρχική εικόνα που είναι όμως αρκετά κοντά (στον R G 8 χώρο) σε χρώματα που υπάρχουν στην εικόνα.

(18)

• Στις διανυσματικές διαδικασίες οι τρεις τιμές R,G,B θεωρούνται συνιστώσες ενός διανύσματος και οι μέθοδοι που χρησιμοποιούνται είναι βέβαια μέθοδοι διανυσματικής ανάλυσης. Μ ία κλασική τέτοια μέθοδος είναι η διαδικασία του διανυσματικού διάμεσου.

2.5 Ομομορφική επεξεργασία (Homomorphic Processing)

Η διαδικασία αυτή που περιγράφεται στο επόμενο σχήμα 3.12 χρησιμοποιείται στην περίπτωση που μία εικονα με μεγάλη δυναμική περιοχή αποτυπώνεται σε ένα μέσο (film, χαρτί) με μικρή δυναμική περιοχή. Αποτέλεσμα είναι η ελάττωση της αντίθεσης, ιδιαίτερα στις σκοτεινές ή στις πολύ φωτεινές περιοχές. Η διαδικασία που περιγράφεται.

στη συνέχεια ουσιαστικά ελαττώνει την αρχική δυναμική περιοχή και αυξάνει την τοπική αντίθεση πριν αρχίσει η επεξεργασία ή η αποτύπωση.

Σύμφωνα με ένα απλοποιημένο μοντέλο μία εικόνα f(ni,n2) σχηματίζεται σε δύο στάδια:

παραγωγή υπό την φωτεινή πηγή και ανάκλαση από το αντικείμενο.

Επομένως μπορεί να θεωρήσουμε ότι η εικόνα f(n^n2) έχει δύο συνιστώσες που αντιστοιχούν στην φωτεινή πηγή i(n^n2) και στην ανάκλαση -r(n1,n2) :

f(ni,n2) = i(ni,n2) r(n i,n 2)

Από τις δύο αυτές συνιστώσες θεωρούμε ότι η μεγάλη δυναμική περιοχή οφείλεται βασικά στο i(n1?n2) και έχει μικρές εναλλαγές - αντίθεση. Αντίθετα ο όρος r(n 1?n2) δημιουργεί τις λεπτομέρειες της εικόνας. Επομένως επιδιώκουμε μείωση του i(n1?n2) και αύξηση του r(n^n2).

Σαν πρώτο βήμα γίνεται διαχωρισμός των δύο συνιστωσών με λογαρίθμηση. Στη συνέχεια φιλτράρεται η έξοδος με βαθυπερατό και υψιπερατό φίλτρο. Επειδή η συνιστώσα i(n^n2) έχει φασματικό περιεχόμενο στις χαμηλές συχνότητες θεωρούμε ότι θα αποτελεί το κύριο τμήμα της εξόδου του βαθυπερατού φίλτρου. Αντίστοιχα η r(n^n2) θα είναι η έξοδος του υψιπερατού φίλτρου.

Μετά τον διαχωρισμό αυτό μπορούμε να ενισχύσουμε την μία συνιστώσα πολλαπλασιάζοντας με συντελεστή β>1Ι.

(19)

Η τελική έξοδος γίνεται με άθροιση των δύο συνιστωσών και αντιστροφή της λογαριθμικής συνάρτησης (εκθετική συνάρτηση). Το τελικό αποτέλεσμα είναι αύξηση της αντίθεσης στην εικόνα.

Σχήμα 2.8 Η αρχική εικόνα ί(πι,π2) λογαριθμειται και με τα δύο φίλτρα ξεχωρίζονται οι δυο συνιστώσες. Στο τέλος γίνεται η αντίστροφη πράξη με την εκθετική συνάρτηση.

(20)

3ο ΚΕΦΑΛΑΙΟ

ΑΝΙΧΝΕΥΣΗ ΑΚΜΩΝ (EDGE DETECTION)

Ακμή ή περίγραμμα (edge) σε μια εικόνα Χ , ορίζεται ω ς το σύνολο των σημείων στη θέση i , j της εικόνας , όπου παρατηρείται μία σημαντική αλλαγή της έντασης ή του χρώματος της εικόνας. Τ ο μέγεθος της μεταβολής αυτής αποτελεί το ύψος της ακμής. Ανιχνευτής ακμής (Edge d e tec to r) είναι ο αλγόριθμος π ο υ βρίσκει σε μία εικόνα το σύνολο τ ω ν σημείων Xij.

Το αποτέλεσμα της ανίχνεύσης ακμών είναι η δημιουργία ενός χάρτη (edge map) που συνήθως παρουσιάζεται σαν μια καινούργια εικόνα με ένταση (συνήθως) ανάλογη τ ο υ ύψους της ακμής. Στο χάρτη ακμών υπάρχουν πραγματικές και λανθασμένες ακμές.

Οι βασικές μέθοδοι εύρεση τ ω ν ακμών - περιγραμμάτων είναι ο ι εξής

• Με την πρώτη παράγω γο ( Β α θμ ω σ η - G radient)

• Με την Laplaci an

• Με την L aplacian o f G aussian - LoG

• Μ ε άλλες μεθόδους (εντροπία κλπ)

Ιδανικές κ α ι πραγμ α τικές ακμές

Στο επόμενο σχήμα δεικνύετε το προφίλ τριών χαρακτηριστικών περιπτώσεως ιδανικών ακμών.

Στην πραγματικότητα οι ιδανικές ακμές έχουν πολύ περισσότερες μορφές με βασικό

(21)

Σχήμα 3.1 (α) ιδανική βηματική ακμή (step), ( β ) ράμπα (ramp), (γ) ακμή τύπου οροφής (ro o f)

3.1 Μια πρώτη προσέγγιση της διαδικασίας ανίχνευσης ακμών

Η ανίχνευση ακμής βασίζεται στην εύρεση των σημείων που η παράγωγος της έντασης ως προς την απόσταση είναι μέγιστη. Η διαδικασία αυτή γίνεται σε δύο στάδια: πρώτα υπολογίζεται η παράγωγος και στη συνέχεια ανιχνεύονται τα σημεία μεγάλης τιμής με ένα κατώφλιο.

• Σε μία δεύτερη προσέγγιση ανιχνεύονται ω ς ακμές τα σημεία που η δεύτερη παράγωγος μεταβάλλεται α πό θετικές σε αρνητικές τιμές (ή αντίστροφα) και λαμβάνει μηδενική τιμή.

ί(χ) έχει πρώτη παράγωγο f '(χ) και δεύτερη ί"(χ). Όλα τα σημεία f '(χ) πάνω από το κατώφλιο θεωρούνται σημεία ακμής. Αντίθετα ένα μόνο σημείο υπάρχει όπου ί"(χ).=0

(22)

Έ να τυπικό σύστημα ανίχνευσης ακμής που υλοποιεί την διαδικασία ευρέσεως ακμής με παράγωγο (G radient) και κατωφλιο δεικνύετε στο επόμενο σχήμα

Σχήμα 3. 3 Στον αρχικό υπολογισμό του Gradient υπολογίζεται η απόλυτη τιμή και στη συνέχεια θεωρείται σημείο α κ μή ς εάν η τιμή |V f (x)| είναι μεγαλύτερη από ένα κατώφλιο.

3 .2 Α μέθοδος

1η π α ρ ά γ ω γ ο ς (Βάθμωση - Gradient)

Το gradient (βάθμωση) G υπολογίζεται ως το διάνυσμα με συνιστώσες τις μερικές παραγώγους της εντάσεως f(x,y) ως προς την οριζόντια και κάθετη μετατόπιση.

G { f ( χ, y )} Ο.

G.

dx f

dy

( 4 . 1 )

Το μέτρο του G υπολογίζεται ω ς

ολ = G + οΟΤ

(4.2)

και μία καλή προσέγγιση είναι: Ga = Οχ + Ο, (4.3)

Α ποδεικνύεται εύκολα ότι Gr < Ga< Jg r (4.4)

Η γω νία του G υπολογίζεται ω ς θ = tan ι Gy

G„ (4.5)

(23)

x-1 x x+1

fy = ((38-12)/2+(66-15)/2+(65-42)/2)/3

= (1 3 + 25 + 1 1 ) / 3 = 16

fx = ( ( 6 5 - 3 8 )/2 + (64-14)/2+(42-12)/2 ) / 3

=(13+25+ 1 5) / 3 = 18 θ=1απ-1(16/18)=0.727Γαά

= 42 degrees

| V /| = ( 162 + 182)1'2 = 24

Στο προηγούμενο σχήμα δεικνύετε ο υπολογισμός του Gradient G = V / = ( / / ) για ένα τμήμα της εικόνας που περικλείεται στο παράθυρο 3x3 και που το κεντρικό pixel βρίσκεται ακριβώς επάνω στην ακμή.

Η υλοποίηση των παραγώγων (4.1) γίνεται με διαφόρους τρόπους (αριθμητικές μεθόδους) και κάθε τρόπος υπολογισμού αντιστοιχεί σε μία μάσκα συνέλιξης (παράθυρο ή τελεστής).

Πριν υπεισέλθουμε στους διαφόρους τύπους των μασκών - παραθύρων Θα πρέπει να τονισθεί ότι κάθε μέθοδος ευρέσεως παραγώγου θα πρέπει να ακολουθείται από κατωφλιοποίηση. Και επίσης ότι υψηλή τιμή κατωφλίου δίνει λεπτές γραμμές περιγραμμάτων αλλά παραλείπει και την ανίχνευση μικρών ακμών (χαμηλής αντίθεσης - low contrast). Επίσης θ α πρέπει να υπενθυμίσουμε ότι κάθε μάσκα υπολογίζει την μερική παράγωγο G x ή G y από τις οποίες θα υπολογισθεί η συνολική τιμή |G| με την (4.2) ή συνηθέστερα με την (4.3).

(24)

ΠΙΝΑΚΑΣ 4. 1

Είδος τελεστού -

μ ά σ κ α ς Gx Gy

0 0 -1 -1 0 0

R o b e rts 0 1 0 0 1 0

0 0 0 0 0 0

1 0 -1 -1-1-1

P rew itt 1 0 - 1 0 0 0

1 0 -1 1 1 1

1 0 -1 -1 -2 -1

Sobel 2 0 - 2 0 0 0

1 0 -1 1 2 1

Ρ ^ ί - € ^ π

1 0 -1 4 2 0 4 2

1 0 - 1

-1 - 4 2 -1 0 0 0 1 4 2 1

Για τον τελεστή Sobel η υλοποίηση του G radient G βασίζεται στίς σχέσεις:

G y = [f(x-1,y+l)+2 f(x,y+l)+ f(x+l,y+l)] -[f(x-1,y-1)+2 f(x,y-1)+ f(x+l,y-1)]

(4.6) G x = [f(x+1,y-1)+2 f(x+l,y)+ f(x+1,y+1)] -[f(x-1,y-1)+2 f(x-1,y)+ f(x-1,y+l)]

Με παρόμοιες σχέσεις υλοποιούνται και οι υπόλοιπες μάσκες.

(4.7)

• Στους τελεστές που δεικνύονται στον πίνακα 4 .1 παρατηρούμε ότι το άθροισμα των στοιχείων των μασκών είναι = 0. Αυτό έχει σαν συνέπεια ότι σε σταθερές περιοχές η έξοδος είναι επίσης = 0.

• Η εύρεση του βέλτιστου κατωφλίου δεν είναι εύκολη διαδικασία και μία απλή επιλογή είναι ο μέσος όρος των |G | για όλη την εικόνα •

• Έ να άλλο θέμα που αξίζει να επισημάνουμε είναι ότι ο ι τελεστές του πίνακα.

4 .1 βρίσκουν ακμές σε οριζόντιες και κάθετες διευθύνσεις. Εάν θέλουμε να έχουμε και την κατεύθυνση τότε πρέπει σε κάθε σημείο να χρησιμοποιούμε την (4.5). Μπορούμε ό μ ω ς να δημιουργήσουμε και επιπλέον μάσκες που να υπολογίζουν παραγώγους και επομένως ακμές σε άλλες διευθύνσεις. Έ τσ ι για τον τελεστή Prewitt αντί τ ω ν 2 μ α σ κ ώ ν τού παραπάνω πίνακα 4.1 χρησιμοποιούμε τις 8 μάσκες του πίνακα 4 . 2

(25)

ΠΙΝΑΚΑΣ 4. 2

East N ortheast N o rth N o rth w est West Southwest South Southeast

11-1 1-1-1 -1-1-1 -1-11 -111 111 111 111

1 - 2 - 1 I -2-1 1-21 -1-21 -1-21 -1-21 1-21 1-2-1

11-1 111 111 111 -111 -1-11 -1-1-1 1-1-1

(α)

(δ)

(γ)

Σχήμα 3. 4 Η αρχική εικόνα α) επεξεργασμένη με R ob erts β) P r e w itt γ) Sobel δ)

Έ να βασικό χαρακτηριστικό των τελεστών που αναφέρθηκαν για αναγνώριση ακμών και πού βασίζονται στην 1η παράγωγο, είναι οι μεγάλου εύρους γραμμές που εμφανίζονται σαν έξοδος των ανιχνευτών ακμής.

• Το μ ε γ ά λ ο εύρος οφείλεται στην επιλογή του κατωφλίου και στην

• βραδεία μεταβολή της έντασης σε ορισμένες περιπτώσεις.

Σπανίως ό μ ω ς η πληροφορία του πλάτους των ακμών επιδιώκεται στην επεξεργασία ενώ αντίθετα ο εντοπισμός της ακμής (localization) είναι αυτό που συνήθως επιζητείται.

Ο εντοπισμός μίας ακμής απαιτεί την εύρεση ενός σημείου που θα είναι και το κέντρο της

(26)

3.3 Β μέθοδος - 2η παράγωγος (Laplacian)

Η δεύτερη κατηγορία ευρέσεως ακμών βασίζεται στην εύρεση της 2ης παραγώγου και δεν παρουσιάζει τα προβλήματα του μεγάλου εύρους ακμών που αναφέρθησαν προηγούμενα, αφού η έξοδος των τελεστών αυτών είναι τα σημεία μηδενισμού της 2ης παραγώγου (σχήμα 4.3). Αξίζει να επισημάνουμε ότι τα σημεία μηδενισμού αντιστοιχούν σε σημεία ακμών εφόσον αναφέρονται σε μετάβαση από θετικές σε αρνητικές τιμές και αντίστροφα (zero c ro ssin g points )

Η L a p la c ia n είναι η χαρακτηριστική συνάρτηση που υλοποιείται στη κατηγορία αυτή.

Για μία συνάρτηση f ( x ,y) ορίζεται ω ς εξής:

v 2f ( X, y ) C f c f

cX 2 dy 2

(4.8)

Μία αριθμητική προσέγγιση της παραπάνω σχέσεως γίνεται από την εξής σχέση

v f y ) = f ( χ + 1 y) +f (x- 1 y) +f (x y +1)+f (x y - 1 ) - 4 f (x y ) (4·9) που υλοποιείται από την α κ ό λ ο υ θ η μάσκα

“0 1 0“ “0 0 0“ “0 1 0“

V 2 = 1 - 4 1 = 1 - 2 1 = 0 - 2 0 (4.10)

0 1 0 0 0 0 0 1 0

Ό π ω ς φαίνεται είναι δυνατή η διάσπαση σε δύο μάσκες οριζόντια και κατακόρυφη που είναι βέβαια μονοδιάστατες.

Εκτός α π ό τ η ν (4.10) μία α κ ό μ η μάσκα υλοποίησης τη ς L ap lacian είναι και η εξής

V 2

1 1 1 1 - 8 1 1 1 1

(4.11)

Οι ( 4 . 9 ) - ( 4 . 1 1 ) δεικνύουν ότι

(27)

Σε όλες τις διαδικασίες του τελεστού αυτού χρησ ιμ οποιείτα ι η απόλυτη τιμή και εύρεση τ ω ν α κ μ ώ ν γίνετα ι με την εύρεση τ ω ν μηδενικών τιμώ ν (zero cro ssin g )

Δύο παραδείγματα απόκρισης του τελεστού της Laplacian δίνονται στο παρακάτω σχήμα 4 .6 όπου παρα τίθεντα ι δύο περιοχές εικόνας. Ο ι μηδενισμοί τ ω ν (α) και (β) δίνονται στην (γ) και (δ) αντίστοιχα. Στο (α) η μετάβαση είναι απότομη κα ι τα σ η μ εία μηδενισμού (zero crossmg) δεν αποτυπώνονται στην έξοδο (γ).

0 0 0 6 -6 0 0 0

0 0 0 6 -6 0 0 0

0 0 0 6 -6 0 0 0

0 0 0 6 -6 0 0 0

0 0 0 3 0 -3 0 0

0 0 0 3 0 -3 0 0

0 0 0 3 0 -3 0 0

0 0 0 3 0 -3 0 0

(γ) (δ)

Σχήμα 3.5 Τ ο (γ) είναι η απόκριση τ ο υ (α) σε Laplacian. Ο μηδενισμός δεν εμφανίζεται αλλά φαίνεται καθαρά η θέση του λόγω του θετικού και αρνητικού σημείου. Σ το (δ) που αντιστοιχεί στη

ράμπα ( β ) φαίνεται το σημείο μηδενισμού.

Μερικές ιδιότητες του τελεστού αυτού (της L ap lacian ) είναι οι εξής:

1. Σε σταθερές περιοχές έχει απόκριση μηδενική. Οι τιμές αυτές δεν αποτελούν σημεία α κ μ ώ ν διότι δεν είναι σημεία zero crossing.

2. Τα ανιχνευόμενα περιγρά μματα είναι πάντα κλειστές γραμμές.

3. Ε ίναι ανεξάρτητη της διεύθυνσης.

4. 'Έχει μεγάλη ευαισθησία στο θόρυβο και αναδεικνύει ακμές που δεν αντιστοιχούν σε χαρακτηριστικά της εικόνας.

(28)

Λ ό γ ω της παραπάνω ιδιότητας και για να βελτιώσουμε την συμπεριφορά στο θόρυβο συνήθως η μέθοδος αυτή συνδυάζεται με κατώφλια που υπολογίζουν τον τοπικό θόρυβο. Στο διάγραμμα του σχήματος 4 .7 δεικνύετε μία μέθοδος όπου για την ύπαρξη ακμής δεν αρκούν τα σημεία μηδενισμού (zero crossing) αλλά πρέπει να εξασφαλίζεται ότι η τοπική διακύμανση είναι μεγαλύτερη από ένα κατώφλιο Τ που θεωρείται ότι αντιστοιχεί στο θόρύβο.

Σχήμα 3.6 Χρήση της διακύμανσης σ2 (variance) σε συνδυασμό με τον τελεστή της Laplacian για ανίχνευση ακμής

3 .4 L a p la c ia n o f G a u s s ia n (L o G )

Με την μέθοδο αυτή γίνεται υλοποίηση δύο τελεστών : της Laplacian και της

Gaussίan.Δηλαδή στην αρχική εικόνα εφαρμόζεται Gaussian μάσκα για να φιλτράρει τον θόρυβο και στη συνέχεια εφαρμόζεται Laplacian μάσκα για εύρεση των σημείων

μηδενισμού και επομένως των ακμών. Αν και οι διαδικασίες αυτές μπορούν να γίνουν σε δύο διαδοχικά στάδια επειδή η συνέλιξη είναι γραμμική πράξη γίνονται ταυτόχρονα σε ένα βήμα όπως περιγράφεται στη συνέχεια.

Η σχέση που εκφράζει τις δύο διαδικασίες είναι η εξής:

V 2 G = 1 2πσ'

2

-

χ + y 2 2

σ

2

e

2 2 χ + y

' σ 2

(4.12)

(29)

Δυο μάσκες (3x3) και (5x5) που υλοποιούν την (4.12) είναι οι ακόλουθες :

0 - 1 0 "

- 1 4 - 1

0 - 1 0

0 0 - 1 0 0

0 - 1 - 2 - 1 0

- 1 - 2 16 - 2 - 1

0 - 1 - 2 - 1 0

0 0 - 1 0 0

Γενικά η υλοποίηση του LoG απαιτεί μεγάλες μάσκες ώστε να εμφανισθούν θετικές και αρνητικές τιμές που εκφράζουν την μορφή στην (4.12)

Σχήμα 3. 7 Η συναρτήσεις Gavssian (α) και η -LoG (β) σε τομή. H σχέση μεταξύ w και σ συνήθως λαμβάνεται w = ΐ 4 ϊ σ . Το μήκος του παραθύρου είναι 3w x 3w.

Για παράθυρο 3x3 έχουμε w=1 και σ=1/(2χ/2 ) . Στο (γ) δεικνύετε η μορφή της L o G

(30)

Σχήμα 3. 8 Εφαρμογή LoG με τρεις διαφορετικές τιμές του σ.

Μία καλή προσέγγιση της LoG γίνεται με διαφορά δύο Gaussian που έχουν διαφορετικές τυπικές αποκλίσεις σ (Difference ο ί Gaussian - DoG). Η μέθοδος αυτή μειώνει το υπολογιστικό κόστος της L o G .

D o G ( x, y )

( 4 . 1 4 )

2 2

x + y

e 2 π σ 2

e

x 2 + y 2 σ |

2

2 π σ \

Η ακόλουθη μάσκα 7 x 7 υλοποιεί τον τελεστή DoG για λόγο σ2/σι=1.6

0 0 - 1 - 1 - 1 0 0

0 - 2 - 3 - 3 - 3 - 2 0

- 1 - 3 5 5 5 - 3 - 1

- 1 - 3 5 16 5 - 3 - 1

- 1 - 3 5 5 5 - 3 - 1

0 0 - 1 - 1 - 1 0 0

0 0 - 1 - 1 - 1 0 0

(31)

Η ανίχνευση με την μέθοδο C anny είναι μία ολοκληρωμένη μ έ θ ο δ ο ς π ο υ βασίζεται στην 1η παράγωγο αλλά περιλαμβάνει και άλλα βήματα με κυριότερα, το διπλό κατώφλιο κ α ι την διαγραφή των σημείων από τον χάρτη ακμών που δεν αντιστοιχούν στο μέγιστο της βάθμωσης (nοnmaxima supression).

Ο αλγόριθμος υλοποίησης περιλαμβάνει τα παρακάτω βήματα:

1. Η αρχική εικόνα I(i,j) λ εια ίνετα ι με Gaussian φίλτρο S(i,j) = G (i,j,a) * I(i,j)

2. Γίνεται ο υπολογισμός του G rad ien t σε πολική μορφή

P(t, j) * V

x

S(i, j ) ] \ m (i, j ) = J p r + Q I Q<JJ) * V

>

S(h j ) J ^ \ p ( i j ) = tan-'(P, Q)

3. Διαγραφή τ ω ν σημείων M(ij) που δεν είναι μέγιστα (nonmaxima supresston)

N(i,j)=nm s[M (i,j), θ (i,j)]

4. Εφαρμογή διπλού κατωφλίου για ανίχνευση και σύνδεση ακμών. Συνήθως το ένα κατώφλιο είναι διπλάσιο του άλλου. Στη διαδικασία αυτή ε ι σο δ ο ς είναι η εικόνα N(i,j). Με βάση το μεγάλο κατώφλιο ελέγχονται οι ακμές συλλέγοντας σημεία από το χάρτη ακμών του μικρού κατωφλίου.

Στο επόμενο σχήμα δεικνύεται τ ο αποτέλεσμα ανιχνευτού Canny σε σύγκριση με L G .

(32)

Α ρχικη Εικονα

LoG C anny

3 .6 Ανίχνευση ακμών σε έγχρωμη εικόνα

Η ανίχνευση ακμών σε έγχρωμη εικόνα μπορεί να γίνει με διαφόρους τρόπους.

• Χρησιμοποιώντας το κανάλι της εντάσεως αφού γίνει μετασχηματισμός R G B - ->YIQ ή μετασχηματισμός RGB-->HSI ή άλλος μετασχηματισμός πού εμφανίζεται η συνιστώσα της φωτεινότητας αποσυσχετισμένη απο την χρωματικότητα

• Χρησιμοποιώντας τα τρία κανάλια R , G , B χωριστά. Ο χάρτης ακμών G ( x , y ) θα προέλθει από τους τρεις επιμέρους χάρτες GR , Gg , GB ω ς εξής:

G( X, y) = V

g

R +

g

G + G

(4.16α)

ή

G(x,y)=max(GR, Gg , Gb) (4.16β)

• Να γίνει με διανυσματικές διαδικασίες θεωρώντας τα pixel της εικόνας ω ς διανύσματα στον τρισδιάστατο R G B χώρο.

Referências

Documentos relacionados

Σύμφωνα με τον Koffka η υλική διάσταση του χώρου συνυπάρχει με τα δεδομένα της συμπεριφοράς του ατόμου: Οι δυο «χώροι» συνδέονται με σχέσεις αλληλεξάρτησης: Το άτομο: • Σε πρώτη φάση