You are on page 1of 217

£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.

216) 12/6/2003 09:42 ™ÂÏ›‰· 1

Aνάλυση Eικόνας και Aναγνώριση Προτύπων

Σηµείωση
Το ΕΑΠ είναι υπεύθυνο για την επιµέλεια έκδοσης και την ανάπτυξη των κειµένων σύµφωνα µε τη Μεθο-
δολογία της εξ Αποστάσεως Εκπαίδευσης. Για την επιστηµονική αρτιότητα και πληρότητα των συγγραµ-
µάτων την αποκλειστική ευθύνη φέρουν οι συγγραφείς, κριτικοί αναγνώστες και ακαδηµαϊκοί υπεύθυνοι
που ανέλαβαν το έργο αυτό.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 2
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 3

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ


Σχολή Θετικών Επιστηµών και Τεχνολογίας

Πρόγραµµα Σπουδών
ΠΛΗΡΟΦΟΡΙΚΗ

Θεµατική Eνότητα
ΣHMATA KAI EΠEΞEPΓAΣIA EIKONAΣ

Tόµος Γ'

Aνάλυση Eικόνας
και Aναγνώριση Προτύπων
EΜΜΑΝΟΥΗΛ ΣΑΓΚΡΙΩΤΗΣ ΣΕΡΓΙΟΣ ΘΕΟ∆ΩΡΙ∆ΗΣ
Eπίκ. Kαθηγητής Tµ. Πληροφορικής Kαθηγητής Tµ. Πληροφορικής
Πανεπιστηµίου Aθηνών Πανεπιστηµίου Aθηνών

ΠATPA 2003
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 4

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ


Σχολή Θετικών Επιστηµών και Τεχνολογίας

Πρόγραµµα Σπουδών
ΠΛHPOΦOPIKH

Θεµατική Ενότητα
ΣHMATA KAI EΠEΞEPΓAΣIA EIKONAΣ

Τόµος Γ'
Aνάλυση Eικόνας και Aναγνώριση Προτύπων

Συγγραφή

EΜΜΑΝΟΥΗΛ ΣΑΓΚΡΙΩΤΗΣ ΣΕΡΓΙΟΣ ΘΕΟ∆ΩΡΙ∆ΗΣ


Eπίκ. Kαθηγητής Tµ. Πληροφορικής Kαθηγητής Tµ. Πληροφορικής
Πανεπιστηµίου Aθηνών Πανεπιστηµίου Aθηνών

Κριτική Ανάγνωση
BAΣIΛEIOΣ MEPTZIOΣ
Kαθηγητής Tµήµατος Hλεκτρολόγων Mηχανικών και Mηχανικών Yπολογιστών ∆ΠΘ

Ακαδηµαϊκός Υπεύθυνος για την επιστηµονική επιµέλεια του τόµου


ΣΕΡΓΙΟΣ ΘΕΟ∆ΩΡΙ∆ΗΣ
Kαθηγητής Tµήµατος Πληροφορικής Πανεπιστηµίου Aθηνών

Επιµέλεια στη µέθοδο της εκπαίδευσης από απόσταση


ΠETPOΣ ΓANOΣ

Γλωσσική Επιµέλεια
EΛENH KOYTΣOΣΠYPOY

Τεχνική Επιµέλεια, Καλλιτεχνική Επιµέλεια, Σελιδοποίηση


TYPORAMA

Συντονισµός ανάπτυξης εκπαιδευτικού υλικού και γενική επιµέλεια των εκδόσεων


ΟΜΑ∆Α ΕΚΤΕΛΕΣΗΣ ΕΡΓΟΥ ΕΑΠ / 1997–2003

ISBN: 960–538–225–3
Kωδικός Έκδοσης: ΠΛH 44/3

Copyright 2003 για την Ελλάδα και όλο τον κόσµο


ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ
Οδός Παπαφλέσσα & Υψηλάντη, 26222 Πάτρα – Τηλ: 2610 314094, 314206 Φαξ: 2610 317244

Σύµφωνα µε το Ν. 2121/1993, απαγορεύεται η συνολική ή αποσπασµατική αναδηµοσίευση του βιβλίου αυτού


ή η αναπαραγωγή του µε οποιοδήποτε µέσο χωρίς την άδεια του εκδότη.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 5

¶ÂÚȯfiÌÂÓ·

K∂º∞§∞π√ 1
∏ ·Ó·ÁÓÒÚÈÛË ÚÔÙ‡ˆÓ Î·È Ë ·Ó¿Ï˘ÛË ÂÈÎfiÓ·˜

Σκοπός, Προσδοκώµενα αποτελέσµατα, Έννοιες κλειδιά,


Eισαγωγικές παρατηρήσεις .................................................................................................................................... 15
1.1 Η εικόνα, ο άνθρωπος και ο υπολογιστής ............................................................................... 17
1.1.1 Η αυτόµατη ανάλυση της εικόνας από τον υπολογιστή ............................... 17
1.1.2 Σε τι υπερέχει και σε τι υστερεί ο υπολογιστής ................................................... 17
1.1.3 ∆ιαχείριση της εικόνας από το υπολογιστικό σύστηµα ................................ 18
1.2 Τα συστήµατα οπτικής αναγνώρισης .......................................................................................... 19
1.2.1 Εφαρµογές των συστηµάτων οπτικής αναγνώρισης ....................................... 20
1.3 Μέθοδοι και τεχνικές της ανάλυσης εικόνας
και της αναγνώρισης προτύπων ....................................................................................................... 22
1.3.1 Aνάλυση εικόνας ............................................................................................................................ 22
1.3.2 Aναγνώριση προτύπων και τεχνικές ταξινόµησης ............................................ 23
Σύνοψη ................................................................................................................................................................................... 26
Bιβλιογραφία κεφαλαίου ......................................................................................................................................... 27

K∂º∞§∞π√ 2
H „ËÊȷ΋ ÂÈÎfiÓ· Î·È Ë ‰È·¯Â›ÚËÛ‹ Ù˘ ·fi ÙÔÓ ˘ÔÏÔÁÈÛÙ‹

Σκοπός, Προσδοκώµενα αποτελέσµατα, Έννοιες κλειδιά,


Eισαγωγικές παρατηρήσεις .................................................................................................................................... 29
2.1 Εικόνα: Ένα σηµείο δύο ή τριών διαστάσεων .................................................................... 31
2.2 Η ∆ειγµατοληψία της αναλογικής εικόνας ............................................................................ 33
2.3 Κβάντιση και κωδικοποίηση των δειγµάτων της εικόνας ......................................... 38
2.3.1 Η διαδικασία της κβάντισης ................................................................................................. 38
2.3.2 Η κωδικοποίηση των κβαντισµένων δειγµάτων .................................................. 40
2.3.3 Yποβάθµιση της εικόνας κατά την κβάντιση ........................................................ 41
2.3.4 Mονόχρωµες εικόνες ................................................................................................................... 42
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 6

6 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

2.4 H ανακατασκευή της εικόνας ............................................................................................................ 44


Σύνοψη ................................................................................................................................................................................... 48
Bιβλιογραφία κεφαλαίου ......................................................................................................................................... 49

K∂º∞§∞π√ 3
∆¯ÓÈΤ˜ ‚ÂÏÙ›ˆÛ˘ Ù˘ ÂÈÎfiÓ·˜

Σκοπός, Προσδοκώµενα αποτελέσµατα, Έννοιες κλειδιά,


Eισαγωγικές παρατηρήσεις .................................................................................................................................... 51
3.1 Aιτίες υποβάθµισης και τεχνικές βελτίωσης της εικόνας ......................................... 53
3.2 Tεχνικές τόνωσης της αντίθεσης .................................................................................................... 55
3.2.1 Iστόγραµµα εικόνας ..................................................................................................................... 55
3.2.2 Τροποποίηση ιστογράµµατος .............................................................................................. 56
3.2.2α Ολίσθηση του ιστογράµµατος ......................................................................................... 57
3.2.2β ∆ιάταση του ιστογράµµατος ............................................................................................. 58
3.2.2γ Ολίσθηση τµήµατος του ιστογράµµατος ................................................................ 58
3.2.2δ Ισοστάθµιση ιστογράµµατος ............................................................................................. 60
3.3 Tεχνικές µείωσης του θορύβου ........................................................................................................ 65
3.3.1 Λευκός προσθετικός θόρυβος και
το φίλτρο κινουµένου µέσου ................................................................................................ 65
3.3.2 Φίλτρο µεσαίου και κρουστικός θόρυβος ................................................................. 68
3.4 Τόνωση των ακµών ..................................................................................................................................... 69
3.4.1 Μείξη της εικόνας µε την παράγωγό της
για την τόνωση των ακµών .................................................................................................... 70
Σύνοψη ................................................................................................................................................................................... 73
Bιβλιογραφία κεφαλαίου ......................................................................................................................................... 74

K∂º∞§∞π√ 4
∆¯ÓÈΤ˜ ηٿÙÌËÛ˘ Ù˘ ÂÈÎfiÓ·˜

Σκοπός, Προσδοκώµενα αποτελέσµατα, Έννοιες κλειδιά,


Eισαγωγικές παρατηρήσεις .................................................................................................................................... 75
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 7

¶EPIEXOMENA 7

4.1 Τεχνικές κατωφλίωσης ............................................................................................................................ 77


4.1.1 Κατωφλίωση µε χρήση καθολικού κατωφλίου .................................................... 77
4.1.2 ∆ιόρθωση της φωτεινότητας εικόνας ........................................................................... 78
4.1.2α Φωτισµός και ανακλαστικότητα .................................................................................... 79
4.1.2β Προσδιορισµός του φωτισµού σκηνής και
διόρθωση της φωτεινότητας της εικόνας ............................................................... 80
4.1.3 Προσαρµοζόµενο κατώφλιο και άλλες τεχνικές κατωφλίωσης ............. 80
4.2 Τεχνικές ανίχνευσης ακµών ................................................................................................................ 83
4.2.1 Η παραγώγηση πραγµατικής συνάρτησης µε δύο µεταβλητές ............... 83
4.2.1α Μερικές παράγωγοι και η κλίση .................................................................................... 84
4.2.1β Παράγωγος κατά κατεύθυνση .......................................................................................... 84
4.2.2 Παραγώγηση της φωτεινότητας της ψηφιακής εικόνας ............................... 85
4.2.2α Η µάσκα διαφόρισης και η συσχέτιση ...................................................................... 86
4.2.3 Οι τελεστές κλίσης και οι τελεστές προσανατολισµού ................................. 89
4.2.3α Ανίχνευση ακµών µε τελεστές κλίσης ...................................................................... 90
4.2.3β Ανίχνευση ακµών µε τελεστές προσανατολισµού .......................................... 94
4.3 Εντοπισµός περιγράµµατος περιοχής εικόνας .................................................................... 96
4.3.1 Εντοπισµός περιγράµµατος σε περιοχή µονόχρωµης εικόνας ................ 97
Σύνοψη ................................................................................................................................................................................... 99
Bιβλιογραφία κεφαλαίου ...................................................................................................................................... 100

K∂º∞§∞π√ 5
∞Ó··Ú¿ÛÙ·ÛË Î·È ÂÚÈÁÚ·Ê‹ ÂÚÈÁÚ¿ÌÌ·ÙÔ˜

Σκοπός, Προσδοκώµενα αποτελέσµατα, Έννοιες κλειδιά,


Eισαγωγικές παρατηρήσεις ................................................................................................................................ 101
5.1 Ο κώδικας αλύσσου ................................................................................................................................ 103
5.2 Αναπαράσταση του περιγράµµατος µε πολυγωνική γραµµή .............................. 107
5.2.1 Προσδιορισµός του πολυγώνου προσέγγισης µε διαδοχικές
υποδιαιρέσεις του περιγράµµατος ................................................................................ 108
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 8

8 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

5.3 Η υπογραφή του περιγράµµατος .................................................................................................. 110


5.3.1 Σχέση µήκους και γωνίας επιβατικής ακτίνας των σηµείων
του περιγράµµατος ..................................................................................................................... 110
5.3.2 Το ιστόγραµµα κλίσεων ......................................................................................................... 113
5.4 Ο διακριτός µετασχηµατισµός Fourier του περιγράµµατος ................................. 114
Σύνοψη ................................................................................................................................................................................ 117
Bιβλιογραφία κεφαλαίου ...................................................................................................................................... 118

K∂º∞§∞π√ 6
¶ÂÚÈÁÚ¿ÊÔÓÙ· ÛÙÔȯ›· ÙÔ˘ ÂÛˆÙÂÚÈÎÔ‡ ÂÚÈÔ¯‹˜ ÂÈÎfiÓ·˜

Σκοπός, Προσδοκώµενα αποτελέσµατα, Έννοιες κλειδιά,


Eισαγωγικές παρατηρήσεις ................................................................................................................................. 119
6.1 Yφή του εσωτερικού περιοχής ...................................................................................................... 121
6.1.1 Μέθοδος περιγραφής βασισµένη σε ιστογράµµατα ...................................... 121
6.1.1α Οι Ροπές του Ιστογράµµατος ........................................................................................ 122
6.1.1β Πίνακες συνεµφάνισης ........................................................................................................ 124
6.1.2 Φασµατική µέθοδος περιγραφής ................................................................................... 127
6.2 Οι Ροπές µιας περιοχής ........................................................................................................................ 129
6.2.1 Ροπές, κεντρικές ροπές και κανονικοποιηµένες ροπές ............................... 129
6.2.2 Οι Ροπές του Hu ........................................................................................................................... 130
6.2.3 Στροφορµές και κύριοι άξονες ........................................................................................ 133
Σύνοψη ................................................................................................................................................................................ 135
Bιβλιογραφία κεφαλαίου ...................................................................................................................................... 137

K∂º∞§∞π√ 7
Bayesian TaÍÈÓÔÌËÙ¤˜

Σκοπός, Προσδοκώµενα αποτελέσµατα, Έννοιες κλειδιά,


Eισαγωγικές παρατηρήσεις ................................................................................................................................ 139
7.1 Βασικά στάδια σχεδιασµού συστήµατος ταξινόµησης ................................................... 141
7.1.1 Στάδιο δηµιουργίας και επιλογής ουσιωδών χαρακτηριστικών ......... 141
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 9

¶EPIEXOMENA 9

7.1.2 Στάδιο σχεδίασης του ταξινοµητή ................................................................................ 142


7.2 Ταξινοµητές Bayes ................................................................................................................................... 142
7.3 Συναρτήσεις διάκρισης – Eπιφάνειες διάκρισης – Eπιφάνειες απόφασης –
Tαξινοµητής ελάχιστης απόστασης .......................................................................................... 147
7.4 Παράθυρα Parzen ...................................................................................................................................... 153
7.5 Yπολογισµός πυκνότητας πιθανότητας από τους k πλησιέστερους
γείτονες .............................................................................................................................................................. 157
7.6 Tαξινοµητές πλησιέστερης γειτνίασης .................................................................................... 159
Σύνοψη ................................................................................................................................................................................ 162
Bιβλιογραφία κεφαλαίου ...................................................................................................................................... 162

K∂º∞§∞π√ 8
T·ÍÈÓÔÌËÙ¤˜ NÂ˘ÚˆÓÈÎÒÓ ¢ÈÎÙ‡ˆÓ

Σκοπός, Προσδοκώµενα αποτελέσµατα, Έννοιες κλειδιά,


Eισαγωγικές παρατηρήσεις ................................................................................................................................ 163
8.1 Ο αλγόριθµος Perceptron ................................................................................................................... 165
8.1.1 Η αρχιτεκτονική Perceptron .............................................................................................. 169
8.2 Μη γραµµικά διαχωρίσιµα προβλήµατα ............................................................................... 170
8.2.1 Προβλήµατα Perceptrons 2–στρωµάτων ................................................................ 170
8.2.2 ∆ιαχωριστική ικανότητα των Perceptrons δύο στρωµάτων ................... 174
8.2.3 Perceptrons 3–στρωµάτων .................................................................................................. 175
8.2.4 Ο αλγόριθµος οπισθοδροµικής διάδοσης ............................................................... 178
Σύνοψη ................................................................................................................................................................................ 181
Bιβλιογραφία κεφαλαίου ...................................................................................................................................... 181

Aπαντήσεις Aσκήσεων Aυτοαξιολόγησης ............................................................................................... 183


£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 10
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 11

¶ÚfiÏÔÁÔ˜

Στο βιβλίο αυτό περιλαµβάνονται στοιχεία από τη θεωρία της Ανάλυσης Εικόνας και
της Αναγνώρισης Προτύπων. Οι περιοχές αυτές της επιστήµης βρίσκονται σε άµεση
συγγένεια µε την επεξεργασία σήµατος και εφαρµογές τους εντοπίζονται σε τοµείς
της επιστήµης, όπως Ροµποτική, Αναγνώριση χαρακτήρων κειµένου (OCR), Ιατρι-
κή Πληροφορική, κ.λ.π. Εφαρµογές τους συναντάµε πλέον στο γραφείο, στο πολυ-
κατάστηµα, στο ιατρείο, στις οδικές αρτηρίες, στη βιοµηχανία και σε κάθε τοµέα
ανθρώπινης δραστηριότητας.
Για όλους τους πιο πάνω λόγους νοµίζουµε ότι ο νέος επιστήµονας που έχει αποφα-
σίσει να ασχοληθεί µε την πληροφορική, είναι απαραίτητο να διδαχθεί τουλάχιστόν
ένα εξαµηνιαίο µάθηµα που θα του δώσει τις βασικές αρχές από την Ανάλυση Εικό-
νας και την Αναγνώριση Προτύπων. Για τους ίδιους λόγους, το µάθηµα αυτό έχει
συµπεριληφθεί στην ενότητα της Πληροφορικής του Ανοικτού Πανεπιστηµίου και
το βιβλίο που έχετε στα χέρια σας προσπαθεί να καλύψει την αντίστοιχη ύλη.
Σαν βιβλίο το οποίο, κατ’ αρχήν, απευθύνεται σε σπουδαστές που έχουν περιορι-
σµένες δυνατότητες άµεσης επικοινωνίας µε τους δασκάλους τους, ο καθορισµός
του όγκου του καθώς και η επιλογή και η ανάπτυξη της ύλης του έγινε µε βάση τους
ειδικούς κανόνες, που πρέπει να ακολουθούνται όταν το έντυπο προορίζεται για
εκπαίδευση από απόσταση. Κάθε κεφάλαιο περιέχει ένα σηµαντικό αριθµό από
παραδείγµατα καθώς και ασκήσεις, η λύση των οποίων βρίσκεται γραµµένη στο
τέλος του κεφαλαίου. Ο αναγνώστης πρέπει να επιλύει την κάθε άσκηση στο σηµείο
του κειµένου που τη συναντά, δηλαδή αµέσως µετά τη µελέτη του αντίστοιχου τµή-
µατος της ύλης. Στη συνέχεια, πρέπει να ελέγχει την απάντησή του µελετώντας την
λύση που υπάρχει στο τέλος του αντίστοιχου κεφαλαίου και στην περίπτωση που
διαπιστώσει ότι κάποιες απαντήσεις του είναι εσφαλµένες, να ακολουθεί τις υπο-
δείξεις που δίνονται για συµπληρωµατική µελέτη. Συµβουλεύουµε τον αναγνώστη
να ακολουθήσει σχολαστικά την πιο πάνω διαδικασία ώστε να υπάρξει ταχεία κατα-
νόηση και εµπέδωση της υπό µελέτη ύλης.
Καταβλήθηκε ιδιαίτερη προσπάθεια να περιοριστούν στο δυνατό οι προαπαιτούµε-
νες πανεπιστηµιακές γνώσεις που πρέπει να έχει ο σπουδαστής για να µπορεί να
µελετήσει µε ευχέρεια το βιβλίο ακόµη και αν επιλέξει το µάθηµα στα πρώτα έτη
των σπουδών του. Τα µαθηµατικά που προαπαιτούνται καλύπτονται στο µεγαλύτε-
ρο µέρος τους από τα µαθηµατικά λυκείου της θετικής κατεύθυνσης. Επιπλέον
αυτών, ο σπουδαστής θα χρειαστεί να έχει µελετήσει στοιχεία στατιστικής και ειδι-
κότερα στατιστικές κατανοµές. Είναι γνωστό ότι στα πρώτα χρόνια σπουδών, ακόµη
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 12

12 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

και για το σπουδαστή της πληροφορικής, η εικόνα είναι γνωστή µόνο σαν στοιχείο
των κειµένων του, δεν έχει ακόµα συνειδητοποιήσει ότι πρόκειται για ένα σήµα και
πολύ περισσότερο δεν έχει τη δυνατότητα να επιδρά σ’ αυτήν. Για το λόγο αυτό περι-
λάβαµε στην ύλη ενότητες σχετικές µε τη δηµιουργία και τη διαχείριση της ψηφια-
κής εικόνας από τον υπολογιστή παρουσιάζοντας πολύ σύντοµα τη διαδικασία της
δειγµατοληψίας και πιο αναλυτικά την κβάντιση καθώς και στοιχεία από την ανα-
κατασκευή της εικόνας από την οθόνη του υπολογιστή.
Ένα µεγάλο µέρος των ασκήσεων του βιβλίου αυτού, αυτές που περιέχουν σηµα-
ντικό όγκο υπολογισµών, παρουσιάζονται ως να έχουν λυθεί µε µολύβι και χαρτί. Η
έκταση των απαιτούµενων υπολογισµών είναι τέτοια ώστε αν χρειαστεί µπορεί να
πραγµατοποιηθεί µε αυτό τον τρόπο. Εµείς όµως συµβουλεύουµε τους σπουδαστές
να κατασκευάζουν προγράµµατα και να χρησιµοποιούν τον υπολογιστή για την το
πραγµατοποίηση των πράξεων. Για το σκοπό αυτό µπορεί να χρησιµοποιηθεί οποι-
αδήποτε προγραµµατιστική γλώσσα γνωρίζουν καλλίτερα, αν και πιστεύουµε ότι η
χρήση µιας εξελιγµένης γλώσσας, όπως για παράδειγµα το MATLAB, θα τους απαλ-
λάξει από µακροχρόνιο γράψιµο εντολών και την αντίστοιχη διαδικασία ανίχνευσης
και διόρθωσης σφαλµάτων (debugging).
Το βιβλίο αποτελείται από οκτώ κεφάλαια. Στο πρώτο από αυτά γίνεται προσπάθεια
να δοθεί συνοπτικά η ύλη που περιέχεται σε όλο το βιβλίο. Αν και γνωρίζουµε ότι
αυτό θα δηµιουργήσει κάποιες δυσκολίες στον αναγνώστη, πιστεύουµε ότι είναι απα-
ραίτητο, ώστε να αποκτήσει µια γενική άποψη ολόκληρου του αντικειµένου πριν
από την αναλυτική παράθεση των επί µέρους εννοιών.
Στο δεύτερο και τρίτο κεφάλαιο γίνεται µια προσπάθεια να παρουσιάσουµε στον
αναγνώστη τις απαραίτητες γνώσεις για τη διακίνηση της ψηφιακής εικόνας µε τον
υπολογιστή και τις στοιχειώδης τεχνικές επεξεργασίας της. Θεωρήθηκε σκόπιµο να
συµπεριληφθούν τα θέµατα αυτά ώστε να υπάρξει σχετική αυτοδυναµία του βιβλί-
ου, πολύ περισσότερο που αυτό απευθύνεται σε φοιτητές που κατά τεκµήριο δεν
έχουν χειριστεί την εικόνα ως σήµα.
Στα τέταρτο, πέµπτο και έκτο κεφάλαια παρουσιάζονται µέθοδοι της ανάλυσης εικό-
νας οι οποίες αποσκοπούν στην ανάδειξη ουσιωδών χαρακτηριστικών περιγράµµα-
τος και περιοχής εικόνας. Πιο αναλυτικά, στο τέταρτο κεφάλαιο γίνεται η παρου-
σίαση µερικών από τις πιο κλασικές µεθόδους κατάτµησης της εικόνας. Σ’ αυτό
παρουσιάζονται τεχνικές κατωφλίωσης και ανάδειξης ακµών. Στο πέµπτο και έκτο
κεφάλαιο παρουσιάζονται τα σχήµατα αναπαράστασης και τα στοιχεία περιγραφής
του περιγράµµατος και του εσωτερικού µιας περιοχής εικόνας αντίστοιχα. Τέλος,
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 13

¶PO§O°O™ 13

στα κεφάλαια επτά και οχτώ δίνονται οι πιο βασικές τεχνικές ταξινόµησης µε επί-
βλεψη. Στο πρώτο από αυτά περιγράφονται τεχνικές που στηρίζονται κυρίως στην
ελαχιστοποίηση του σφάλµατος ενώ στο τελευταίο γίνεται αναφορά στα νευρωνικά
δίκτυα και στους τρόπους επίλυσης προβληµάτων ταξινόµησης µε αυτά.
Αισθανόµαστε υποχρέωση να ευχαριστήσουµε τον Κριτικό Αναγνώστη καθηγητή
Μέρτζιο Βασίλειο, καθώς και τα µέλη της Οµάδας Εκτέλεσης Έργου του Ελληνικού
Ανοικτού Πανεπιστηµίου, οι οποίοι παρακολούθησαν από κοντά τη συγγραφή ολό-
κληρου του βιβλίου. Οι παρατηρήσεις τους βοήθησαν στη διαµόρφωση του τελικού
ύφους και της µορφής του βιβλίου αυτού. Επίσης, πρέπει να ευχαριστήσουµε τους
συντονιστές του προγράµµατος της Πληροφορικής, ∆ρ Χρήστο Παναγιωτακόπου-
λο και κυρία ∆ήµητρα Παρασκευοπούλου για την άψογη συνεργασία που είχαµε.
Τελειώνοντας θέλουµε να ευχαριστήσουµε τους υποψήφιους διδάκτορες Γιάννη
Κοψίνη και Κώστα Παναγιωτόπουλο για τη βοήθεια που πρόσφεραν στην κατα-
σκευή των σχηµάτων, καθώς και τις χρήσιµες παρατηρήσεις που έκαναν διαβάζο-
ντας τα χειρόγραφα κατά τη διάρκεια της συγγραφής του βιβλίου.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 14
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 15

∏ ·Ó·ÁÓÒÚÈÛË ÚÔÙ‡ˆÓ Î·È Ë ·Ó¿Ï˘ÛË ÂÈÎfiÓ·˜

™ÎÔfi˜
∫ ∂

1
º

Σκοπός του κεφαλαίου αυτού είναι να παρουσιάσει συνοπτικά τις µεθόδους και τεχνι-
κές των επιστηµονικών περιοχών της Ανάλυσης Εικόνας και της Αναγνώρισης Προ-
τύπων, καθώς επίσης και τον τρόπο που οι τεχνικές αυτές συνδυάζονται στα πλαίσια
∞ § ∞ π √

ενός Συστήµατος Οπτικής Αναγνώρισης.

¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·

Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού, θα είστε σε θέση νa:

• Περιγράψετε τις βασικές βαθµίδες ενός Συστήµατος Οπτικής Αναγνώρισης και τη


διαφοροποίηση που παρουσιάζουν αυτές στη λειτουργία τους.

• Aναφέρετε περισσότερες από έξι εφαρµογές αυτόµατης οπτικής αναγνώρισης, που


συναντάµε σε όλους του τοµείς της καθηµερινής ζωής.

• Aπαριθµήσετε περισσότερες από τρεις διαφορετικές τεχνικές της Ανάλυσης Εικό-


νας και άλλες τόσες της Αναγνώρισης Προτύπων.

ŒÓÓÔȘ ÎÏÂȉȿ

• Ακµές Εικόνας
• Αναγνώριση Μορφών
• Αναγνώριση Προτύπων
• Αναγνώριση Σκηνής
• Ανάλυση Εικόνας
• Ανίχνευση Ακµών
• Ανίχνευση Περιγράµµατος
• Βελτίωση Εικόνας
• ∆ιακριτός Μετασχηµατισµός Fourier
• ∆ισδιάστατο Σήµα
• Ερµηνεία ή Αντίληψη Σκηνής
• Κατάτµηση Εικόνας
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 16

16 ∏ ∞¡∞°¡øƒπ™∏ ¶ƒ√∆À¶ø¡ ∫∞π ∏ ∞¡∞§À™∏ ∂π∫√¡∞™

• Κατηγορίες Προτύπων
• Κατωφλίωση
• Μορφή ή Πρότυπο
• Ουσιώδη Χαρακτηριστικά
• Περίγραµµα Περιοχής
• Στατιστικές Τεχνικές Ταξινόµησης
• Στατιστική Ροπή
• Στοιχείο της Ψηφιακής Εικόνας
• Ταξινόµηση µε Επίβλεψη
• Ταξινόµηση Χωρίς Επίβλεψη

∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Το βιβλίο αυτό εστιάζει στη µελέτη δύο από τους πιο σύγχρονους επιστηµονικούς κλά-
δους της Πληροφορικής: Την «Ανάλυση Εικόνας» (Image Analysis) και την «Ανα-
γνώριση Προτύπων» (Pattern Recognition). Οι µέθοδοι και οι τεχνικές τους συν-
δυάζονται για την ανάπτυξη των «Συστηµάτων Οπτικής Αναγνώρισης» (ΣΟΑ). Στα
κεφάλαια που ακολουθούν θα µελετήσουµε τις βασικές αρχές και τις κυριότερες τεχνι-
κές αυτών των περιοχών της επιστήµης.
Για την άνετη κατανόηση των κεφαλαίων του βιβλίου αυτού, ο αναγνώστης πρέπει
να γνωρίζει το συµβολισµό και τη χρήση των διανυσµάτων και των πινάκων, καθώς
και στοιχεία από την Μαθηµατική Ανάλυση, όπως την έννοια του ορίου, της παρα-
γώγου και του ολοκληρώµατος. Επιθυµητό είναι επίσης να γνωρίζει µερικά στοιχεία
από την επεξεργασία σήµατος [1], όπως το Μετασχηµατισµό Fourier και το ∆ιακρι-
τό Μετασχηµατισµό Fourier.
Το κεφάλαιο αυτό αποτελείται από τρεις ενότητες. Στην πρώτη ενότητα, (Ενότητα
1.1) σκιαγραφείται η ανάγκη της αυτόµατης ανάλυσης των εικόνων, γίνεται η σύγκρι-
ση των λειτουργιών αναγνώρισης µιας σκηνής από τον άνθρωπο και από τον υπο-
λογιστή και δίνονται µερικά πρώτα στοιχεία για τον τρόπο εισαγωγής µιας εικόνας
σε ένα υπολογιστικό σύστηµα. Στη δεύτερη ενότητα, (Ενότητα 1.2) δίνονται οι βασι-
κές βαθµίδες ενός ΣΟΑ και αναφέρεται µια σειρά από καθηµερινές εφαρµογές των
συστηµάτων αυτών . Τέλος στην τρίτη ενότητα, (Ενότητα 1.3) δίνονται µε συντοµία
οι µέθοδοι της Ανάλυσης Εικόνας και της Αναγνώρισης Προτύπων που χρησιµοποι-
ούνται για την πραγµατοποίηση των βαθµίδων των ΣΟΑ.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 17

1.1 ∏ ∂π∫√¡∞, √ ∞¡£ƒø¶√™ ∫∞π √ À¶√§√°π™∆∏™ 17

1.1 ∏ ÂÈÎfiÓ·, Ô ¿ÓıÚˆÔ˜ Î·È Ô ˘ÔÏÔÁÈÛÙ‹˜

«Μια εικόνα αξίζει όσο χίλιες λέξεις» αναφέρει ένα παλιό κινέζικο ρητό και αποδί-
δει πλήρως την πραγµατικότητα, καθώς η αντίληψη του περιβάλλοντος από τους
ανθρώπους σε µεγάλο ποσοστό στηρίζεται στην αίσθηση της όρασης. Μερικά από
τα πιο αξιοθαύµαστα χαρακτηριστικά του ανθρώπου αποκαλύπτονται όταν αυτός
παρατηρεί µια εικόνα. Αναγνωρίζει και αποµνηµονεύει εύκολα τη µορφή των προ-
σώπων και των αντικειµένων και αντιλαµβάνεται ταχύτατα τις σχετικές θέσεις τους,
καθώς και τη σκηνή που απεικονίζεται στην εικόνα. Για το λόγο αυτό οι άνθρωποι
ανέκαθεν χρησιµοποίησαν οπτικές αναπαραστάσεις, δηλαδή εικόνες, για να εκφρά-
σουν τα συναισθήµατά τους ή για να εµπλουτίσουν τις διηγήσεις τους.

1.1.1 ∏ ·˘ÙfiÌ·ÙË ·Ó¿Ï˘ÛË Ù˘ ÂÈÎfiÓ·˜ ·fi ÙÔÓ ˘ÔÏÔÁÈÛÙ‹

Με την ανάπτυξη της τεχνολογίας, η χρήση της εικόνας γίνεται πιο συχνή. Εκτός από
τις φωτογραφίες, όπου αποτυπώνονται σκηνές τις καθηµερινής µας ζωής, ένα µεγά-
λο πλήθος εικόνων δηµιουργείται από ειδικά µηχανήµατα και προορίζεται να χρησι-
µοποιηθεί από εξειδικευµένους επιστήµονες. Τέτοιες είναι οι ιατρικές εικόνες, οι µετε-
ωρολογικές και οι δορυφορικές εικόνες, οι εικόνες από Radar, οι εικόνες από το µικρό-
κοσµο της βιολογίας. Όλες αυτές οι εικόνες περιέχουν πληθώρα στοιχείων, τα οποία
πρέπει πρώτα να εντοπιστούν, να µετρηθούν και στη συνέχεια να καταχωρηθούν στον
υπολογιστή. Εκεί γίνεται η επεξεργασία και η ταξινόµηση των στοιχείων αυτών.
Ο αυτόµατος εντοπισµός, η µέτρηση και η καταχώρηση των στοιχείων από τον ίδιο
τον υπολογιστή συντοµεύει και ελαττώνει σηµαντικά το κόστος για τη συνολική δια-
δικασία αξιολόγησης της εξεταζόµενης εικόνας. Άρχισε λοιπόν η προσπάθεια, όλες
αυτές οι λειτουργίες να «καλυφθούν» από τον υπολογιστή και να περιοριστεί η ανά-
µειξη του ανθρώπου στο ελάχιστο δυνατό. Προς την κατεύθυνση αυτή οδήγησαν εφαρ-
µογές όπως τα ροµπότ, η τεχνητή όραση, η λήψη δορυφορικών φωτογραφιών αποµα-
κρυσµένων περιοχών, η συνεχής οπτική παρακολούθηση σκηνής για την ανίχνευση
καθορισµένου αντικειµένου. Το αποτέλεσµα των προσπαθειών αυτών είναι τα ΣΟΑ.

1.1.2 ™Â ÙÈ ˘ÂÚ¤¯ÂÈ Î·È Û ÙÈ ˘ÛÙÂÚ› Ô ˘ÔÏÔÁÈÛÙ‹˜

Ο τρόπος που αναγνωρίζει ο άνθρωπος τα αντικείµενα σε µια σκηνή είναι πολύ πιο
σύνθετος από τον τρόπο που λειτουργεί ο υπολογιστής στα ΣΟΑ. Κατά την παρα-
τήρηση µιας σκηνής και την αναγνώριση των αντικειµένων που απεικονίζονται σε
αυτή, ο ανθρώπινος νους λειτουργεί ταχύτατα µε τρόπο που δεν έχει γίνει ακόµα
πλήρως κατανοητός. Αυτή η ικανότητα αναγνώρισης είναι πολυσύνθετη και πραγ-
µατοποιείται µε επιτυχία κάτω από ευµενείς ή δυσµενείς συνθήκες φωτισµού και
ευκρίνειας της εικόνας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 18

18 ∏ ∞¡∞°¡øƒπ™∏ ¶ƒ√∆À¶ø¡ ∫∞π ∏ ∞¡∞§À™∏ ∂π∫√¡∞™

Ο υπολογιστής, εξοπλισµένος µε σύγχρονο υλικό και µε λογισµικό που υποστηρίζε-


ται από κατάλληλους αλγορίθµους και τεχνικές, αν συγκριθεί µε τον άνθρωπο, υστε-
ρεί σηµαντικά στην ικανότητα αναγνώρισης της εικόνας. Οι λειτουργίες αναγνώρι-
σης, που µπορεί να εκτελεί ο υπολογιστής, είναι σηµαντικά απλούστερες των αντι-
στοίχων ανθρώπινων και το όλο σύστηµα είναι ιδιαίτερα ευπαθές σε παράγοντες όπως
η αλλαγή του φωτισµού και η ποιότητα της χρησιµοποιούµενης εικόνας. Το πλεονέ-
κτηµα βέβαια του υπολογιστή είναι ο συνδυασµός των λειτουργιών αναγνώρισης µε
τη δυνατότητα αποθήκευσης µεγάλου όγκου πληροφοριών και της ταχύτατης εκτέ-
λεσης υπολογισµών και λήψης αποφάσεων. Σηµαντικό επίσης πλεονέκτηµα του υπο-
λογιστή είναι η σχεδόν αδιάκοπη λειτουργία του, που δεν εξαρτάται από τον παρά-
γοντα «ανθρώπινη κόπωση», καθώς και η δυνατότητά του να συνεργάζεται µε τις
µηχανές λήψης της εικόνας σε σηµεία του χώρου απρόσιτα για τον άνθρωπο.

1.1.3 ¢È·¯Â›ÚÈÛË Ù˘ ÂÈÎfiÓ·˜ ·fi ÙÔ ˘ÔÏÔÁÈÛÙÈÎfi Û‡ÛÙËÌ·

Στο σηµείο αυτό είναι ανάγκη να γνωρίσουµε τον τρόπο διαχείρισης της εικόνας από
τον υπολογιστή, δηλαδή τη µορφή µε την οποία αυτή αποθηκεύεται στη µνήµη και
συµµετέχει στην εκτέλεση των αλγορίθµων του υπολογιστή. Η ακίνητη εικόνα είναι
ένα σήµα δύο χωρικών διαστάσεων ενώ ή κινούµενη, όπως η εικόνα στην οθόνη της
τηλεόρασης, είναι σήµα τριών διαστάσεων. Το δισδιάστατο σήµα z = f(x,y) µιας ακί-
νητης εικόνας έχει ως ανεξάρτητες µεταβλητές x,y τις δύο γεωµετρικές διαστάσεις
του φωτεινού υποστρώµατος, το πλάτος και το µήκος. Η εξαρτηµένη µεταβλητή z
είναι η τιµή του σήµατος, δηλαδή η ένταση της φωτεινότητας, ή απλώς η ένταση της
εικόνας στο συγκεκριµένο σηµείο. Σε µια έγχρωµη εικόνα η «τιµή» του σήµατος
δίνεται από µια τριάδα µη αρνητικών πραγµατικών αριθµών, που προσδιορίζουν την
ένταση των τριών βασικών χρωµάτων, του πράσινου, του ερυθρού και του κυανού.
Με άλλα λόγια απαιτούνται τρεις συναρτήσεις, µία για κάθε χρώµα. Σε µια ασπρό-
µαυρη εικόνα η ένταση των τριών αυτών βασικών χρωµάτων είναι ίδια. Έτσι η τιµή
του σήµατος σε ένα σηµείο ασπρόµαυρης εικόνας είναι ένας µη αρνητικός πραγµα-
τικός αριθµός.
Για να εισαχθεί µια εικόνα στον υπολογιστή, πρέπει προηγουµένως να ψηφιοποιη-
θεί. Η ψηφιακή εικόνα που προκύπτει µε τον τρόπο αυτό παρίσταται µε έναν πίνα-
κα ακεραίων αριθµών, που αντιστοιχούν στην ένταση των δειγµάτων της. Κάθε δείγ-
µα από αυτά ονοµάζεται pixel, ένας όρος που προέρχεται από τη σύντµηση των λέξε-
ων picture element (στοιχείο της εικόνας). Στο Κεφάλαιο 2 γίνεται µια πιο λεπτοµε-
ρής περιγραφή της ψηφιοποίησης της εικόνας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 19

1 . 2 ∆∞ ™ À ™ ∆ ∏ ª ∞∆∞ √ ¶ ∆ π ∫ ∏ ™ ∞ ¡ ∞ ° ¡ ø ƒ π ™ ∏ ™ 19

1.2 ∆· Û˘ÛÙ‹Ì·Ù· ÔÙÈ΋˜ ·Ó·ÁÓÒÚÈÛ˘

Στο Σχ. 1.1 δίνεται το λειτουργικό διάγραµµα ενός ΣΟΑ. ∆ιακρίνουµε τη βαθµίδα
λήψης της εικόνας και τρεις λειτουργικές βαθµίδες δια µέσου των οποίων καταλήγουµε
σε µια κωδικοποιηµένη περιγραφή της σκηνής που παριστάνει η αντίστοιχη εικόνα.
Καθεµιά από τις βαθµίδες αυτές χρησιµοποιεί διαφορετικές τεχνικές και µεθόδους.
Η διασύνδεση του συστήµατος µε το περιβάλλον γίνεται µέσω του συστήµατος
λήψης, που περιλαµβάνει την κάµερα και το σύστηµα ψηφιοποίησης της εικόνας.
Στο Σχ. 1.1, το σύστηµα λήψης έχει σχεδιαστεί µε το σύµβολο της κάµερας. Στην
έξοδο του συστήµατος λήψης έχει δηµιουργηθεί η ψηφιακή εικόνα, η οποία όµως
έχει υποστεί υποβάθµιση της ποιότητάς της. Η υποβάθµιση αυτή οφείλεται σε σφάλ-
µατα του συστήµατος λήψης και σε θόρυβο που εισάγει αυτό στην εικόνα.
Η βαθµίδα Βελτίωσης και Αποκατάστασης της Εικόνας (image enhancement and
restoration) λαµβάνει στην είσοδό της την υποβαθµισµένη εικόνα. Στο στάδιο αυτό
εξουδετερώνονται ή ελαχιστοποιούνται οι αλλοιώσεις που έχει υποστεί η εικόνα. Στην
έξοδο της βαθµίδας αυτής έχουµε την εικόνα της εισόδου σαφώς βελτιωµένη. Στο Κεφά-
λαιο 3 δίνεται η περιγραφή µερικών από τις πιο απλές τεχνικές Βελτίωσης Εικόνας.

Bελτίωσηx
εικόνας

Aνάλυσηx
εικόνας

Aναγνώρισηx
προτύπωνx
και σκηνής ™¯‹Ì· 1.1
Άνθρωπος,x Tο λειτοργικό διά-
σανίδι
γραµµα ενός
∆ύο άνθρωποιx Συστήµατος Oπτι-
σε τραµπάλα κής Aναγνώρισης
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 20

20 ∏ ∞¡∞°¡øƒπ™∏ ¶ƒ√∆À¶ø¡ ∫∞π ∏ ∞¡∞§À™∏ ∂π∫√¡∞™

Η βαθµίδα Ανάλυσης της Εικόνας (image analysis) λαµβάνει τη βελτιωµένη εικό-


να και εντοπίζει σ’ αυτήν διάφορες περιοχές που περιέχουν ή πιθανόν να περιέχουν,
πρότυπα (patterns). Ο όρος «πρότυπο», χρησιµοποιείται για να αποδώσει την περι-
γραφή ενός αντικειµένου ή µιας άλλης οντότητας, την οποία ενδιαφερόµαστε να
εντοπίσουµε στην εξεταζόµενη εικόνα. Μετά τον εντοπισµό των διαφορετικών περιο-
χών, γίνεται η κατάτµηση (segmentation), δηλαδή ο διαχωρισµός καθεµιάς από
αυτές τις περιοχές, από την υπόλοιπη εικόνα. Η κατάτµηση είναι ένα σηµαντικό στά-
διο της Ανάλυσης Εικόνας, έτσι ώστε να αποχωρίζονται οι περιοχές εκείνες που µπο-
ρούν να παρέχουν χρήσιµη πληροφορία. Παροχή µη χρήσιµης πληροφορίας στην
επόµενη βαθµίδα του ΣΟΑ δυσχεραίνει τη λειτουργία του.
Η τρίτη βαθµίδα είναι η Αναγνώριση Προτύπων. Στη βαθµίδα αυτή επιτελείται η
αναγνώριση του προτύπου, που αντιστοιχεί στις διαχωρισµένες περιοχές της εικό-
νας. Στη συνέχεια γίνεται η ερµηνεία, ή αντίληψη (interpretation) όλης της σκη-
νής, που απεικονίζεται στην αρχική εικόνα. Η έξοδος της βαθµίδας αυτής είναι η
κωδικοποιηµένη περιγραφή της απεικονιζόµενης σκηνής. Στην υποενότητα 1.3.2 του
Κεφαλαίου αυτού θα γίνει µια συνοπτική περιγραφή των µεθόδων και των τεχνικών
αυτής της επιστηµονικής περιοχής.
Θα πρέπει να τονιστεί ότι ο διαχωρισµός του συστήµατος οπτικής αναγνώρισης σε
λειτουργικές βαθµίδες, όπως περιγράψαµε παραπάνω, είναι τεχνητός και όχι από-
λυτος. Στην πράξη υπάρχουν τεχνικές που χρησιµοποιούνται από κοινού από δύο
διαφορετικές λειτουργικές βαθµίδες. Ο διαχωρισµός λοιπόν αυτός έχει γίνει κυρίως
µε στόχο την απλούστερη περιγραφή του συστήµατος.

1.2.1 ∂Ê·ÚÌÔÁ¤˜ ÙˆÓ Û˘ÛÙËÌ¿ÙˆÓ ÔÙÈ΋˜ ·Ó·ÁÓÒÚÈÛ˘

Ένας συνεχώς αυξανόµενος αριθµός από ΣΟΑ εγκαθίστανται και λειτουργούν αυτό-
µατα ή ηµιαυτόµατα, καλύπτοντας εφαρµογές σε όλο και περισσότερους κλάδους.
Τα συστήµατα αυτά τα συναντάµε συνεχώς στην καθηµερινή µας ζωή, µέσα στο γρα-
φείο µας, στα καταστήµατα, στα εργοστάσια, στα ιατρικά κέντρα. ΣΟΑ αναλύουν
δορυφορικές φωτογραφίες και υποβοηθούν την πρόγνωση του καιρού, την παρακο-
λούθηση της φυτικής παραγωγής, τον εντοπισµό ασθενειών στις δασικές εκτάσεις
του πλανήτη µας, κ.λ.π. Στον Πίνακα 1.1 γίνεται µια συνοπτική αναφορά σε µερικές
από τις εφαρµογές των συστηµάτων αυτών.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 21

1 . 2 ∆∞ ™ À ™ ∆ ∏ ª ∞∆∞ √ ¶ ∆ π ∫ ∏ ™ ∞ ¡ ∞ ° ¡ ø ƒ π ™ ∏ ™ 21

Αυτόµατη Αναγνώριση • Αυτόµατη ανάγνωση κειµένου από σελίδα βιβλίου,


Χαρακτήρων Κειµένου κωδικοποίησή του και αποθήκευσή του στον υπολογιστή.
(OCR). • Ταξινόµηση επιστολών στο ταχυδροµείο.
• Ανάγνωση πινακίδων.
• Έκδοση λογαριασµών σε υπερκαταστήµατα. Επεξερ-
γασία τραπεζικών επιταγών.
Ανάλυση Ιατρικών Εικό- • Ανίχνευση όγκων στους ιστούς.
νων • Μέτρηση του µεγέθους και της µορφής εσωτερικών
οργάνων του ανθρώπινου σώµατος. Ανάλυση χρωµα-
τοσωµάτων.
• Μέτρηση πυκνότητας αιµοσφαιρίων.
Βιοµηχανικοί Αυτοµατι- • Ταυτοποίηση εξαρτηµάτων σε γραµµές παραγωγής.
σµοί • Ανίχνευση ελαττωµατικών κατασκευών.
Ροµποτική • Αναγνώριση και ερµηνεία των αντικειµένων της σκη-
νής του περιβάλλοντος.
• Υπολογισµός αποστάσεων των αντικειµένων του
περιβάλλοντος από την κάµερα, και λήψη απόφασης
για την κίνηση.
Χαρτογράφηση • Κατασκευή χαρτών από αεροφωτογραφίες.
• Σύνθεση χαρτών καιρού.
• Σύνθεση video για την αναπαράσταση κίνησης πάνω
από το ανάγλυφο περιοχών της γης.
Ιατροδικαστική Σήµαν- • Αναγνώριση δακτυλικών αποτυπωµάτων.
ση (Forensics) • Αναγνώριση προσώπων από φωτογραφίες.
• Ανάλυση συστηµάτων αυτόµατης ασφάλειας.
Αυτόµατη Αναγνώριση • Ανίχνευση και αναγνώριση στόχων.
Εικόνων Radar • Καθοδήγηση ιπτάµενων οχηµάτων κατά την προσγείωση
• Τηλεκαθοδήγηση ιπτάµενων συσκευών χωρίς πιλότο.
Αυτόµατη Αναγνώριση • Πρόβλεψη καιρού.
Εικόνων RadarαΤηλεαί- • Αναγνώριση και παρατήρηση αστικών, γεωργικών ή
σθηση (Remote Sensing) θαλάσσιων περιοχών.
Αυτόµατη Ανάκτηση • Χρησιµοποιείται σε βάσεις πολυµέσων. Επιτυγχάνεται
Εικόνων (Content Based η ταξιθέτηση και η αναζήτηση κάθε εικόνας στη βάση
Image Retrieval) αυτή µε δείκτη (κλειδί) που προκύπτει από την ανάλυ-
ση του περιεχοµένου της εικόνας.

¶›Ó·Î·˜ 1.1
Συνοπτική αναφορά εφαρµογών Συστηµάτων Oπτικής Aναγνώρισης.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 22

22 ∏ ∞¡∞°¡øƒπ™∏ ¶ƒ√∆À¶ø¡ ∫∞π ∏ ∞¡∞§À™∏ ∂π∫√¡∞™

1.3 ª¤ıÔ‰ÔÈ Î·È Ù¯ÓÈΤ˜ Ù˘ ·Ó¿Ï˘Û˘ ÂÈÎfiÓ·˜ Î·È Ù˘ ·Ó·ÁÓÒÚÈÛ˘
ÚÔÙ‡ˆÓ

Οι µέθοδοι και οι τεχνικές που χρησιµοποιούνται στα ΣΟΑ προέρχονται από τις
περιοχές της Ανάλυσης Εικόνας και της Αναγνώρισης Προτύπων και θα παρουσια-
στούν αναλυτικά στα επόµενα κεφάλαια του βιβλίου. Στην ενότητα αυτή θα δώσου-
µε µια συνοπτική περιγραφή αυτών των µεθόδων για να αποκτήσετε αντίληψη ολό-
κληρης της περιοχής πριν από την αναλυτική εξέταση των επιµέρους θεµάτων. Θα
σας συµβουλεύαµε στην πρώτη ανάγνωση να µελετήσετε προσεκτικά αυτή την ενό-
τητα, χωρίς όµως να επιµείνετε αναγκαστικά στην πλήρη κατανόησή της, και να επα-
νέλθετε αφού µελετήσετε όλο το βιβλίο.

1.3.1 AÓ¿Ï˘ÛË ÂÈÎfiÓ·˜

Η Ανάλυση Εικόνας είναι η επιστηµονική περιοχή της Επεξεργασίας Εικόνας που περι-
λαµβάνει τις τεχνικές µε τις οποίες γίνεται ο εντοπισµός διαφορετικών περιοχών σε µια
εικόνα καθώς και εκείνες µε τις οποίες γίνεται στη συνέχεια η κατάτµησή της, µε στόχο
το διαχωρισµό από αυτήν των περιοχών που έχουν µεγάλη πιθανότητα να περιέχουν
ένα αναζητούµενο πρότυπο. Οι περιοχές αυτές διαχωρίζονται από τις γειτονικές τους.

α β

™¯‹Ì· 1.2
(α) Πρωτότυπο,
(β) Παραγώγιση
για τόνωση των
ακµών, (γ) Κατω-
φλίωση και ανά-
δειξη ακµών,
(δ)Ανίχνευση περι-
γράµµατος. γ δ
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 23

1.3 ª∂£√¢√π ∫∞π ∆∂áπ∫∂™ ∆∏™ ∞¡∞§À™∏™ ∂π∫√¡∞™ ∫∞π ∆∏™ ∞¡∞°¡øƒπ™∏™ ¶ƒ√∆À¶ø¡ 23

Στη συνέχεια της υποενότητας δίνονται συνοπτικά µερικές από τις βασικές τεχνικές
που χρησιµοποιεί η Ανάλυση Εικόνας.
Ανίχνευση Ακµών (Edge Detection): Σε αυτή γίνεται η παραγώγιση του σήµατος
της ασπρόµαυρης εικόνας και ανιχνεύεται η κατεύθυνση προς την οποία η κλίση
(gradient) της εικόνας παρουσιάζει µέγιστη τιµή. Στην υποενότητα 4.2 παρουσιά-
ζονται αναλυτικά οι µέθοδοι της τεχνικής αυτής.
Κατωφλίωση (Thresholding): Με την τεχνική αυτή η εικόνα µετατρέπεται από
ασπρόµαυρη σε µονόχρωµη, σε εικόνα δηλαδή δύο τόνων. Η κατωφλίωση χρησι-
µοποιείται για το διαχωρισµό περιοχών της εικόνας µε διαφορετικές εντάσεις φωτει-
νότητας. Χρησιµοποιείται επίσης για να διαχωρίσει τις ακµές από την υπόλοιπη εικό-
να ύστερα από την ανίχνευσή τους. Στην υποενότητα 4.1 θα γίνει παρουσίαση µερι-
κών από τις πιο γνωστές µεθόδους της τεχνικής αυτής.
Ανίχνευση Περιγράµµατος (Boundary Detection): Με την εφαρµογή της µεθόδου
αυτής εντοπίζονται τα σηµεία του περιγράµµατος των µορφών, που περιέχονται στην
εικόνα. Η τεχνική αυτή έπεται συνήθως της κατωφλίωσης και η εφαρµογή της σε εικό-
νες, στις οποίες έχει γίνει ο διαχωρισµός των περιοχών τους, είναι σχετικά εύκολη.
Στο Σχ. 1.2 δίνεται ένα παράδειγµα εικόνας στην οποία επιχειρείται ο εντοπισµός
περιοχών της. Η εικόνα είναι η ασπρόµαυρη µορφή µιας δορυφορικής φωτογραφίας
και δείχνει µερικά νησιά του Αιγαίου. Στην εικόνα αυτή έχει γίνει κατά σειρά παρα-
γώγιση, κατωφλίωση και ανίχνευση του περιγράµµατος. Με τη βοήθεια της τελευ-
ταίας εικόνας µπορεί να γίνει εύκολα ο διαχωρισµός της περιοχής κάθε νησιού από
την υπόλοιπη εικόνα. Στην υποενότητα 5.1 δίνεται ένα αλγόριθµος εντοπισµού του
περιγράµµατος για µονόχρωµες εικόνες.

1.3.2 AÓ·ÁÓÒÚÈÛË ÚÔÙ‡ˆÓ Î·È Ù¯ÓÈΤ˜ Ù·ÍÈÓfiÌËÛ˘

Αναγνώριση Προτύπων είναι η επιστηµονική περιοχή, που ασχολείται µε το σχεδια-


σµό συστηµάτων ικανών να ταξινοµήσουν πρότυπα (patterns) σε κατηγορίες
(classes). Η διαδικασία Αναγνώρισης Προτύπων περιλαµβάνει συνήθως δύο βασικά
στάδια. Στο πρώτο στάδιο, για καθένα από τα πρότυπα που λαµβάνονται στην είσο-
δο, εξάγονται και υπολογίζονται τα Ουσιώδη Χαρακτηριστικά (features). Τα ουσιώ-
δη χαρακτηριστικά, ή απλά χαρακτηριστικά, είναι µια κατάλληλη κωδικοποίηση της
πληροφορίας που εµπεριέχεται σε κάθε πρότυπο. Με άλλα λόγια, αποτελούν την
ποσοτικοποίηση της χρήσιµης πληροφορίας, που χαρακτηρίζει το κάθε πρότυπο. Με
βάση τα ουσιώδη χαρακτηριστικά που τελικά επιλέγονται, γίνεται, στο δεύτερο στά-
διο, η ταξινόµηση του προτύπου σε µια από τις κατηγορίες του συστήµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 24

24 ∏ ∞¡∞°¡øƒπ™∏ ¶ƒ√∆À¶ø¡ ∫∞π ∏ ∞¡∞§À™∏ ∂π∫√¡∞™

™∆∞¢π√ 1. À¶√§√°π™ª√™ ∫∞π ∂•∞°ø°∏ √À™πø¢ø¡ Ã∞ƒ∞∫∆∏ƒπ™∆π∫ø¡

Ο αριθµός των χαρακτηριστικών που µπορούν να υπολογιστούν είναι συνήθως πολύ


µεγαλύτερος από τον αριθµό εκείνων που τελικά υιοθετούνται. Ως χαρακτηριστικά
µπορεί να χρησιµοποιηθούν γεωµετρικά µεγέθη του σχήµατος, όπως το περίγραµ-
µα (boundary) µιας περιοχής, το εµβαδόν της επιφάνειας ή η εκκεντρότητα της
περιοχής, κτλ. Ουσιώδη χαρακτηριστικά µπορεί να εξαχθούν και από κάποιο µετα-
σχηµατισµό του σήµατος της εικόνας της περιοχής (π.χ. DFT), ή µπορεί να είναι
αριθµοί που περιγράφουν τη στατιστική κατανοµή της έντασης στην επιφάνεια της
εικόνας–πρότυπο. Τέτοια µεγέθη είναι, για παράδειγµα, οι στατιστικές ροπές
(statistical moments).
Από την αρχική παλέτα των ουσιωδών χαρακτηριστικών τελικά επιλέγονται (feature
selection) εκείνα µε το µεγαλύτερο πληροφοριακό περιεχόµενο, σε σχέση βέβαια πάντα
µε τη συγκεκριµένη ταξινόµηση που είναι το ζητούµενο. Η επιλογή αυτή γίνεται µε
βάση τις µορφές–πρότυπα, που πρέπει να ταξινοµηθούν και συγχρόνως την αποτελε-
σµατικότητα που θα έχουν τα χαρακτηριστικά αυτά στην εκτέλεση των αλγορίθµων
ταξινόµησης. Στα Κεφάλαια πέντε και έξι γίνεται µια αναλυτική παρουσίαση των πιο
βασικών από τα ουσιώδη χαρακτηριστικά, που χρησιµοποιούνται στην πράξη.

™∆∞¢π√ 2. ∆∂áπ∫∂™ ∆∏™ ∆∞•π¡√ª∏™∏™

Το στάδιο αυτό χαρακτηρίζει τις τεχνικές εκείνες που χρησιµοποιούνται για το δια-
χωρισµό των προτύπων σε κατηγορίες. Η «είσοδος» στο στάδιο αυτό είναι τα επι-
λεγµένα χαρακτηριστικά που περιγράφουν το πρότυπο και η «έξοδος» η κλάση, στην
οποία το πρότυπο κατατάσσεται. Για παράδειγµα, σ’ ένα σύστηµα αυτόµατης ανα-
γνώρισης ιατρικών εικόνων το σύστηµα πρέπει να αποφασίζει εάν η περιοχή (πρό-
τυπο), του απεικονιζόµενου όγκου, αντιστοιχεί στην κλάση «καλοήθους» ή «κακοή-
θους» όγκου.
Οι τεχνικές ταξινόµησης υποδιαιρούνται σε δύο µεγάλες κατηγορίες. Στις Τεχνικές
Ταξινόµησης µε Επίβλεψη και στις Τεχνικές χωρίς Επίβλεψη. Στην πρώτη από τις
δύο κατηγορίες οι κλάσεις είναι εκ των πρότερων γνωστές και το σύστηµα ταξινό-
µησης εκπαιδεύεται µε ένα αριθµό γνωστών προτύπων εκπαίδευσης (training
patterns) από κάθε κλάση. Για το παράδειγµα που προαναφέραµε, αυτό προϋποθέ-
τει ότι εχουµε στη διάθεσή µας από ένα νοσοκοµείο έναν αριθµό ακτινογραφιών που
αντιστοιχούν σε ασθενείς µε καλοήθεις και κακοήθεις όγκους. Μετά την εκπαίδευ-
ση (σχεδιασµό) του συστήµατος ταξινόµησης, αυτό µπορεί να ταξινοµήσει στη µία
ή την άλλη κλάση ένα άγνωστο πρότυπο, το οποίο πρέπει να αναγνωρίσουµε. Στην
ταξινόµηση χωρίς επίβλεψη το πρόβληµα είναι πιο δύσκολο διότι δεν διαθέτουµε
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 25

1.3 ª∂£√¢√π ∫∞π ∆∂áπ∫∂™ ∆∏™ ∞¡∞§À™∏™ ∂π∫√¡∞™ ∫∞π ∆∏™ ∞¡∞°¡øƒπ™∏™ ¶ƒ√∆À¶ø¡ 25

πρότυπα γνωστά, ή, και δεν γνωρίζουµε εκ των προτέρων τον αριθµό των κλάσεων.
Στο βιβλίο αυτό θα ασχοληθούµε µόνο µε ταξινόµηση µε επίβλεψη.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 1.1

Να αντιστοιχίσετε καθεµιά από τις τεχνικές Επεξεργασίας Εικόνας που αναγρά-


φονται στην αριστερή στήλη, µε µια λειτουργική βαθµίδα της δεξιάς στήλης.

Κατωφλίωση
Βελτίωση Εικόνας
Εξαγωγή Χαρακτηριστικών
Αποµάκρυνση του θορύβου από την Κατάτµηση Εικόνας
εικόνα
Ανίχνευση Ακµών
Αναγνώριση Μορφών και Σκηνής
Εξάλειψη των παραµορφώσεων εικόνας

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 1.2

Τι είναι σωστό και τι λάθος από τα παρακάτω;


Σωστό Λάθος
1. Ο υπολογιστής, όπως υπερέχει του ανθρώπου στην
εκτέλεση των αριθµητικών πράξεων, έτσι υπερτερεί
αυτού και στην ικανότητα αναγνώρισης της εικόνας. ❏ ❏
2. Για την τόνωση των ακµών µιας εικόνας
χρησιµοποιείται παραγώγιση της εικόνας. ❏ ❏
3. Τα συστήµατα λήψης εικόνας στα ΣΟΑ παράγουν
τέλειες εικόνες, έτοιµες για ανάλυση. ❏ ❏
4. Ο υπολογιστής ευκολότερα κατασκευάζει µια
ασπρόµαυρη εικόνα από µια µονόχρωµη,
παρά το αντίστροφο. ❏ ❏
5. Η ταξινόµηση ενός προτύπου γίνεται µε βάση
τα ουσιώδη χαρακτηριστικά του. ❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 26

26 ∏ ∞¡∞°¡øƒπ™∏ ¶ƒ√∆À¶ø¡ ∫∞π ∏ ∞¡∞§À™∏ ∂π∫√¡∞™

™‡ÓÔ„Ë
Στις παραγράφους που µελετήσαµε στο παρόν εισαγωγικό Κεφάλαιο έγινε µια γενι-
κή επισκόπηση του υλικού από το οποίο απαρτίζεται το βιβλίο. Μια δεύτερη ανά-
γνωση της εισαγωγής, µετά τη µελέτη ολόκληρου του βιβλίου, θα σας βοηθήσει να
έχετε µια ολοκληρωµένη και καθαρή άποψη για το αντικείµενο που διδαχθήκατε.
Στις παραγράφους του κεφαλαίου αυτού είδαµε:
• Την ανάγκη που υπάρχει στην πράξη για την αυτόµατη αναγνώριση της εικόνας
από τον υπολογιστή.
• Τη λειτουργική δοµή ενός Αυτόµατου Συστήµατος Οπτικής Αναγνώρισης.
• Εφαρµογές των Αυτόµατων Συστηµάτων Οπτικής Αναγνώρισης.
• Τις Βασικές βαθµίδες στη διαδικασία της Ανάλυσης Εικόνας .
• Τις Βασικές βαθµίδες ενός συστήµατος Αναγνώρισης Προτύπων.
Όσοι επιθυµούν µια συµπληρωµατική εισαγωγική περιγραφή του αντικειµένου µπο-
ρούν να συµβουλευτούν τη βιβλιογραφία που παραθέτουµε.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 27

B I B § I O ° PA º I A 27

µÈ‚ÏÈÔÁÚ·Ê›·

1. Α. Σκόρδας, Β. Αναστασόπουλος, «Ψηφιακή Επεξεργασία Εικόνων και Σηµά-


των», Ελληνικό Ανοικτό Πανεπιστήµιο, 1999.
2. Ιωάννης Πήτας, «Ψηφιακή Επεξεργασία Εικόνας», Θεσσαλονίκη 1996.
3. R. C. Gonzalez, R.E Woods, «Digital Image Processing», Addison–Wessley 1993.
4. S. Theodoridis, K. Koutroumbas, «Pattern Recognition», Academic Press, 1998.
5. Γ. Καραγιάννης , «Αναγνώριση Προτύπων (µηχανές που µαθαίνουν)» , Εκδ. Συµε-
ών Ζορµπά, Αθήνα 1996.
6. Gregory A. Baxes, «Digital Image Processing Principal and Applications», John
Wiley & Sons,1994.
7. Stephen Banks, «Signal Processing Image Processing and Pattern Recognition»,
Prentice Hall, 1990.
8. M. Sonka, V. Hlavac, R. Boyle, «Image Processing, Analysis and Mashine
Vision», Chapman & Hall Computing, London 1995
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 28
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 29

H „ËÊȷ΋ ÂÈÎfiÓ·
Î·È Ë ‰È·¯Â›ÚËÛ‹ Ù˘ ·fi ÙÔÓ ˘ÔÏÔÁÈÛÙ‹

™ÎÔfi˜
∫ ∂

Σκοπός του κεφαλαίου αυτού είναι να παρουσιάσει τη µεθοδολογία µε την οποία δηµι-
ουργείται µια ψηφιακή εικόνα, καθώς και τον τρόπο που ο υπολογιστής διαχειρίζε-
ται την ψηφιακή εικόνα στις µονάδες αποθήκευσης, κατά την εκτέλεση των αλγορίθ-
∞ § ∞ π √

µων και κατά την παρουσίασή της στην οθόνη.

¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Mετατρέπετε σε ψηφιακή εικόνα ένα δισδιάστατο αναλογικό σήµα.
• Xειρίζεστε την ψηφιακή εικόνα όπως έναν πίνακα αριθµών.
• Oρίζετε τους όρους pixel εικόνας, pixel οθόνης, διακριτική ικανότητα οθόνης, δια-
κριτική ικανότητα pixel και µέγεθος εικόνας.
• Yπολογίζετε το πλήθος των bytes, που χρειάζεται µια εικόνα για να αποθηκευτεί
στη µονάδα αποθήκευσης.
• Yπολογίζετε το πλήθος των bytes που χρειάζονται για να γίνει ανακατασκευή της
ψηφιακής εικόνας και παρουσίασή της στην οθόνη του υπολογιστή.

ŒÓÓÔȘ ÎÏÂȉȿ
• Ανακατασκευή Εικόνας
• Ασπρόµαυρη Εικόνα
• ∆ειγµατοληψία
• ∆ιακριτική Ικανότητα Βάθους Οθόνης
• ∆ιακριτική Ικανότητα Οθόνης
• ∆ίτονη Εικόνα
• ∆υαδική Εικόνα
• Εύρος Βαθµίδας Κβάντισης
• Θόρυβος Κβάντισης
• Κβάντιση
• Κύκλωµα Κβάντισης
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 30

30 H æ∏ºπ∞∫∏ ∂π∫√¡∞ ∫∞π ∏ ¢π∞Ã∂πƒ∏™∏ ∆∏™ ∞¶√ ∆√¡ À¶√§√°π™∆∏

• Μονόχρωµη Εικόνα
• Pixel Εικόνας
• Pixel Οθόνης
• Πλήθος Σταθµών Κβάντισης
• Σαρωτής
• Ψηφιακή Εικόνα

∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Η βιβλιογραφία αναφέρει χρήση της ψηφιακής εικόνας από το 1921. Πρόκειται για
ασπρόµαυρες δηµοσιογραφικές εικόνες της εποχής µε ικανοποιητική ευκρίνεια [1], που
διαβιβάζονταν µέσα από υποβρύχιο καλώδιο µεταξύ Λονδίνου και Νέας Υόρκης. Στην
εποχή µας, έγχρωµες ψηφιακές εικόνες µεγάλης ευκρίνειας, διαβιβάζονται προς σταθ-
µούς της γης από αποµακρυσµένα σηµεία του διαστήµατος. Παράλληλα, ένας τεράστιος
αριθµός ψηφιακών εικόνων διακινούνται καθηµερινά µέσα από το διαδίκτυο, ή µετα-
φέρονται µε τα CD–ROM ή ακόµη µεταδίδονται από την ψηφιακή τηλεόραση.
Γιατί όµως η προτίµηση αυτή στις ψηφιακές εικόνες; Η εύκολη και η απόλυτα ακρι-
βής αντιγραφή τους, η δυνατότητα συµπίεσης και διαβίβασης τους µέσα από τα ψηφια-
κά δίκτυα δεδοµένων, η δυνατότητα αποθήκευσής τους σε ψηφιακά µέσα για απεριό-
ριστο χρόνο, χωρίς να υποστούν οποιαδήποτε αλλοίωση στην ποιότητά τους, καθώς
και η δυνατότητα επεξεργασίας τους από τον υπολογιστή είναι µερικές µόνο από τις
αιτίες που οι ψηφιακές επικράτησαν των αναλογικών εικόνων στις πιο πολλές εφαρ-
µογές. Στο µέλλον, φαίνεται ότι η αντικατάσταση αυτή θα είναι γενικός κανόνας.
Το Κεφάλαιο αυτό αποτελείται από τέσσερις ενότητες, οι οποίες ασχολούνται µε τη
δηµιουργία της ψηφιακής εικόνας και τη διαχείρισή της από τον υπολογιστή. Στην
πρώτη ενότητα (Ενότητα 2.1), γίνεται η παρουσίαση της εικόνας ως ένα δισδιάστα-
το ή τρισδιάστατο σήµα και εξηγείται η ανάγκη της ψηφιοποίησής της για τη δηµι-
ουργία της ψηφιακής εικόνας. Η τεχνική της ψηφιοποίησης παρουσιάζεται στις επό-
µενες δύο παραγράφους. Πιο συγκεκριµένα, στην Ενότητα 2.2 περιγράφεται η διαδι-
κασία της δειγµατοληψίας της εικόνας και οι κανόνες που πρέπει να τηρούνται σ’
αυτήν, ενώ στην επόµενη (Ενότητα 2.3) περιγράφονται οι διαδικασίες της κβάντισης
και της κωδικοποίησης. Τέλος, στην τελευταία ενότητα (Ενότητα 2.4) περιγράφεται
ο τρόπος ανακατασκευής µιας ψηφιακής εικόνας και η παρουσίασή της στην οθόνη
του υπολογιστή. Για την παρακολούθηση αυτού του κεφαλαίου, ο αναγνώστης δεν
χρειάζεται ιδιαίτερες γνώσεις από άλλες περιοχές επιστήµης.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 31

2 . 1 ∂ π ∫ √ ¡ ∞ : ∂ ¡ ∞ ™ ∏ ª ∂ π √ ¢ À √ ∏ ∆ ƒ π ø ¡ ¢ π ∞ ™ ∆∞ ™ ∂ ø ¡ 31

2.1 ∂ÈÎfiÓ·: ŒÓ· ÛËÌÂ›Ô ‰‡Ô ‹ ÙÚÈÒÓ ‰È·ÛÙ¿ÛˆÓ

Γενικά, µια ακίνητη εικόνα είναι ένα σήµα z = f(x,y) µε δύο ανεξάρτητες µεταβλη-
τές. Στο σήµα αυτό η εξαρτηµένη µεταβλητή z αντιστοιχεί στην ένταση φωτεινότη-
τας της εικόνας και οι ανεξάρτητες µεταβλητές x και y είναι οι δυο γεωµετρικές δια-
στάσεις του υποστρώµατος της εικόνας, το πλάτος και το µήκος. Σε µια έγχρωµη
εικόνα, η τιµή του σήµατος σε ένα σηµείο Σ του υποστρώµατος, µε συντεταγµένες
(x,y), είναι µια διατεταγµένη τριάδα µη αρνητικών πραγµατικών αριθµών (R,G,B).
Καθένας από αυτούς δίνει την ένταση για ένα από τα τρία βασικά χρώµατα, στα
οποία αναλύεται η απόχρωση του φωτός που εκπέµπει το Σ. Τα τρία αυτά βασικά
χρώµατα είναι το ερυθρό ( Στις ασπρόµαυρες (grayscale) εικόνες η ένταση είναι η
ίδια και για τα τρία αυτά R), το πράσινο (G) και το κυανούν (B) βασικά χρώµατα.
Την κοινή αυτή τιµή δεχόµαστε ως την τιµή του σήµατος z.

α β

f(x,y)
™¯‹Ì· 2.1
Παραδείγµατα εικόνων που χρησιµοποι-
ούνται σε διαφορετικές επιστηµονικές
περιοχές. Στο (γ) έχουν σχεδιαστεί οι διευ-
θύνσεις αύξησης των ανεξάρτητων µετα-
x γ βλητών x,y.

Στο Σχ. 2.1 δίνουµε µερικά παραδείγµατα από εικόνες. Πρόκειται για εικόνες που
έχουν ληφθεί µε διαφορετικούς τύπους αισθητήρων και χρησιµοποιούνται σε δια-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 32

32 H æ∏ºπ∞∫∏ ∂π∫√¡∞ ∫∞π ∏ ¢π∞Ã∂πƒ∏™∏ ∆∏™ ∞¶√ ∆√¡ À¶√§√°π™∆∏

φορετικές επιστηµονικές περιοχές. Η εικόνα του Σχ. 2.1α είναι µια δορυφορική
φωτογραφία, η οποία έχει ληφθεί µε αισθητήρα ευαίσθητο σε ακτινοβολία µε µήκος
κύµατος στην περιοχή του υπερύθρου (infrared). Στον τύπο αυτό των εικόνων, η
ένταση σχετίζεται µε τη θερµοκρασία του αντικειµένου που φωτογραφίζεται. Η εικό-
να του 2.1β είναι επίσης δορυφορική φωτογραφία και έχει ληφθεί στο ορατό φάσµα
του φωτός. Τέλος, στο 2.1γ έχουµε µια ιατρική εικόνα. Πρόκειται για µια ακτινο-
γραφία. Εδώ η ένταση της εικόνας είναι ανάλογη προς την απορρόφηση της ακτι-
νοβολίας ακτίνων x από τους ιστούς.
Στην εικόνα του Σχ. 2.1γ, έχει σηµειωθεί η φορά µεταβολής των µεταβλητών x,y. Η
αρχή των αξόνων είναι στο πάνω αριστερά άκρο της εικόνας. Η πρώτη µεταβλητή,
x, µεταβάλλεται από πάνω προς τα κάτω και η δεύτερη, y, από αριστερά προς τα
δεξιά. Πρέπει να τονιστεί, ότι η διάταξη αυτή των αξόνων έχει καθιερωθεί διεθνώς
και ακολουθείται στη διαχείριση της εικόνας και διαφέρει από την αντίστοιχη διά-
ταξη που συνήθως χρησιµοποιούµε στις γραφικές παραστάσεις. Η κινούµενη εικό-
να, όπως αυτή που βλέπουµε στην τηλεόραση ή στον κινηµατογράφο, είναι ένα τρισ-
διάστατο σήµα z = f(x,y,t), όπου η τρίτη ανεξάρτητη µεταβλητή είναι ο χρόνος t.
Όπως και κάθε άλλο σήµα, έτσι και η εικόνα µπορεί να υπάρξει στη συνεχή ή αναλο-
γική µορφή, και στη διακριτή ή ψηφιακή µορφή. Στην αναλογική εικόνα τα φωτει-
νά σηµεία ευρίσκονται τοποθετηµένα µε συνεχή τρόπο σε όλο το υπόστρωµα. Η έντα-
ση φωτεινότητας σε κάθε σηµείο της µπορεί να πάρει οποιαδήποτε τιµή µέσα σε ένα
καθορισµένο διάστηµα µη αρνητικών πραγµατικών αριθµών. Αναλογικές είναι όλες
οι εικόνες που λαµβάνουµε σε φιλµ, σε φωτογραφικό χαρτί, τα χειρόγραφα και άλλα.
Η ψηφιακή εικόνα προκύπτει είτε από ψηφιοποίηση της αναλογικής εικόνας µε ειδι-
κές συσκευές, τους σαρωτές (scanners ), είτε από την απευθείας λήψη φωτογραφίας
µε ψηφιακές φωτογραφικές µηχανές. Στην τελευταία αυτή περίπτωση η ψηφιοποίη-
ση γίνεται στο αναλογικό είδωλο που δηµιουργείται µέσα στη µηχανή. Τέλος, ψηφια-
κές εικόνες µπορούν να δηµιουργηθούν από τον ίδιο υπολογιστή, είτε τεχνητές είτε
ως αποτέλεσµα επεξεργασίας άλλων ψηφιακών εικόνων. Οι εικόνες που βλέπουµε
στην οθόνη του υπολογιστή µας, καθώς και οι εκτυπώσεις του, είναι όλες ψηφιακές.
Η ψηφιοποίηση µιας εικόνας, όπως και κάθε σήµατος, περιλαµβάνει δύο στάδια:
• Τη δειγµατοληψία (sampling) της αναλογικής εικόνας.
• Tην κβάντιση (quantization) των δειγµάτων.
Αυτές οι δύο λειτουργίες διαδέχονται η µια την άλλη, για κάθε δείγµα που λαµβάνεται.
Στην πραγµατικότητα η διαχείριση των δειγµάτων από τον υπολογιστή προϋποθέτει
πάντα µία κβάντιση, επειδή τα δείγµατα είναι πραγµατικοί αριθµοί και δεν µπορούν να
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 33

2 . 2 ∏ ¢ ∂ π ° ª ∞∆ √ § ∏ æ π ∞ ∆ ∏ ™ ∞ ¡ ∞ § √ ° π ∫ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 33

αποθηκευτούν σε έναν καταχωρητή, παρά µόνο αφού πρώτα κβαντιστούν, λόγω του
πεπερασµένου αριθµού bits που διαθέτουν οι καταχωρητές σ’ έναν υπολογιστή.

2.2 ∏ ¢ÂÈÁÌ·ÙÔÏË„›· Ù˘ ·Ó·ÏÔÁÈ΋˜ ÂÈÎfiÓ·˜

Στο Σχ. 2.2α, έχουµε σχεδιάσει το διάγραµµα ενός συνεχούς δισδιάστατου σήµατος
z = f(x,y), µε πεδίο ορισµού Π, το τετράγωνο που ορίζεται από τις σχέσεις, –2 ≤ x ≤
2 και –2 ≤ y ≤ 2. Όπως φαίνεται στο Σχ. 2.2β, για να δειγµατοληπτηθεί το σήµα αυτό,
ορίζεται ένα τετραγωνικό πλέγµα µε ευθείες παράλληλες προς τους άξονες των µετα-
βλητών x και y και µε µήκος πλευράς d. Η τιµή του d, στο παράδειγµα του σχήµα-
τος, έχει ληφθεί ίση µε το 1/4 της πλευράς του Π, δηλαδή d = 1. Στη συνέχεια αριθ-
µούνται οι ευθείες του πλέγµατος και κάθε κόµβος του αντιστοιχεί σε ένα διατεταγ-
µένο ζεύγος ακεραίων (m,n). Οι ακέραιοι αυτοί είναι οι δύο αύξοντες αριθµοί των
γραµµών που ορίζουν τον κόµβο και ξεκινούν µε 1.

z=f(x,y)

y
x
α

(1,5)
5
4
(1,1) 1 3
2 ™¯‹Ì· 2.2
2
1 3 α) Το σήµα z =
4 (5,5)
5 f(x,y). β) Η δειγ-
d µατοληψία του
(5,1) β σήµατος z = f(x,y).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 34

34 H æ∏ºπ∞∫∏ ∂π∫√¡∞ ∫∞π ∏ ¢π∞Ã∂πƒ∏™∏ ∆∏™ ∞¶√ ∆√¡ À¶√§√°π™∆∏

Ας υποθέσουµε ότι ο κόµβος Κ αντιστοιχεί στο διατεταγµένο ζεύγος (mK,nK) και έχει
συντεταγµένες (xK,yK). Ο αναγνώστης µπορεί εύκολα να επαληθεύσει ότι ισχύει:
xK = –3+mK και yK = –3+nK (2.1)
Χρησιµοποιώντας τη σχέση (2.1) για κάθε κόµβο του πλέγµατος (m,n) λαµβάνεται
ένα δείγµα s(m,n) που ισούται µε την τιµή του σήµατος f(x,y) στο σηµείο του κόµ-
βου. Τα δείγµατα αυτά αποτελούν τα στοιχεία ενός πίνακα Ε διαστάσεων 5 × 5.
Στην ακολουθία των δειγµάτων που έχει ληφθεί, όπως φαίνεται και από το Σχ. 2.2β,
έχει αποτυπωθεί ένα µέρος µόνο από τις λεπτοµέρειες του αρχικού σήµατος. Αν επα-
ναλάβουµε τη διαδικασία µε πλευρά πλέγµατος d µικρότερη από το 1/4 της πλευράς
του Π, θα καλύψουµε περισσότερες λεπτοµέρειες του σήµατος, αλλά συγχρόνως, ο
πίνακας των δειγµάτων E θα έχει µεγαλύτερη διάσταση. Το ερώτηµα που προκύπτει
είναι πόσο µικρό πρέπει να γίνει το πλέγµα δειγµατοληψίας και πόσο µεγάλη η διά-
σταση του πίνακα E, ώστε να είµαστε «ικανοποιηµένοι» από τις λεπτοµέρειες του
αρχικού σήµατος που έχουν αποτυπωθεί στα δείγµατα.
Το ερώτηµα αυτό έχει απαντηθεί από τον Nyquist [6], σύµφωνα µε το θεώρηµα του
οποίου αποδεικνύεται ότι, όταν είναι d ≤ dMAX, όπου dMAX ένα πάνω φράγµα, τότε
από τα δείγµατα που έχουν ληφθεί στους κόµβους του πλέγµατος υπολογίζεται µε
απόλυτη ακρίβεια η τιµή του αρχικού σήµατος, σε οποιοδήποτε σηµείο µεταξύ των
κόµβων αυτών. Αυτό σηµαίνει ότι όταν d ≤ dMAX, µπορεί να γίνει πλήρης και ακρι-
βής ανακατασκευή του αρχικού σήµατος από τα δείγµατα που λαµβάνονται, άρα µε
τη δειγµατοληψία δεν χάνεται πληροφορία. Η τιµή dMAX σχετίζεται µε τη µέγιστη
φασµατική Fourier συνιστώσα στο πεδίο συχνοτήτων [6]. Στο σηµείο αυτό, θα πρέ-
πει να αναφέρουµε ότι δεν είναι απαραίτητο πάντα το πλέγµα των σηµείων δειγµα-
τοληψίας να έχει τετραγωνική µορφή όπως στο Σχ. 2.2β. Υπάρχουν τεχνικές µε άλλες
µορφές πλέγµατος, αλλά δεν θα επεκταθούµε σε περισσότερες λεπτοµέρειες στο
θέµα αυτό. Ο αναγνώστης που επιθυµεί µια λεπτοµερέστερη προσέγγιση των τεχνι-
κών της δειγµατοληψίας εικόνας, µπορεί να διαβάσει τα αντίστοιχα κεφάλαια από
τα [2,3]. Εδώ θα αναφέρουµε µόνο ότι:
• To µήκος του d που θα επιλέξουµε για τη δειγµατοληψία µιας αναλογικής εικόνας,
εξαρτάται από το σήµα που δειγµατοληπτούµε. Η τιµή αυτή πρέπει να είναι τόσο
µικρότερη, όσο ταχύτερες είναι οι µεταβολές που παρουσιάζει το σήµα.
• Αν το µήκος του d επιλεγεί µεγαλύτερο από ότι πρέπει, το σήµα που θα προκύψει
κατά την ανακατασκευή θα έχει παραµορφώσεις και θα χαθούν από αυτό λεπτοµέ-
ρειες του αρχικού σήµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 35

2 . 2 ∏ ¢ ∂ π ° ª ∞∆ √ § ∏ æ π ∞ ∆ ∏ ™ ∞ ¡ ∞ § √ ° π ∫ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 35

• Αν το µήκος του d επιλεγεί πολύ µικρό, ο αριθµός δειγµάτων µεγαλώνει πολύ και
έτσι αυξάνει τόσο ο χρόνος επεξεργασίας της ψηφιοποιηµένης εικόνας, όσο και οι
ανάγκες για αποθήκευση.
Από τις δύο τελευταίες επισηµάνσεις προκύπτει ότι το d πρέπει να επιλέγεται µε προ-
σοχή, έτσι ώστε ούτε σηµαντικές λεπτοµέρειες να χάνονται, ούτε υπερβολικός όγκος
δεδοµένων να δηµιουργείται.
Στο Σχ. 2.3 δίνεται ένα παράδειγµα κακής επιλογής του d. Συγκεκριµένα, δίνονται
οι εκτυπώσεις από δύο ασπρόµαυρες ψηφιακές εικόνες, που έχουν δηµιουργηθεί µε
δειγµατοληψία της ίδιας αναλογικής. Στην αριστερή εικόνα, το µήκος του πλέγµα-
τος δειγµατοληψίας είχε αρκετά µικρή τιµή, και για το λόγο αυτό φαίνεται καθαρά
η υφή του υφάσµατος. Αντίθετα, στη δεξιά εικόνα, το πλέγµα δειγµατοληψίας ήταν
µεγαλύτερο από το επιτρεπτό. Το αποτέλεσµα είναι ότι χάθηκαν οι λεπτοµέρειες της
εικόνας του υφάσµατος. Παρά ταύτα, στην περίπτωση αυτή, το µήκος του πλέγµα-
τος είναι αρκετά µικρό για να φανεί µε σχετική ευκρίνεια το λουλούδι, στο οποίο η
ένταση φωτεινότητας παρουσιάζει πολύ µικρότερη συχνότητα εναλλαγής.

™¯‹Ì· 2.3
Αριστερά: Σωστή
δειγµατοληψία.
∆εξιά: Έχουν
ληφθεί λιγότερα
δείγµατα από τα
αναγκαία.

Στο τέλος λοιπόν της δειγµατοληψίας διαθέτουµε έναν πίνακα πραγµατικών αριθ-
µών Ε. Το στοιχείο Ε(m,n) είναι η τιµή της έντασης φωτεινότητας της εικόνας στο
αντίστοιχο σηµείο δειγµατοληψίας του πλέγµατος. Οι διαστάσεις του πίνακα Ε, που
προέκυψε από τη δειγµατοληψία του σήµατος z = f(x,y) στο Σχ. 2.2, έχουν την ίδια
τιµή και ο πίνακας είναι τετραγωνικός. Σε άλλες περιπτώσεις, ο αριθµός των γραµ-
µών του πλέγµατος δειγµατοληψίας είναι διαφορετικός σε καθεµιά από τις δύο
κατευθύνσεις και ο πίνακας Ε που προκύπτει έχει άνισες διαστάσεις, δηλαδή δεν
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 36

36 H æ∏ºπ∞∫∏ ∂π∫√¡∞ ∫∞π ∏ ¢π∞Ã∂πƒ∏™∏ ∆∏™ ∞¶√ ∆√¡ À¶√§√°π™∆∏

είναι τετραγωνικός. Όπως έχουµε ήδη αναφέρει και στο πρώτο κεφάλαιο, κάθε στοι-
χείο του πίνακα Ε είναι γνωστό και ως στοιχείο της εικόνας (picture element) ή πιο
συχνά ως pixel της ψηφιακής εικόνας.
Όταν η εικόνα που θέλουµε να δειγµατοληπτήσουµε είναι έγχρωµη, σε κάθε pixel
αντιστοιχούν τρεις πραγµατικές τιµές (R,G,B) και µε αυτές κατασκευάζονται τρεις
πίνακες πραγµατικών αριθµών, ο ΕR, ο ΕG και ο ΕB.

¶·Ú¿‰ÂÈÁÌ· 2.1
Το σήµα στο Σχ. 2.2α δίνεται από τη συνάρτηση z = g(x,y) = |sinc(0,8x)| |sinc(0,8y)|
ηµ (πw )
όπου sin c(w ) = για w ≠ 0 και sin c(w) = 1 για w = 0. Το διάγραµµα του Σχ.
πw
2.2α δίνει τις τιµές του σήµατος για το υποσύνολο Π του R2:

Π = {( x,y ):|x| ≤ 2 κ αι |y| ≤ 2 }


α) Να υπολογίσετε τις συντεταγµένες του επιπέδου για τα σηµεία δειγµατοληψίας
στo πλέγµα του Σχ. 2.2β.
β) Να υπολογίσετε τις τιµές των δειγµάτων, που λαµβάνονται µε το πλέγµα δειγµα-
τοληψίας του Σχ. 2.2β. Για να παρουσιάσετε τις τιµές αυτές στον πίνακα των δειγ-
µάτων E, να τις στρογγυλοποιήσετε στα τρία δεκαδικά ψηφία.
Λύση
α) Εφαρµόζοντας τη σχέση (2.1) για ακέραιες τιµές του m και n από 1 έως 5 προκύ-
πτουν οι συντεταγµένες των κόµβων:

¶›Ó·Î·˜ 2.1
Οι τιµές των συντεταγµένων (x,y) για κάθε κόµβο (m,n) του πλέγµατος δειγµατοληψίας.

n =1 n =2 n =3 n =4 n =5
m=1 (–2,–2) (–2,–1) (–2,0) (–2,1) (–2,2)
m=2 (–1,–2) (–1,–1) (–1,0) (–1,1) (–1,2)
m=3 (0,–2) (0,–1) (0,0) (0,1) (0, 2)
m=4 (1,–2) (1,–1) (1,0) (1,1) (1, 2)

β) Αντικαθιστώντας τις συντεταγµένες στη συνάρτηση z = f(x,y), υπολογίζουµε εύκο-


λα τις τιµές των δειγµάτων. Στο σηµείο αυτό θέλουµε να προσέξετε ότι η συνάρ-
τηση f(x,y), ορίζεται ως το γινόµενο δύο συναρτήσεων, από τις οποίες η µία είναι
µόνο συνάρτηση της x και η άλλη µόνο συνάρτηση της y. Σε τέτοιες περιπτώσεις
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 37

2 . 2 ∏ ¢ ∂ π ° ª ∞∆ √ § ∏ æ π ∞ ∆ ∏ ™ ∞ ¡ ∞ § √ ° π ∫ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 37

θα λέµε ότι η δισδιάστατη συνάρτηση z = f(x,y) είναι συνάρτηση µε διαχωριζό-


µενες µεταβλητές. Μπορούµε τώρα να υπολογίσουµε τις τιµές στα σηµεία δειγ-
µατοληψίας πολύ εύκολα µε την ακόλουθο µέθοδο.
i) Υπολογίζεται η τιµή της g(x) = |sinc(0,8x)| για x = –2,–1,0,1,2.
Το αποτέλεσµα τοποθετείται στο διάνυσµα
gx = [0.1892, 0.2339, 1.0000, 0.2339, 0.1892]T.
ii) Υπολογίζεται η τιµή της g(y) = |sinc(0,8y)| για y = –2,–1,0,1,2.
Το αποτέλεσµα τοποθετείται στο διάνυσµα
gy = [0.1892, 0.2339, 1.0000, 0.2339, 0.1892]T.
iii) Ο 5 × 5 πίνακας τιµών E υπολογίζεται ως:

 0.036 0.044 0.189 0.044 0.036


 0.044 0.055 0.234 0.055 0.044
 
E = g x g Ty =  0.189 0.234 1.000 0.234 0.189 .
 0.044 0.055 0.234 0.055 0.044
 
 0.036 0.044 0.189 0.044 0.036

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 2.1

Τι είναι σωστό και τι λάθος από τα παρακάτω;


Σωστό Λάθος
1. Ένα σήµα, το οποίο σε κάποια σηµεία του πεδίου
ορισµού του λαµβάνει αρνητικές τιµές δεν µπορεί
να παρασταθεί ως εικόνα. ❏ ❏
2. ∆εν είναι δυνατόν να διαβιβαστεί µια εικόνα µε
τηλεπικοινωνιακό τρόπο παρά µόνο αν γίνει ψηφιακή. ❏ ❏
3. Τα δείγµατα που λαµβάνονται κατά τη δειγµατοληψία
µιας εικόνας δεν µπορούν να αποθηκευτούν απευθείας
σε ψηφιακούς καταχωρητές. ❏ ❏
4. Η επιλογή της κατάλληλης τιµής d για την πλευρά
του πλέγµατος δειγµατοληψίας γίνεται µε στόχο
τη δηµιουργία όσο το δυνατόν µικρότερης διάστασης
πίνακα δειγµάτων Ε. ❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 38

38 H æ∏ºπ∞∫∏ ∂π∫√¡∞ ∫∞π ∏ ¢π∞Ã∂πƒ∏™∏ ∆∏™ ∞¶√ ∆√¡ À¶√§√°π™∆∏

5. Μια ψηφιακή εικόνα προκύπτει πάντα


από την ψηφιοποίηση µιας αναλογικής. ❏ ❏
6. Το µοναδικό σηµείο, στο οποίο η ψηφιακή εικόνα
πλεονεκτεί της αναλογικής, είναι ότι η πρώτη
αποθηκεύεται στον υπολογιστή. ❏ ❏

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 2.2

Τι θα λέγατε αν κάποιος σας έκανε δώρο µια ψηφιακή φωτογραφική µηχανή;


Α. Ωραία! Τώρα η ποιότητα της φωτογραφιών µου θα είναι πολύ καλύτερη.
Β. Κρίµα δεν θα µπορώ να έχω τις φωτογραφίες µου στο χαρτί!
Γ. Θαυµάσια! Κάθε φωτογραφία που θα βγάζω θα φροντίζω να τη στέλνω σε
όλους τους φίλους µου που διαθέτουν ηλεκτρονικό ταχυδροµείο (e-mail).
∆. Τι πλάκες θα κάνω µε τις συνθέσεις που θα πραγµατοποιώ!
E. Τώρα πλέον θα µπορώ να µεγενθύνω αξιόπιστα οσοδήποτε επιθυµώ τις φωτο-
γραφίες µου.

2.3 ∫‚¿ÓÙÈÛË Î·È Îˆ‰ÈÎÔÔ›ËÛË ÙˆÓ ‰ÂÈÁÌ¿ÙˆÓ Ù˘ ÂÈÎfiÓ·˜

Τα δείγµατα του πίνακα Ε = {s(m,n)}, που ελήφθησαν στο στάδιο της δειγµατολη-
ψίας, µπορούν να πάρουν οποιαδήποτε τιµή, σε ένα συνεχές διάστηµα των µη αρνη-
τικών πραγµατικών αριθµών. Αυτό σηµαίνει ότι προέρχονται από ένα µη πεπερα-
σµένο αλφάβητο και σύµφωνα µε τη Θεωρία Πληροφορίας είναι αδύνατο να κωδι-
κοποιηθούν και να αποθηκευτούν σε ψηφιακό µέσο. Για το λόγο αυτό, τα δείγµατα
κβαντίζονται, δηλαδή αντικαθίστανται από προσεγγίσεις τους µε διακριτό και πεπε-
ρασµένο πεδίο τιµών.

2.3.1 ∏ ‰È·‰Èηۛ· Ù˘ ΂¿ÓÙÈÛ˘

Στο Σχ. 2.4 δίνεται το διάγραµµα και η χαρακτηριστική µεταφοράς µιας βαθµίδας
κβάντισης. Η βαθµίδα αυτή, όπως έχει σχεδιαστεί, µπορεί να κβαντίσει δείγµατα µε
τιµές στο διάστηµα (0,sMAX). Στη χαρακτηριστική µεταφοράς φαίνεται ότι το διά-
στηµα τιµών της εισόδου του κβαντιστή έχει χωριστεί σε Q διαδοχικά, σταθερού
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 39

2 . 3 ∫ µ ∞ ¡ ∆ π ™ ∏ ∫ ∞ π ∫ ø ¢ π ∫ √ ¶ √ π ∏ ™ ∏ ∆ ø ¡ ¢ ∂ π ° ª ∞∆ ø ¡ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 39

εύρους, ∆L, υποδιαστήµατα, τα ∆0, ∆1, ,…,∆Q–1. Το σταθερό εύρος έχει επιλεγεί, ∆L
= sMAX/(Q–1). Για όλες τις τιµές του σήµατος εισόδου, που βρίσκονται στο ίδιο υπο-
διάστηµα, π.χ. στο ∆J, η έξοδος του κβαντιστή είναι η ίδια, και ίση µε qJ = J⋅∆L,
δηλαδή το µέσον του διαστήµατος ∆J. Πιο αναλυτικά, για κάθε δείγµα µε τιµή s, το
κύκλωµα του κβαντιστή δίνει στην έξοδο την τιµή sq = J⋅∆L, όπου J είναι ο ακέραι-
ος για τον οποίο ισχύει

∆L ∆L
− + J∆L ≤ s < − + ( J + 1)∆L
2 2

ή ισοδύναµα J ≤ s / ∆L + 1 / 2 < ( J + 1) . Η τελευταία σχέση µας δείχνει ότι ο J είναι


το ακέραιο µέρος του s / ∆L +1 / 2 , δηλαδή τελικά ο J ισούται µε τον πλησιέστερο
ακέραιο του λόγου s / ∆L , δηλαδή:
s
sq = J⋅∆L, όπου J = ο πλησιέστερος ακέραιος του λόγου (2.2)
∆L
Η κβάντιση έχει ως αποτέλεσµα η αρχική τιµή s και η τελική τιµή sq να διαφέρουν
κατά µια ποσότητα eq = s–sq, για την οποία ισχύει |eq|≤∆L/2. Το eq καλείται σφάλ-
µα κβάντισης και επειδή για µεγάλες τιµές του Q ισχύει ∆L/2 Μ sMAX/2Q, ισχύει
|eq |≤sMAX/2Q.
Αν λοιπόν οδηγήσουµε τα δείγµατα s(m,n) του πίνακα Ε στην είσοδο του κβαντιστή,
στην έξοδό του θα πάρουµε τα κβαντισµένα δείγµατα sq(m,n). Απ’ όσα αναφέραµε
πιο πάνω, για τη χαρακτηριστική µεταφοράς του κβαντιστή, προκύπτουν τα εξής
συµπεράσµατα:
• Οι τιµές των κβαντισµένων δειγµάτων sq(m,n) ανήκουν σε ένα σύνολο µε Q διαφο-
ρετικά στοιχεία, το ΣQ = {0, ∆L, 2 ∆L, …,(Q–2)∆L, (Q–1)∆L}.
• Κάθε κβαντισµένο δείγµα sq(m,n) διαφέρει από το αρχικό δείγµα s(m,n) κατά το
σφάλµα κβάντισης |eq |≤ sMAX/2Q.
Το ∆L καλείται εύρος βαθµίδας (step size) κβάντισης και τα Q στοιχεία του ΣQ
καλούνται στάθµες (levels) κβάντισης. Στην πράξη, ο αριθµός των σταθµών κβά-
ντισης Q λαµβάνεται ίσος µε µια δύναµη του 2, δηλαδή Q = 2ν , µε ν ακέραιο φυσι-
κό αριθµό.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 40

40 H æ∏ºπ∞∫∏ ∂π∫√¡∞ ∫∞π ∏ ¢π∞Ã∂πƒ∏™∏ ∆∏™ ∞¶√ ∆√¡ À¶√§√°π™∆∏

Eίσοδοςx Kύκλωµα κβάντισης Έξοδοςx


s sq

(Q – 1)∆L

(Q – 2)∆L

3∆L

2∆L
™¯‹Ì· 2.4
∆L
Η Βαθµίδα Κβά-
∆0 ∆1 ∆2 ∆Q– ∆Q–1
ντισης και η 0
0 0.5∆L 1.5∆L 2.5∆L (Q – 2.5)∆L (Q – 1.5)∆L
Χαρακτηριστική sMAX
Μεταφοράς της. Eίσοδος κβαντιστή

2.3.2 ∏ Έ‰ÈÎÔÔ›ËÛË ÙˆÓ Î‚·ÓÙÈÛÌ¤ÓˆÓ ‰ÂÈÁÌ¿ÙˆÓ

Θα θεωρήσουµε ότι µετά την κβάντιση ο πίνακας E περιέχει τα κβαντισµένα δείγ-


µατα sq(m,n). Για την αποδοτική (efficient) αποθήκευσή τους στη µνήµη του υπο-
λογιστή, προηγείται η κατάλληλη κωδικοποίησή τους. Όπως είδαµε παραπάνω τα
κβαντισµένα δείγµατα παίρνουν διακριτές τιµές στο ΣQ, του οποίου τα στοιχεία είναι
όλα τα διαδοχικά ακέραια πολλαπλάσια του ∆L, από 0∆L µέχρι το (Q–1)∆L. Για την
κωδικοποίηση λοιπόν αντιστοιχούµε σε κάθε δείγµα το φυσικό αριθµό που προκύ-
πτει όταν διαιρέσουµε την τιµή του µε το ∆L. Έτσι, ως κωδικοί αριθµοί των δειγµά-
των χρησιµοποιούνται οι φυσικοί αριθµοί 0,1,…,Q–1. Οι κωδικοί αυτοί, για να κατα-
χωρηθούν στη µνήµη, χρειάζονται ν bits ο καθένας, όπου το ν προκύπτει από τη
σχέση Q = 2ν.
Μετά την κωδικοποίηση, το εύρος βαθµίδας θεωρείται ότι είναι ∆L = 1/Q και δεν
φυλάσσεται. Επειδή βέβαια το ∆L είχε επιλεγεί αρχικά ως sMAX/(Q–1), η παραπάνω
παραδοχή δεν αληθεύει σχεδόν ποτέ. Με την ενέργεια αυτή επέρχεται µια ενίσχυση
ή µια εξασθένιση του σήµατος, η οποία όµως δεν αλλάζει σε τίποτα τη µορφή της
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 41

2 . 3 ∫ µ ∞ ¡ ∆ π ™ ∏ ∫ ∞ π ∫ ø ¢ π ∫ √ ¶ √ π ∏ ™ ∏ ∆ ø ¡ ¢ ∂ π ° ª ∞∆ ø ¡ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 41

εικόνας. Μετά την κωδικοποίηση στον πίνακα Ε κάθε pixel αντικαθίσταται από τον
κωδικό του, ο οποίος αντιστοιχεί στο µέγεθος της έντασης φωτεινότητας του pixel.
Για παράδειγµα, αν χρησιµοποιήθηκαν 256 στάθµες κβάντισης, δηλαδή Q = 28 =
256, τα pixels µε τη µεγαλύτερη ένταση έχουν τιµή 255 × (1/256) και αυτά µε τη
µικρότερη έχουν τιµή 0 × (1/256). Όταν Q = 210 = 1024, οι πιο πάνω τιµές είναι αντί-
στοιχα 1023 × (1/1024) και 0 × (1/1024). ™¯‹Ì· 2.5
Όταν το πλήθος
των σταθµών κβά-
ντισης γίνει µικρό-
τερο από 64 εµφα-
νίζονται ψευδή
περιγράµµατα
στην εικόνα.

2.3.3 YÔ‚¿ıÌÈÛË Ù˘ ÂÈÎfiÓ·˜ ηٿ ÙËÓ Î‚¿ÓÙÈÛË

Κατά τη διαδικασία της κβάντισης, όπως έχουµε ήδη παρατηρήσει, υπήρξε µια αντι-
κατάσταση του κάθε δείγµατος s µε ένα κβαντισµένο δείγµα sq, τα οποία όµως δια-
φέρουν µεταξύ τους κατά το σφάλµα κβάντισης. Για το λόγο αυτό, η λειτουργία της
κβάντισης έχει ως αποτέλεσµα την υποβάθµιση της ποιότητας της εικόνας, δηλαδή
τη δηµιουργία θορύβου, που συνοδεύει πλέον τη νέα εικόνα για πάντα. Η υποβάθ-
µιση όµως αυτή µειώνεται όσο αυξάνει το πλήθος σταθµών κβάντισης Q, ενέργεια
όµως που θα επιφέρει την αύξηση του µήκους των κωδικών των pixels και εποµέ-
νως της µνήµης που απαιτεί η εικόνα για να αποθηκευτεί σε ψηφιακό µέσο.
Στις ασπρόµαυρες εικόνες η ελάττωση του πλήθους των σταθµών κβάντισης εκτός
από το θόρυβο, έχει και άλλο επακόλουθο. Οταν το Q γίνει µικρότερο από 32 ή 64,
κατά την ανακατασκευή της εικόνας, το ανθρώπινο µάτι αντιλαµβάνεται ότι υπάρ-
χουν ενοχλητικά περιγράµµατα (contours) σ’ αυτή. Αυτά δηµιουργούνται από οµά-
δες γειτονικών pixels που έχουν κβαντιστεί στην ίδια τιµή, δηµιουργώντας έτσι µια
περιοχή σταθερής έντασης, της οποίας το περίγραµµα είναι το όριο.
Το φαινόµενο αυτό εµφανίζεται στην εικόνα λόγω της υψηλής συσχέτισης που υπάρ-
χει µεταξύ των γειτονικών της pixels. Στο Σχ. 2.5 δίνονται δύο εικόνες του ίδιου αντι-
κειµένου. Η πρώτη έχει κβαντιστεί µε 256 στάθµες, (ν = 8), ενώ η δεύτερη, στην
οποία εµφανίζεται έντονο το φαινόµενο των περιγραµµάτων, έχει κβαντιστεί µε 32
στάθµες (ν = 5). Η κβάντιση που χρησιµοποιείται για της ασπρόµαυρες εικόνες γίνε-
ται συνήθως µε ν = 8 bits. Στην περίπτωση όµως ιατρικών εικόνων, όπου απαιτείται
καλύτερη ποιότητα, χρησιµοποιείται κβάντιση µε 10 ή 12 bits.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 42

42 H æ∏ºπ∞∫∏ ∂π∫√¡∞ ∫∞π ∏ ¢π∞Ã∂πƒ∏™∏ ∆∏™ ∞¶√ ∆√¡ À¶√§√°π™∆∏

Στις έγχρωµες εικόνες, όπως είδαµε στην ενότητα 2.2, έχουµε τρεις πίνακες δειγ-
µάτων, τους ER, EG, EB. Ένας απλός τρόπος κβάντισης είναι να κβαντιστούν τα δείγ-
µατα κάθε πίνακα µε τον ίδιο αριθµό bits, σαν να επρόκειτο για τρεις διαφορετικές
ασπρόµαυρες εικόνες. Έτσι τα δείγµατα της καθεµιάς κβαντίζονται µε ν = 8 bits και
τελικά χρησιµοποιούνται συνολικά 24 bits για κάθε pixel της έγχρωµης εικόνας.

™¯‹Ì· 2.6
Η αριστερή εικόνα
είναι µια ασπρό-
µαυρη δορυφορι-
κή φωτογραφία
νησιών του Αιγαί-
ου µε 8 bits. ∆εξιά
η αντίστοιχη
µονόχρωµη εικό-
να εικόνα (1
bit/pixel)

2.3.4 MÔÓfi¯ÚˆÌ˜ ÂÈÎfiÓ˜

Σε πολλές εφαρµογές υπάρχουν εικόνες µε κβάντιση 1 bit. Σε αυτές τα pixels έχουν


τιµές µόνο µηδέν ή ένα. Επειδή η αναπαράσταση γίνεται µε ένα χρώµα, το λευκό για
τη µέγιστη ένταση (1), και την έλλειψη οποιουδήποτε χρώµατος (0) (απόλυτο µαύρο),
στη βιβλιογραφία οι εικόνες αυτές αναφέρονται ως µονόχρωµες (monochrome), αλλά
µερικές φορές αναφέρονται ως δίτονες (bιtone) ή ακόµα και δυαδικές (binaries) εικό-
νες. Αυτές είτε δηµιουργούνται από τον υπολογιστή, όπως είναι οι εικόνες των µονό-
χρωµων κειµένων, είτε κατασκευάζονται µε µεθόδους της Ανάλυσης εικόνας από
ασπρόµαυρες εικόνες µε τη µέθοδο της κατωφλίωσης. Η ανάδειξη ουσιωδών χαρα-
κτηριστικών από τις µονόχρωµες εικόνες είναι πολύ πιο απλή από ό,τι στην ασπρό-
µαυρη. Στο Σχ. 2.6 δίνεται ένα παράδειγµα µονόχρωµης εικόνας, που προέκυψε από
την κατωφλίωση µιας δορυφορικής ασπρόµαυρης εικόνας. Στη µονόχρωµη εικόνα,
βέβαια, έχει εξαφανιστεί το ανάγλυφο, µπορούµε όµως να µετρήσουµε το πλήθος των
νησιών, την επιφάνεια και την περιφέρεια καθενός από αυτά, όπως και τις σχετικές
µεταξύ τους αποστάσεις. Η αποθήκευση της µονόχρωµης εικόνας απαιτεί ένα µικρό
ποσοστό του µεγέθους της µνήµης που απαιτεί η ασπρόµαυρη.
Ο αναγνώστης που ενδιαφέρεται για πιο εκτενή και µαθηµατικά τεκµηριωµένη περι-
γραφή της κβάντισης µπορεί να διαβάσει το αντίστοιχο Κεφάλαιο του [4].
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 43

2 . 3 ∫ µ ∞ ¡ ∆ π ™ ∏ ∫ ∞ π ∫ ø ¢ π ∫ √ ¶ √ π ∏ ™ ∏ ∆ ø ¡ ¢ ∂ π ° ª ∞∆ ø ¡ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 43

¶·Ú¿‰ÂÈÁÌ· 2.2
Nα σχεδιάσετε έναν κβαντιστή, όπως αυτόν του Σχ. 2.4, µε 16 στάθµες κβάντισης,
ικανό να κβαντίσει τα δεδοµένα του 5 × 5 πίνακα δειγµάτων Ε, που υπολογίσαµε
στο παράδειγµα 2.1. Στη συνέχεια, να κβαντίσετε τα δείγµατα και να τα κωδικοποι-
ήσετε σύµφωνα µε όσα αναπτύξαµε στην ενότητα 2.3.
Λύση
Ο πίνακας δειγµάτων, του οποίου τα στοιχεία θέλουµε να κβαντίσουµε, είναι η:

 0.036 0.044 0.036


0.189 0.044
 0.044 0.055 0.044
0.234 0.055
 
E =  0.189 0.234 0.189
1.000 0.234
 0.044 0.055 0.044
0.234 0.055
 
 0.036 0.044 0.189 0.044 0.036

Από αυτόν προκύπτει ότι sMAX = 1. Εποµένως, το εύρος βαθµίδας κβάντισης είναι
∆L = sMAX/(Q–1) = 1/15.

A. ™Ã∂¢π∞™ª√™ ∆√À ∫µ∞¡∆π™∆∏

Ακολουθώντας το Σχ. 2.4, βρίσκουµε ότι το πρώτο υποδιάστηµα τελειώνει στο 1/30.
Εύκολα υπολογίζονται και τα υπόλοιπα υποδιαστήµατα. Τα σηµεία διαχωρισµού των
υποδιαστηµάτων δίνονται από τα στοιχεία του διανύσµατος δ.
T
 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 
δ= , , , , , , , , , , , , , ,  .
 30 30 30 30 30 30 30 30 30 30 30 30 30 30 30 
Οι έξοδοι του κβαντιστή θα είναι 0, ∆L, 2∆L,...,(Q–1)∆L, δηλαδή,
T
 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
δq =  , , , , , , , , , , , , , , ,  .
15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 
µ. ∫µ∞¡∆π™∏ ∫∞π ∫ø¢π∫√¶√π∏™∏ ∆ø¡ ¢∂π°ª∞∆ø¡.

Η διαδικασία κβάντισης του κάθε δείγµατος s(m,n) γίνεται µε τη βοήθεια της σχέ-
σης (2.2). ∆ηλαδή:
• Υπολογίζεται ο πλησιέστερος ακέραιος J προς τον λόγο s(m,n) / ∆L.
• Τίθεται sq(m,n) = δq(J) = J⋅∆L και c(m,n) = J, όπου c(m,n) ο κωδικός αριθµός του
κβαντισµένου δείγµατος sq(m,n).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 44

44 H æ∏ºπ∞∫∏ ∂π∫√¡∞ ∫∞π ∏ ¢π∞Ã∂πƒ∏™∏ ∆∏™ ∞¶√ ∆√¡ À¶√§√°π™∆∏

Περνώντας διαδοχικά στον πίνακα Ε τα κβαντισµένα δείγµτα {sq(m,n)}και στη συνέ-


χεια τους κωδικούς {c(m,n)} έχουµε.

1 1 3 1 1
15 15 15 15 15
 
1 1 4 1 1 1 1 3 1 1
15 15 1

15 15 15
 1 4 1 1
3 4 15 4 3  
E= κ αι E =  3 4 15 4 3 .
15 15 1 1 4 1 1
15 15 15
1 1 4 1 1 
  
 1 1 3 1 1
15 15 15 15 15
1 1 3 1 1
 
15 15 15 15 15

2.4 H ·Ó·Î·Ù·Û΢‹ Ù˘ ÂÈÎfiÓ·˜

Μέχρι τώρα είδαµε πώς από µια αναλογική εικόνα προκύπτει η ψηφιακή. Στη συνέ-
χεια θα δούµε πώς γίνεται στην πράξη η ανακατασκευή της εικόνας. Το πλέον πρό-
σφορο µέσο ανακατασκευής της ψηφιακής εικόνας είναι η ψηφιακή οθόνη του υπο-
λογιστή µας, εφόσον βέβαια αυτή διαθέτει τις αναγκαίες προδιαγραφές. Η οθόνη
αυτή φωτίζεται από ένα πίνακα στοιχειωδών φωτεινών σηµείων για καθένα από τα
οποία η ένταση ελέγχεται ανεξάρτητα από τα υπόλοιπα. Τα φωτεινά αυτά στοιχεία
είναι γνωστά και ως pixels της οθόνης και είναι διατεταγµένα κατά γραµµές και στή-
λες όπως στο σχήµα 2.7. Για κάθε pixel της οθόνης υπάρχει ένας δυαδικός καταχω-
ρητής (register) και η ένταση του pixel της οθόνης είναι ανάλογη του περιεχοµένου
του καταχωρητή αυτού.
Ας δούµε το πρακτικό παράδειγµα του Σχ. 2.7. Στο σχήµα αυτό παρουσιάζονται δυο
εικόνες. Η πρώτη είναι ένα τµήµα από την οθόνη του υπολογιστή, πάνω στο οποίο
υπάρχει γραµµένος ένας γνωστός µας τίτλος. Η δεύτερη εικόνα περιέχει ένα τµήµα
του ίδιου τίτλου σε µεγέθυνση. Σ’ αυτήν έχει προστεθεί ένα πλέγµα µε τέτοιο τρόπο
ώστε να γίνεται φανερή η θέση των pixels της οθόνης. Από τα pixels που φαίνονται
στο σχήµα, µερικά έχουν ένταση φωτεινότητας µηδέν (µαύρα). Στα υπόλοιπα, η έντα-
ση έχει τη µέγιστη τιµή (λευκά). Στο παράδειγµα που είδαµε για να γραφεί ο τίτλος
στην οθόνη αρκεί η ένταση του κάθε pixel να µπορεί να πάρει δυο διαφορετικές τιµές.
Αν όµως θέλουµε, µε τον ίδιο τρόπο, να εµφανιστεί µια ψηφιοποιηµένη ασπρόµαυ-
ρη εικόνα, τότε οι διαφορετικές τιµές της έντασης του κάθε pixel της οθόνης, πρέπει
να είναι όσες και οι στάθµες κβάντισης των pixels της ψηφιακής εικόνας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 45

2 . 4 H ∞ ¡ ∞ ∫ ∞∆∞ ™ ∫ ∂ À ∏ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 45

Στο Σχ. 2.8 δίνεται η ανακατασκευή µιας ασπρόµαυρης ψηφιακής εικόνας στην
ψηφιακή οθόνη του υπολογιστή. Στη µεγέθυνση του τµήµατος φαίνονται τα pixels
της οθόνης, των οποίων οι εντάσεις εµφανίζουν περισσότερες από δύο διαφορετικές
τιµές. Όπως και πριν, στο σχήµα αυτό, το πλέγµα έχει χαραχθεί πάνω από την εικό-
να της µεγέθυνσης, για να αποδώσει τις θέσεις των pixels.
™¯‹Ì· 2.7
Αριστερά, τµήµα του
περιεχοµένου της
οθόνης του υπολογι-
στή. ∆εξιά, ένα
µικρό τµήµα από τη
µεγέθυνση. Σ’ αυτό
έχει προστεθεί ένα
πλέγµα µε τέτοιο
τρόπο ώστε να
ξεχωρίζουν τα
φωτεινά σηµεία
(pixels) της οθόνης.

Όταν πρόκειται να αναπαραχθούν έγχρωµες ψηφιακές εικόνες, το κάθε pixel της οθό-
νης πρέπει να έχει δυνατότητα εκποµπής έγχρωµου φωτός. Για το λόγο αυτό, η κατα-
σκευή της έγχρωµης οθόνης είναι πιο σύνθετη από αυτή της ασπρόµαυρης. Στο κάθε
pixel οθόνης αντιστοιχούν τρεις καταχωρητές, ένας για το κάθε βασικό χρώµα. Όταν
οι καταχωρητές έχουν αρκετό µήκος, ελέγχεται µε µεγάλη ακρίβεια το χρώµα του
pixel της οθόνης. Για παράδειγµα, αν καθένας από τους καταχωρητές αυτούς έχει
µήκος 8 bits, δηλαδή συνολικά 24 bits, τότε κάθε pixel µπορεί να εκπέµψει 224 ή περί-
που 16 εκατοµµύρια διαφορετικά χρώµατα. Όλοι οι καταχωρητές, καθένας από τους
οποίους καθορίζει το ίδιο βασικό χρώµα σε ένα pixel της οθόνης, µπορεί να θεωρη-
θούν ότι αποτελούν έναν πίνακα καταχωρητών. Έτσι δηµιουργούνται τρεις πίνακες
καταχωρητών, οι RR, RG και RΒ. Για την ανακατασκευή της έγχρωµης εικόνας, στους
πίνακες αυτούς οδηγούνται τα περιεχόµενα των πινάκων ΕR, ΕG και ΕB της εικόνας.
Η πυκνότητα µε την οποία είναι τοποθετηµένα τα pixels πάνω στην οθόνη µετριέ-
ται µε τη διακριτική ικανότητα της οθόνης (display resolution). Αυτή ορίζεται ως
το πλήθος των pixels, που περιέχει η οθόνη, ανά µονάδα µήκους και συνήθως υπο-
λογίζεται σε pixels/ίντσα. Το πλήθος των bits ανά pixel που ελέγχουν την ένταση και
το χρώµα των pixels µιας οθόνης καλείται διακριτική ικανότητα βάθους της οθό-
νης (depth resolution). Για µια έγχρωµη οθόνη η διακριτική ικανότητα βάθους είναι
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 46

46 H æ∏ºπ∞∫∏ ∂π∫√¡∞ ∫∞π ∏ ¢π∞Ã∂πƒ∏™∏ ∆∏™ ∞¶√ ∆√¡ À¶√§√°π™∆∏

24 bit/pixel. Μια µονόχρωµη οθόνη, της οποίας τα pixels είναι άσπρα ή µαύρα,
παρουσιάζει διακριτική ικανότητα βάθους 1 bit/pixel.
™¯‹Ì· 2.8
Ανακατασκευή
ασπρόµαυρης
ψηφιακής εικόνας
στην ψηφιακή
οθόνη του υπολογι-
στή. Στη δεξιά εικό-
να επανάληψη τµή-
µατος σε µεγέθυνση
τέτοια ώστε να δια-
κρίνονται τα pixel
της οθόνης. Το
πλέγµα έχει χαρα-
χθεί για να γίνεται
σαφής η θέση του
κάθε pixel

Για την απεικόνιση στην οθόνη µιας ψηφιακής εικόνας ακολουθούνται συνήθως δύο
τεχνικές. Στην πρώτη από αυτές, η ανακατασκευή γίνεται οδηγώντας στους πίνακες
καταχωρητών της οθόνης τις τιµές των pixels της ψηφιακής εικόνας. Στην περίπτω-
ση αυτή χρησιµοποιείται ένα pixel οθόνης για κάθε pixel εικόνας, και το µέγεθος της
εικόνας που δηµιουργείται εξαρτάται από τη διακριτική ικανότητα της οθόνης. Για
παράδειγµα, µια εικόνα µε 512 × 512 pixels, όταν απεικονιστεί σε οθόνη µε 200
pixels/ίντσα θα έχει µέγεθος 2,56 ίντσες × 2,56 ίντσες, ή περίπου 7,3 cm × 7,3 cm.
Στη δεύτερη τεχνική, η εικόνα στην οθόνη πρέπει να έχει συγκεκριµένο µέγεθος.
Αυτό συµβαίνει, για παράδειγµα, όταν η εικόνα συνοδεύει κείµενο σε κειµενογρά-
φους. Τότε από το επιθυµητό µέγεθος και τη διαχωριστική ικανότητα της οθόνης,
υπολογίζεται αυτόµατα ο αριθµός των pixels οθόνης που πρέπει να καλύψει η εικό-
να. Στη συνέχεια, χρησιµοποιώντας τα pixels της εικόνας και τύπους παρεµβολής,
υπολογίζονται οι τιµές που πρέπει να οδηγηθούν στους καταχωρητές των pixels της
οθόνης. Ο αναγνώστης µπορεί να βρει περισσότερες πληροφορίες για θέµατα σχε-
τικά µε τις τεχνικές διαχείρισης της ψηφιακής εικόνας στα [3 και 5].

¶·Ú¿‰ÂÈÁÌ· 2.3
Για την αριστερή εικόνα του Σχ. 2.3 δόθηκε στον κειµενογράφο ένα αρχείο µε 160 ×
160 pixels εικόνας, ενώ για τη δεξιά το αρχείο περιείχε µια εικόνα 40 × 40 pixels. Ο
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 47

2 . 4 H ∞ ¡ ∞ ∫ ∞∆∞ ™ ∫ ∂ À ∏ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 47

κειµενογράφος εµφανίζει και τις δύο εικόνες στην οθόνη µε διαστάσεις 6.37 cm × 6.37
cm. Αν η οθόνη σας έχει διαχωριστική ικανότητα 33,7 pixels/cm να υπολογίσετε:
α) Πόσα pixels οθόνης χρησιµοποιεί καθεµιά από τις εικόνες.
β) Πόσες φορές αυξάνει ο κειµενογράφος τα pixels οθόνης σε σχέση µε τα pixels της
καθεµιάς από τις εικόνες, όταν τις ανακατασκευάζει στην οθόνη σας;
Λύση
α) Αν µε S συµβολίσουµε το εµβαδόν της επιφάνειας της οθόνης, που καλύπτει η
µια εικόνα και µε r τη διαχωριστική ικανότητα της οθόνης, τότε το πλήθος Ν των
pixels οθόνης που δηµιουργούν την κάθε εικόνα είναι Ν = S⋅r2 = 6,37 × 6,37 × 33,7
× 33,7 δηλαδή Ν = 46083 pixels οθόνης.
β) Για την πρώτη εικόνα ο κειµενογράφος χρησιµοποιεί 46083/160 × 160 = 1,8 φορές
περισσότερα pixels οθόνης περισσότερα απ’ όσα pixels διαθέτει η εικόνα. Ο λόγος
αυτός για τη δεύτερη γίνεται 46083/40 × 40 = 28,9. Τις τιµές των επιπλέον αυτών
pixels, ο κειµενογράφος τις υπολογίζει µε µεθόδους παρεµβολής.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 2.3

Τι είναι σωστό και τι λάθος από τα παρακάτω;


Σωστό Λάθος
1. Το σφάλµα κβάντισης µειώνεται όσο το πλήθος
σταθµών κβάντισης αυξάνει. ❏ ❏
2. Τα pixels σε µια εικόνα µε 12 bits κβάντιση έχουν τιµές
0–4095, ενώ σε µια µε 8 bits οι τιµές είναι 0–255.
Άρα η πρώτη είναι πιο φωτεινή από τη δεύτερη. ❏ ❏
3. Αν τις εικόνες του Σχ. 2.5 τις δούµε σε οθόνη µε
διακριτική ικανότητα βάθους 4 bits/pixel, τότε
και οι δύο θα παρουσιάζουν ψευδή περιγράµµατα. ❏ ❏
4. Μια ψηφιακή οθόνη, που περιέχει 1024 × 768 pixels
µε 32 bits/pixel διακριτική ικανότητα βάθους, πρέπει
να συνοδεύεται από περισσότερα από 3 Mbyte µνήµη. ❏ ❏
5. Η ψηφιακή εικόνα υστερεί πάντα στην ποιότητα
από την αντίστοιχη αναλογική. ❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 48

48 H æ∏ºπ∞∫∏ ∂π∫√¡∞ ∫∞π ∏ ¢π∞Ã∂πƒ∏™∏ ∆∏™ ∞¶√ ∆√¡ À¶√§√°π™∆∏

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 2.4

Κατά τη δειγµατοληψία µιας αναλογικής εικόνας, στο πεδίο τιµών της ορίστηκε ένα
πλέγµα µε πλάτος τέτοιο, ώστε δηµιουργήθηκαν 500 × 300 κόµβοι. Στα σηµεία αυτά
ελήφθησαν δείγµατα της εικόνας και στη συνέχεια αυτά κβαντίστηκαν και αποθη-
κεύτηκαν στη µονάδα µαγνητικού δίσκου του υπολογιστή, µε τη µορφή ενός πίνακα.
α) Πόσα bytes της µονάδας αυτής θα χρειαστούν για να αποθηκευτεί η εικόνα στο
δίσκο αν είναι έγχρωµη και χρησιµοποιήθηκαν 256 στάθµες για την κβάντιση
κάθε χρώµατος;
β) Επαναλάβετε το ερώτηµα (α) για την περίπτωση που η εικόνα είναι ασπρόµαυρη
και κβαντίστηκε µε 256 στάθµες, καθώς και για την περίπτωση που είναι µονό-
χρωµη.
γ) Όταν η εικόνα µεγεθυνθεί έτσι ώστε να καλύπτει το µεγαλύτερο δυνατό τµήµα
της οθόνης, η οποία υποθέστε ότι έχει µέγεθος 1280 × 1024 pixels, πόσα pixels
οθόνης θα καλυφθούν;
δ) Πόσα Bytes καταχωρητών της οθόνης θα περιέχουν τα δεδοµένα της µεγέθυν-
σης, όπως αναφέρεται στο ερώτηµα γ, πόσα για την περίπτωση της ερώτησης
α και πόσα για καθεµιά από τις περιπτώσεις της β;

™‡ÓÔ„Ë
Στο Κεφάλαιο αυτό παρουσιάστηκαν τα πλεονεκτήµατα της ψηφιακής εικόνας, έγινε
περιγραφή της διαδικασίας δηµιουργίας της και του τρόπου διαχείρισής της από τον
υπολογιστή. Συγκεκριµένα:
• Έγινε περιγραφή της δειγµατοληψίας της αναλογικής εικόνας και αναφέρθηκαν οι
περιορισµοί και οι κανόνες που τη διέπουν.
• Αναλύθηκε η διαδικασία της κβάντισης, έγινε αναφορά στην υποβάθµιση που επέρ-
χεται στην εικόνα από τη διαδικασία αυτή και δόθηκαν οι σχέσεις που επιτρέπουν
να γίνει κβάντιση µιας πραγµατικής ακολουθίας αριθµών.
• Εξηγήθηκε η µέθοδος κωδικοποίησης των κβαντισµένων δειγµάτων, ώστε να γίνει
δυνατή η αποθήκευσή τους στη µνήµη ή σε µαγνητικό µέσο.
• Έγινε περιγραφή της τεχνικής ανακατασκευής της εικόνας και της παρουσίασής
της στην οθόνη του υπολογιστή.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 49

B I B § I O ° PA º I A 49

µÈ‚ÏÈÔÁÚ·Ê›·

1. Gonzalez R. C., Woods R.E, «Digital Image Processing», Addison–Wessley 1993.


2. Πήτας Ι., «Ψηφιακή Επεξεργασία Εικόνας», Πανεπιστήµιο Θεσσαλονίκη 1996.
3. Pratt K. W., «Digital Image Processing», Willey–Interscience, 1991.
4. Jain K. A. ,«Fundamentals of Digital Image Processing»,Prentce–Hall
International Editions, 1989.
5. «Advanced Imaging», Journal published monthly by Cygnus Publishing, Melville,
NY.
6. Σκόδρας Αθανάσιος, Αναστασόπουλος Βασίλειος, «Ψηφιακή Επεξεργασία εικό-
νων και Σηµάτων», Ανοικτό Πανεπιστήµιο 1999.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 50
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 51

∆¯ÓÈΤ˜ ‚ÂÏÙ›ˆÛ˘ Ù˘ ÂÈÎfiÓ·˜

™ÎÔfi˜
∫ ∂

Σκοπός του κεφαλαίου αυτού είναι να γίνει περιγραφή µερικών από τις πιο απλές,
αλλά συγχρόνως πολύ χρήσιµες ψηφιακές µεθόδους βελτίωσης της ποιότητας της
εικόνας.
3
º ∞ § ∞ π √

¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Aναφέρετε τουλάχιστον τέσσερις λόγους, εξαιτίας των οποίων ελαττώνεται η ποι-
ότητα µιας εικόνας.
• Yπολογίζετε και να σχεδιάζετε το ιστόγραµµα µιας ψηφιακής εικόνας.
• Xρησιµοποιείτε το ιστόγραµµα για να βελτιώσετε µια εικόνα που έχει ληφθεί µε
ακατάλληλο φωτισµό της σκηνής.
• Aναφέρετε τουλάχιστον δύο από τους τύπους του θορύβου που προσβάλλουν την
εικόνα.
• Γράφετε πρόγραµµα για τη µείωση του θορύβου µιας ψηφιακής εικόνας .
• Kάνετε περισσότερο έντονες τις ακµές µιας εικόνας.

ŒÓÓÔȘ ÎÏÂȉȿ
• Αποκατάσταση της Εικόνας
• Βελτίωση της Εικόνας
• ∆ιάταση του Ιστογράµµατος
• Θόλωµα της Εικόνας
• Ισοστάθµιση του Ιστογράµµατος
• Ιστόγραµµα Τιµών των pixels
• Κρουστικός Θόρυβος
• Λευκός Προσθετικός Θόρυβος
• Ολίσθηση του Ιστογράµµατος
• Τόνωση της Εικόνας
• Τόνωση της Αντίθεσης
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 52

52 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

• Τόνωση των Ακµών


• Τροποποίηση του Ιστογράµµατος
• Φίλτρο Κινούµενου Μέσου
• Φίλτρο Μεσαίου

EÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Μια εικόνα αποθηκευµένη µε ψηφιακό τρόπο, διατηρεί την ποιότητά της αµετάβλη-
τη. Μέχρι να βρεθεί όµως αποθηκευµένη στο ψηφιακό µέσο υφίσταται διαρκώς
φθορά, δηλαδή υποβάθµιση (degradation) της ποιότητάς της. Στη βιβλιογραφία έχει
αναπτυχθεί ένα µεγάλο πλήθος αλγορίθµων και τεχνικών, που έχουν για στόχο την
ολική ή µερική επανόρθωση της υποβάθµισης αυτής. Στο κεφάλαιο αυτό παρουσιά-
ζουµε µερικούς απλούς αλλά αποτελεσµατικούς τρόπους βελτίωσης της ποιότητας της
ψηφιακής εικόνας. Στην πρώτη ενότητα (Ενότητα 3.1), παρουσιάζονται οι πιο συνη-
θισµένες αιτίες υποβάθµισης και αναφέρονται επιγραµµατικά οι µέθοδοι βελτίωσης
της εικόνας. Στη δεύτερη ενότητα (Ενότητα 3.2), παρουσιάζεται το Ιστόγραµµα Τιµών
Έντασης και αναφέρονται οι πιο γνωστές µέθοδοι Τόνωσης της Αντίθεσης. Η τρίτη
ενότητα (Ενότητα 3.3), ασχολείται µε την αντιµετώπιση του θορύβου, που έχει προ-
σβάλει µια ψηφιακή εικόνα και παρουσιάζονται τα φίλτρα Μέσου και Μεσαίου. Τέλος
στην τέταρτη ενότητα (Ενότητα 3.4), περιγράφεται η τεχνική Τόνωσης των Ακµών
µιας εικόνας που έχει υποστεί θόλωµα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 53

3.1 Aπ∆π∂™ À¶√µ∞£ªπ™∏™ ∫∞π ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™ 53

3.1 AÈٛ˜ ˘Ô‚¿ıÌÈÛ˘ Î·È Ù¯ÓÈΤ˜ ‚ÂÏÙ›ˆÛ˘ Ù˘ ÂÈÎfiÓ·˜

Η ποιότητα µιας αναλογικής εικόνας σε φιλµ ή φωτογραφικό χαρτί υποβαθµίζεται


συνεχώς µε το χρόνο. Αιτία της φθοράς αυτής είναι οι απροσεξίες κατά τη χρήση
και τη φύλαξη, καθώς επίσης και η συνεχής χηµική αλληλεπίδραση του υποστρώ-
µατος της εικόνας µε τον ατµοσφαιρικό αέρα. Αλλά και σε µαγνητική εγγραφή
(video), η αναλογική εικόνα συνεχώς υποβαθµίζεται, λόγω ανεπιθύµητων σηµάτων,
τα οποία επάγονται από ηλεκτρικές συσκευές που λειτουργούν στο περιβάλλον. Με
το πέρασµα του χρόνου λοιπόν, η αναλογική εικόνα αποκτά θόρυβο (Σχ. 3.1α) και
υφίσταται αλλοιώσεις στο χρώµα της. Πέρα όµως από τους διάφορους εξωγενείς
παράγοντες, υπάρχει µια πληθώρα αιτιών, οι οποίες έχουν σχέση µε τη δηµιουργία
της ίδιας της εικόνας και οι οποίες συµβάλλουν, επίσης, στην υποβάθµιση της ποι-
ότητάς της. Για παράδειγµα, κατά τη λήψη της εικόνας δηµιουργείται:
• Γεωµετρική παραµόρφωση (geometric distortion) από φακούς µε µικρή εστια-
κή απόσταση (Σχ. 3.1γ).
• Θόλωµα (blurring) από κακή εστίαση ή από τη σχετική κίνηση κάµερας και αντι-
κειµένου φωτογράφησης (Σχ. 3.1β).
• Μειωµένη Αντίθεση (low contrast). Αντίθεση καλείται η διαφορά στην ένταση
του φωτός µεταξύ δύο γειτονικών περιοχών στην εικόνα ενός αντικειµένου. Η
αντίθεση συχνά εκφράζεται ως η διαφορά της έντασης µεταξύ του πιο φωτεινού
και του πιο σκοτεινού τµήµατος της εικόνας. Όταν κατά τη φωτογράφηση µιας
σκηνής δεν υπάρχει κατάλληλος φωτισµός, η φωτογραφία που δηµιουργείται έχει
περιορισµένη αντίθεση µε αποτέλεσµα να ελαττωθεί ή να µηδενιστεί η υποκει-
µενική αντίληψη της σκηνής (Σχ. 3.1δ).
Κατά την ψηφιοποίηση της εικόνας δηµιουργείται:
• Ο θόρυβος κβάντισης.
• Γεωµετρικές παραµορφώσεις από σφάλµατα του σαρωτή και από µη γραµµι-
κότητες του κυκλώµατος κβάντισης.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 54

54 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

β δ

™¯‹Ì· 3.1
Παραδείγµατα υποβάθµισης της ποιότητας της εικόνας.

α) Προσβολή της εικόνας από θόρυβο. γ) Θόλωµα λόγω κίνησης.


β) Μειωµένη αντίθεση. δ) Γεωµετρική παραµόρφωση.

Μετά την ψηφιοποίηση µιας εικόνας, γίνεται πλέον δυνατή η επεξεργασία της µε
ψηφιακές µεθόδους. Με τις τεχνικές αυτές επιτυγχάνεται βελτίωση (improvement) της
ποιότητάς της, δηλαδή µερική ή ολική επανόρθωση όλων των τύπων υποβάθµισης που
αναφέραµε πιο πάνω. Οι τεχνικές βελτίωσης χωρίζονται σε δυο µεγάλες κατηγορίες:
• Τις τεχνικές τόνωσης (enhancement) της εικόνας.
• Τις τεχνικές αποκατάστασης (restoration) της εικόνας.
Οι τεχνικές τόνωσης στοχεύουν στη µείωση του θορύβου και την ενδυνάµωση εκεί-
νων των χαρακτηριστικών, που βελτιώνουν την υποκειµενική αντίληψη της εικόνας
από τον άνθρωπο. Για παράδειγµα, η τόνωση των ακµών µιας εικόνας µε θόλωµα
δηµιουργεί την εντύπωση µιας εικόνας µε αυξηµένη ποιότητα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 55

3.2 T∂áπ∫∂™ ∆√¡ø™∏™ ∆∏™ ∞¡∆π£∂™∏™ 55

Οι τεχνικές αποκατάστασης έχουν ως κύριο στόχο την απαλλαγή της εικόνας από
παραµορφώσεις, που έχει υποστεί κατά τη λήψη της και την ψηφιοποίησή της. Για την
επιτυχία των µεθόδων αυτών απαιτείται η ακριβής γνώση της αιτίας, που προκάλεσε
τη συγκεκριµένη παραµόρφωση. Το θόλωµα, για παράδειγµα, µπορεί να εξαλειφθεί
σχεδόν εντελώς, όταν είναι γνωστή η αιτία που το έχει δηµιουργήσει. Το ίδιο ισχύει
και για τις γεωµετρικές παραµορφώσεις. Στο κεφάλαιο αυτό θα γνωρίσουµε µερικές
κλασικές µεθόδους τόνωσης της εικόνας. Ο αναγνώστης που ενδιαφέρεται µπορεί να
βρει στα [1,2] µερικές από τις πιο γνωστές τεχνικές αποκατάστασης της εικόνας.

3.2 T¯ÓÈΤ˜ ÙfiÓˆÛ˘ Ù˘ ·ÓÙ›ıÂÛ˘

3.2.1 IÛÙfiÁÚ·ÌÌ· ÂÈÎfiÓ·˜

Ένα διάγραµµα πολύ χρήσιµο στην επεξεργασία και την ανάλυση της εικόνας είναι
το ιστόγραµµα (histogram) των τιµών των pixels. Στo διάγραµµα αυτό παριστάνε-
ται η συχνότητα µε την οποία επαναλαµβάνεται κάθε τιµή φωτεινότητας στα pixels
της εικόνας. Αν υποθέσουµε ότι έχουν χρησιµοποιηθεί Q στάθµες για την κβάντιση
του σήµατος µιας εικόνας Ε, η οποία έχει διαστάσεις Μ × Ν = L pixels, τότε η τιµή
του κάθε pixel θα είναι ένας αριθµός, που ανήκει στο σύνολο ακεραίων ΣQ =
{0,1,2,...,Q–1}. Υποθέστε ότι για κάθε στοιχείο i του ΣQ εξετάζουµε διαδοχικά τα L
pixels της εικόνας και καταµετρούµε σε πόσα από αυτά, το στοιχείο i επαναλαµβά-
νεται ως τιµή. Με τον τρόπο αυτό κατασκευάζεται η ακολουθία επανάληψης των
τιµών, r(i), i = 0,1,...,Q–1. Το ιστόγραµµα της εικόνας Ε είναι η γραφική παράστα-
ση της r(i), στην οποία όµως, αντί να χαραχθεί ένα σηµείο για κάθε ζεύγος (r(i),i)
χρησιµοποιείται ένας ιστός, δηλαδή ένα ευθύγραµµο τµήµα, το οποίο χαράσσεται
στο διάγραµµα στη θέση µε τετµηµένη i, µε µήκος ανάλογο της τιµής του όρου r(i).

™¯‹Ì· 3.2
Ασπρόµαυρη εικό-
να και το αντίστοι-
χο ιστόγραµµα
των τιµών φωτει-
νότητας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 56

56 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

Στο Σχ. 3.2 δίνεται µια ασπρόµαυρη εικόνα και το αντίστοιχο ιστόγραµµα τιµών
έντασης. Πρόκειται για µια εικόνα µε 256 στάθµες κβάντισης, εποµένως σ’ αυτή οι
τιµές των pixels κυµαίνονται από 0 έως 255, γι’ αυτό και στο ιστόγραµµα έχουν χρη-
σιµοποιηθεί 256 ιστοί. Κάτω από τον οριζόντιο άξονα του ιστογράµµατος έχει τοπο-
θετηθεί µία ζώνη µε τις διαδοχικές αποχρώσεις του γκρίζου, για την άµεση αίσθηση
της αντιστοιχίας αριθµητικών τιµών και έντασης φωτεινότητας, όπως αυτή γίνεται
αντιληπτή από τον οφθαλµό µας.
Από την ανάλυση της ακολουθίας r(i), ή από την παρατήρηση του ιστογράµµατος
µιας εικόνας, εξάγονται συµπεράσµατα για την τιµή µεγεθών όπως της αντίθεσης
και της µέσης φωτεινότητα της εικόνας, καθώς και για την τροποποίηση που πρέπει
να υποστεί η τιµή των pixels της εικόνας, για να βελτιωθούν τα µεγέθη αυτά. Για
παράδειγµα, στο ιστόγραµµα του Σχ. 3.2 φαίνεται ότι οι τιµές της πλειοψηφίας των
pixels βρίσκονται συγκεντρωµένες στο πιο σκοτεινό τµήµα, στο πρώτο τέταρτο της
κλίµακας. Αντίθετα, το πιο φωτεινό τµήµα, το τελευταίο τέταρτο της κλίµακας, είναι
σχεδόν κενό από ιστούς. Το στοιχείο αυτό δείχνει ότι η µέση φωτεινότητα της αντί-
στοιχης εικόνας είναι µικρή, πράγµα που γίνεται φανερό και µε απλή παρατήρηση
της εικόνας. Επίσης, είναι πιθανόν ο µεγάλος αυτός αριθµός των pixels να ανήκουν
σε απεικονιζόµενες µορφές, οι οποίες όµως δεν είναι δυνατόν να ξεχωρίσουν στην
εικόνα. Αυτό οφείλεται στο γεγονός ότι στις χαµηλές τιµές φωτεινότητας ο οφθαλ-
µός δεν αντιλαµβάνεται τις διαβαθµίσεις του γκρίζου.

3.2.2 ∆ÚÔÔÔ›ËÛË ÈÛÙÔÁÚ¿ÌÌ·ÙÔ˜

Η τροποποίηση του ιστογράµµατος αποτελεί βασική µέθοδο για την τόνωση της
αντίθεσης και τη βελτίωση της µέσης φωτεινότητας µιας εικόνας Ε. Για την εφαρ-
µογή της τεχνικής αυτής ακολουθούνται τα πιο κάτω βήµατα:
• Επιλέγεται η µορφή του ιστογράµµατος που επιθυµούµε να παρουσιάζει η En,
δηλαδή η εικόνα που θα προκύψει µετά την τροποποίηση της E.
• Από τις ακολουθίες επανάληψης r(i) και rn(i) των ιστογραµµάτων των E και En
προσδιορίζεται ο µαθηµατικός τύπος της τροποποίησης gn = f(g). Με βάση τον
τύπο αυτό αλλάζει η τιµή g του κάθε pixel της Ε σε νέα τιµή gn = f(g), και έτσι
προκύπτει η εικόνα En.
Στις υποενότητες 3.2.2α έως και 3.2.2δ, που ακολουθούν, δίνονται µερικά χαρακτη-
ριστικά παραδείγµατα τροποποίησης του ιστογράµµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 57

3.2 T∂áπ∫∂™ ∆√¡ø™∏™ ∆∏™ ∞¡∆π£∂™∏™ 57

3.2.2· √Ï›ÛıËÛË ÙÔ˘ ÈÛÙÔÁÚ¿ÌÌ·ÙÔ˜

Από όσα αναφέρθηκαν στην υποενότητα 3.2.1 για το ιστόγραµµα του Σχ. 3.2, συµπε-
ραίνεται ότι αν δοθεί µια σταθερή αύξηση 65 µονάδων περίπου στην τιµή του κάθε
pixel θα τροποποιηθεί η εικόνα ως εξής:
• Θα αυξηθεί η µέση φωτεινότητα της εικόνας.
• Τα πολύ σκοτεινά pixels θα αυξήσουν την τιµή τους σηµαντικά ώστε να γίνονται
πλέον αντιληπτά από τον ανθρώπινο οφθαλµό.
• Θα βελτιωθεί η αντίθεση της εικόνας καθώς, τώρα τα ορατά από τον οφθαλµό
pixels θα καλύπτουν µεγαλύτερο διάστηµα τιµών, δηλαδή θα αυξηθεί η αντίθεση
της εικόνας.

gn=f(g)
300

250

200

150

100

50 ™¯‹Ì· 3.3

0 α) Η γραφική
0 100 200 300
παράσταση του
Aρχική τιµή g
τύπου τροποποίη-
α
σης, «Ολίσθησης
Ιστογράµµατος».
β. Το ιστόγραµµα
της εικόνας En. γ)
Η εικόνα En που
προκύπτει από την
Ε µετά την εφαρ-
µογή της τροπο-
β γ ποίησης.

Ο µαθηµατικός τύπος της παραπάνω τροποποίησης είναι ο

 g + 65 όταν g ≤ 190
gn = f ( g ) =  (3.1)
 255 όταν g > 190
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 58

58 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

Η γραφική παράσταση του τύπου τροποποίησης δίνεται στο διάγραµµα του Σχ.3.3α.
Από το διάγραµµα αυτό ή από τη σχέση (3.1), γίνεται φανερό ότι η αύξηση των 65
µονάδων δίνεται στις τιµές που είναι µικρότερες από 190. Για τις µεγαλύτερες, η αύξη-
ση περιορίζεται, ώστε η τελική τιµή του κάθε pixel να µην υπερβαίνει τις 255 µονάδες.
Στο Σχ. 3.3β δίνεται η µορφή του ιστογράµµατος της νέας εικόνας. Όπως φαίνεται,
η σταθερή αύξηση που δόθηκε στην τιµή των pixels προκάλεσε την ολίσθηση του
συνόλου σχεδόν των ιστών του αρχικού ιστογράµµατος προς τα δεξιά. Για το λόγο
αυτό η τροποποίηση αυτή καλείται «ολίσθηση ιστογράµµατος» (histogram sliding).
Στο Σχ. 3.3γ δίνεται η νέα εικόνα En, της οποίας η µέση φωτεινότητα είναι τώρα
πολύ καλύτερη και στην οποία διακρίνονται τα φύλλα του δένδρου, µορφές που ήταν
αδύνατον να διακριθούν στην αρχική εικόνα Ε.

3.2.2‚ ¢È¿Ù·ÛË ÙÔ˘ ÈÛÙÔÁÚ¿ÌÌ·ÙÔ˜

Ένα δεύτερο παράδειγµα τροποποίησης του ιστογράµµατος είναι η διάταση


(stretching). Στο Σχ. 3.4α δίνεται µία εικόνα Ε και το ιστόγραµµά της. Από αυτό γίνε-
ται φανερό ότι οι τιµές σχεδόν όλων των pixels της Ε βρίσκονται συγκεντρωµένες
στο διάστηµα ∆ = [0,90]. Το εύρος του διαστήµατος αυτού είναι πολύ περιορισµέ-
νο, µε αποτέλεσµα η αντίθεση της εικόνας να είναι ανεπαρκής. Τόνωση της αντίθε-
σης προκύπτει αν µε µετατροπή του ιστογράµµατος οι τιµές αυτές «απλωθούν» σε
όλη την κλίµακα των 255 µονάδων. Αυτό µπορεί να πραγµατοποιηθεί µε τον ακό-
λουθο τύπο µετατροπής της σχέσης:

σ ⋅ g όταν g ≤ 190
gn = f ( g ) =  (3.2)
255 όταν g > 190

H σταθερά σ έχει επιλεγεί ίση µε 255/90, ώστε η τιµή 90 στο δεξιό άκρο του δια-
στήµατος ∆ να µετατραπεί σε 255 µονάδες. Η δεύτερη σχέση στο τύπο µετατροπής
(3.2) εξασφαλίζει ότι οι λίγες εκείνες τιµές των pixels της Ε που είναι µεγαλύτερες
από 90 µονάδες θα εξακολουθήσουν και µετά την µετατροπή να είναι οι µεγαλύτε-
ρες του ιστογράµµατος, χωρίς όµως να υπερβούν τις 255 µονάδες. Στο Σχ. 3.4β δίνε-
ται η γραφική παράσταση της σχέσης (3.2). Τέλος στο Σχ. 3.4γ δίνεται η εικόνα Εn
που προέκυψε από την µετατροπή της Ε µε τη διάταση του ιστογράµµατος, καθώς
επίσης και το νέο ιστόγραµµα.

3.2.2Á √Ï›ÛıËÛË ÙÌ‹Ì·ÙÔ˜ ÙÔ˘ ÈÛÙÔÁÚ¿ÌÌ·ÙÔ˜

Αν θελήσουµε να αυξήσουµε τη φωτεινότητα του µνηµείου που απεικονίζεται στην


εικόνα Εn (Σχ. 3.4γ) πρέπει να αυξήσουµε επιλεκτικά την τιµή των pixels που ανή-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 59

3.2 T∂áπ∫∂™ ∆√¡ø™∏™ ∆∏™ ∞¡∆π£∂™∏™ 59

κουν σ’ αυτό. Μια τέτοια ενέργεια δεν είναι πάντα δυνατή. Στην περίπτωσή µας όµως
παρατηρώντας το ιστόγραµµα της Εn (Σχ. 3.4γ), διαπιστώνουµε ότι σ’ αυτό υπάρ-
χουν δύο λοβοί που διαχωρίζονται ευκρινώς µεταξύ τους. Από τη διαφορά που υπάρ-
χει στη φωτεινότητα και στο µέγεθος µεταξύ του µνηµείου και του απεικονιζόµενου
τµήµατος του ουρανού µπορούµε να υποθέσουµε ότι ο µεγάλος λοβός, αυτός που
βρίσκεται στις µικρότερες τιµές του ιστογράµµατος, περιέχει τις τιµές των pixels του
µνηµείου. Στο Σχ. 3.5α δίνεται το ιστόγραµµα της εικόνας και σ’ αυτό έχει οριστεί
το διάστηµα ∆Μ στο οποίο περιλαµβάνεται ο λοβός µε τα pixels που αντιστοιχούν
στο µνηµείο. Το ∆Μ είναι το διάστηµα [70,180]. Για να γίνει η ολίσθηση του αντί-
στοιχου λοβού προς τις πιο φωτεινές τιµές αρκεί να εκτελεστεί η η τροποποίηση του
ιστογράµµατος σύµφωνα µε τον τύπο:

α
gn
gn=f(g)
255

0 γ
0 255 g
β

™¯‹Ì· 3.4
Τόνωση της αντίθεσης µε διάταση του ιστογράµµατος.
(α)Η Αρχική εικόνα Ε µε περιορισµένη αντίθεση. (β)Το ιστόγραµµα της Ε και η γραφική παράσταση του
τύπου της διάτασης. (γ) Η εικόνα Εn που προκύπτει από την Ε µε διάταση του ιστογράµµατος και το νέο
ιστόγραµµα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 60

60 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

 g όταν g < 70 
 
g n = f ( g ) =  g + 75 όταν 70 ≤ g ≤ 180. (3.3)
 g όταν g > 180 

Η γραφική παράσταση της (3.3) έχει σχεδιαστεί µαζί µε το ιστόγραµµα του Σχ. 3.5α.
Στο Σχ. 3.5β δίνεται η εικόνα Εn΄ που προκύπτει από την τροποποίηση της Εn. Στο
ίδιο σχήµα δίνεται επίσης το ιστόγραµµα της Εn΄.

gn
gn=f(g)
255

0
0 255 g
∆M

™¯‹Ì· 3.5
Ολίσθηση τµήµατος ιστογράµµατος. (α)Το ιστόγραµµα
της εικόνας Εn (Σχ. 3.4γ) και η γραφική παράσταση του
τύπου µετατροπής. Το διάστηµα ∆Μ περιέχει τις τιµές
των pixels που αντιστοιχούν στο µνηµείο. (β)Η εικόνα
Εn’ που προέκυψε από την Εn µετά την ολίσθηση του
τµήµατος ∆Μ και το νέο ιστόγραµµα. β

3.2.2‰ πÛÔÛÙ¿ıÌÈÛË ÈÛÙÔÁÚ¿ÌÌ·ÙÔ˜

Στις τεχνικές τροποποίησης του ιστογράµµατος που γνωρίσαµε µέχρι τώρα, η βελ-
τίωση γίνεται µε την αλληλεπίδραση ανθρώπου και υπολογιστή. Ο καθορισµός δηλα-
δή του αναγκαίου τύπου τροποποίησης αποφασίστηκε από εµάς, αφού προηγουµέ-
νως παρατηρήσαµε το ιστόγραµµα και την αντίστοιχη εικόνα. Σε εφαρµογές που επι-
θυµούµε όλη η διαδικασία να γίνει αποκλειστικά από τον υπολογιστή, χρησιµοποι-
είται ένας προκαθορισµένος τύπος τροποποίησης του ιστογράµµατος. Για παρά-
δειγµα, στον τύπο αυτό τίθεται ως στόχος το νέο ιστόγραµµα να είναι οµοιόµορφα
κατανεµηµένο σε όλη την κλίµακα της φωτεινότητας. Η τεχνική αυτή καλείται ισο-
στάθµιση του ιστογράµµατος (histogram equalization). Μια προσέγγιση του τύπου
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 61

3.2 T∂áπ∫∂™ ∆√¡ø™∏™ ∆∏™ ∞¡∆π£∂™∏™ 61

τροποποίησης gn = f(g) που απαιτείται για την ισοστάθµιση του ιστογράµµατος, απο-
δεικνύεται ότι είναι:

∑ r(i ),
Q
gn = f ( g ) = g = 0,1,K, Q − 1 (3.4)
L i =0

όπου r(i), i = 0,1,...,Q–1, η ακολουθία επανάληψης των τιµών της αρχικής εικόνας,
Q είναι το πλήθος των σταθµών κβάντισης και L είναι το πλήθος των pixels της εικό-
νας. Όποιος αναγνώστης ενδιαφέρεται για την απόδειξη του πιο πάνω τύπου, µπο-
ρεί να διαβάσει την ανάλυση που γίνεται στο [2]. Στο Σχ. 3.6 δίνονται οι εικόνες και
τα αντίστοιχα ιστογράµµατα που προκύπτουν µετά την εφαρµογή της ισοστάθµισης
του ιστογράµµατος στις εικόνες των σχηµάτων 3.2 και 3.4α.

™¯‹Ì· 3.6
Εικόνες και ιστογράµµατα µετά την εφαρµο-
γή ισοστάθµισης ιστογράµµατος. Οι αρχικές
εικόνες ήταν αυτές των σχηµάτων 3.2 και
3.4α
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 62

62 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

¶·Ú¿‰ÂÈÁÌ· 3.1
Στον Πίνακα 3.1 δίνονται οι τιµές των pixels της εικόνας v µε διαστάσεις 6 × 12. Η
κβάντιση των pixels έχει γίνει µε 16 στάθµες και έτσι η τιµή του κάθε pixel είναι ένας
ακέραιος από 0 ως 15. Ζητείται: (α) Να κατασκευαστεί το ιστόγραµµα της εικόνας.
(β) Να πραγµατοποιηθεί ολίσθηση του ιστογράµµατος της v, έτσι ώστε η τιµή 6 να
µετασχηµατιστεί σε 15. (γ) Να γίνει διάταση του ιστογράµµατος της v, έτσι ώστε η
τιµή 6 να µετασχηµατιστεί σε 15. (δ) Να γίνει ισοστάθµιση του ιστογράµµατος.

¶›Ó·Î·˜ 3.1
Παράσταση της εικόνας των 4 bits του προβλήµατος 3.1

0 5 6 0 6 0 6 1 0 1 3 2
4 1 0 2 0 4 3 6 2 3 0 6
2 6 3 1 2 3 1 2 2 0 2 5
v=
8 4 4 2 2 3 4 2 0 1 0 0
2 0 1 2 0 4 1 0 2 2 5 0
1 5 2 1 0 2 0 1 0 5 0 6

Λύση
α) Για την κατασκευή του ιστογράµµατος της εικόνας v θεωρούµε µια ακολουθία
από 16 καταχωρητές, την r(i), i = 0,1,...,15, µε αρχικό περιεχόµενο ίσο µε µηδέν. Στη
συνέχεια σαρώνουµε τον πίνακα της εικόνας και για κάθε pixel µε τιµή j αυξάνου-
µε κατά 1 τον καταχωρητή r(j). Στο τέλος το περιεχόµενο των 16 καταχωρητών από
τα αριστερά προς τα δεξιά είναι:
19 11 17 6 6 5 7 0 1 0 0 0 0 0 0 0
Στο Σχ. 3.7α δίνεται το αντίστοιχο ιστόγραµµα.
β) Αν µε την µεταβλητή g παραστήσουµε την τιµή ενός pixel της εικόνας v και µε
gn την τιµή του ίδιου pixel στην εικόνα vn, που προκύπτει από την ολίσθηση του ιστο-
γράµµατος, ισχύει

g +9 0≤ g ≤ 6
gn = f ( g ) = 
15 7 ≤ g ≤ 15
Εφαρµόζοντας την τελευταία σχέση για όλα τα pixels της εικόνας v προκύπτει η εικό-
να vn, o πίνακας της οποίας δίνεται στο Σχ. 3.7γ. Το ιστόγραµµα της vn δίνεται στο
Σχ. 3.7β.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 63

3.2 T∂áπ∫∂™ ∆√¡ø™∏™ ∆∏™ ∞¡∆π£∂™∏™ 63

20 9 14 15 9 15 9 15 10 9 10 12 11
13 10 9 11 9 13 12 15 11 12 9 15
15
11 15 12 10 11 12 10 11 11 9 11 14
vn=
10 15 13 13 11 11 12 13 11 9 10 9 9
11 9 10 11 9 13 10 9 11 11 14 9
5 10 14 11 10 9 11 9 10 9 14 9 15
0
γ
0 5 10 15
0 13 15 0 15 0 15 3 0 3 8 5
α
10 3 0 5 0 10 8 15 5 8 0 15
20
5 15 8 3 5 8 3 5 5 0 5 13
vn2=
15 15 10 10 5 5 8 10 5 0 3 0 0
5 0 3 5 0 10 3 0 5 5 13 0
10 3 13 5 3 0 5 0 3 0 13 0 15
ε
5

4 13 15 4 15 4 15 6 4 6 11 10
0
0 5 10 15 12 6 4 10 4 12 11 15 10 11 4 15
β 10 15 11 6 10 11 6 10 10 4 10 13
vn3=
20
15 12 12 10 10 11 12 10 4 6 4 4
10 4 6 10 4 12 6 4 10 10 13 4
15 6 13 10 6 4 10 4 6 4 13 4 15

10
ζ

0
0 5 10 15
δ
20

15
Σχήµα. 3.7 α) Ιστόγραµµα αρχικής εικόνας. β,γ) Ιστό-
10 γραµµα και πίνακας τιµών της εικόνας, όπως προκύπτουν
µετά την ολίσθηση. δ–ε) Ιστόγραµµα και πίνακας τιµών
5
της εικόνας όπως προκύπτουν µετά την διάταση. στ–ζ)
0
0 5 10 15 Ιστόγραµµα και πίνακας τιµών της εικόνας όπως προκύ-
στ πτουν µετά την ισοστάθµιση

γ) Για τη διάταση του ιστογράµµατος εφαρµόζουµε τη σχέση

 σg 0 ≤ g ≤ 6
gn = f ( g ) = 
15 7 ≤ g ≤ 15
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 64

64 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

Η παράµετρος σ υπολογίζεται από το δεδοµένο ότι η τιµή 6 θα µετασχηµατιστεί σε


15. Πρέπει δηλαδή να ισχύει 6σ = 15, άρα σ = 15/6. Κατά την εφαρµογή της σχέσης
διάτασης του ιστογράµµατος, η τιµή του κάθε pixel στρογγυλoποιείται στον πλη-
σιέστερο ακέραιο. Τελικά από την εικόνα v, µε την εφαρµογή της διάτασης του ιστο-
γράµµατος, προκύπτει η εικόνα vn2, ο πίνακας της οποίας δίνεται στο Σχ. 3.7ε. Στο
Σχ. 3.7δ δίνεται το ιστόγραµµα της vn2.
δ) Εφαρµόζουµε τη σχέση (3.4) της ισοστάθµισης ιστογράµµατος για Q = 16 και L
= 72. Η τελική µορφή της σχέσης είναι

∑ r(i ), g = 0,1,K,15
16
gn = f ( g ) =
72 i =0

Όπως και στο (γ) ερώτηµα, οι τιµές gn πρέπει να στρογγυλοποιηθούν προς τον πλη-
σιέστερο ακέραιο. Η εφαρµογή της τελευταίας σχέσης δηµιουργεί την εικόνα vn3
(Σχ.3.7ζ) µε ιστόγραµµα αυτό του Σχ. 3.7στ.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 3.1

Τι είναι σωστό και τι λάθος από τα παρακάτω;


Σωστό Λάθος
1. Η ποιότητα µιας ψηφιακής εικόνας διατηρείται
αναλλοίωτη για πάντα. ❏ ❏
2. Ο θόρυβος που έχει προσβάλει µια εικόνα είναι δυνατόν
µε κατάλληλα φίλτρα να εξουδετερωθεί πλήρως
και να γίνει αποκατάσταση της εικόνας. ❏ ❏
3. Η τροποποίηση του ιστογράµµατος βελτιώνει την ποιότητα
µιας εικόνας µε κακή φωτεινότητα, αλλά δεν
την αποκαθιστά πλήρως. ❏ ❏
4. Με την ισοστάθµιση του ιστογράµµατος επιτυγχάνεται
ώστε η φωτεινότητα να γίνει ίδια σε όλα τα σηµεία
της εικόνας. ❏ ❏
5. Από τα παραδείγµατα που έχουν δοθεί για την ισοστάθµιση
προκύπτει ότι δεν επιτυγχάνεται πάντα ο στόχος
του οµοιόµορφου ιστογράµµατος. ❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 65

3.3 T∂áπ∫∂™ ª∂πø™∏™ ∆√À £√ƒÀµ√À 65

3.3 T¯ÓÈΤ˜ Ì›ˆÛ˘ ÙÔ˘ ıÔÚ‡‚Ô˘

Ο θόρυβος που συναντάµε στην ψηφιακή εικόνα παρουσιάζει µεγάλη ποικιλία µορ-
φών και στη βιβλιογραφία έχει αναπτυχθεί µια πληθώρα από µοντέλα για τη µαθη-
µατική περιγραφή τους. Παράλληλα, για καθεµιά από τις µορφές του θορύβου προ-
τείνεται ένα πλήθος τεχνικών, για την όσο το δυνατόν αποτελεσµατικότερη µείω-
σή του και την καλύτερη τόνωση της εικόνας. Στην ενότητα αυτή θα γνωρίσουµε
δύο από τους τύπους του θορύβου, τον λευκό προσθετικό (white additive) θόρυ-
βο και τον κρουστικό (impulse) θόρυβο. Επίσης, θα περιγράψουµε δύο απλές µορ-
φές φίλτρων για την αντιµετώπιση των θορύβων αυτών. Πρόκειται για το φίλτρο
κινούµενου µέσου (moving average filter) και τo φίλτρο µεσαίου (median filter).
Aν ο αναγνώστης ενδιαφέρεται για περισσότερες λεπτοµέρειες σχετικά µε τους
τύπους θορύβου των εικόνων και τις τεχνικές αντιµετώπισής τους, µπορεί να µελε-
τήσει τα [1–3].

3.3.1 §Â˘Îfi˜ ÚÔÛıÂÙÈÎfi˜ ıfiÚ˘‚Ô˜ Î·È ÙÔ Ê›ÏÙÚÔ ÎÈÓÔ˘Ì¤ÓÔ˘ ̤ÛÔ˘


΄Εστω µια ψηφιακή εικόνα v: {v( k , m), k , m ∈ Z , 0 ≤ k ≤ M − 1, 0 ≤ m ≤ N − 1} ,
όπου Z το σύνολο των ακεραίων και Μ, Ν οι διαστάσεις της εικόνας. Η εικόνα αυτή,
θεωρείται ότι έχει προσβληθεί από λευκό προσθετικό θόρυβο όταν ισχύει:

v ( k , m ) = w( k , m ) + η ( k , m ) (3.5)

{
όπου w: w( k , m ), k , m ∈ Z , 0 ≤ k ≤ M − 1, 0 ≤ m ≤ N − 1 , }
είναι η αρχική εικόνα και η(k,m) είναι µια ακολουθία τυχαίων αριθµών µε µέση τιµή
0, διακύµανση σ2 και όρους στατιστικά ανεξάρτητους. Η συνάρτηση πυκνότητας
πιθανότητας της τυχαίας αυτής ακολουθίας, συνήθως, είναι Gaussian. Στο Σχ. 3.8β
δίνεται ένα παράδειγµα µιας εικόνας v, η οποία έχει προέλθει από την εικόνα w του
Σχ. 3.8α µετά την πρόσθεση λευκού Gaussian θορύβου.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 66

66 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

α β

γ δ

™¯‹Ì· 3.8
Παράδειγµα προσβολής εικόνας από λευκό
θόρυβο και αντιµετώπισής του µε φίλτρο κινού-
µενου µέσου. (α) Η αρχική εικόνα. (β) Προσβο-
λή της αρχικής εικόνας από λευκό Gaussian
θόρυβο. (γ, δ) Αποτελέσµατα της εφαρµογής του
φίλτρου κινούµενου µέσου µε µέγεθος 3 ¥ 3 και
5 ¥ 5 αντίστοιχα. (ε) Αποτέλεσµα της εφαρµογής
του φίλτρου µεσαίου 5 ¥ 5. ε

™¯‹Ì· 3.9
Στην τεχνική
κινούµενου µέσου,
η φωτεινότητα του (k,m) (k,m)
(k,m) pixel της
εικόνας w’ υπολο-
γίζεται ως η µέση
τιµή των φωτεινο-
τήτων µιας περιο-
χής γύρω από το v w'
(k,m) pixel της ν.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 67

3.3 T∂áπ∫∂™ ª∂πø™∏™ ∆√À £√ƒÀµ√À 67

Εφαρµόζοντας τεχνικές τόνωσης είναι δυνατόν από την εικόνα v να υπολογιστεί η


w΄, µια προσέγγιση της αρχικής εικόνας w, µε περιορισµένο θόρυβο. Μια τεχνική
για τον υπολογισµό της w΄ είναι η χρήση του φίλτρου κινούµενου µέσου (moving
average). Σύµφωνα µε την τεχνική αυτή, η τιµή του κάθε pixel (k,m) της w΄, τίθεται
ίση µε τη µέση τιµή των pixels µιας περιοχής γύρω από το (k,m) pixel της v. Αν για
παράδειγµα χρησιµοποιηθεί περιοχή µε µέγεθος 3 × 3, η τιµή του pixel w΄(k,m) υπο-
λογίζεται από τη σχέση:
1 1

∑∑
1
w' ( k , m ) = v ( k − i, m − j ) για k , m ∈ Z, 0 ≤ k ≤ M − 1, 0 ≤ m ≤ N − 1 (3.6)
9 i = −1 j = −1
Στη σχέση (3.6) δεχόµαστε ότι ισχύει ν(k,m) = 0 όταν k = –1,Μ ή m = –1,Ν. Με τον
τρόπο αυτό υπολογίζονται τιµές και για τα οριακά pixels της w΄ . Στο Σχ. 3.9 έχει
οριστεί µια 3 × 3 περιοχή µε κέντρο το pixel (k,m) της v. H περιοχή αυτή περιέχει 9
pixels, το (k,m) και τα 8 γειτονικά του. Σύµφωνα µε τη σχέση (3.6) η µέση τιµή των
τιµών των pixels της περιοχής αυτής δίνει την τιµή του (k,m) pixel της w΄.
Από τις σχέσεις (3.5) και (3.6) προκύπτει:
1 1 1 1

∑∑ ∑∑
1 1
w'( k , m ) = w( k − i , m − j ) + η( k − i , m − j )
9 i = −1 j = −1 9 i = −1 j = −1
ή w' ( k , m ) = u' ( k , m ) + η' ( k , m )
1 1 1 1

∑∑ ∑∑
1 1
όπου u' ( k , m ) = w( k − i, m − j ) κ αι η' ( k , m ) = η( k − i , m − j )
9 i = −1 j = −1 9 i = −1 j = −1
Αν η τιµή w(k,m) στην περιοχή γύρω από το (k,m) pixel δεν µεταβάλλεται πολύ, ισχύει:
u'( k , m ) ≈ w( k , m ). (3.7)
H συνιστώσα του νέου θορύβου η΄(k,m), επειδή δηµιουργείται ως η µέση τιµή 9 στατι-
στικά ανεξάρτητων δειγµάτων της ακολουθίας η(k,m), είναι επίσης Gaussian θόρυβος
και έχει διακύµανση σ΄2 = σ2/81. ∆ηλαδή ο θόρυβος που παρέµεινε στη w΄ έχει ισχύ 81
φορές µικρότερη από την αρχική. ΄Ετσι η νέα εικόνα w΄ πλησιάζει σηµαντικά τη w. Στο
Σχ. 3.8γ δίνεται το αποτέλεσµα της εφαρµογής του φίλτρου κινούµενου µέσου για την
περίπτωση της εικόνας 3.8β. Στη νέα εικόνα, που προκύπτει, παρατηρείται ότι:
α) Ο θόρυβος έχει µειωθεί σηµαντικά και
β) έχει επέλθει παραµόρφωση στις ακµές. Η παραµόρφωση αυτή οφείλεται στο ότι η
φωτεινότητα στις περιοχές των ακµών µεταβάλλεται γρήγορα και η σχέση (3.7) δεν
ισχύει πλέον.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 68

68 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

Η περιοχή που χρησιµοποιείται για τον υπολογισµό της µέσης τιµής µπορεί να λάβει
οποιοδήποτε σχήµα, αλλά υπολογιστικά διευκολύνει αυτή να είναι ένα τετράγωνο.
Στο Σχ. 3.8δ δίνεται το αποτέλεσµα της εφαρµογής της τεχνικής του κινούµενου
µέσου, χρησιµοποιώντας περιοχή µε 25 pixels. O θόρυβος έχει µειωθεί περισσότε-
ρο, σε σχέση µε την περίπτωση της 3.8δ, αλλά ταυτόχρονα έχει γίνει περισσότερο
έντονη η λείανση των ακµών. Παρατηρούµε, δηλαδή, ότι στη µέθοδο που περιγρά-
ψαµε όσο πιο ικανοποιητική είναι η αποµάκρυνση του θορύβου τόσο µεγαλύτερη η
παραµόρφωση της w΄ που δηµιουργείται.

3.3.2 º›ÏÙÚÔ ÌÂÛ·›Ô˘ Î·È ÎÚÔ˘ÛÙÈÎfi˜ ıfiÚ˘‚Ô˜

Η χρήση του φίλτρου µεσαίου είναι µια άλλη τεχνική που εφαρµόζεται για τη µεί-
ωση του θορύβου σε µια εικόνα. Όπως εργαστήκαµε στην υποενότητα 3.3.1, έτσι
και στην τεχνική αυτή κατασκευάζεται µια νέα εικόνα w΄, κάθε pixel, w΄(k,m), της
οποίας υπολογίζεται από µια περιοχή του v(k,m) pixel της ν. Ο καθορισµός όµως της
τιµής του w΄(k,m) γίνεται µε διαφορετικό τρόπο από εκείνον της τεχνικής του κινού-
µενου µέσου. Αν υποθέσουµε ότι η περιοχή έχει επιλεγεί µε 9 σηµεία, όπως στο Σχ.
3.9, η τιµή της w΄(k,m) υπολογίζεται ως εξής:
Οι 9 τιµές v(k–i,m–j) –1 ≤ i,j ≤ 1 διατάσσονται κατά σειρά µεγέθους, κατασκευάζο-
ντας έτσι µια µονότονη ακολουθία 9 όρων, την s(l), l = 1,2,...,9.

α β

™¯‹Ì· 3.10
(α) Παράδειγµα Η τιµή w΄(k,m) τίθεται ίση µε s(5), δηλαδή ίση µε το µεσαίο στοιχείο της πιο πάνω
εικόνας που έχει ακολουθίας.
προσβληθεί από
κρουστικό θόρυ- Όπως είναι φανερό, µε τον τρόπο αυτό αποµακρύνονται από κάθε περιοχή της v οι
βο. (β) Αντιµετώ- ακραίες τιµές, που µε µεγάλη πιθανότητα είναι αυτές που έχουν προσβληθεί από τις
πιση του θορύβου µεγαλύτερες τιµές του θορύβου. Το αποτέλεσµα της τεχνικής του φίλτρου µεσαίου
αυτού µε φίλτρο στην αντιµετώπιση λευκού προσθετικού θορύβου φαίνεται στο Σχ. 3.8ε.
µεσαίου 3 × 3.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 69

3.4 ∆√¡ø™∏ ∆ø¡ ∞∫ªø¡ 69

Εκεί που το φίλτρο µεσαίου υπερέχει αισθητά του φίλτρου κινούµενου µέσου είναι
στην περίπτωση του κρουστικού (impulse) θορύβου. Ο θόρυβος αυτός εµφανίζεται
σε µια ψηφιακή εικόνα όταν για κάποια αιτία συµβούν καταστροφές σε οµάδες από
διαδοχικά bits στο αρχείο που αυτή είναι αποθηκευµένη. Για παράδειγµα, αυτό συµ-
βαίνει όταν το αρχείο της εικόνας διαβιβαστεί µέσα από ένα κανάλι πού έχει προ-
σβληθεί από εκλάµψεις (bursts) θορύβου. Οι εκλάµψεις είναι θόρυβος µε µεγάλη ισχύ,
διάρκεια πολλαπλάσια του χρόνου διαβίβασης ενός bit και εµφανίζεται στο κανάλι
κατά τυχαία χρονικά διαστήµατα. Κατά την εµφάνιση των εκλάµψεων, η πιθανότητα
σφάλµατος του καναλιού αυξάνει και συµβαίνουν πολλά σφάλµατα στις οµάδες των
διαδοχικών bits που διαβιβάζονται κατά τα αντίστοιχα χρονικά διαστήµατα. Τα εσφαλ-
µένα bits των οµάδων αυτών έχουν ως αποτέλεσµα, κατά την ανακατασκευή της
ψηφιακής εικόνας, ένα µεγάλο ποσοστό από τα pixels της να έχουν τιµή εντελώς δια-
φορετική από την αρχική. Με τον τρόπο αυτό παρουσιάζονται πολλά pixels φωτεινά
σε θέσεις όπου στην αρχική εικόνα υπήρχαν σκοτεινά και αντίστροφα, εµφανίζοντας
σκοτεινές και φωτεινές τελείες διασκορπισµένες σε όλη την επιφάνειά της εικόνας (Σχ.
3.10α). Λόγω της ιδιάζουσας αυτής µορφής που δίνει στην εικόνα ο παλµικός θόρυ-
βος καλείται από πολλούς συγγραφείς θόρυβος αλατοπίπερο (salt and pepper).
Στο Σχ. 3.10α δίνεται ένα παράδειγµα εικόνας µε παλµικό θόρυβο που έχει προσβάλει
µέχρι περίπου το 30% των pixels της εικόνας. Αν στην εικόνα αυτή εφαρµόσουµε τη
τεχνική του φίλτρου µεσαίου καταλήγουµε στην εικόνα 3.10β. Το αποτέλεσµα είναι
εντυπωσιακό. Πράγµατι, το φίλτρο µεσαίου αντιµετωπίζει πολύ ικανοποιητικά τον
παλµικό θόρυβο ακόµη και αν αυτός έχει προσβάλει σηµαντικό ποσοστό των pixels
της εικόνας, ποσοστό που µπορεί να φθάνει και το 30%. Αντίθετα από το φίλτρο µεσαί-
ου, το φίλτρο κινούµενου µέσου είναι εντελώς αναποτελεσµατικό στην αντιµετώπιση
του παλµικού θορύβου, επειδή µε τη χρήση της µέσης τιµής η µεγάλη απόκλιση που
υπάρχει στην τιµή κάποιου pixel διαχέεται σε ολόκληρη την περιοχή του pixel.

3.4 ∆fiÓˆÛË ÙˆÓ ·ÎÌÒÓ

Οι ακµές µιας εικόνας δίνουν τα όρια των αντικειµένων που απεικονίζονται σ’ αυτήν.
Με τον όρο τόνωση των ακµών (edge enhancement) εννοούµε την επεξεργασία που
υφίσταται µια εικόνα µε στόχο να τονωθούν οι λεπτοµέρειες που απεικονίζονται κατά
µήκος των ακµών της. Η τόνωση των ακµών βελτιώνει σηµαντικά την υποκειµενι-
κή αντίληψη µιας εικόνας, ιδίως όταν αυτή έχει υποστεί θόλωµα ή έχει προσβληθεί
από θόρυβο.
Στις ακµές το σήµα µεταβάλλεται µε ρυθµό ταχύτερο από εκείνον των υπολοίπων
σηµείων της εικόνας. Αυτό σηµαίνει ότι σε αυτές θα συναντήσουµε τις υψηλότερες
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 70

70 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

συχνότητες του σήµατος ή τις µεγαλύτερες τιµές παραγώγου της εικόνας. Για την
τόνωση λοιπόν των ακµών χρησιµοποιείται φίλτρο διέλευσης υψηλών συχνοτήτων
[4] ή υπολογίζεται η παράγωγος της εικόνας.

3.4.1 ªÂ›ÍË Ù˘ ÂÈÎfiÓ·˜ Ì ÙËÓ ·Ú¿ÁˆÁfi Ù˘ ÁÈ· ÙËÓ ÙfiÓˆÛË ÙˆÓ
·ÎÌÒÓ

Θα περιγράψουµε την τεχνική της τόνωσης των ακµών µιας εικόνας µε τη χρήση της
παραγώγου της δίνοντας ένα παράδειγµα. Η εικόνα στο Σχ. 3.11α, που θα συµβολί-
ζουµε ως n, έχει προκύψει από αυτή του Σχ. 3.8β έπειτα από την εφαρµογή του φίλ-
τρου κινούµενου µέσου 7 × 7. Λόγω της µεγάλης έκτασης του φίλτρου, το θόλωµα
που παρατηρείται είναι σηµαντικό. Η εικόνα του Σχ. 3.11β, εικόνα d, έχει προκύψει
µε παραγώγιση της n. Η τεχνική της παραγώγισης περιγράφεται αναλυτικά στο κεφά-
λαιο 4. Όπως αναµενόταν στη d φαίνονται έντονες οι ακµές της n σε αντίθεση µε τις
υπόλοιπες λεπτοµέρειες που έχουν εξαφανιστεί. Η εικόνα r, στο Σχ. 3.11γ, έχει προ-
κύψει από το άθροισµα των δύο εικόνων n και d. Ο τρόπος δηµιουργίας της r περι-
γράφεται αµέσως πιο κάτω. Θέλουµε όµως προηγουµένως να παρατηρήσουµε ότι σ’
αυτήν απεικονίζονται όλες οι λεπτοµέρειες της n και συγχρόνως φαίνονται καθαρά οι
ακµές της, δίνοντας έτσι την αίσθηση ότι έχει γίνει βελτίωση της αρχικής εικόνας n.

α β

™¯‹Ì· 3.11
Τόνωση των ακµών εικόνας. (α) Η εικόνα
παρουσιάζει σηµαντικό θόλωµα. (β) Η
εικόνα έχει προκύψει από την παραγώγιση
της προηγούµενης. (γ) Η εικόνα δηµιουρ-
γείται από το άθροισµα των δύο προηγού-
µενων. γ
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 71

3.4 ∆√¡ø™∏ ∆ø¡ ∞∫ªø¡ 71

209 208 207 207 207 209 211 177 220 122 122 122 122 122
214 213 212 212 213 215 216 130 169 122 122 122 122 122
220 219 219 219 220 222 223 134 169 211 122 122 122 122
α= 227 226 225 226 227 229 230 β= 145 130 166 122 122 122 208
234 233 232 233 234 234 235 146 140 177 150 122 122 148
239 239 238 238 237 237 237 146 143 130 158 143 139 141
243 242 242 241 240 239 238 137 141 134 122 122 122 122

386 428 329 329 329 331 333 193 214 165 165 165 166 167
344 382 334 334 335 337 338 172 191 167 167 168 169 169
354 388 430 341 342 344 345 177 194 215 171 171 172 173
γ= 372 356 391 348 349 351 438 δ= 186 178 196 174 175 176 219
380 373 409 383 356 356 383 190 187 205 192 178 178 192
385 382 368 396 380 376 378 193 191 184 198 190 188 189
380 383 376 363 362 361 360 190 192 188 182 181 181 180 ™¯‹Ì· 3.12

Για τον υπολογισµό του αθροίσµατος των εικόνων n και d και τη δηµιουργία της
εικόνας r εργαζόµαστε ως εξής:
Αν Μ × N είναι οι δύο διαστάσεις των εικόνων n και d, κατασκευάζουµε έναν πίνα-
κα s Μ × N, θέτοντας την τιµή κάθε στοιχείου του ίση µε το άθροισµα των αντι-
στοίχων pixels των n και d.
s(i,j) = n(i,j)+d(i,j)
Στη συνέχεια βρίσκουµε τη µεγαλύτερη τιµή του πίνακα s, την smax και µε βάση αυτή
κβαντίζουµε όλα τα στοιχεία του s χρησιµοποιώντας το ίδιο πλήθος σταθµών Q µε
το οποίο έχουν κβαντιστεί οι εικόνες n και d. Τις κβαντισµένες αυτές τιµές θέτουµε
ως τιµές των pixels της εικόνας r. Η διαδικασία της κβάντισης γίνεται όπως έχει περι-
γραφεί στην υποενότητα 2.3.1. Για να γίνει πιο κατανοητή η διαδικασία της, του
αθροίσµατος των δύο εικόνων, δίνεται το παράδειγµα 2.

¶·Ú¿‰ÂÈÁÌ· 3.2
Στους πίνακες α και β του Σχ. 3.12 δίνονται οι τιµές των pixels από δύο αντίστοιχα
τµήµατα µεγέθους 7 × 7 των εικόνων n και d του Σχ. 3.11. ∆ίνεται επίσης ότι το πλή-
θος Q των σταθµών κβάντισης των εικόνων n και d είναι ίσο µε 256, καθώς και ότι
το στοιχείο smax του πίνακα s ισούται µε 510. Επιθυµούµε να υπολογίσουµε τις τιµές
των pixels του αντίστοιχου τµήµατος της εικόνας r του ίδιου σχήµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 72

72 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

Λύση
Κατασκευάζουµε τον πίνακα γ του Σχ. 3.12 υπολογίζοντας τα στοιχεία του µε τη
σχέση γ(i,j) = α(i,j) + β(i,j) για 1 ≤ i,j ≤ 7. Στη συνέχεια τα στοιχεία του γ κβαντίζο-
νται µε 256 στάθµες, µε τον τρόπο που έχουµε περιγράψει στην υποενότητα 2.3.1.
Πιο συγκεκριµένα, υπολογίζουµε το εύρος της βαθµίδας κβάντισης ∆L = smax/(Q–1)
= 510/255 = 2. Για κάθε στοιχείο γ(i,j) υπολογίζουµε το λόγο γ(i,j)/∆L και βρίσκουµε
τον πλησιέστερο προς αυτόν ακέραιο, την τιµή του οποίου θέτουµε στο δ(i,j). Με
τον τρόπο αυτό έχουν υπολογιστεί όλα τα στοιχεία του πίνακα δ. Ο τελευταίος αυτός
πίνακας περιέχει τις τιµές των pixels του ζητούµενου τµήµατος της εικόνας r.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 3.2

Τι είναι σωστό και τι λάθος από τα παρακάτω;


Σωστό Λάθος
1. Μια εικόνα κατά τη διαβίβασή της µέσα από ψηφιακό
κανάλι είναι δυνατόν να προσβληθεί από θόρυβο. ❏ ❏
2. Κατά την εφαρµογή του φίλτρου κινούµενου µέσου
ή του φίλτρου µεσαίου σε µια εικόνα µε βάθος 8 bits/pixel,
τα pixels της εικόνας που προκύπτει έχουν τιµή
από 0 µέχρι 255. ❏ ❏
3. Το φίλτρο κινούµενου µέσου δηµιουργεί θόλωµα
στην εικόνα όπου εφαρµόζεται. ❏ ❏
4. Το φίλτρο κινούµενου µέσου δεν είναι το ίδιο
αποτελεσµατικό όπως το φίλτρο µεσαίου,
στην αντιµετώπιση του κρουστικού θορύβου. ❏ ❏
5. Στη διαδικασία τόνωσης των ακµών απαιτείται η εκ νέου
κβάντιση και κωδικοποίηση των τιµών της εικόνας,
που προκύπτει µε την άθροιση των δύο αρχικών εικόνων. ❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 73

™YNOæH 73

™‡ÓÔ„Ë
Στο κεφάλαιο αυτό έγινε η αναφορά των πλέον γνωστών αιτιών, από τις οποίες δηµι-
ουργείται η υποβάθµιση της ποιότητας µιας εικόνας και παρουσιάστηκαν µερικές από
τις πιο απλές µεθόδους αποκατάστασης της ποιότητας αυτής. Συγκεκριµένα:
• Εξετάστηκαν τεχνικές τροποποίησης του ιστογράµµατος, µε τις οποίες επιτυγχά-
νεται η τόνωση της φωτεινότητας µιας εικόνας µε περιορισµένη αντίθεση.
• Παρουσιάστηκαν δύο από τους τύπους θορύβου που συναντάµε σε µια ψηφιακή
εικόνα, ο λευκός Gaussian θόρυβος και ο κρουστικός θόρυβο.
• Παρουσιάστηκαν το φίλτρο κινούµενου µέσου και το φίλτρο µεσαίου και εξετά-
στηκε η αποτελεσµατικότητα αυτών στην αντιµετώπιση του θορύβου.
• Τέλος παρουσιάστηκε µια τεχνική τόνωσης των ακµών µιας εικόνας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 74

74 ∆∂áπ∫∂™ µ∂§∆πø™∏™ ∆∏™ ∂π∫√¡∞™

µÈ‚ÏÈÔÁÚ·Ê›·

1. Ιωάννης Πήτας «Ψηφιακή Επεξεργασία Εικόνας» Θεσσαλονίκη 1996 [σελίδες


9–16],[ σελίδες 165–185]
2. R. C. Gonzalez, R.E Woods «Digital Image Processing» Addison–Wessley 1993
3. G.A.Baxes «Digital Image Processing: Principles and Applications» J. Wiley N.
York 1994 [ pages 86–107]
4. Σκόδρας Αθανάσιος, Αναστασόπουλος Βασίλειος, «Ψηφιακή Επεξεργασία εικό-
νων και Σηµάτων», Ανοικτό Πανεπιστήµιο 1999.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 75

∆¯ÓÈΤ˜ ηٿÙÌËÛ˘ Ù˘ ÂÈÎfiÓ·˜

™ÎÔfi˜
∫ ∂

Σκοπός του κεφαλαίου αυτού είναι να γίνει η παρουσίαση των µεθόδων κατάτµησης

της εικόνας, δηλαδή του διαχωρισµού της σε περιοχές, κaθεµιά από τις οποίες περιέ-
χει ξεχωριστά αντικείµενα της απεικονιζόµενης σκηνής.
∞ § ∞ π √

¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Eξετάσετε το ιστόγραµµα µιας εικόνας και να συµπεράνετε αν είναι δυνατή η κατά-
τµηση αυτής µε σταθερό κατώφλιο.
• Περιγράψετε µια µέθοδο κατωφλίωσης µε µεταβλητό κατώφλιο.
• Γράψετε τη σχέση που συνδέει τη φωτεινότητα µιας εικόνας µε το φωτισµό της
σκηνής που παριστάνει και την ανακλαστικότητα των αντικειµένων που περιλαµ-
βάνει.
• Πετύχετε την αποκατάσταση της φωτεινότητας µιας εικόνας, που έχει προκύψει
από ανοµοιόµορφο φωτισµό.
• ∆ώσετε τον ορισµό της κατά κατεύθυνση παραγώγου για µια συνάρτηση µε δύο
µεταβλητές.
• Aναφέρετε δύο τουλάχιστον λόγους, για τους οποίους παρουσιάζει δυσχέρειες ο
προσδιορισµός της τιµής της παραγώγου σε µια εικόνα.
• Aναφέρετε δύο τουλάχιστον τύπους τελεστών κλίσης και ένα τύπο τελεστή προσα-
νατολισµού.
• Προγραµµατίσετε και να εφαρµόσετε µια τουλάχιστον από τις τεχνικές ανίχνευσης
ακµών σε µια εικόνα.
• Γράψετε τον ορισµό του περιγράµµατος περιοχής.
• Προγραµµατίσετε την ανίχνευση περιγράµµατος περιοχής σε µονόχρωµη εικόνα.

ŒÓÓÔȘ ÎÏÂȉȿ
• Ανακλαστικότητα Επιφάνειας
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 76

76 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

• Κλίση δισδιάστατης συνάρτησης σε σηµείο


• Μάσκα ∆ιαφόρισης Εικόνας.
• Παράγωγος Συνάρτησης σε σηµείο κατά κατεύθυνση
• Περίγραµµα Περιοχής.
• Κατωφλίωση µε Προσαρµοζόµενο Κατώφλιο
• Συσχέτιση Μάσκας και Εικόνας
• Τελεστές Kirsch
• Τελεστές Robert
• Τελεστές Sobel
• Τελεστές Κλίσης
• Τελεστές Προσανατολισµού

∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Στην ενότητα 1.2, έχουµε δει ότι µια από τις βασικές βαθµίδες ενός Σ.Ο.Α. είναι αυτή
της κατάτµησης της εικόνας,. Στο κεφάλαιο αυτό παρουσιάζονται µερικές από τις πιο
γνωστές µεθόδους µε τις οποίες επιτυγχάνεται η κατάτµηση της εικόνας. Πιο συγκε-
κριµένα, στην πρώτη ενότητα (Ενότητα 4.1) δίνεται η περιγραφή τεχνικών κατω-
φλίωσης, µε καθολικό, ή µε προσαρµοζόµενο κατώφλιο. Στη δεύτερη ενότητα (Ενό-
τητα 4.2), γίνεται µια σύντοµη εισαγωγή στo πρόβληµα της διαφόρισης συνάρτησης
δύο µεταβλητών και στη συνέχεια, περιγράφονται τρεις τύποι ανίχνευσης ακµών.
Τέλος, στη τρίτη ενότητα (Ενότητα 4.3) δίνεται µια µέθοδος για την ανίχνευση του
περιγράµµατος περιοχής σε µονόχρωµη εικόνα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 77

4 . 1 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆ ø º § π ø ™ ∏ ™ 77

4.1 ∆¯ÓÈΤ˜ ηوÊÏ›ˆÛ˘

Μια απλή µέθοδος κατάτµησης εικόνας είναι η τεχνική της κατωφλίωσης. Η τεχνι-
κή αυτή εφαρµόζεται όταν οι τιµές των pixels του αντικειµένου, το οποίο επιθυµούµε
να αποχωρίσουµε, είναι διαφορετικές από εκείνες των pixels των γειτονικών περιο-
χών. Κατά την κατωφλίωση, από την αρχική ασπρόµαυρη εικόνα δηµιουργείται µια
µονόχρωµη εικόνα, στην οποία όλα τα pixels του αντικειµένου που µας ενδιαφέρει
είναι µαύρα και τα pixels της υπόλοιπης εικόνας λευκά ή το αντίστροφο.

4.1.1 ∫·ÙˆÊÏ›ˆÛË Ì ¯Ú‹ÛË Î·ıÔÏÈÎÔ‡ ηوÊÏ›Ô˘

Όταν το διάστηµα τιµών της φωτεινότητας ενός αντικειµένου είναι εντελώς διαφορε-
τικό από το αντίστοιχο διάστηµα της υπόλοιπης εικόνας, τότε για την κατωφλίωση
αρκεί η κατάλληλη τροποποίηση του ιστογράµµατος. Στην εικόνα του Σχ. 4.1α το διά-
στηµα τιµών φωτεινότητας των γραµµάτων και αυτό του υπόβαθρου είναι τελείως δια-
φορετικά. Αυτό έχει ως αποτέλεσµα το ιστόγραµµα τιµών της εικόνας, που δίνεται στο
Σχ. 4.1β, να αποτελείται από δύο λοβούς εντελώς διαχωρισµένους µεταξύ τους. Για τη
δηµιουργία της µονόχρωµης εικόνας του Σχ. 4.1γ, ορίζεται στο ιστόγραµµα του 4.1β
το κατώφλι Τ0 στο µέσον του κενού διαστήµατος, που διαχωρίζει τους δύο λοβούς.
Αυτός ο ορισµός του Τ0 εξασφαλίζει ότι η τιµή του είναι µεγαλύτερη από όλες τις τιµές
τιµές των pixels των γραµµάτων και συγχρόνως µικρότερη από εκείνες των pixels
της υπόλοιπης εικόνας. Στη συνέχεια εφαρµόζουµε στην αρχική εικόνα την τροπο-
ποίηση του ιστογράµµατος, gn = f(g), το διάγραµµα της οποίας δίνεται στο Σχ. 4.1δ.
Με την τροποποίηση αυτή, όλα τα pixels που στην αρχική εικόνα έχουν τιµή µικρό-
τερη από το κατώφλιο Τ0, στη νέα εικόνα γίνονται µαύρα. Αντίθετα, όσα pixels έχουν ™¯‹Ì· 4.1
τιµή µεγαλύτερη από Τ0, στη νέα εικόνα γίνονται λευκά. Το σχήµα παρουσιά-
ζει την τεχνική της
κατωφλίωσης. (α)
T0 Αρχική εικόνα. (β)
Το ιστόγραµµα της
εικόνας. (γ) Με την
κατωφλίωση η αρχι-
κή εικόνα µετατρέ-
α β
πεται σε µια µονό-
gn χρωµη εικόνα. (δ)
gn=f(g)
Για τη µετατροπή
255
αυτή αρκεί να εφαρ-
µοστεί η τροποποίη-
ση του ιστογράµµα-
T0 g τος που απεικονίζε-
γ δ ται στο διάγραµµα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 78

78 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

Ένα δεύτερο παράδειγµα, στο οποίο η κατωφλίωση γίνεται άµεσα, µε τη χρήση ενός
µοναδικού κατωφλίου, είναι αυτό που δώσαµε στο Σχ. 2.6 της υποενότητας 2.3.4.
Το ιστόγραµµα της αρχικής εικόνας δίνεται στο Σχ. 4.2. Όπως και παραπάνω στο
ιστόγραµµα αυτό διακρίνονται δύο σαφώς διαχωριζόµενοι µεταξύ τους λοβοί. Στο
ενδιάµεσο διάστηµα µεταξύ των λοβών αυτών έχει οριστεί το κατώφλιο Τ0 µε τιµή
ίση µε 70. Μια τροποποίηση του ιστογράµµατος, παρόµοια µε αυτή του Σχ. 4.1δ,
δηµιουργεί τη µονόχρωµη εικόνα του Σχ. 2.6.
Στα παραδείγµατα που αναφέραµε στην υποενότητα αυτή χρησιµοποιήθηκε µια
µοναδική τιµή κατωφλίου, µε βάση την οποία έγινε η σύγκριση των τιµών της φωτει-
νότητας όλων των pixels της εικόνας. Η τεχνική αυτή καλείται κατωφλίωση µε
καθολικό (global) κατώφλιο.

4.1.2 ¢ÈfiÚıˆÛË Ù˘ ʈÙÂÈÓfiÙËÙ·˜ ÂÈÎfiÓ·˜

Μια βασική προϋπόθεση που πρέπει να ισχύει κατά τη φωτογράφιση µιας σκηνής,
ώστε στην εικόνα που θα προκύψει να είναι δυνατή η κατωφλίωση µε καθολικό
κατώφλιο, είναι ολόκληρη η σκηνή να φωτίζεται οµοιόµορφα. Οµοιόµορφες συν-
θήκες φωτισµού µπορούµε να δηµιουργήσουµε µέσα σε ένα φωτογραφικό εργα-
™¯‹Ì· 4.2 στήριο. Αντίθετα, αυτό είναι δύσκολο στις φωτογραφήσεις σε εξωτερικούς χώρους
Το ιστόγραµµα της ή όταν ο φωτισµός προέρχεται από ακτινοβολίες, όπως συµβαίνει µε τις λήψεις ακτι-
εικόνας του σχή- νογραφιών ή άλλων ιατρικών εικόνων.
µατος 2.6. Το
κατώφλιο έχει επι-
λεγεί στην τιµή
φωτεινότητας 70.
Το µέγιστο της
κλίµακας είναι
255 µονάδες.

Στην εικόνα που δίνεται στο Σχ. 4.3α φαίνεται τι συµβαίνει όταν ο φωτισµός της σκη-
νής δεν είναι οµοιόµορφος. Παρά το ότι τα γεωµετρικά σχήµατα που απεικονίζονται
στην εικόνα γίνονται αντιληπτά, το ιστόγραµµα δεν διαχωρίζεται σε δυο διακριτούς
λοβούς και εποµένως δεν µπορεί να εφαρµοστεί άµεσα η τεχνική του µοναδικού κατω-
φλίου. Για να γίνει δυνατή η κατωφλίωση της εικόνας αυτής, µια µέθοδος είναι να διορ-
θώσουµε τη φωτεινότητά της. Η διόρθωση αυτή είναι δυνατή όταν η πηγή φωτισµού
της αντίστοιχης φωτογράφησης είναι προσπελάσιµη. Για να γίνει αντιληπτός ο τρόπος
διόρθωσης της φωτεινότητας, πρέπει να δούµε πώς προσδιορίζεται η τιµή της σε κάθε
σηµείο της λαµβανόµενης εικόνας κατά τη φωτογράφηση µιας σκηνής.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 79

4 . 1 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆ ø º § π ø ™ ∏ ™ 79

4.1.2· ºˆÙÈÛÌfi˜ Î·È ·Ó·ÎÏ·ÛÙÈÎfiÙËÙ·

Ανακλαστικότητα της επιφάνειας ενός φωτιζόµενου αντικειµένου είναι ο λόγος της


ποσότητας του φωτός που ανακλάται από αυτήν προς την ποσότητα φωτός που προ-
σπίπτει σ’ αυτή. Ο φωτισµός και η ανακλαστικότητα ενός σηµείου της απεικονιζό-
µενης σκηνής καθορίζουν τη φωτεινότητα του αντίστοιχου σηµείου της εικόνας, που
θα δηµιουργηθεί. Γι’ αυτό η φωτεινότητα f(x,y) σε κάθε σηµείο (x,y) της εικόνας που
προκύπτει περιγράφεται ως το γινόµενο δύο συναρτήσεων, δηλαδή ισχύει f (x,y) =
s(x,y)r(x,y). Η συνάρτηση s(x,y) εξαρτάται από το φωτισµό της σκηνής, και η r(x,y)
από την ανακλαστικότητα αυτής.

α β γ

™¯‹Ì· 4.3
Ανοµοιόµορφα φωτιζόµενη σκηνή
α) Αρχική εικόνα και το αντίστοιχο ιστόγραµµα.
β) Η κατατοµή του φωτισµού της σκηνής.
γ) ∆ιόρθωση της αρχικής εικόνας. Το ιστόγραµµα παρουσιάζει πλέον δύο
σαφώς διαχωρισµένους λοβούς.

δ δ)Εφαρµογή της κατωφλίωσης στην εικόνα (γ).

Ας υποθέσουµε ότι ένα αντικείµενο της σκηνής έχει διαφορετική ανακλαστικότητα


από το περιβάλλον του. Τότε οι τιµές της r(x,y) στα pixels που αντιστοιχούν στο αντι-
κείµενο θα είναι σε διαφορετική περιοχή από εκείνες που λαµβάνει η r(x,y) στα υπό-
λοιπα pixels της εικόνας. Όταν ο φωτισµός της σκηνής είναι οµοιόµορφος, η s(x,y)
είναι σταθερή (s(x,y) = c) και εποµένως η φωτεινότητα f(x,y) της εικόνας είναι ανά-
λογη της ανακλαστικότητας r(x,y) της σκηνής (f(x,y) = cr(x,y)). Στην περίπτωση
αυτή, η κατατοµή της f(x,y) είναι ίδια µε αυτή της r(x,y) και οι τιµές της φωτεινότη-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 80

80 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

τας των pixels που αντιστοιχούν στο αντικείµενο βρίσκονται σε διαφορετικό διά-
στηµα από τις τιµές φωτεινότητας των υπολοίπων pixels της εικόνας. Αυτή η δια-
φοροποίηση γίνεται φανερή και από το ιστόγραµµα της εικόνας, όπως, για παρά-
δειγµα, στο Σχ. 4.1. Στην περίπτωση αυτή, η εικόνα του αντικειµένου διαχωρίζεται
εύκολα µε τη χρήση καθολικού κατωφλίου.
Όταν όµως ο φωτισµός δεν είναι οµοιόµορφος, η s(x,y) δεν είναι σταθερή, και η
φωτεινότητα της εικόνας f(x,y) δεν είναι ανάλογη πλέον της κατατοµής της r(x,y).
Οι τιµές φωτεινότητας των pixels που αντιστοιχούν στο αντικείµενο και αυτές της
υπόλοιπης εικόνας µοιράζονται σε κοινά διαστήµατα και ο διαχωρισµός τους µε την
άµεση χρήση της κατωφλίωσης είναι αδύνατος. Αυτό ακριβώς συµβαίνει µε την
περίπτωση της εικόνας του Σχ. 4.3α.

4.1.2‚ ¶ÚÔÛ‰ÈÔÚÈÛÌfi˜ ÙÔ˘ ʈÙÈÛÌÔ‡ ÛÎËÓ‹˜ Î·È ‰ÈfiÚıˆÛË Ù˘


ʈÙÂÈÓfiÙËÙ·˜ Ù˘ ÂÈÎfiÓ·˜

Με την ίδια πηγή φωτισµού, µε την οποία ελήφθη η εικόνα του Σχ. 4.3α, φωτίζου-
µε µια λευκή σταθερής ανακλαστικότητας επιφάνεια και λαµβάνεται η εικόνα του
Σχ. 4.3β. Σε κάθε σηµείο (x,y) της εικόνας αυτής, η φωτεινότητα f1(x,y) δίνεται από
τη σχέση f1(x,y) = c1s(x,y), όπου η σταθερά c1 έχει προκύψει από τη σταθερή τιµή
της ανακλαστικότητας της φωτογραφιζόµενης επιφάνειας. Από τη σχέση αυτή υπο-
λογίζεται ο παράγοντας φωτισµού s(x,y) και διορθώνεται η τιµή της φωτεινότητας
f(x,y) της αρχικής εικόνας. Υπολογίζοντας, για παράδειγµα, το λόγο των δύο φωτει-
νοτήτων f(x,y)/f1(x,y) προκύπτει µια συνάρτηση ανάλογη της r(x,y) και το ιστόγραµµά
της παρουσιάζει δύο ξεχωριστούς λοβούς. Η εικόνα του Σχ. 4.2γ έχει κατασκευα-
στεί υπολογίζοντας το λόγο των φωτεινοτήτων και στη συνέχεια κβαντίζοντας το
αποτέλεσµα σε 256 στάθµες. Στο ίδιο σχήµα δίνεται και το ιστόγραµµα φωτεινότη-
τας της εικόνας. Εφαρµόζοντας τελικά την κατωφλίωση µε κατώφλιο Τ0 = 128 µονά-
δες, προκύπτει η επιθυµητή µονόχρωµη εικόνα του Σχ. 4.3δ.

4.1.3 ¶ÚÔÛ·ÚÌÔ˙fiÌÂÓÔ Î·ÙÒÊÏÈÔ Î·È ¿ÏϘ Ù¯ÓÈΤ˜ ηوÊÏ›ˆÛ˘

Στη βιβλιογραφία έχει αναπτυχθεί ένας µεγάλος αριθµός τεχνικών µε τις οποίες αντι-
µετωπίζεται η κατωφλίωση εικόνων, που έχουν ληφθεί µε διαφορετικές συνθήκες
φωτισµού ή στις οποίες η ανακλαστικότητα του αντικειµένου, που επιθυµούµε να
διαχωρίσουµε, και της υπόλοιπης σκηνής δεν διαφέρουν σηµαντικά. Για παράδειγ-
µα, στην περίπτωση που η σκηνή δεν φωτίζεται οµοιόµορφα και δεν είναι δυνατή η
προσπέλαση της πηγής φωτισµού, χρησιµοποιείται, πολλές φορές µε επιτυχία, η
τεχνική της χρήσης προσαρµοζόµενου κατωφλίου (adaptive thresholding). Σύµ-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 81

4 . 1 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆ ø º § π ø ™ ∏ ™ 81

φωνα µε τη µέθοδο αυτή, η τιµή του κατωφλίου επιλέγεται διαφορετική για κάθε
pixel της εικόνας.
Στο Σχ. 4.4 δίνεται ένα παράδειγµα κατωφλίωσης µε προσαρµοζόµενο κατώφλιο. Η
εικόνα w του Σχ. 4.4α έχει διαστάσεις M × N και κατά µήκος αυτής η φωτεινότητα
ελαττώνεται προοδευτικά. Επειδή στην περίπτωση αυτή δεν είναι δυνατή η διόρθω-
ση της φωτεινότητας και, εποµένως, η χρήση καθολικού κατωφλίου δεν ενδείκνυ-
ται, φροντίζουµε ώστε η τιµή αυτού να προσαρµόζεται στη φωτεινότητα της περιο-
χής γύρω από κάθε pixel χωριστά. Προς την κατεύθυνση αυτή είναι λογικό να υιο-
θετήσουµε για το pixel (k,m) ως τιµή κατωφλίου Τ(k,m) τη µέση τιµή της φωτεινό-
τητας των pixels µιας περιοχής L × L της w γύρω από το (k,m). Μετά από µερικές
δοκιµές προέκυψε ότι το κατώφλιο πρέπει να επιλέγεται από τη σχέση:
3 3

∑∑
1
T ( k , m) = w( k − i , m − j ) − C (4.1)
49 i = −3 j = −3

όπου C µια σταθερά. Από τη σχέση (4.1) φαίνεται ότι τελικά επιλέχθηκε περιοχή µε
µέγεθος 7 × 7 και ότι το κατώφλιο επιλέγεται ίσο µε τη µέση τιµή φωτεινότητας της
περιοχής αυτής µειωµένο κατά τη σταθερά C. Η µείωση αυτή εξασφαλίζει ότι στο
περιθώριο του εντύπου, όπου δεν υπάρχουν καθόλου γράµµατα, το κατώφλιο θα έχει
τιµή µικρότερη από όλα τα pixels της περιοχής και έτσι αυτά µετά την κατωφλίωση
θα βρεθούν στο υπόβαθρο. Η τιµή της C εξαρτάται από το πλήθος Q των σταθµών
κβάντισης και από το θόρυβο που υπάρχει στο έντυπο. Στο δικό µας παράδειγµα
είχαµε πολύ καλά αποτελέσµατα µε C = 5. Στο Σχ. 4.4β δίνεται η µονόχρωµη εικό-
να που προκύπτει µετά την εφαρµογή της κατωφλίωσης.
Οι τεχνικές κατωφλίωσης που γνωρίσαµε στην ενότητα αυτή είναι µόνο ένα µικρό
δείγµα από τις µεθόδους που έχουν προταθεί στη βιβλιογραφία. Ο αναγνώστης που
ενδιαφέρεται να γνωρίσει περισσότερα πάνω στο θέµα της κατωφλίωσης, µπορεί να
µελετήσει το [1].
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 82

82 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

™¯‹Ì· 4.4
α) Ο ανοµοιόµορφος
φωτισµός κατά τη
φωτογράφηση έχει
ως αποτέλεσµα την
προοδευτική ελάττω-
ση της φωτεινότητας
κατά µήκος της εικό-
νας. β) Η εικόνα
αυτή είναι µονόχρω-
µη και προέρχεται
από την (α) µε την
εφαµογή κατωφλίω-
σης µε προσαρµοζό-
µενο κατώφλιο. α β

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 4.1

∆ίνεται ότι ο πίνακας a περιέχει τις τιµές των pixels µιας εικόνας που έχει προκύ-
ψει από τη φωτογράφηση σκηνής ανοµοιόµορφα φωτισµένης. Ο πίνακας b περιέ-
χει τις τιµές των pixels µιας δεύτερης εικόνας που έχει ληφθεί από τη φωτογρά-
φηση ενός λευκού χαρτιού µε σταθερή ανακλαστικότητα και τον ίδιο φωτισµό µε
αυτό της πρώτης. Να προσπαθήσετε να διορθώσετε τη φωτεινότητα της πρώτης
εικόνας, να χαράξετε το ιστόγραµµα της διορθωµένης και να βρείτε ένα κατάλλη-
λο καθολικό κατώφλιο για να κάνετε κατωφλίωση της εικόνας.

69 82 90 91 95 92 83 88 86 75 73
54 58 66 74 29 30 93 102 107 104 110
67 74 83 22 29 35 33 125 135 141 143
85 91 21 21 30 25 26 41 161 160 173
85 104 32 38 40 32 39 44 55 191 188
85 97 113 46 46 49 47 167 187 201 209

69 83 97 111 24 29 154 171 201 221 237


90 107 122 133 153 167 186 210 227 243 255

Πίνακας a: Τιµές των pixels της αρχικής εικόνας.


£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 83

4.2 ∆∂áπ∫∂™ ∞¡πá∂À™∏™ ∞∫ªø¡ 83

67 76 80 81 85 85 81 86 85 81 79
58 63 71 75 78 80 90 97 103 104 106
64 73 87 93 94 104 106 117 125 133 141
81 94 104 111 125 132 141 146 155 157 162
80 90 99 108 119 131 142 153 167 178 183
78 90 103 110 121 131 144 154 172 187 201

71 88 103 122 136 151 167 179 198 214 233


85 102 117 133 154 172 188 206 225 240 255

Πίνακας b: Τιµές των pixels της εικόνας του λευκού χαρτιού.

4.2 ∆¯ÓÈΤ˜ ·Ó›¯Ó¢Û˘ ·ÎÌÒÓ

Ακµές είναι εκείνες οι περιοχές της εικόνας στις οποίες εµφανίζονται µεγάλες µετα-
βολές της φωτεινότητας. Αυτές δηµιουργούνται στα σηµεία που αντιστοιχούν στις
οριακές επιφάνειες των αντικειµένων της απεικονιζόµενης σκηνής και γι’ αυτό η ανί-
χνευσή τους αποτελεί σηµαντικό εργαλείο για την κατάτµηση της εικόνας. Όπως επί-
σης είδαµε στην υποενότητα 3.4 ο εντοπισµός των ακµών και η τόνωσή τους απο-
τελούν µια από τις τεχνικές βελτίωσης της εικόνας.
Παρά τη θεµελιώδη σηµασία των ακµών στην ψηφιακή επεξεργασία και την ανάλυ-
ση της εικόνας, δεν µπορεί να δοθεί ακριβής µαθηµατικός ορισµός για αυτές. Τις δεχό-
µαστε ως περιοχές, στις οποίες η µεταβολή της φωτεινότητας είναι πολύ πιο έντονη
από ό,τι στην υπόλοιπη εικόνα. Αυτό σηµαίνει ότι στα σηµεία των ακµών, η παρά-
γωγος της φωτεινότητας, είναι σηµαντικά αυξηµένη. Η θέση τους, λοιπόν, εντοπίζε-
ται υπολογίζοντας την παράγωγο σε όλα τα σηµεία της εικόνας και ξεχωρίζοντας εκεί-
να, στα οποία αυτή έχει τις πιο µεγάλες τιµές. Είναι ανάγκη, εποµένως, να γνωρί-
σουµε µερικές βασικές αρχές για την παραγώγιση µιας δισδιάστατης συνεχούς συνάρ-
τησης και στη συνέχεια ενός δισδιάστατου ψηφιακού σήµατος, όπως είναι η εικόνα.

4.2.1 ∏ ·Ú·ÁÒÁËÛË Ú·ÁÌ·ÙÈ΋˜ Û˘Ó¿ÚÙËÛ˘ Ì ‰‡Ô ÌÂÙ·‚ÏËÙ¤˜

Στην υποενότητα αυτή θα παρουσιάσουµε µερικές µαθηµατικές έννοιες που είναι


απαραίτητες για να κατανοήσουµε εύκολα τις τεχνικές εντοπισµού των ακµών [4].
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 84

84 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

4.2.1· ªÂÚÈΤ˜ ·Ú¿ÁˆÁÔÈ Î·È Ë ÎÏ›ÛË


Έστω πραγµατική συνάρτηση z = f(x,y) δύο µεταβλητών µε πεδίο ορισµού το Π, ένα
υποσύνολο του R2, και έστω Α ένα σηµείο του Π µε συντεταγµένες (xA,yA). Όταν στο
' '
σηµείο Α υπάρχουν οι µερικές παράγωγοι της f(x,y), οι f X (xA,yA) = ∂z / ∂x|A και fY
(xA,yA) = ∂z / ∂y|A και είναι συνεχείς σε µια περιοχή του σηµείου αυτού, τότε η f(x,y)
λέγεται παραγωγίσιµη στο σηµείο Α.
Η κλίση (gradient) της f(x,y) στο σηµείο Α, συµβολίζεται µε grad f(x,y)|A, και ορί-
ζεται ως το διάνυσµα:
grad f ( x, y) | A = f X' ( x A , y A )i + fY' ( x A , y A ) j (4.2)
όπου i και j είναι τα µοναδιαία διανύσµατα κατά τη διεύθυνση του άξονα των τετµη-
µένων Οx και των τεταγµένων Οy αντίστοιχα. Για την κλίση της συνάρτησης ισχύ-
ει το εξής θεώρηµα.

£∂øƒ∏ª∞ 4.1

Όταν στο σηµείο Α(xA,yA) η συνάρτηση f(x,y) είναι παραγωγίσιµη, τότε το διάνυσµα
grad f(x,y)|A έχει την κατεύθυνση προς την οποία ο ρυθµός µεταβολής της f(x,y) είναι
µέγιστος, και το µέτρο της grad f(x,y)|A δίνει την τιµή του µέγιστου ρυθµού µεταβολής
της f(x,y) στο Α.

j ∆y
A θ ∆x
™¯‹Ì· 4.5
Ορισµός της
παραγώγου κατά
0
κατεύθυνση. i x

4.2.1‚ ¶·Ú¿ÁˆÁÔ˜ ηٿ ηÙ‡ı˘ÓÛË

Στο σηµείο Α, για τη συνάρτησηση f(x,y) µπορεί να οριστεί η παράγωγος κατά


κατεύθυνση (directional derivative). Στο Σχ. 4.5, µε αρχή το σηµείο Α, έχει οριστεί
ένα µοναδιαίο διάνυσµα rθ = (∆xi+∆yj), το οποίο σχηµατίζει γωνία θ µε το άξονα
Οx. Η παράγωγος στο σηµείο Α της f(x,y) κατά την κατεύθυνση του διανύσµατος rθ
ορίζεται ως:
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 85

4.2 ∆∂áπ∫∂™ ∞¡πá∂À™∏™ ∞∫ªø¡ 85

d  f ( xA + t ∆x, yA + t ∆ y ) − f ( xA , yA ) 
f ( x A + t ∆ x , y A + t ∆ y ) = lim  (4.3)
dt t = 0 t → 0  t 

Αποδεικνύεται ότι, όταν η f(x,y) είναι παραγωγίσιµη στο Α, τότε το όριο της σχέσης
(4.3), και εποµένως και η παράγωγος κατά κατεύθυνση, υπάρχει και είναι συνεχής,
οποιαδήποτε τιµή και αν έχει η γωνία θ. Επιπλέον, αποδεικνύεται ότι η παράγωγος
αυτή κατά αντίθετες κατευθύνσεις έχει αντίθετες τιµές.
Από τη σχέση (4.3), µε την οποία ορίστηκε η παράγωγος κατά κατεύθυνση, συνε-
πάγεται ότι αυτή ισούται µε το ρυθµό µεταβολής της f(x,y) στο Α κατά την κατεύ-
θυνση του rθ. Εποµένως, υπολογίζοντας την παράγωγο αυτή κατά τις κατευθύνσεις
που σχηµατίζουν γωνίες θ, µε 0 ≤ θ < 2π, και λαµβάνοντας το µέγιστο αυτών των
τιµών, έχουµε το µέγιστο ρυθµό µεταβολής της f(x,y) στο Α. Επειδή όµως σε αντί-
θετες κατευθύνσεις η παράγωγος αυτή λαµβάνει αντίθετες τιµές, ο µέγιστος ρυθµός
µεταβολής της f(x,y) µπορεί να υπολογιστεί περιορίζοντας τη µεταβολή της θ µόνο
από 0° έως 180° και όχι έως 360°. ∆ηλαδή ισχύει:

£∂øƒ∏ª∞ 4.2

Όταν στο σηµείο Α(xA,yA) η συνάρτηση f(x,y) είναι παραγωγίσιµη, τότε το µέγιστο της
απόλυτης τιµής της παραγώγου της f(x,y) στο Α κατά το διάνυσµα rθ, για 0 ≤ θ < π,
ισούται µε το µέγιστο του ρυθµού µεταβολής της f(x,y) στο ίδιο σηµείο Α.
Από τα Θεωρήµατα 4.1 και 4.2 προκύπτουν δύο µέθοδοι για τον προσδιορισµό του
µέγιστου ρυθµού µεταβολής της f(x,y) σε ένα σηµείο Α. Η πρώτη υπολογίζει τις µερι-
κές παραγώγους ως προς x και y της συνάρτησης αυτής και προσδιορίζει το µέτρο
της κλίσης στο Α. Η δεύτερη υπολογίζει την απόλυτη τιµή της κατά κατεύθυνση
παραγώγου για µια σειρά διαδοχικών κατευθύνσεων και το µέγιστο των τιµών, που
θα προκύψουν, δίνει το µέγιστο ρυθµό µεταβολής της f(x,y).

4.2.2 ¶·Ú·ÁÒÁËÛË Ù˘ ʈÙÂÈÓfiÙËÙ·˜ Ù˘ „ËÊȷ΋˜ ÂÈÎfiÓ·˜

Αν επιχειρήσουµε να εφαρµόσουµε όσα γνωρίσαµε στην υποενότητα 4.2.1, για να


υπολογίσουµε την παράγωγο του σήµατος στην ψηφιακή εικόνα, θα διαπιστώσου-
µε ότι υπάρχουν δύο βασικά εµπόδια.
• Η τιµή του σήµατος είναι γνωστή µόνο στα pixels της εικόνας, δηλαδή σε ένα πεπε-
ρασµένο πλήθος σηµείων του πεδίου ορισµού.
• Σε κάθε pixel, η τιµή του σήµατος είναι το άθροισµα της πραγµατικής φωτεινότη-
τας, του θορύβου κβάντισης, αλλά πιθανόν και άλλου θορύβου, από τον οποίο σε
µερικές περιπτώσεις έχει προσβληθεί η εικόνα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 86

86 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

Το πρώτο εµπόδιο µας απαγορεύει να υπολογίσουµε άµεσα τις τιµές των παραγώγων
µε τη χρήση ορίων, όπως είναι αυτό της (4.3). Έτσι, αναγκαζόµαστε να εκτιµήσουµε
την τιµή των µερικών παραγώγων ή της παραγώγου ως προς κατεύθυνση σε ένα
σηµείο Α, χρησιµοποιώντας τις πεπερασµένες διαφορές των γειτονικών pixelς του Α.
Για παράδειγµα, θεωρήστε την ψηφιακή εικόνα v µε τιµές στα pixels της v(k,m), όπου
0 ≤ k ≤ K – 1 και ο ≤ m ≤ M – 1 (4.4)
και ένα σηµείο Α, που συµπίπτει µε τη θέση του (k,m) pixel της. Η µερική παράγωγος
ως προς x στο A µπορεί να προσεγγιστεί από τη vx΄(k,m), που υπολογίζεται από τη σχέση:

v ( k , m + 1) − v ( k , m )
v x′ ( k , m ) = (4.5)
d
όπου d η απόσταση των pixels. Η vx΄(k,m) ισούται ακριβώς µε την παράγωγο, αν η
φωτεινότητα µεταβάλλεται γραµµικά µε την αποµάκρυνση x στο σηµείο Α, αλλά
αποκλίνει από αυτή σε κάθε άλλη περίπτωση.

4.2.2· ∏ Ì¿Ûη ‰È·ÊfiÚÈÛ˘ Î·È Ë Û˘Û¯¤ÙÈÛË

Η απόκλιση της vx΄(k,m) από την τιµή της παραγώγου γίνεται ακόµη πιο µεγάλη αν
λάβουµε υπόψη µας το δεύτερο από τα εµπόδια που αναφέραµε στην αρχή της υπο-
ενότητας 4.2.2, το θόρυβο. Αν µάλιστα η ισχύς του θορύβου είναι σηµαντική, η
vx΄(k,m) κατά τον υπολογισµό της στα διάφορα σηµεία γίνεται ασταθής και αποκλί-
νει αισθητά από τον πραγµατικό ρυθµό µεταβολής της φωτεινότητας. Αυτό γίνεται
φανερό αν θεωρήσουµε την τιµή των pixels της εικόνας ως το άθροισµα της φωτει-
νότητας φ(k,m) και του θορύβου η(k,m), δηλαδή v(k,m) = φ(k,m) + η(k,m). Τότε η
διαφορά τιµών των δύο γειτονικών pixels, που εµφανίζεται στην (4.5), ισούται µε:
v(k,m+1)–v(k,m) = [φ(k,m+1)–φ(k,m)]+[η(k,m+1) –η(k,m)].
Καθώς υπάρχει υψηλός βαθµός συσχέτισης µεταξύ των γειτονικών pixels της εικό-
νας, η διαφορά φ(k,m+1)–φ(k,m) είναι µικρή, αλλά δεν συµβαίνει το ίδιο και µε τη
διαφορά των τιµών των δειγµάτων του θορύβου, η(k,m+1)–η(k,m), τα οποία είναι
συνήθως στατιστικώς ανεξάρτητα. Το χειρότερο είναι ότι το σφάλµα που προκύπτει
διαιρείται µε τη µικρή απόσταση d κάνοντας την απόκλιση ακόµη πιο σηµαντική.
Για να αντιµετωπισθεί η επίδραση του θορύβου στην εκτίµηση της παραγώγου,
συνήθως, προηγείται της παραγώγισης φιλτράρισµα του θορύβου. Αποδεικνύεται
ότι οι δύο αυτές λειτουργίες µπορούν να συνδυαστούν σε ένα βήµα [2], και να γρά-
ψουµε ισοδύναµα:
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 87

4.2 ∆∂áπ∫∂™ ∞¡πá∂À™∏™ ∞∫ªø¡ 87

L L
vθ' ( k , m) = ∑ ∑ v(k + i, m + j )µ(i, j )
i=−L j=−L
(4.6)

Στη σχέση αυτή, µε το vθ' ( k , m ) συµβολίζεται η εκτίµηση της παραγώγου κατά την
κατεύθυνση rθ στο σηµείο Α, δηλαδή στη θέση του pixel (k,m). Για την εκτίµηση

της τιµής της vθ' ( k , m ) χρησιµοποιούνται όλα τα pixels µιας περιοχής µε µέγεθος
(2L+1) × (2L+1) γύρω από το (k,m), οι τιµές των οποίων πολλαπλασιάζονται µε τους
συντελεστές µ(i,j). Τα µ(i,j) είναι στοιχεία ενός (2L+1) × (2L+1) πίνακα Μ, ο οποί-
ος καλείται µάσκα διαφόρισης, και οι τιµές τους εξαρτώνται από τη διεύθυνση θ
καθώς και από τη στάθµη που εκτιµάται ότι έχει ο θόρυβος στην εικόνα.
Η (4.6) παριστάνει τη συσχέτιση (correlation) της εικόνας v µε τη µάσκα Μ στο pixel
(k,m). Αυτή µπορεί να εφαρµοστεί για όλα τα pixels της εικόνας v εκτιµώντας την
τιµή της παραγώγου κατά την κατεύθυνση rθ. Όταν επιχειρήσουµε να εφαρµόσουµε
την (4.6) σε ένα από τα ακραία σηµεία της εικόνας, εµφανίζονται στους προσθετέους
του αθροίσµατος στοιχεία της ακολουθίας ν µε δείκτες έξω από τα διαστήµατα, που
καθορίζονται από τις σχέσεις (4.4). Τα στοιχεία αυτά δεχόµαστε ότι έχουν τιµή µηδέν.

¶·Ú¿‰ÂÈÁÌ· 4.1
Στο Σχ. 4.6α δίνεται ο πίνακας e των τιµών των pixels µιας εικόνας, µε διαστάσεις
5 × 5. Στο 4.6β δίνεται µια µάσκα Μ µε διαστάσεις 3 × 3. Αν C είναι η συσχέτιση
των e και M, να υπολογιστούν τα C(2,4) και C(1,3).
Απάντηση

120 130 140 150 160 ™¯‹Ì· 4.6


170 180 190 200 210
α) Ο πίνακας e. β) Η
e= 220 230 240 250 10 –4 –3 –2 µάσκα Μ. γ)Οι τιµές
20 30 40 50 60 M= –1 0 1 των pixels της περιο-
70 80 90 100 110 2 3 4 χής γύρω από το (2,4)
α β pixel της εικόνας e.
δ) Οι τιµές των pixels
της περιοχής γύρω
1360 1669 1750 1831 880
από το (2,4) pixel της
1140 942 933 –76 –750
εικόνας e. ε) Ο πίνα-
140 150 160 0 0 0 C = –460 1290 –1290 –1540 –1400 κας C περιέχει το
190 200 210 130 140 150 –560 –1290 –1290 –790 –550 συνολικό αποτέλεσµα
240 250 10 180 190 200 –40 –230 –320 –410 –480 της συσχέτισης των e
γ δ ε και Μ.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 88

88 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

Επειδή η µάσκα M έχει διαστάσεις 3 × 3, εφαρµόζουµε τη σχέση (4.6) για L = 1 και


αντικαθιστώντας το v΄(k,m) µε C(k,m), έχουµε:
1 1
C ( k , m) = ∑ ∑ e( k + i, m + j )µ(i, j )
i = −1 j = −1
(4.7)

Καταρχήν εντοπίζονται τα στοιχεία του e που αντιστοιχούν σε pixels, που συµµετέ-


χουν στον υπολογισµό του στοιχείου C(2,4). Αυτά βρίσκονται σε µια περιοχή µε τις
ίδιες διαστάσεις όπως η µάσκα M, κέντρο της οποίας είναι το pixel (2,4). Αντίγρα-
φο της περιοχής αυτής δίνεται στο Σχ. 4.6γ. Στη συνέχεια εφαρµόζουµε τη σχέση
(4.7) ως εξής:

C( 2, 4 ) = 140 × ( −4 ) + 190 × ( −1) + 240 × 2 + 150 * ( −3 ) + 200 × 0 + 250 × 3 +


+160 × ( −2 ) + 210 × 1 + 10 × 4 = −76

Για τον υπολογισµό του στοιχείου C(1,3) εντοπίσαµε, µε τον ίδιο τρόπο όπως και πιο
πάνω, τις τιµές της περιοχής γύρω από το pixel (1,3) της e. Επειδή αυτό είναι ακραίο
pixel της εικόνας, η περιοχή του συµπληρώνεται µε µηδενικά. Αντίγραφο της περιοχής
αυτής δίνεται στο Σχ. 4.6δ. Στη συνέχεια εφαρµόζεται η σχέση (4.7) και προκύπτει:

C(1, 3 ) = 0 × ( −4 ) + 130 × ( −1) + 180 × 2 + 0 × ( −3 ) + 140 × 0 + 190 × 3 +


+0 × ( −2 ) + 150 × 1 + 200 × 4 = 1750

Με τον ίδιο τρόπο υπολογίστηκαν όλα τα στοιχεία του πίνακα C και δίδονται στο
Σχ. 4.6ε.
Από το παράδειγµα 1 προκύπτει ότι οι πιο πολλές από τις τιµές των στοιχείων του
πίνακα C βρίσκονται εκτός του διαστήµατος 0 έως 255, και εποµένως δεν µπορούν
να υιοθετηθούν ως τιµές για τα pixels µιας εικόνας. Εντούτοις, πολλές φορές, µετά
τον υπολογισµό της συσχέτισης επιθυµούµε να παραστήσουµε το αποτέλεσµα ως
εικόνα. Στην περίπτωση αυτή πρέπει να γίνει κβάντιση και στη συνέχεια κωδικο-
ποίηση των τιµών του πίνακα. Την πρακτική αυτή, της κβάντισης και της κωδικο-
ποίησης, τη συναντήσαµε στην ενότητα 2.3. Στο επόµενο παράδειγµα 2 γίνεται η
κβάντιση και η κωδικοποίηση των τιµών του πίνακα C.

¶·Ú¿‰ÂÈÁÌ· 4.2
Να κβαντιστoύν µε Q = 256 στάθµες τα στοιχεία του πίνακα C και να κωδικοποιη-
θούν, ώστε να µπορούν να τεθούν ως τιµές στα pixels µιας εικόνας c.
Απάντηση
Μεταξύ των στοιχείων του πίνακα C παρατηρούµε ότι υπάρχουν και αρνητικοί ακέ-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 89

4.2 ∆∂áπ∫∂™ ∞¡πá∂À™∏™ ∞∫ªø¡ 89

ραιοι ενώ στον κβαντιστή που περιγράφουµε στην υποενότητα 2.3 έχει θεωρηθεί ότι
το µηδέν είναι η µικρότερη τιµή των αριθµών που κβαντίζονται. Για το λόγο αυτό ™¯‹Ì· 4.7
προσθέτουµε σε όλα τα στοιχεία του C µια σταθερή τιµή, σ, τέτοια ώστε, το ελάχι- α) Ο πίνακας C1
στο στοιχείο του να γίνει µηδέν. Η τιµή σ είναι ίση µε προκύπτει από τoν C
του προηγούµενου
σ = − min[C ( k , m )] = 1540 παραδείγµατος µετά
1≤ k ≤ 5
1≤ m ≤ 5 την αύξηση των
στοιχείων αυτού,
2900 3209 3290 3371 2420 219 243 249 255 183 ώστε να γίνουν όλα
µη αρνητικά. β) Ο
2680 2482 2473 1464 790 203 188 187 111 60
πίνακας c2 προκύ-
C1 = 1080 2830 250 0 140 c2 = 82 214 19 0 11
πτει από τo C1 µετά
980 250 250 750 990 74 19 19 57 75
την κβάντιση και την
1500 1310 1220 1130 1060 113 99 92 85 80 κωδικοποίηση των
α β στοιχείων τoυ.

Προσθέτοντας, λοιπόν, στα στοιχεία του C τη σταθερά σ προκύπτει ο πίνακας C1


(Σχ.4.7α), του οποίου όλα τα στοιχεία είναι µη αρνητικά. Για να κβαντίσουµε και να
κωδικοποιήσουµε τα δεδοµένα του πίνακα C1, υπολογίζουµε το εύρος κβάντισης ∆L
από τη σχέση:

∆L = max[C1 ( k , m )] / 255 = 13, 2.


1≤ k ≤ 5
1≤ m ≤ 5

Στη συνέχεια τα στοιχεία του C1 κβαντίζονται και κωδικοποιούνται µε βάση τη σχέση


(2.2), οπότε προκύπτει o πίνακας c2 (Σχ.4.7β), που είναι η νέα εικόνα µετά τη δράση
της µάσκας πάνω στην αρχική. Η σχέση (2.2), στη περίπτωση του παραδείγµατός
µας, γράφεται:
c2(k,m) = round(C1(k,m)/∆L),
όπου round(x) είναι ο πλησιέστερος ακέραιος προς τον πραγµατικό αριθµό x.

4.2.3 √È ÙÂÏÂÛÙ¤˜ ÎÏ›Û˘ Î·È ÔÈ ÙÂÏÂÛÙ¤˜ ÚÔÛ·Ó·ÙÔÏÈÛÌÔ‡

Στη βιβλιογραφία συναντάµε ένα µεγάλο πλήθος από τεχνικές ανίχνευσης των
ακµών. Καθεµιά από αυτές είναι κατάλληλη για διαφορετικές εικόνες ανάλογα µε
το επίπεδο θορύβου και το ρυθµό µεταβολής της φωτεινότητας. Επίσης, διαφέρουν
µεταξύ τους και στην ακρίβεια εντοπισµού της θέσης µιας ακµής στην εικόνα. Όλες
τους χρησιµοποιούν µάσκες διαφόρισης, για να υπολογίζουν την παράγωγο κατά
κατεύθυνση ή τις µερικές παραγώγους της εικόνας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 90

90 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

¶›Ó·Î·˜ 4.1
Ο Αλγόριθµος εντοπισµού των ακµών στην K × M εικόνα v. Χρησιµοποιούνται oi τελε-
στές κλίσης HX, HY µεγέθους 3 × 3.

• Για 0 ≤ k ≤ K – 1
• Για 0 ≤ m ≤ M – 1
1 1
• v'x ( k , m) = ∑ ∑ v(k + i, m + j )H (i, j )
i = −1 j = −1
x

1 1
• v'y ( k , m) = ∑ ∑ v(k + i, m + j )H (i, j )
i = −1 j = −1
y

• g(k,m) = v'x (k,m) + v'y (k,m)

• end
• end
• Εντοπισµός του 5% των µεγαλύτερων τιµών της g(k,m).

Στην υποενότητα αυτή, θα περιγράψουµε µερικές από τις πιο γνωστές στη βιβλιο-
γραφία τεχνικές. ∆εν θα ασχοληθούµε όµως µε τον υπολογισµό των συντελεστών
στις µάσκες διαφόρισης των τεχνικών αυτών [2].
Οι τεχνικές ανίχνευσης ακµών µπορούν να χωριστούν σε δύο οµάδες. Η πρώτη βασί-
ζεται στην εκτίµηση της κλίσης. Οι µάσκες διαφόρισης που χρησιµοποιούνται
καλούνται τελεστές κλίσης (gradient operators). H δεύτερη οµάδα υπολογίζει τις
παραγώγους κατά κατεύθυνση. Οι µάσκες διαφόρισης της οµάδας αυτής είναι γνω-
στές ως τελεστές προσανατολισµού (compass operators).

4.2.3· ∞Ó›¯Ó¢ÛË ·ÎÌÒÓ Ì ÙÂÏÂÛÙ¤˜ ÎÏ›Û˘


Στις µεθόδους αυτές, σε κάθε pixel v(k,m) της εικόνας v, γίνεται η εκτίµηση της κλί-
σης και στη συνέχεια υπολογίζεται το µέτρο της, g(k,m). Όπως έχουµε αναφέρει στην
υποενότητα 4.2.1α, σε µια συνεχή δισδιάστατη συνάρτηση το διάνυσµα της κλίσης
στο Α υπολογίζεται από τις µερικές παραγώγους του σήµατος ως προς x και ως προς
y (4.2). Για τον υπολογισµό των τιµών αυτών των παραγώγων χρησιµοποιούνται δύο
µάσκες διαφόρισης, η Hx και η Hy, γνωστές µε τον όρο τελεστές κλίσης. Ο πρώτος

τελεστής εκτιµά τη µερική παράγωγο ως προς x, την v'x (k,m), και ο δεύτερος τη
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 91

4.2 ∆∂áπ∫∂™ ∞¡πá∂À™∏™ ∞∫ªø¡ 91

'
µερική παράγωγο ως προς y, την vy (k,m). Για να µειώσουµε το κόστος υπολογισµού

για το g(k,m), χρησιµοποιείται η σχέση g(k,m) = v'x (k,m) + v'y (k,m) αντί της ορθής

(v'x(k,m)) + (v' (k,m))


2 2
g(k,m) = y .

Μετά τον υπολογισµό της ακολουθίας g(k,m), εντοπίζεται το 5%, περίπου, των όρων
της ακολουθίας µε τις µεγαλύτερες τιµές. Οι δείκτες των όρων αυτών προσδιορίζουν
τη θέση των ακµών της εικόνας. Στον Πίνακα 4.1 δίνεται η όλη διαδικασία εντοπι-
σµού των ακµών σε µια εικόνα µεγέθους K × M µε τη χρήση τελεστών κλίσης µεγέ-
θους 3 × 3.

¶›Ó·Î·˜ 4.2
∆ύο από τα πιο γνωστά στη βιβλιογραφία ζεύγη τελεστών κλίσης

Tελεστές κλίσης του Robert

0 1 1 0
HX = HY =
–1 0 0 –1

Tελεστές κλίσης του Sobel

–1 0 1 –1 –2 –1
HX = –2 0 2 HY = 0 0 0
–1 0 1 1 2 1

™¯‹Ì· 4.8
Τρεις εικόνες για
τη δοκιµή των
αλγορίθµων ανί-
χνευσης ακµών. Η
τρίτη έχει προ-
σβληθεί από θόρυ-
βο σηµαντικής
ισχύος
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 92

92 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

∆ύο από τους πιο γνωστούς στη βιβλιογραφία τελεστές κλίσης δίνονται στον Πίνα-
κα 4.2, όπου η θέση του στοιχείου µε τις συντεταγµένες (0,0) για κάθε τελεστή, έχει
σκούρο χρώµα. Πρόκειται για τους τελεστές του Robert και τους τελεστές του Sobel.
Οι τελεστές του Robert έχουν πολύ µικρό µέγεθος, (2 × 2), και ελαττώνουν πολύ τις
πράξεις κατά τον υπολογισµό της συσχέτισης. Για τους τελεστές αυτούς η σχέση
(4.6) απλουστεύεται στις σχέσεις:
'
v'x (k,m) = v(k,m+1)–v(k+1,m) και v y (k,m) = v(k,m)–v(k+1,m+1)

Οι σχέσεις αυτές είναι παρόµοιες µε τη σχέση (4.5) για την οποία είχαµε αναφέρει
ότι το αποτέλεσµα είναι πολύ ευαίσθητο στο θόρυβο. Πράγµατι, οι τελεστές Robert
δεν δίνουν αξιόπιστα αποτελέσµατα όταν στην εικόνα υπάρχει σηµαντικός θόρυβος.
Οι τελεστές του Sobel συµπεριφέρονται καλύτερα από εκείνους του Robert σε εικό-
νες µε θόρυβο, επειδή στη µάσκα παραγώγισης έχει συµπεριληφθεί και το φιλτρά-
ρισµα του θορύβου. Βέβαια, το φιλτράρισµα έχει ως αποτέλεσµα τη σχετική θόλω-
ση της εικόνας, που οδηγεί σε διαπλάτυνση των ακµών, και έτσι ο εντοπισµός τους
γίνεται µε µικρότερη ακρίβεια από εκείνη που πετυχαίνουν οι τελεστές του Robert.
Στο Σχ. 4.8 δίνονται τρεις εικόνες που θα χρησιµοποιήσουµε στη δοκιµή της λει-
τουργίας των τελεστών κλίσης. Στην τρίτη εικόνα έχουµε προσθέσει θόρυβο σηµα-
ντικής ισχύος. Καθεµιά από τις µεθόδους έχει δοκιµαστεί και µε τις τρεις εικόνες του
Σχ. 4.8 και τα αποτελέσµατα δίνονται στο Σχ. 4.9. Για κάθε δοκιµή το αποτέλεσµα
αποδίδεται µε δύο εικόνες. Η πρώτη είναι ασπρόµαυρη εικόνα και τα pixels έχουν
τιµή ανάλογη του µέτρου της κλίσης, όπως αυτή προκύπτει από την εφαρµογή των
αντιστοίχων τελεστών. Για να δηµιουργηθεί αυτή η εικόνα, σε κάθε δοκιµή γίνεται
κβάντιση και κωδικοποίηση του σήµατος της παραγώγου που έχει ληφθεί µετά την
εκτέλεση του αλγορίθµου του Πίνακα 4.1. Η δεύτερη εικόνα είναι µονόχρωµη και
µε λευκό αποδίδεται η θέση του 5% των pixel της αρχικής εικόνας µε τη µεγαλύτε-
ρη τιµή της παραγώγου. Η µονόχρωµη αυτή εικόνα προκύπτει από την ασπρόµαυ-
ρη µε κατωφλίωση, αφού προηγουµένως υπολογιστεί το κατώφλιο που ξεχωρίζει το
5% των πιο φωτεινών pixel.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 93

4.2 ∆∂áπ∫∂™ ∞¡πá∂À™∏™ ∞∫ªø¡ 93

™¯‹Ì· 4.9
Στα αποτελέσµατα αυτά µπορούµε να διακρίνουµε τις διαφορές στην λειτουργία των Αποτελέσµατα της
δύο τελεστών, που έχουµε περιγράψει πιο πάνω. Οι τελεστές του Robert δηµιουρ- εφαρµογής των
γούν περισσότερο λεπτές γραµµές στη θέση των ακµών από ό,τι οι τελεστές του τελεστών κλίσης
Sobel. Στην ενθόρυβη όµως εικόνα, οι τελεστές του Robert δηµιουργούν αστάθεια, του Robert και
εκείνων του Sobel.
δηλαδή αναδεικνύουν πάρα πολλά σηµεία µε µεγάλες τιµές κλίσης, τα οποία όµως
Οι πρωτότυπες
δεν έχουν καµιά σχέση µε τις ακµές της εικόνας. Αντίθετα, οι τελεστές Sobel ανι-
εικόνες είναι αυτές
χνεύουν τις ακµές της ενθόρυβης εικόνας µε µεγαλύτερη επιτυχία. του προηγούµενου
σχήµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 94

94 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

¶›Ó·Î·˜ 4.3
Ο συµβολισµός των οχτώ κατευθύνσεων και οι τέσσερις από τους οχτώ τελεστές προσανατολισµού. Οι
υπόλοιποι δεν χρειάζονται, αν δεχθούµε ότι η παράγωγος κατά αντίθετες κατευθύνσεις έχει αντίθετες τιµές.

Tελεστές προσανατολισµού Kirsch

N 5 5 5 5 5 –3 5 –3 –3 –3 –3 –3
NW NE
–3 0 –3 5 0 –3 5 0 –3 5 0 –3

W E –3 –3 –3 –3 –3 –3 5 –3 –3 5 5 –3
N NW W SW
SW SE
S M1 M2 M3 M4

4.2.3‚ ∞Ó›¯Ó¢ÛË ·ÎÌÒÓ Ì ÙÂÏÂÛÙ¤˜ ÚÔÛ·Ó·ÙÔÏÈÛÌÔ‡

Στην τεχνική αυτή χρησιµοποιείται ένας αριθµός από µάσκες διαφόρισης, µε τις
οποίες σε κάθε σηµείο της εικόνας γίνεται η εκτίµηση της παραγώγου σε ισάριθµο
πλήθος κατευθύνσεων. Για µάσκες µε µέγεθος 3 × 3 η παραγώγιση µπορεί να γίνει
κατά οχτώ διαφορετικές κατευθύνσεις, οι οποίες διαφέρουν µεταξύ τους κατά 45°.
Για µεγαλύτερες µάσκες η µεταβολή της γωνίας µπορεί να γίνει µικρότερη.
Σύµφωνα µε την τεχνική αυτή, για τον υπολογισµό της µέγιστης κλίσης g(k,m) στη
θέση του pixel v(k,m), χρησιµοποιούνται διαδοχικά οι µάσκες διαφόρισης και υπο-
λογίζονται οι τιµές της παραγώγου κατά την αντίστοιχη κατεύθυνση. Η g(k,m) τίθε-
ται ίση µε τη µεγαλύτερη από αυτές.
Στον Πίνακα 4.3 δίνονται οι τέσσερις µάσκες διαφόρισης του Kirsh και ένα διά-
γραµµα µε τα σύµβολα των οχτώ κατευθύνσεων, τα Ε,NE,...,S και SE οι οποίες αντι-
στοιχούν σε γωνίες κλίσης θ = 0°, 45°,…,270 και 315° αντίστοιχα. Είναι φανερό ότι
καθεµιά από τις µάσκες του πίνακα προκύπτει από την προηγούµενή της µε περι-
στροφή προς τα αριστερά κατά µία θέση. Ολόκληρη η σειρά αποτελείται από οχτώ
µάσκες οι οποίες υπολογίζουν τις παραγώγους κατά τις ισάριθµες κατευθύνσεις του
διαγράµµατος. Αν δεχτούµε όµως ότι η συνάρτηση της φωτεινότητας είναι παρα-
γωγίσιµη, σύµφωνα µε το θεώρηµα 4.2 της υποενότητας 4.2.1β, ο υπολογισµός της
παραγώγου σε ένα σηµείο κατά αντίθετες κατευθύνσεις δίνει αντίθετες τιµές. Για
τον προσδιορισµό λοιπόν της µέγιστης κλίσης σε ένα σηµείο, αρκεί ο υπολογισµός
της απόλυτης τιµής της παραγώγου στις πρώτες τέσσερις κατευθύνσεις. Στον πίνα-
κα 4.1 δίνονται οι τελεστές για τον υπολογισµό της παραγώγου κατά τις κατευθύν-
σεις N, NW, W και SW.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 95

4.2 ∆∂áπ∫∂™ ∞¡πá∂À™∏™ ∞∫ªø¡XXX 95

¶›Ó·Î·˜ 4.4
Ο Αλγόριθµος εντοπισµού των ακµών στην K × M εικόνα v. Χρησιµοποιούνται τελε-
στές προσανατολισµού µεγέθους 3 × 3

• Για 0 ≤ k ≤ K – 1
• Για 0 ≤ m ≤ M – 1
• Για 1 ≤ n ≤ 4
1 1
'
• vn ( k , m) = ∑ ∑ v(k + i, m + j )M (i, j )
i = −1 j = −1
n

end
• g(k,m) = max { vn' (k,m) }
1≤ n ≤ 4

• end
• end
• Εντοπισµός του 5% των µεγαλύτερων τιµών της g(k,m).

Στον Πίνακα 4.4 δίνεται ο αλγόριθµος υπολογισµού του µέγιστου της κλίσης σε κάθε
σηµείο της εικόνας και του προσδιορισµού των σηµείων µε το µέγιστο ρυθµό µετα-
βολής της φωτεινότητας. Στο τελευταίο τµήµα του αλγορίθµου αυτού γίνεται ο προσ-
διορισµός του 5% των σηµείων της εικόνας µε τη µεγαλύτερη κλίση. Η διαδικασία
αυτή είναι ακριβώς ίδια µε το τελευταίο βήµα της τεχνικής των τελεστών κλίσης.
™¯‹Ì· 4.10
Στο Σχ. 4.10 δίνονται τα αποτελέσµατα της εφαρµογής των τελεστών προσανατολι-
Αποτελέσµατα της
σµού του Kirsch και του εντοπισµού των ακµών για τις δύο από τις τρεις πρωτότυ-
εφαρµογής της
πες εικόνες του Σχ. 4.7. Τα αποτελέσµατα, όπως και στην περίπτωση της εφαρµο-
µεθόδου ανίχνευ-
γής των τελεστών κλίσης, δίνονται µε δύο εικόνες. Η πρώτη είναι ασπρόµαυρη και σης ακµών µε τους
δείχνει την τιµή της µέγιστης κλίσης σε κάθε σηµείο της εικόνας, ενώ η δεύτερη είναι τελεστές προσανα-
µονόχρωµη και δείχνει τη θέση των ακµών της εικόνας. τολισµού Kirsch.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 96

96 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 4.2

Τι είναι σωστό και τι λάθος από τα παρακάτω;

Σωστό Λάθος
1. Η τεχνική της κατωφλίωσης δεν είναι δυνατόν
να εφαρµοστεί σε οποιαδήποτε εικόνα. ❏ ❏
2. Στο διαδίκτυο βρήκαµε µια εικόνα παρόµοια µε αυτή
του Σχ. 4.3α. Οι φοιτητές µας θα µπορέσουν να διορθώσουν
τη φωτεινότητα της και να επιτύχουν την κατωφλίωσή της
µε χρήση καθολικού κατωφλίου. ❏ ❏
3. ∆εν είναι δυνατή η κατωφλίωση της εικόνας του Σχ. 4.3α µε
προσαρµοζόµενο κατώφλιο χρησιµοποιώντας τη σχέση (4.1). ❏ ❏
4. Η σταθερά που αφαιρείται από τη σχέση (4.1) δεν µπορεί
να λάβει πολύ µεγάλη τιµή. ❏ ❏
5. Το ιστόγραµµα της παραγώγου χωρίζεται σε δύο λοβούς
και έτσι γίνεται δυνατή η κατωφλίωση της εικόνας. ❏ ❏
6. Τα αποτελέσµατα της εφαρµογής των τελεστών κλίσης
του Sobel είναι από κάθε άποψη καλύτερα από εκείνα
των τελεστών του Robert. ❏ ❏

4.3 ∂ÓÙÔÈÛÌfi˜ ÂÚÈÁÚ¿ÌÌ·ÙÔ˜ ÂÚÈÔ¯‹˜ ÂÈÎfiÓ·˜

Μετά την ανίχνευση των ακµών σε µια εικόνα είναι ανάγκη να εντοπιστούν τα περι-
γράµµατα των περιοχών της. Αν η περιοχή που µας ενδιαφέρει µπορεί να διαχωρι-
στεί µε κατωφλίωση από την υπόλοιπη εικόνα, ο εντοπισµός του περιγράµµατος επι-
τυγχάνεται σχετικά εύκολα. Σε αντίθετη περίπτωση η διαδικασία εντοπισµού του
περιγράµµατος είναι πιο δύσκολη. Στη δεύτερη αυτή περίπτωση, το περίγραµµα της
περιοχής υπολογίζεται συνδέοντας τις σηµαντικές ακµές της εικόνας. Ο θόρυβος
όµως της εικόνας και ο ανοµοιόµορφος φωτισµός διασπούν τη συνέχεια των ακµών
και συγχρόνως δηµιουργούν ψευδείς ακµές. Στην υποενότητα αυτή θα µελετήσου-
µε µόνο την τεχνική εύρεσης του περιγράµµατος όταν η κατωφλίωση είναι δυνατή.
Αν ο αναγνώστης ενδιαφέρεται για τη δεύτερη περίπτωση µπορεί να εµβαθύνει σχε-
τικά στα [1,2,6].
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 97

4 . 3 ∂ ¡ ∆ √ ¶ π ™ ª √ ™ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 97

4.3.1 ∂ÓÙÔÈÛÌfi˜ ÂÚÈÁÚ¿ÌÌ·ÙÔ˜ Û ÂÚÈÔ¯‹ ÌÔÓfi¯ÚˆÌ˘ ÂÈÎfiÓ·˜

Μετά την κατωφλίωση η περιοχή R που µας ενδιαφέρει έχει χρώµα διαφορετικό από
την υπόλοιπη εικόνα όπως συµβαίνει µε τις εικόνες των σχηµάτων 2.6β, 4.1γ, 4.3δ,
και 4.4β. Στην περίπτωση αυτή το περίγραµµα της R είναι το σύνολο των pixels της
εικόνας που ανήκουν στην περιοχή και ταυτόχρονα γειτνιάζουν µε ένα ή περισσό-
τερα pixels εκτός της R. Στο Σχ. 4.11α δίνεται η σχηµατική παράσταση µιας µονό-
χρωµης εικόνας, όπου φαίνεται το πλέγµα δειγµατοληψίας και σε κάθε κόµβο υπάρ-
χει ένα pixel µε χρώµα λευκό ή µαύρο. Η περιοχή που µας ενδιαφέρει συνίσταται
από τα µαύρα pixels. Στο Σχ. 4.11β έχουν σχεδιαστεί µε µαύρο τα pixels του περι-
γράµµατος της περιοχής.

™¯‹Ì· 4.11

Στον Πίνακα 4.5 δίνονται τα βήµατα ενός αλγορίθµου αυτόµατου εντοπισµού του (α)Σχηµατική παρά-
περιγράµµατος µιας περιοχής µονόχρωµης εικόνας. Έχει θεωρηθεί ότι η εικόνα έχει σταση µονόχρωµης
εικόνας. Η περιοχή
διαστάσεις Κ × Ν και ότι µαύρο χρώµα (τιµή 0) έχουν τα pixels της περιοχής R, της
R αποτελείται από
οποίας αναζητούµε το περίγραµµα, ενώ η υπόλοιπη εικόνα έχει λευκά pixels (τιµή
µαύρα pixels. (β) Το
255). Κατά την εκτέλεση του αλγορίθµου όλα τα pixels της εικόνας σαρώνονται δύο περίγραµµα της
φορές. Στην πρώτη σάρωση, σε κάθε pixel που ανήκει στην περιοχή R αλλά δεν ανή- περιοχής R. (γ) Οι
κει στο περίγραµµα της, δηλαδή είναι εσωτερικό σηµείο της περιοχής, δίνεται τιµή φωτεινότητες των
διαφορετική από το 0 ή το 255, ας πούµε το 125. Τα εσωτερικά αυτά pixels εντοπί- pixels µετά το
ζονται στην εικόνα, καθώς κανένα από τα γειτονικά τους δεν έχει τιµή 255. Στο δεύ- πρώτο σάρωµα της
εικόνας σύµφωνα µε
τερο σάρωµα εντοπίζονται τα εσωτερικά σηµεία της R, από την τιµή 125 που έχουν
τον αλγόριθµο του
λάβει κατά την πρώτη σάρωση, αντικαθίσταται η τιµή αυτή µε 255 και έτσι τα µόνα
Πίνακα 4.5.
pixels που παραµένουν µε τιµή 0 είναι εκείνα του περιγράµµατος της R.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 98

98 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

¶›Ó·Î·˜ 4.5
Ο αλγόριθµος εντοπισµού του περιγράµµατος περιοχής R της οποίας όλα τα pixels
έχουν τιµή µηδέν, αντίθετα µε τα pixels της υπόλοιπης εικόνας που έχουν τιµή 255.

• Για 0 ≤ k ≤ K – 1
• Για 0 ≤ m ≤ M – 1
• Aν Αληθεύει ότι ν(k,m) = 0:
• Αν Αληθεύει ότι κανένα από τα 8 γειτονικά pixels του
v(k,m) δεν έχει τιµή 255: Θέσε ν(k,m) = 125.
• end
• end
• end
™¯‹Ì· 4.12 • Για 0 ≤ k ≤ K – 1
Η εφαρµογή του
αλγορίθµου του • Για 0 ≤ m ≤ N – 1
πίνακα 4.5 σε µονό- • Aν Αληθεύει ότι ν(k,m) = 125: Θέσε ν(k,m) = 255
χρωµη εικόνα. (α)
Η αρχική εικόνα. • end
(β) Ενδιάµεσο στά- • end
διο, µετά το πρώτο
σάρωµα. (γ) Στην
εικόνα έχει µείνει
Το Σχ. 4.11γ προέκυψε µετά την εφαρµογή του αλγορίθµου του Πίνακα 4.5 και απο-
µόνο το περίγραµµα τυπώνει τη µορφή που έχει η εικόνα µετά το πρώτο σάρωµα. Ένα άλλο παράδειγµα
σηµειωµένο µε εφαρµογής του πιο πάνω αλγορίθµου δίνεται στο Σχ. 4.12
µαύρα pixels.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 4.3

Για την εικόνα που παρίσταται στο σχήµα 4.13, να εφαρµόσετε τον αλγόριθµο του
Πίνακα 4.5 και να εντοπίσετε το περίγραµµα της περιοχής µε τα µηδενικά pixels.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 99

™YNOæH 99

255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 0 0 255 255 255 255 255
255 255 255 0 0 0 0 255 255 255 255
255 255 0 0 0 0 0 0 255 255 255
255 255 0 0 0 0 0 0 0 255 255
255 255 0 0 0 0 0 0 0 255 255
255 255 255 0 0 0 0 0 0 255 255
255 255 255 255 0 0 0 0 255 255 255
255 255 255 255 255 0 0 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255 ™¯‹Ì· 4.13

™‡ÓÔ„Ë
Στο κεφάλαιο αυτό έγινε η παρουσίαση βασικών µεθόδων κατάτµησης της εικόνας.
Συγκεκριµένα, περιγράφηκαν η τεχνική της κατωφλίωσης µε καθολικό και µε µετα-
βλητό κατώφλιο. Επίσης έγινε περιγραφή τεχνικών ανίχνευσης των ακµών µιας εικό-
νας καθώς και τεχνικών ανίχνευσης του περιγράµµατος περιοχής σε µονόχρωµη εικό-
να. Παράλληλα παρουσιάσαµε µε συντοµία την απαραίτητη µαθηµατική γνώση που
απαιτείται για να γίνουν κατανοητές οι τεχνικές της ανίχνευσης ακµών.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 100

100 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™

µÈ‚ÏÈÔÁÚ·Ê›·

1. R. C. Gonzalez, R.E Woods «Digital Image Processing» Addison–Wessley


1993[pages 447–457]
2. R.M. Haralick, L.G. Shapiro «Computer and Robot Vision» Addison–Wessley
1992 Volume I.
3. M. Heath, et al, «A Robust Visual Method for Assessing the Relative Performance
of Edge–Detection Algorithms», IEEE Trans on Pattern Analysis and Mach.
Intel.,, Vol. 19, No. 12 pp1338–1359 ,Dec. 1997.
4. J. Marsden, A.Tromba,«∆ιανυσµατικός Λογισµός», Πανεπιστηµιακές Εκδόσεις
Κρήτης, Ηράκλειο 1995.J.
5. M. Sonka, V. Hlavac and R. Boyle,«Image Processing Analysis and Mashine
Vision», Chapman & Hall, London 1995.
6. Ιωάννης Πήτας «ΨΗΦΙΑΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΕΙΚΟΝΑΣ» Θεσσαλονίκη 1996
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 101

∞Ó··Ú¿ÛÙ·ÛË Î·È ÂÚÈÁÚ·Ê‹ ÂÚÈÁÚ¿ÌÌ·ÙÔ˜

™ÎÔfi˜
∫ ∂

Σκοπός του κεφαλαίου αυτού είναι να γίνει η ανάλυση µερικών από τις τεχνικές κωδι-
κοποίησης του περιγράµµατος περιοχής, οι οποίες χρησιµοποιούνται µε στόχο την
αποθήκευση και την εξαγωγή ουσιωδών χαρακτηριστικών για ταξινόµηση.
∞ § ∞ π √

¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Γράψετε τρία τουλάχιστον σχήµατα αναπαράστασης του περιγράµµατος.
• Kωδικοποιήσετε µε κάθε λεπτοµέρεια το περίγραµµα δηµιουργώντας τον κώδικα
αλύσου
• Γράψετε δύο τουλάχιστον αλγόριθµους προσέγγισης του περιγράµµατος από πολύ-
γωνο µε µικρό αριθµό πλευρών.
• Mετατρέπετε το περίγραµµα σε µια συνάρτηση µιας µεταβλητής.
• Mετασχηµατίζετε το περίγραµµα κατά Fourier και να επιλέγετε συντελεστές
Fourier ως ουσιώδη χαρακτηριστικά του περιγράµµατος.

ŒÓÓÔȘ ÎÏÂȉȿ
• ∆ιακριτός Μετασχηµατισµός Fourier
• ∆ιαφορικός Κώδικας Αλύσου
• Ιστόγραµµα Κλίσεων
• Κατεύθυνση Γειτνίασης
• Κώδικας Αλύσου
• Στοιχείο Περιγραφής
• Σχήµα Αναπαράστασης
• Ταχύς Μετασχηµατισµός Fourier
• Υπογραφή Περιγράµµατος

∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Το περίγραµµα αποτελεί σηµαντικό στοιχείο χαρακτηρισµού και περιγραφής µιας περιο-
χής και από αυτό είναι δυνατόν να υπολογιστούν γεωµετρικά στοιχεία της ή να ανα-
δειχτούν ουσιώδη χαρακτηριστικά της. Το περίγραµµα χρησιµοποιείται πολύ συχνά σε
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 102

102 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™

αλγόριθµους ταξινόµησης, αλλά επίσης και για την καταµέτρηση γεωµετρικών µεγεθών
της περιοχής που περιβάλλει. Η περιγραφή του περιγράµµατος στις διάφορες εφαρµο-
γές επιτυγχάνεται µε τα Σχήµατα Αναπαράστασης (Representation Schemes) ή µε τα
Στοιχεία Περιγραφής (Description Elements). Τα πρώτα είναι σχήµατα λεπτοµερούς
κωδικοποίησης και από αυτά είναι δυνατή η ανακατασκευή του περιγράµµατος (έστω
και προσεγγιστικά), όποτε χρειαστεί. Αντίθετα, τα στοιχεία περιγραφής είναι ένα σύνο-
λο ποσοτήτων που παρέχουν χρήσιµη πληροφορία σχετική µε το περίγραµµα, π.χ, µήκος,
πλάτος, ύψος και άλλα, που θα ορίσουµε στη συνέχεια του κεφαλαίου αυτού, αλλά η
γνώση των στοιχείων αυτών δεν αρκεί για την ανακατασκευή του περιγράµµατος.
Ένα ιδιαίτερα επιθυµητό χαρακτηριστικό των σχηµάτων περιγραφής και στοιχεί-
ων αναπαράσταση, είναι να παραµένουν αναλλοίωτα σε δράσεις µετασχηµατισµών:
(α) παράλληλης µετατόπισης, (β) περιστροφής και (γ) αλλαγής κλίµακας της εικό-
νας. Για παράδειγµα, ένα σύστηµα ταξινόµησης, θα πρέπει να αναγνωρίζει και να
ταξινοµεί σωστά ένα αντικείµενο, ανεξάρτητα από τη θέση, τον προσανατολισµό
και το µέγεθός του στην εικόνα.
Στο κεφάλαιο αυτό παρουσιάζονται µερικά από τα σχήµατα αναπαράστασης και µερι-
κές τεχνικές εξαγωγής στοιχείων περιγραφής του περιγράµµατος. Στην πρώτη ενότη-
τα, (Ενότητα 5.1) παρουσιάζεται ο κώδικας αλύσου, ένα σχήµα αναπαράστασης, που
κωδικοποιεί σχεδόν όλες τις λεπτοµέρειες ενός περιγράµµατος. Στη δεύτερη ενότητα
(Ενότητα 5.2), παρουσιάζεται ένα σχήµα αναπαράστασης, που στηρίζεται στην προ-
σέγγιση ενός περιγράµµατος από πολύγωνο µε µικρό αριθµό πλευρών. Στην τρίτη ενό-
τητα (Ενότητα 5.3), παρουσιάζονται σχήµατα αναπαράστασης που βασίζονται στον
προσδιορισµό µιας συνάρτησης µιας µεταβλητής µε βάση το δισδιάστατο περίγραµµα.
Τέλος, η τέταρτη ενότητα (Ενότητα 5.4) διαπραγµατεύεται την αναπαράσταση του περι-
γράµµατος µε τη βοήθεια του αναπτύγµατος Fourier και υποδεικνύεται ο τρόπος της
δηµιουργίας στοιχείων περιγραφής από τους αντίστοιχους συντελεστές Fourier.
APXH 0
7
3 2 1 2 6
NW N NE
7
W P E 4 P 0 2 6
3 6
SW S SE
5 6 7 3 5 3 5
076766535332121
α β γ δ
™¯‹Ì· 5.1
α) Οι οχτώ κατευθύνσεις γειτονίας ενός pixel P. β) Οι αριθµοί 0–7 κωδικοποιούν τις οκτώ
διευθύνσεις γειτονίας. γ) Περίγραµµα περιοχής δ) Υπολογισµός του κώδικα αλύσου για το
περίγραµµα του (γ).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 103

5.1 √ ∫ø¢π∫∞™ ∞§À™™√À 103

5.1 √ ÎÒ‰Èη˜ ·Ï‡ÛÛÔ˘

Ο Κώδικας Αλύσου (Κ.Α.) (chain code) είναι ένα αποτελεσµατικό σχήµα αναπαρά-
στασης, µε το οποίο το περίγραµµα κωδικοποιείται µε λεπτοµέρεια. Το σχήµα αυτό
κωδικοποιεί και φυλάσσει την κατεύθυνση γειτνίασης των διαδοχικών pixels του
περιγράµµατος.

¶›Ó·Î·˜ 5.1
Ο αλγόριθµος υπολογισµού του Κ.Α. του περιγράµµατος.

Βήµα 1: Εξετάζονται διαδοχικά τα σηµεία της εικόνας µε στόχο τον εντοπισµό ενός
σηµείου του περιγράµµατος, έστω του S0.
Βήµα 2: Χαρακτηρίζεται «ΠΡΩΗΝ» το σηµείο που είχε εξεταστεί στο βήµα 1 ακρι-
βώς πριν να ανιχνευθεί το S0 και «ΤΡΕΧΟΝ» το σηµείο S0. Η κατεύθυνση από το
«ΤΡΕΧΟΝ» στο «ΠΡΩΗΝ» χαρακτηρίζεται «ΚΑΤΕΥΘ».
Βήµα 3: Ξεκινώντας από την επόµενη κατεύθυνση της «ΚΑΤΕΥΘ», µε δεξιόστροφη
κίνηση, εξετάζονται διαδοχικά οι γείτονες του «ΤΡΕΧΟΝ» µέχρις ότου ανιχνευτεί
γείτονας που να ανήκει στο περίγραµµα. Ο γείτονας αυτός χαρακτηρίζεται «ΕΠΟ-
ΜΕΝΟ».
Βήµα 4: Καταγράφεται ο κωδικός αριθµός της κατεύθυνσης «ΤΡΕΧΟΝ»– «ΕΠΟ-
ΜΕΝΟ», χαρακτηρίζεται «ΠΡΩΗΝ» το «ΤΡΕΧΟΝ», χαρακτηρίζεται «ΤΡΕΧΟΝ»
το «ΕΠΟΜΕΝΟ», χαρακτηρίζεται «ΚΑΤΕΥΘ» η διεύθυνση «ΤΡΕΧΟΝ» –
«ΠΡΩΗΝ».
Βήµα 5: Αν το «ΤΡΕΧΟΝ» είναι διαφορετικό από το S0 συνεχίζεται ο αλγόριθµος
µε το Βήµα 3.
Βήµα 6: Τέλος.

Σε µια εικόνα κάθε pixel P διαθέτει οκτώ γειτονικά pixels. Τέσσερα από αυτά απέ-
χουν από το P απόσταση d, ίση µε την πλευρά του πλέγµατος δειγµατοληψίας. Τα
pixels αυτά χαρακτηρίζονται κατά σειρά ως ο ανατολικός (Ε), ο βόρειος (Ν), ο δυτι-
κός (W) και ο νότιος (S) γείτονας του P (Σχ. 5.1α). Τα υπόλοιπα τέσσερα γειτονικά
pixels, απέχουν από το P απόσταση d 2. Καθεένα από αυτά χαρακτηρίζεται µε τα
σύµβολα ΝΕ, NW, SW και SΕ, όπως στο Σχ. 5.1α. Στον Κ.Α. χρησιµοποιούνται οι
φυσικοί αριθµοί 0–7 για να κωδικοποιηθούν οι οχτώ κατευθύνσεις γειτνίασης ενός
pixel. Η αντιστοιχία κατευθύνσεων και αριθµών δίνεται στο Σχ. 5.1β. Την αντιστοι-
χία αυτή µπορούµε να τη θυµηθούµε εύκολα αν ξεκινήσουµε από τον γείτονα Ε,
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 104

104 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™

δηλαδή από κατεύθυνση που έχει κλίση 0°, και κινηθούµε αριστερόστροφα αριθ-
µώντας διαδοχικά και τους οκτώ γείτονες, προσέχοντας να αρχίσουµε την αρίθµη-
ση µε τον ακέραιο 0.
Στο Σχ. 5.1γ δίνεται η σχηµατική παράσταση εικόνας που περιέχει το περίγραµµα
µιας περιοχής. Για να κωδικοποιηθεί το περίγραµµα αυτό ακολουθείται ο αλγόριθ-
µος του Πίνακα 5.1. Κατά την εκτέλεση του αλγορίθµου εξετάζονται τα διαδοχικά
pixels του περιγράµµατος και κωδικοποιείται η κατεύθυνση γειτνίασής τους. Στο Σχ.
5.1δ δίνεται το περίγραµµα και οι κατευθύνσεις γειτνίασης, όπως αυτές έχουν προσ-
διοριστεί και κωδικοποιηθεί από τον αλγόριθµο. Στο Σχ. 5.1δ δίνεται επίσης η κωδι-
κή λέξη που προκύπτει από την εκτέλεση του αλγρίθµου.
Καθένας από τους αριθµούς που κωδικοποιούν τη διεύθυνση γειτνίασης απαιτεί τρία
δυαδικά bits για την καταχώρησή του στον υπολογιστή. Συνολικά, λοιπόν, ένα περί-
γραµµα που κωδικοποιείται µε Ν αριθµούς απαιτεί 3Ν bits για την αποθήκευσή του.
Ο αριθµός αυτός µπορεί να ελαττωθεί, µειώνοντας όµως παράλληλα και την ακρίβεια
αναπαράστασης του περιγράµµατος. Στο Σχ. 5.2α δίνεται ένα περίγραµµα µε έναν
µεγάλο αριθµό pixels. Αντί του πλέγµατος της αρχικής δειγµατοληψίας χρησιµοποι-
είται ένα νέο πλέγµα µε πλευρά πολλαπλάσιου µήκους. Καθένα από τα pixels του περι-
γράµµατος αντικαθίσταται από ένα pixel, που τοποθετείται στον πλησιέστερο κόµβο
του νέου πλέγµατος. Έτσι προκύπτει το περίγραµµα του Σχ. 5.2β που αποτελείται από
λιγότερα pixels. Στη συνέχεια, το περίγραµµα αυτό κωδικοποιείται και υπολογίζεται
η λέξη που αναγράφεται στο σχήµα. Πολλές φορές η µεθοδολογία αυτή χρησιµοποι-
είται και για να µειώσει την επίδραση του θορύβου πάνω στο περίγραµµα.

™¯‹Ì· 5.2
(α) ∆ειγµατολήψία
του περιγράµµα-
τος µε ευρύτερο
πλέγµα. (β)Τα
pixels του περι-
γράµµατος αντικα-
θίστανται από τα
πλησιέστερα του
νέου πλέγµατος.
Στο ίδιο σχήµα
δίνεται και ο αντί- 0706665544322121
στοιχος Κ.Α. α β
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 105

5.1 √ ∫ø¢π∫∞™ ∞§À™™√À 105

Όπως είναι φανερό, η κωδική λέξη εξαρτάται από το αρχικό σηµείο του περιγράµ-
µατος, από όπου άρχισε η κωδικοποίηση. Η εξάρτηση αυτή αντιµετωπίζεται αν η
κωδική λέξη περιστραφεί, µέχρις ότου δηµιουργηθεί ο µικρότερος δυνατός αριθµός,
ο οποίος και αντικαθιστά την αρχική λέξη. Για παράδειγµα, αντί της κωδικής λέξης
407300 χρησιµοποιείται η κωδική λέξη 004073. Ο Κ.Α. παραµένει αναλλοίωτος
κατά την παράλληλη µεταφορά του σχήµατος, αλλά όχι και στην περιστροφή της
εικόνας ή στην αλλαγή της κλίµακας των αξόνων.
Μια τροποποίηση του κωδικού αλύσου είναι ο ∆ιαφορικός Κώδικας Αλύσου
(∆.Κ.Α), που προκύπτει ως εξής: Αν D1 ,D2 ,...,DN είναι o αρχικός Κ.Α., ο ∆.Κ.Α ορί-
ζεται ως d1 ,d2 ,...,dN, µε di = mod8(Di+1 –Di ), i = 1,2,...,N–1, και dN = mod8(D1 –DN),
όπου mod8(Α) είναι το υπόλοιπο της Ευκλείδειας διαίρεσης του ακεραίου Α διά του
οχτώ. Για παράδειγµα, ο Κ.Α. 76546312302 δίνει ως ∆.Κ.Α. τη λέξη 77725611525.
Με τον ∆.Κ.Α. η λέξη της κωδικοποίησης παραµένει αναλλοίωτη κατά την περι-
στροφή των αξόνων κατά γωνίες που είναι πολλαπλάσια του π/2.

™¯‹Ì· 5.3
Ορισµός του πλάτους w και του ύψους h του περι-
γράµµατος.

Από τον Κ.Α µπορεί στη συνέχεια να υπολογιστούν διάφορα στοιχεία περιγραφής
όπως το µήκος, το πλάτος, το ύψος, το εµβαδόν της επιφάνειας που περικλείει, αλλά
και άλλα γεωµετρικά στοιχεία του περιγράµµατος, ως συνάρτηση της πλευράς του
πλέγµατος δειγµατοληψίας d. Πιο συγκεκριµένα: Το µήκος του περιγράµµατος είναι
δυνατόν να υπολογιστεί από την κωδική λέξη µετρώντας το πλήθος nA των αρτίων
και nΠ των περιττών ψηφίων της κωδικής λέξης. Από το Σχ. 5.1β εύκολα προκύπτει
ότι κάθε άρτιο ψηφίο αντιστοιχεί σε µήκος του περιγράµµατος ίσο µε d, ενώ κάθε
περιττό σε µήκος d 2 . Έτσι το µήκος L του περιγράµµατος ισούται µε:
L = (nA+ 2 nΠ)d (5.1)
Στο Σχ. 5.3 δίνεται ο ορισµός του πλάτους w, και του ύψους h του περιγράµµατος
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 106

106 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™

και της περιοχής που περικλείεται από αυτό. Αν D1, D2,…,DN είναι o κώδικας αλύ-
σου ενός περιγράµµατος, τότε τα w και h υπολογίζονται από τις πιο κάτω σχέσεις:

 j j 
w =  max
 1≤ j ≤ N

i =1
yi − min
1≤ j ≤ N
∑ y  d
i =1
i (5.2)

όπου το yi = 1 για Di = 7, 0 και 1, yi = –1 για Di = 3, 4 και 5 και yi = 0 για Di = 2


και 6. Οµοίως:

 j j 
h =  max
 1≤ j ≤ N

i =1
zi − min
1≤ j ≤ N

i =1
zi  d

(5.3)

όπου το zi = 1 για Di = 1, 2 και 3, zi = –1 για Di = 5, 6 και 7 και zi = 0 για Di = 0


και 4

¶›Ó·Î·˜ 5.2

Di 0 7 6 7 6 6 5 3 5 3 3 2 1 2 1

yi 1 1 0 1 0 0 –1 –1 –1 –1 –1 0 1 0 1


j
yi 1 2 2 3 3 3 2 1 0 –1 –2 –2 –1 –1 0
1

zi 0 –1 –1 –1 –1 –1 –1 1 –1 1 1 1 1 1 1


j
zi 0 –1 –2 –3 –4 –5 –6 –5 –6 –5 –4 –3 –2 –1 0
1

¶·Ú¿‰ÂÈÁÌ· 5.1
∆ίνεται ο Κ.Α. 076766535332121. Να υπολογιστεί το µήκος, το πλάτος και το ύψος
του αντίστοιχου περιγράµµατος ως συνάρτηση της πλευράς του πλέγµατος.
Λύση
Υπολογισµός µήκους: Τα άρτια ψηφία του κώδικα είναι τα 0,6,6,6,2,2 και το πλή-
θος τους nA = 6. Τα περιττά ψηφία του κώδικα είναι τα: 7,7,5,3,5,3,3,1,1 και το πλή-
θος τους nΠ = 9. Το µήκος L του περιγράµµατος, σύµφωνα µε τη σχέση (5.1), είναι
L = ( 6+9 2 )d, δηλαδή L = 18,69d.

Υπολογισµός πλάτους και ύψους: Κατασκευάζουµε τον Πίνακα 5.2 στον οποίο ανα-

∑ ∑
j j
γράφονται οι τιµές των yi, zι και υπολογίζονται οι τιµές των yi και zi .
1 1
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 107

5 . 2 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∆ √ À ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ ª ∂ ¶ √ § À ° ø ¡ π ∫ ∏ ° ƒ∞ ª ª ∏ 107

Από τον ίδιο Πίνακα προκύπτει,

∑ ∑ ∑ ∑
j j j j
max yi = 3 , min yi = −2 , max zi = 0 , min zi = −6
1≤ j ≤ N 1 1≤ j ≤ N 1 1≤ j ≤ N 1 1≤ j ≤ N 1

οπότε εφαρµόζοντας τις σχέσεις 5.2 και 5.3, υπολογίζουµε w = 4d και h = 5d, αντίστοιχα.

5.2 ∞Ó··Ú¿ÛÙ·ÛË ÙÔ˘ ÂÚÈÁÚ¿ÌÌ·ÙÔ˜ Ì ÔÏ˘ÁˆÓÈ΋ ÁÚ·ÌÌ‹

Το δυαδικό περίγραµµα αποτελεί από µόνο του ένα κλειστό πολύγωνο και ο Κ.Α.
πραγµατοποιεί την κωδικοποίηση των πλευρών αυτού του πολυγώνου. Πολλές
φορές, όµως, στην πράξη, είναι επιθυµητό να υπολογιστεί ένα πολύγωνο µε µικρό
αριθµό πλευρών, το οποίο µε µικρό σφάλµα να προσεγγίζει το δοθέν περίγραµµα.
Στο Σχ. 5.4 δίνεται η παράσταση ενός περιγράµµατος µε Ν pixels, τα Pi, i = 1,2,...,N.
Στο ίδιο σχήµα έχει σχεδιαστεί ένα πολύγωνο µε m πλευρές, τις πj, j = 1,2,...,m, µε το
οποίο επιχειρείται η προσέγγιση του δοθέντος περιγράµµατος. Το σφάλµα που δηµι-
ουργείται µε την αντικατάσταση του περιγράµµατος από το πολύπλευρο, ορίζεται ως
εξής: Θεωρούµε ότι κάθε pixel Pi αντικαθίσταται από το πλησιέστερο προς αυτό
σηµείο του πολυγώνου, το Pi΄. Το σφάλµα di, από την αντικατάσταση αυτή του Pi,
δίνεται από τη µικρότερη απόσταση του Pi από τις πλευρές του πολυγώνου, δηλαδή:
di = min{distance ( Pi , π j )}
j

για i = 1,2,...,Ν. Ως σφάλµα της προσέγγισης του περιγράµµατος από το πολύγωνο


ορίζεται το ε = max{ di } .
i

Pi

di
P'i

™¯‹Ì· 5.4
Προσέγγιση του
περιγράµµατος µε
πολύγωνο.

Κατά τον προσδιορισµό του πολυγώνου προσέγγισης ζητείται, για δεδοµένη τιµή
του σφάλµατος ε, ο αριθµός πλευρών m του πολυγώνου να είναι όσο γίνεται µικρό-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 108

108 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™

τερος. Στη βιβλιογραφία [1,2] προτείνονται µέθοδοι µε τις οποίες λύνεται το πρό-
βληµα αυτό µε τον βέλτιστο τρόπο, δηλαδή, για ένα περίγραµµα και για δεδοµέ-
νο ε προσδιορίζεται το πολύγωνο µε το ελάχιστο δυνατό m. Αυτές οι µέθοδοι,
όµως, στηρίζονται σε επαναληπτικούς αλγρίθµους, και η εκτέλεσή τους απαιτεί
υψηλό υπολογιστικό κόστος. Στην ενότητα αυτή θα παρουσιάσουµε ένα αλγόριθ-
µο, που αν και δεν υπολογίζει τη βέλτιστη λύση, είναι λιγότερο απαιτητικός σε
υπολογισµούς.

5.2.1 ¶ÚÔÛ‰ÈÔÚÈÛÌfi˜ ÙÔ˘ ÔÏ˘ÁÒÓÔ˘ ÚÔÛ¤ÁÁÈÛ˘ Ì ‰È·‰Ô¯ÈΤ˜


˘ԉȷÈÚ¤ÛÂȘ ÙÔ˘ ÂÚÈÁÚ¿ÌÌ·ÙÔ˜

Με την τεχνική αυτή η προσέγγιση επιτυγχάνεται, µε σχετικά, λίγα υπολογιστικά βήµα-


τα και εξασφαλίζεται ένα πολύγωνο, του οποίου οι κορυφές είναι σηµεία του περι-
γράµµατος και το σφάλµα προσέγγισης είναι µικρότερο ή ίσο προς µια προκαθορι-
σµένη επιθυµητή τιµή ε0. Στο Σχ. 5.5 δίνονται τα διαδοχικά βήµατα υπολογισµού της
προσέγγισης. Καταρχήν, εντοπίζεται η µέγιστη διάµετρος του περιγράµµατος, το ευθύ-
γραµµο τµήµα Α1Α2, Σχ. 5.5α. Για το σκοπό αυτό εξετάζονται ανά δύο όλα τα σηµεία
του περιγράµµατος, υπολογίζεται η µεταξύ τους απόσταση και επιλέγεται το ζεύγος
σηµείων µε τη µεγαλύτερη απόσταση. Το Α1Α2 µπορεί να θεωρηθεί ως το πρώτο πολύ-
γωνο προσέγγισης, ένα εκφυλισµένο πολύγωνο µε πλευρές Α1Α2 και Α2Α1. Το Α1Α2,
ως χορδή, χωρίζει το περίγραµµα σε δύο τόξα. Για καθένα από αυτά βρίσκουµε τα πιο
αποµακρυσµένα από τη χορδή pixels του περιγράµµατος. Στο Σχ. 5.5α τα σηµεία αυτά
είναι τα Β1 και Β2. Επειδή οι αποστάσεις των σηµείων αυτών από το πολύγωνο είναι
µεγαλύτερες από την ε0, προχωρούµε στη βελτίωση της προσέγγισης.

B1 C1 B1

C2
A1 A1

C4
A2 A2

B2 B2 C3
α β
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 109

5 . 2 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∆ √ À ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ ª ∂ ¶ √ § À ° ø ¡ π ∫ ∏ ° ƒ∞ ª ª ∏ 109

™¯‹Ì· 5.5
Προσδιορισµός του
C1 C1
B1 B1 πολυγώνου µε διαδοχι-
D1 D3 κές υποδιαιρέσεις του
C2 περιγράµµατος. (α) Το
C2
D2 D2 περίγραµµα διαχωρί-
A1 D4 A1
D8 ζεται σε δύο τµήµατα
από τη µεγαλύτερη
C4 C3 διάµετρό του. (β, γ, δ)
∆ιαδοχικές προσεγγί-
A2 A2
D5 σεις µέχρις ότου για
D7 D6 D7 D6
όλα τα τµήµατα το
µέγιστο των αποστάσε-
B2 C3 B2 C3 ων να γίνει µικρότερο,
γ δ ή ίσο του ε0

Στο Σχ. 5.5β αντικαταστάθηκε το Α1Α2 µε το πολύγωνο Α1Β1Α2Β2. Το περίγραµµα


χωρίζεται τώρα από τις πλευρές του πολυγώνου σε τέσσερα τόξα. Εδώ, ως τόξο ορί-
ζεται το µικρότερο τµήµα του περιγράµµατος, που έχει άκρα τα κοινά σηµεία µε την
πλευρά του πολυγώνου. Ακολουθείται ανάλογη διαδικασία µε το πρώτο βήµα και
ορίζονται τα σηµεία C1C2C3C4. Και για τα τέσσερα αυτά σηµεία οι αποστάσεις από
το πολύγωνο προσέγγισης δεν είναι ικανοποιητικές, γι’ αυτό προχωρούµε σε νέα
βελτίωση του πολυγώνου.
Στα σχήµατα 5.5γ και 5.5δ η διαδικασία συνεχίζεται µε τον ίδιο τρόπο, χωρίζοντας
σε δύο τµήµατα κάθε τόξο που δεν προσεγγίζεται ικανοποιητικά, από τη χορδή του
και φθάνουµε στο πολύγωνο Α1C1D2Β1C2Α2C3D6Β2D7C4. Το πολύγωνο αυτό είναι η
ζητούµενη προσέγγιση, καθώς για οποιοδήποτε σηµείο του περιγράµµατος η ελάχι-
στη απόσταση από τις πλευρές του πολυγώνου είναι µικρότερη από ε0. Κατά το τρίτο
βήµα θεωρήθηκε ότι οι αποστάσεις των σηµείων D1, D3, D4, D5 και D8 από τις αντί-
στοιχες χορδές είναι µικρότερες από την ε0. Η µέθοδος αυτή εξασφαλίζει ότι το πολύ-
γωνο προσέγγισης εµφανίζει κορυφές όπου το περίγραµµα παρουσιάζει σηµεία
καµπής.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 110

110 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 5.1

Τι είναι σωστό και τι λάθος από τα παρακάτω;


Σωστό Λάθος
1. Αν διαθέτουµε τον κώδικα αλύσου µπορούµε να υπολογί-
σουµε την περίµετρο του αντίστοιχου περιγράµµατος,
χωρίς προηγουµένως να το ανακατασκευάσουµε. ❏ ❏
2. Ο κώδικας αλύσου µπορεί να χρησιµοποιηθεί µόνο για
µια κλειστή γραµµή, όπως είναι το περίγραµµα. ❏ ❏
3. Το πολύγωνο προσέγγισης που δηµιουργείται µε διαδο-
χικές υποδιαιρέσεις έχει το πλεονέκτηµα ότι οι κορυφές του
βρίσκονται πάνω σε pixel του περιγράµµατος. ❏ ❏
4. Τα πολύγωνα προσέγγισης µπορούν να κωδικοποιηθούν
ακριβώς όπως ο κώδικας αλύσου. ❏ ❏
5. Ο κώδικας αλύσου παραµένει αναλλοίωτος σε ολίσθηση
της µορφής ή σε περιστροφή των αξόνων. ❏ ❏

5.3 ∏ ˘ÔÁÚ·Ê‹ ÙÔ˘ ÂÚÈÁÚ¿ÌÌ·ÙÔ˜

Η υπογραφή (signature) είναι ένα µονοδιάστατο σχήµα αναπαράστασης του περι-


γράµµατος. Με την τεχνική αυτή το δισδιάστατο περίγραµµα αντικαθίσταται από µια
συνάρτηση µιας µεταβλητής. Η συνάρτηση αυτή προσδιορίζεται µε τρόπο τέτοιο ώστε
να παραµένει αναλλοίωτη σε αλλαγές κλίµακας και περιστροφές του περιγράµµατος.
Στην υποενότητα αυτή θα γνωρίσουµε δύο τεχνικές δηµιουργίας της υπογραφής. Η
πρώτη, αποδίδει τη σχέση µεταξύ του µήκους και της γωνίας της επιβατικής ακτίνας
κάθε σηµείου του περιγράµµατος από ένα σταθερό σηµείο της περιοχής που περι-
κλείεται από το περίγραµµα. Η δεύτερη, δηµιουργείται από το ιστόγραµµα κλίσεων
των εφαπτοµένων στα pixels του περιγράµµατος. Η υπογραφή αποτελεί µια από τις
βασικές τεχνικές εξαγωγής ουσιωδών χαρακτηριστικών ενός περιγράµµατος. Για
παράδειγµα, λαµβάνοντας δείγµατα της υπογραφής σε ένα αριθµό σηµείων της, µπο-
ρεί να δηµιουργηθεί ένα διάνυσµα χαρακτηριστικών µε τον ίδιο αριθµό συνιστωσών.

5.3.1 ™¯¤ÛË Ì‹ÎÔ˘˜ Î·È ÁˆÓ›·˜ ÂÈ‚·ÙÈ΋˜ ·ÎÙ›Ó·˜ ÙˆÓ ÛËÌ›ˆÓ ÙÔ˘
ÂÚÈÁÚ¿ÌÌ·ÙÔ˜

Στο Σχ. 5.6α δίνεται το περίγραµµα Π της περιοχής ενός τετραγώνου. Θεωρούµε το
κέντρο Κ και τη µία από τις διαγωνίους του τετραγώνου, την Ι. Έστω O η αρχή των
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 111

5 . 3 ∏ À ¶ √ ° ƒ∞ º ∏ ∆ √ À ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ 111

αξόνων, rK το διάνυσµα θέσεως του K, και έστω ένα τυχαίο σηµείο P του περι-
γράµµατος µε διάνυσµα θέσεως rP. Τέλος, έστω θP η γωνία µεταξύ του διανύσµατος
rP–rK (KP) και του άξονα Ι. Το µήκος της επιβατικής ακτίνας R = | rP–r K| και η γωνία
θP συνδέονται µε τη συνάρτηση R(θP), η οποία έχει σχεδιαστεί στο Σχ. 5.6β. Τη
συνάρτηση αυτή R(θP) καλούµε Υπογραφή του Περιγράµµατος Π. Στην περίπτω-
ση του περιγράµµατοος ενός τετραγώνου η συνάρτηση της υπογραφής δίνεται και
µε αναλυτικό τρόπο από τη σχέση:
R(θP) = (a/2)/sin(π/4+θ0) , θ0 = modπ/2(θP) , 0 ≤ θP < 2π (5.4)
όπου a είναι το µήκος της πλευράς του τετραγώνου και modπ/2(θP) ισούται µε το ελά-
χιστο θετικό τόξο που προκύπτει αν αφαιρέσουµε τον µεγαλύτερο δυνατό αριθµό
τεταρτηµορίων από τη θP.

2
R=|rK–rp| I

1.5

rK
θp P 1
K
R(θp)/a
0.5

rP ™¯‹Ì· 5.6
0 Η υπογραφή του
0 0.5π π 1.5π 2π
περιγράµµατος
θp
O ενός τετραγώνου
(α) (β)
R(θp)

Π.A.

θp
ξθ
C
P
™¯‹Ì· 5.7
R(θp) π/2 π 3π/2 2π (α) Περίγραµµα
περιοχής. (β) Η
θp
δειγµατοληππτηµέ-
α β νη υπογραφή του.

Με παρόµοιο τρόπο, σαν αυτόν που ακολουθήθηκε για το τετράγωνο, ορίζεται η


£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 112

112 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™

υπογραφή για το περίγραµµα περιοχής οποιουδήποτε σχήµατος. Ως κέντρο Κ για


τον ορισµό της αρχής της επιβατικής ακτίνας χρησιµοποιείται το κεντροειδές C της
περιοχής που περικλείεται από το περίγραµµα. Ως άξονας Ι για τη µέτρηση των
γωνιών µπορεί να χρησιµοποιηθεί ο πρωτεύων άξονας της περιοχής (Ενότητα 6.2.3),
όταν αυτή δεν παρουσιάζει συµµετρία ως προς σηµείο, ή ένας από τους άξονες συµ-
µετρίας της περιοχής, στην αντίθετη περίπτωση.
Στις περισσότερες εφαρµογές είναι διαθέσιµες µόνο οι συντεταγµένες των pixels του
περιγράµµατος (Σχ.5.7α). Τότε υπολογίζονται δείγµατα της υπογραφής για έναν αριθ-
µό από ισαπέχουσες τιµές της µεταβλητής θP. Στο Σχ. 5.7 δίνεται ένα παράδειγµα
υπολογισµού της υπογραφής δειγµατοληπτηµένου περιγράµµατος. Έχουν επιλεγεί
το κεντροειδές C και ο πρωτεύων άξονας ΠΑ γαι τη µέτρηση των γωνιών. Στη συνέ-
χεια, φέρεται άξονας ξθ από το C, που σχηµατίζει µε τον ΠΑ γωνίες θP = 0,
π/4,π/2,…,7π/4. Για κάθε τιµή της θP υπολογίζεται το σηµείο τοµής P του άξονα και
του περιγράµµατος και υπολογίζεται η απόσταση CP. Έτσι χαράσσεται η σχέση
R(θP) (Σχ. 5.7β). Το σηµείο P προσδιορίζεται είτε µε µια απλή γραµµική παρεµβο-
λή µεταξύ των δύο πιο κοντινών προς τον άξονα ξθ pixels του περιγράµµατος, είτε
µε την παραδοχή ότι το P συµπίπτει µε το πλησιέστερο προς τον ξθ pixel. Η επιλο-
γή του π/4 ως βήµατος δειγµατοληψίας της υπογραφής, προφανώς, είναι αυθαίρετη.
Μπορεί κανένας να αυξήσει ή να ελαττώσει το βήµα αυτό, ρυθµίζοντας έτσι το πλή-
θος των σηµείων της υπογραφής που προσδιορίζει.
Η υπογραφή του περιγράµµατος παραµένει αναλλοίωτη σε µετασχηµατισµούς µετα-
φοράς και περιστροφής. Το αναλλοίωτο όµως δεν ισχύει για δράσεις αλλαγής κλί-
µακας. Αυτό επιτυγχάνεται µε την κανονικοποίηση των δειγµάτων της απόστασης,
διαιρώντας την τιµή τους µε τη µέση τιµή του R(θP). Αυτός ο τρόπος κανονικοποί-
ησης δίνει ικανοποιητικά αποτελέσµατα ακόµη και σε περιπτώσεις που στο περί-
γραµµα υπάρχει σηµαντικός θόρυβος ή παραµορφώσεις.

5.3.2 ∆Ô ÈÛÙfiÁÚ·ÌÌ· ÎϛۈÓ

Στη µέθοδο αυτή προσεγγίζεται η τιµή της γωνίας θj που σχηµατίζει µε τον οριζόντιο
άξονα η εφαπτοµένη σε καθένα pixel Pj του περιγράµµατος. Η τιµή της κλίσης θj υπο-
λογίζεται µε αριθµητικές µεθόδους. Μια τεχνική (Σχ.5.8) είναι ο καθορισµός της εξί-
σωσης της ευθείας ε, η οποία απέχει ελάχιστη συνολική απόσταση από το pixel Pj και
από τους τέσσερις πλησιέστερους γείτονές του στο περίγραµµα, αυτούς που βρίσκο-
νται ανά δύο εκατέρωθεν του Pj [4]. Μετά τον προσδιορισµό των συντελεστών της ε
υπολογίζεται η κλίση και η γωνία θj που σχηµατίζει η ευθεία αυτή µε την οριζόντιο.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 113

5 . 3 ∏ À ¶ √ ° ƒ∞ º ∏ ∆ √ À ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ 113

θj

™¯‹Ì· 5.8
Pj--2
Pj Η κλίση θj της εφαπτοµένης του
περιγράµµατος στο pixel Pj ισούται
Pj--2
µε την κλίση της ευθείας ε, της
Pj+1 οποίας το άθροισµα των αποστά-
σεων από τα διαδοχικά pixels Pj–2,
Pj+2 ε Pj–1, Pj, Pj+1, Pj+2 είναι ελάχιστο.

1 1

0.8 0.8

0.6 0.6

0.4 0.4

0.2 0.2

0 0
00 500 1000 1500 2000 00 500 1000 1500 2000
α β

90
120 60

150 30

180 0 ™¯‹Ì· 5.9


α) Το ιστόγραµµα των κλίσεων χρησιµοποι-
είται ως υπογραφή του περιγράµµατος. β) Η
210 330
περιστροφή του αρχικού, έτσι ώστε το νέο
ιστόγραµµα να αρχίζει µε τον ιστό µε τη
240 300
270 µεγαλύτερη συχνότητα εµφάνισης. γ) Το διά-
γ γραµµα του (β) σε πολικές συντεταγµένες.

Για την ακολουθία θj, που προκύπτει µε τον πιο πάνω τρόπο, χαράσσεται το ιστό-
γραµµα κλίσεων του περιγράµµατος, δηλαδή το ιστόγραµµα της συχνότητας εµφάνι-
σης των τιµών της θj. Στο Σχ. 5.9α δίνεται, για παράδειγµα, το ιστόγραµµα που αντι-
στοιχεί στο περίγραµµα του Σχ. 5.7α. Το ιστόγραµµα κλίσεων παραµένει αναλλοίωτο
στη δράση παράλληλης µεταφοράς της εικόνας. Όταν διαιρεθεί το ύψος κάθε ιστού µε
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 114

114 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™

το πλήθος των pixels του περιγράµµατος και γίνει περιστροφή των ιστών, έτσι ώστε ο
ιστός µε το µεγαλύτερο ύψος να εµφανίζεται πρώτος, το ιστόγραµµα που προκύπτει
(Σχ 5.9β) και, εποµένως, η αντίστοιχη υπογραφή παραµένει αναλλοίωτη επιπρόσθετα
σε περιστροφές της εικόνας και σε αλλαγές της κλίµακας των αξόνων. Για την παρά-
σταση της υπογραφής του ιστογράµµατος των κλίσεων µερικές φορές χρησιµοποιού-
µε το διάγραµµα των πολικών συντεταγµένων (Σχ. 5.9γ). Στο διάγραµµα αυτό έχουµε
απευθείας αναπαράσταση της γωνίας από το µέτρο των τόξων, ενώ το ύψος των ιστών
αποδίδεται µε την απόσταση των κορυφών τους από το κέντρο του διαγράµµατος.
Η υπογραφή του περιγράµµατος «κωδικοποιεί» πληροφορία σχετική µε τη µορφή του
περιγράµµατος. Για παράδειγµα, όταν το περίγραµµα είναι κύκλος το r(θ) θα είναι στα-
θερό. Επίσης, εκεί που το ιστόγραµµα κλίσεων παρουσιάζει µεγάλες τιµές είναι ένδει-
ξη ύπαρξης ευθύγραµµου τµήµατος, δεδοµένου ότι κατά µήκος του τµήµατος η κλίση
παραµένει σταθερή, µε αποτέλεσµα η αντίστοιχη κλίση να εµφανίζεται πολλές φορές.

5.4 √ ‰È·ÎÚÈÙfi˜ ÌÂÙ·Û¯ËÌ·ÙÈÛÌfi˜ Fourier ÙÔ˘ ÂÚÈÁÚ¿ÌÌ·ÙÔ˜


Εστω ένα περίγραµµα µε Ν pixels, των οποίων οι συντεταγµένες είναι
(x0,y0),(x1,y1),…,(xN–1,yN–1). Με βάση τις συντεταγµένες αυτές ορίζουµε την ακο-
λουθία των µιγαδικών αριθµών si = xi + jyi, i = 0,1,…,N–1, καθώς και το διακριτό
µετασχηµατισµό Fourier (DFT) της si, την ακολουθία fk που ορίζεται ως:

N −1

∑ s exp[ − j 2πki / N ],
1
fk = i k = 0,1,..., N − 1 (5.5)
N k =0

Όπως είναι γνωστό από τους όρους της ακολουθία fk, που καλούνται και συντελεστές
Fourier, είναι δυνατό να υπολογιστεί εκ νέου η ακολουθία si, εφαρµόζοντας τη σχέση:

N −1
si = ∑f
u=0
k exp[ j 2πki / N ] i = 0,1,..., N − 1. (5.6)

Αξίζει να θυµηθούµε ότι τα αθροίσµατα των σχέσεων (5.5) και (5.6), για κατάλλη-
λες τιµές του Ν, υπολογίζονται στην πράξη από τον ταχύ µετασχηµατισµό Fourier
(FFT) και τον αντίστροφό του [9].
Επειδή οι όροι της ακολουθίας si προέρχονται από τις συντεταγµένες των pixels ενός
περιγράµµατος, υπάρχει σηµαντική συσχέτιση µεταξύ τους. Αυτό έχει ως συνέπεια
ότι το µεγαλύτερο µέρος της ενέργειας συγκεντρώνεται σε λίγους από τους ακραί-
ους όρους της ακολουθίας fk. H ιδιότητα αυτή φαίνεται καθαρά στο Σχ. 5.10. Στο
σχήµα αυτό δίνεται το περίγραµµα δύο διαφορετικών γραµµάτων, των Γ και C. Το
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 115

5 . 4 √ ¢ π ∞ ∫ ƒ π ∆ √ ™ ª ∂ ∆∞ ™ à ∏ ª ∞∆ π ™ ª √ ™ F O U R I E R ∆ √ À ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ 115

M=2+2 M=6+6
16 4 10

14 3 8

6
12
2
4
10
1 2
8 0
0
6 -2
-1 -4
4
-2 -6
2
-8
-3
0 -10
0 5 10 15 20 25 -5 0 5 10 15 20
-4
-5 0 5 10 15

α β γ
M=10+10 KAI OI 63 ΣYNTEΛEΣTEΣ
10 10

8 8

6 6

4 4

2 2

0 0
™¯‹Ì· 5.10
-2 -2
-4 -4
α) Τα αρχικά περιγράµµατα. β–ε) Ανακατα-
-6 -6 σκευή του περιγράµµατος χρησιµοποιώντας
-8
-8
-10
-5 0 5 10 15 20 -10
-5 0 5 10 15 20
σε κάθε περίπτωση διαφορετικό αριθµό από
δ ε τους συντελεστές Fourier.

περίγραµµα του καθενός από αυτά περιλαµβάνει 64 σηµεία. Υπολογίζονται οι συντε-


λεστές Fourier για τα σηµεία του περιγράµµατος, για καθένα από τα γράµµατα αυτά
και στη συνέχεια, χρησιµοποιώντας ένα µικρό πλήθος από του ακραίους όρους της
ακολουθίας των συντελεστών (µηδενίζοντας τους υπόλοιπους), γίνεται απόπειρα
ανακατασκευής των αντιστοίχων περιγραµµάτων.
Στα σχήµατα 5.10β–δ δίνονται διαδοχικά τα περιγράµµατα, που προκύπτουν από την
ανακατασκευή όταν χρησιµοποιηθούν 2M από τους Ν συντελεστές Fourier, για Μ =
2, 6 και 10 αντίστοιχα. Σε κάθε περίπτωση µηδενίζονται όλοι οι συντελεστές εκτός
από τους f1 µέχρι fΜ και από fΝ–Μ µέχρι fΝ–1. Επιλέγονται, δηλαδή οι πρώτοι και οι
τελευταίοι διαδοχικοί συντελεστές φροντίζοντας να µη συµπεριλάβουµε σ’ αυτούς
τον f0. Για την ανακατασκευή του περιγράµµατος στο Σχ. 5.10ε έχουν χρησιµοποι-
ηθεί 63 συντελεστές, δηλαδή όλοι εκτός από τον f0. Από τα περιγράµµατα των σχη-
µάτων αυτών γίνεται φανερό ότι ο διαχωρισµός των δύο µορφών είναι ικανοποιητι-
κός ακόµη και όταν χρησιµοποιείται ένα µικρό µέρος από τους fk. Με άλλα λόγια,
το ανάπτυγµα Fourier έχει την ιδιότητα «συµπύκνωσης» της πληροφορίας σε ένα
µικρό αριθµό από τους συντελεστές. Οι πιο ισχυροί από αυτούς µπορούν να επιλε-
γούν ως ουσιώδη χαρακτηριστικά για να τροφοδοτήσουν τον ταξινοµητή.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 116

116 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™

¶›Ó·Î·˜ 5.2
Οι µεταβολές στην µορφή της ακολουθίας fk, που προκύπτουν από γεωµετρικούς µετα-
σχηµατισµούς της ακολουθίας si, καθώς επίσης και από την αλλαγή του σηµείου έναρ-
ξης της ψηφιοποίησης.

Είδος Μεταβολής si fk |fk|


Μεταφορά κατά ∆xy sit = si + ∆xy fkt = fk+∆xyδ(k)
(∆xy = ∆x+j∆y)

sir = si e jθ f kr = f k e jθ f kr = f k
Περιστροφή κατά γωνία θ

Αλλαγή Κλίµακας six = λsi f kx = λf k f kx = λ f k

Αλλαγή Αρχικού Σηµείου


sip = si − p 0 f kp = f k e − j 2 πp 0 k / N f kp = f k
p0

Από τη θεωρία είναι γνωστό ότι η µεταφορά, η περιστροφή, η αλλαγή στην κλίµα-
κα των αξόνων, καθώς επίσης και η αλλαγή στην επιλογή της αρχής της δειγµατο-
ληψίας του περιγράµµατος, επιφέρει µεταβολές στην ακολουθία fk. Οι µεταβολές
αυτές συνοψίζονται στον Πίνακα 5.2. Σ’ αυτόν φαίνεται ότι η µεταφορά της ακο-
λουθίας si κατά ∆xy = ∆x + j∆y επιδρά µόνο στον µηδενικό όρο της fk, στον οποίο προ-
σθέτει το µιγαδικό αριθµό ∆xy . ∆ιευκρινίζεται ότι µε δ(k) συµβολίζουµε την ακο-
λουθία για την οποία ισχύει δ(0) = 1 και δ(k) = 0 για κάθε k µη µηδενικό ακέραιο.
Από τον ίδιο Πίνακα γίνεται φανερό ότι κατά την περιστροφή των αξόνων ή κατά
την αλλαγή του αρχικού σηµείου δειγµατοληψίας του περιγράµµατος οι µεταβολές
που επέρχονται δεν επιδρούν στο µέτρο των συντελεστών Fourier. Λαµβάνοντας
υπόψιν τις ιδιότητες του πίνακα 5.2, µπορεί εύκολα να αποδειχθεί ότι όταν οι συντε-
fk
λεστές Fourier κανονικοποιηθούν κατάλληλα, π.χ. fk' = , οι συντελεστές που
f1
προκύπτουν είναι αναλλοίωτοι σε διάφορους µετασχηµατισµούς.
Εφαρµόζοντας, λοιπόν, την πιο πάνω τακτική και χρησιµοποιώντας µερικούς από
τους ακραίους και ισχυρούς συντελεστές της σειράς, ορίζονται διανύσµατα ουσιω-
δών χαρακτηριστικών του περιγράµµατος αναλλοίωτα στη µεταφορά, στη στροφή
και στην αλλαγή κλίµακας, καθώς επίσης και στην αλλαγή του αρχικού σηµείου δειγ-
µατοληψίας. Για περισσότερες λεπτοµέρειες ο αναγνώστης παραπέµπεται στο [10].
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 117

™YNOæH 117

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 5.2

Τι είναι σωστό και τι λάθος από τα παρακάτω;


Σωστό Λάθος
1. Η υπογραφή παραµένει αναλλοίωτη στη µεταφορά,
στη στροφή και στην αλλαγή της κλίµακας των αξόνων. ❏ ❏
2. Περίγραµµα µε ένα, ή περισσότερα ευθύγραµµα τµήµατα
αντιστοιχεί σε ιστόγραµµα κλίσεων µε ισχυρούς ιστούς
σε ισάριθµες θέσεις. ❏ ❏
3. Για τον υπολογισµό της υπογραφής ενός περιγράµµατος,
πρέπει αυτό πρώτα να προσεγγιστεί µε µια συνεχή γραµµή,
ώστε να είναι δυνατή η ανίχνευση της τοµής επιβατικής
ακτίνας και περιγράµµατος, ή η χάραξη της εφαπτοµένης
στο περίγραµµα και ο υπολογισµός της κλίσης της. ❏ ❏
4. Οι συντελεστές Fourier, που υπολογίζονται από τον DFT
µετασχηµατισµό ενός περιγράµµατος, δεν µεταβάλλονται
στην περίπτωση που γίνει περιστροφή των αξόνων. ❏ ❏
5. Τα µέτρα των συντελεστών Fourier του περιγράµµατος
είναι περίπου όλα της ίδιας τάξης µεγέθους ώστε
µπορούµε να επιλέξουµε οποιουσδήποτε από αυτούς
για περιγράφοντα στοιχεία. ❏ ❏

™‡ÓÔ„Ë
Στο κεφάλαιο αυτό γνωρίσαµε µερικά από τα πιο βασικά σχήµατα αναπαράστασης
και στοιχεία περιγραφής του περιγράµµατος. Παρουσιάστηκε ο κώδικας αλύσου, ένας
τρόπος λεπτοµερούς κωδικοποίησης του περιγράµµατος. Επίσης παρουσιάστηκαν
αλγόριθµοι για τον προσδιορισµό πολυγώνου, που µε µικρό πλήθος πλευρών προ-
σεγγίζει τη µορφή δοθέντος περιγράµµατος. Εξετάστηκαν, επίσης, δύο τεχνικές για
τη δηµιουργία της υπογραφής του περιγράµµατος, δηλαδή µιας συνάρτησης µε µια
µεταβλητή που µπορεί να αντικαταστήσει το δισδιάστατο περίγραµµα σε εφαρµογές
ταξινόµησης. Τέλος, γνωρίσαµε µια µέθοδο µετασχηµατισµού κατά Fourier και της
εξαγωγής, από τους συντελεστές Fourier, ουσιωδών χαρακτηριστικών ανεξάρτητων
από τον προσανατολισµό και το µέγεθος του περιγράµµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 118

118 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™

µÈ‚ÏÈÔÁÚ·Ê›·

1. T. Pavlidis, «Structural Pattern Recognition», Springer Verlag, Berlin 1977.


2. T. Pavlidis, «Algorithms for shape analysis of countours and waveforms.», IEEE
Trans on Pattern Analysis and Mach. Intel.,, Vol. 2, No. 4 pp301–312 ,1980.
3. R. C. Gonzalez, R.E Woods «Digital Image Processing» Addison–Wessley
1993[pages 447–457]
4. J. R. Rice, «Numerical Methods, Software, and Analysis», Mc Graw Hill 1987
5. R.M. Haralick, L.G. Shapiro «Computer and Robot Vision» Addison–Wessley
1992 Volume I.
6. M. Sonka, V. Hlavac and R. Boyle,«Image Processing Analysis and Mashine
Vision», Chapman & Hall, London 1995
7. Α. Σκόδρας και Β. Αναστασόπουλος,, «Ψηφιακή Επεξεργασία Εικόνων και Σηµά-
των», Βιβλίο Ελληνικού Ανοικτού Πανεπιστήµιου, 1999.
8. Σ. Θεοδωρίδης, Κ. Μπερµπερίδης, «Εισαγωγή στη Θεωρία Σηµάτων και Συστη-
µάτων, Τυπωθήτω, Αθήνα 1998.
9. Ν. Καλουπτσίδης, «Σήµατα Συστήµατα και Αλγόριθµοι»,Εκδόσεις ∆ίαυλος
Αθήνα 1992.
10.S. Theodoridis, K. Koutroumbas, «Pattern Recognition», Academic Press, 1998.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 119

¶ÂÚÈÁÚ¿ÊÔÓÙ· ÛÙÔȯ›· ÙÔ˘ ÂÛˆÙÂÚÈÎÔ‡


ÂÚÈÔ¯‹˜ ÂÈÎfiÓ·˜

™ÎÔfi˜
∫ ∂

Σκοπός του κεφαλαίου αυτού είναι η παρουσίαση και ανάπτυξη µερικών από τα πιο
6
º

ευρέως διαδεδοµένα στην πράξη περιγράφοντα στοιχεία περιοχής, η οποία έχει δια-
∞ § ∞ π √

χωριστεί από µια εικόνα.

¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Aναφέρετε δύο οµάδες ιδιοτήτων µιας περιοχής, των οποίων η κατάλληλη µέτρη-
ση δηµιουργεί περιγράφοντα στοιχεία της περιοχής.
• Aναφέρετε δύο τουλάχιστον τρόπους ποσοτικής περιγραφής της υφής.
• Yπολογίσετε την ακολουθία συχνότητας τιµών και να χαράξετε το αντίστοιχο ιστό-
γραµµα.
• Yπολογίσετε τις ροπές ενός ιστογράµµατος και να δώσετε τη φυσική σηµασία για
µερικές από αυτές.
• Yπολογίσετε το δισδιάστατο φάσµα Fourier µιας περιοχής και από αυτό να υπο-
λογίσετε µονοδιάστατες συναρτήσεις της γωνίας ή της απόστασης.
• Oρίσετε τις δισδιάστατες ροπές καθώς και ροπές, οι οποίες παραµένουν αναλλοί-
ωτες σε µετασχηµατισµούς περιστροφής, µεταφοράς και αλλαγής κλίµακας.
• Aναγνωρίσετε αν µια µορφή είναι έκκεντρος ή όχι.
• Yπολογίσετε την εκκεντρότητα µιας περιοχής.
• Σχεδιάσετε, κατά προσέγγιση, τους κύριους άξονες µιας έκκεντρης περιοχής και
να χαράξετε το περιγεγραµµένο ορθογώνιο, που έχει πλευρές παράλληλες προς του
κύριους άξονες.

ŒÓÓÔȘ ÎÏÂȉȿ
• Αναλλοίωτες Ροπές.
• ∆ευτερεύων Άξονας
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 120

120 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™

• ∆οµική Προσέγγιση
• Εντροπία των Τιµών ενός Πίνακα.
• Ιστόγραµµα Συχνότητας Τιµών.
• Κατοπτρικός Μετασχηµατισµός.
• Κεντρικές Ροπές .
• Κεντροειδές.
• Κύριοι Άξονες.
• Μορφή.
• Πίνακας Συνεµφάνισης Τιµών.
• Πρωτεύων Άξονας.
• Ροπές Ιστογράµµατος.
• Ροπή Αδράνειας Πίνακα ως προς µια ∆ιαγώνιο του.
• Στροφορµή Μορφής ως προς Άξονα.
• Υφή Περιεχοµένου Περιοχής.
• Φάσµα Fourier.

∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Μετά από την παράθεση των σχηµάτων αναπαράστασης και των στοιχείων περι-
γραφής του περιγράµµατος µιας περιοχής, η οποία έχει ήδη διαχωριστεί από µια εικό-
να, στο κεφάλαιο αυτό παρουσιάζουµε δύο βασικές οµάδες στοιχείων περιγραφής του
εσωτερικού της περιοχής. Η πρώτη οµάδα περιλαµβάνει στοιχεία που προκύπτουν
από την «ποσοτικοποίηση» της υφής, µε βάση στατιστικές κατανοµές των τιµών των
pixels της περιοχής. Αυτά περιγράφονται στην πρώτη ενότητα (Ενότητα 6.1) και ανα-
φέρονται µόνο για περιοχές ασπρόµαυρες και όχι για µονόχρωµες. Η δεύτερη οµάδα
στοιχείων περιγραφής προκύπτει από τον γεωµετρικό τρόπο κατανοµής των τιµών
των pixels στην περιοχή και σχετίζεται µε τις δισδιάστατες ροπές της περιοχής. Αυτά
τα στοιχεία θα αναπτυχθούν στη δεύτερη ενότητα (Ενότητα 6.2) και βρίσκουν εφαρ-
µογή τόσο για περιοχές µονόχρωµης όσο και ασπρόµαυρης εικόνας. Ειδικά µια µονό-
χρωµη περιοχή καλείται µορφή (shape).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 121

6.1 Yº∏ ∆√À ∂™ø∆∂ƒπ∫√À ¶∂ƒπ√Ã∏™ 121

6.1 YÊ‹ ÙÔ˘ ÂÛˆÙÂÚÈÎÔ‡ ÂÚÈÔ¯‹˜


™¯‹Ì· 6.1
Από την περιγραφή της υφής του εσωτερικού µιας περιοχής ασπρόµαυρης εικόνας ∆είγµατα από υφή
προκύπτουν σηµαντικά ουσιώδη χαρακτηριστικά για την ταξινόµηση της περιοχής. περιεχοµένου περιο-
Ο ορισµός της έννοιας της υφής δεν µπορεί να δοθεί επακριβώς. Εν τούτοις, στην χής. (α) Λεπτή, (β)
καθηµερινή πρακτική η υφή χρησιµοποιείται για να εκφραστούν οπτικές ιδιότητες Τραχεία, (γ)Ινώδης,
(δ) και (ε)Κανονικά
της παρατηρούµενης περιοχής, όπως λεπτή υφή, τραχεία υφή, ινώδης και κοκκώδης
επαναλαµβανόµενη
υφή, κανονικά επαναλαµβανόµενη υφή, κτλ., (Σχ.6.1). Για να οριστούν περιγράφο- υφή. Για κάθε δείγµα
ντα στοιχεία της υφής πρέπει να προηγηθεί η ποσοτική έκφραση και η µέτρηση των υφής έχει παρατεθεί
ιδιοτήτων της. Για το σκοπό αυτό χρησιµοποιούνται διάφορες τεχνικές, µε πιο αντι- το ιστόγραµµα συχνό-
προσωπευτικές τις µεθόδους Ιστογραµµάτων, τη Φασµατική και τη ∆οµική µέθο- τητας τιµών, καθώς
δο περιγραφής της υφής. Στην ενότητα αυτή θα παρουσιάσουµε τις δύο πρώτες, ενώ και η µέση τιµή και οι
την τρίτη τεχνική µπορείτε να αναζητήσετε στα [1,2]. τιµές των κεντρικών
ροπών µ2, µ3 και µ4.

α β γ δ ε
0 .0 2 0.02 0 .0 1 5 .0 1 5 0 .0 3

.0 1 5 .0 1 5
0.01 0 .0 2
0 .0 1
0 .0 1 0.01
0 .0 0 5 0 .0 1
.0 0 5
.0 0 5 .0 0 5

0 0
0 0 100 200 300 0 0
0 100 200 300 0 10 0 20 0 30 0 0 10 0 20 0 30 0 0 100 200 300

m = 154.6 m = 91.4 m = 156.3 m = 178.7 m = 107.0


µ2 = 0.8⋅103 µ2 = 5.7⋅103 µ2 = 1.5⋅103 µ2 = 1.0⋅103 µ2 = 3.3⋅103
µ3 = –2.5⋅104 µ3 = 3.3⋅105 µ3 = –4.8⋅104 µ3 = –1.0⋅103 µ3 = 1.5⋅105
µ4 = 3.0⋅106 µ4 = 7.4⋅107 µ4 = 7.8⋅106 µ4 = 2.5⋅106 µ4 = 3.0⋅107

6.1.1 ª¤ıÔ‰Ô˜ ÂÚÈÁÚ·Ê‹˜ ‚·ÛÈṲ̂ÓË Û ÈÛÙÔÁÚ¿ÌÌ·Ù·

Στη µέθοδο αυτή οι ιδιότητες της υφής µετρούνται από το ιστόγραµµα των τιµών
των pixels της περιοχής και από τους Πίνακες Συνεµφάνισης. Χρησιµοποιούνται
διάφοροι τύποι ροπών και άλλες στατιστικές παράµετροι για την περιγραφή των
στοιχείων αυτών.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 122

122 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™

6.1.1· √È ƒÔ¤˜ ÙÔ˘ πÛÙÔÁÚ¿ÌÌ·ÙÔ˜

Από το τρίτο κεφάλαιο µας είναι γνωστή η ακολουθία επανάληψης r(i) και το ιστό-
γραµµα των τιµών των pixels µιας εικόνας. Αν Ν είναι το πλήθος των pixels µιας
περιοχής και r(i) η ακολουθία επανάληψης τιµών, καλούµε ακολουθία συχνότητας
τιµών την p(i) = r(i)/N, i = 0,1,...,Q–1, και ιστόγραµµα συχνότητας τιµών το ιστό-
γραµµα της p(i). Το ιστόγραµµα αυτό είναι γνωστό και ως ιστόγραµµα 1ης τάξης.
Υπενθυµίζεται ότι Q είναι το πλήθος των σταθµών κβάντισης του σήµατος της εικό-
νας. Επειδή το άθροισµα των όρων της ακολουθίας, r(i), ισούται µε τον ολικό αριθ-
µό Ν των pixels της περιοχής, το άθροισµα των όρων της p(i) ισούται µε µονάδα.
Ένας τρόπος µέτρησης των ιδιοτήτων της υφής του εσωτερικού µιας περιοχής είναι
ο υπολογισµός της p(i) και η παράστασή της µε το αντίστοιχο ιστόγραµµα.
Ως περιγράφοντα στοιχεία του ιστογράµµατος συχνότητας τιµών και εποµένως της
αντίστοιχης υφής, χρησιµοποιούνται οι µονοδιάστατες κεντρικές ροπές (moments).
Αυτές ορίζονται µε βάση την ακολουθία συχνότητας τιµών της περιοχής p(i), i =
™¯‹Ì· 6.2
0,1,...,Q–1. Κατ’ αρχήν υπολογίζουµε τη µέση τιµή m της περιοχής από τη σχέση:
(α) Ιστόγραµµα µε
Q −1
θετική ασυµµετρία
(µ3>0 ). (β) Ιστό- m= ∑ i ⋅ p(i ) .
i =0
(6.1)
γραµµα µε αρνητι-
κή ασυµµετρία Στη συνέχεια, για κάθε k φυσικό αριθµό, ορίζεται η k τάξεως κεντρική ροπή, µk,
(µ3<0 ). (γ) Πλα- του ιστογράµµατος ως:
τύκυρτο ιστόγραµ-
Q −1
µα µε µ4>3σ4. (δ)
∑ (i − m)
k
Λεπτόκυρτο ιστό- µk = ⋅ p(i ) . (6.2)
i =0
γραµµα µε µ4<3σ4.

α β γ δ

Με βάση τον πιο πάνω ορισµό εύκολα αποδεικνύεται (βλέπετε και παράδειγµα 1)
ότι για κάθε ιστόγραµµα ισχύει: µ0 = 1 και µ1 = 0 και εποµένως oι δύο αυτές ροπές
δεν µπορούν να χρησιµοποιηθούν σαν περιγράφοντα στοιχεία του ιστογράµµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 123

6.1 Yº∏ ∆√À ∂™ø∆∂ƒπ∫√À ¶∂ƒπ√Ã∏™ 123

Αντίθετα, για τις κεντρικές ροπές µε τάξη µεγαλύτερη ή ίση του 2 η τιµή εξαρτάται
άµεσα από τη µορφή του ιστογράµµατος και κατ’ επέκταση της υφής.
Οι κεντρικές ροπές δεύτερης, τρίτης και τέταρτης τάξης έχουν άµεση φυσική σηµα-
σία. Η ροπή µ2 = σ2 είναι γνωστή σαν διακύµανση και είναι µέτρο της διασποράς των
τιµών στο ιστόγραµµα γύρω από τη µέση τιµή m. Η ροπή αυτή, δίνει επίσης, το
µέτρο της αντίθεσης στη φωτεινότητα της εικόνας. Η µ3 είναι γνωστή ως ασυµµε-
τρία (skewness) [4] και δίνει ένα µέτρο της ασυµµετρίας του ιστογράµµατος γύρω
από τη µέση τιµή. Η τιµή της µ3 για συµµετρικά ιστογράµµατα, όπως αυτό της
Gaussian κατανοµής, είναι µηδενική. Για µη συµµετρικά ιστογράµµατα, η µ3 γίνεται
θετική ή αρνητική (Σχ. 6.2α και 6.2β). Η µ4 είναι γνωστή ως κύρτωση (kurtosis). Η
τιµή της µ4 για ένα Gaussian ιστόγραµµα µε διακύµανση σ2 είναι ίση µε 3σ4 [5]. Ιστό-
γραµµα µε διακύµανση σ2, το οποίο είναι περισσότερο πεπλατυσµένο από αυτό της
Gaussian µε την ίδια διακύµανση, καλείται πλατύκυρτο και η αντίστοιχη τιµή της
µ4 είναι µεγαλύτερη από 3σ4 (Σχ. 6.2γ). Αντίθετα, όταν το ιστόγραµµα είναι πιο λεπτό
από τo αντίστοιχο της Gaussian, καλείται λεπτόκυρτο και η µ4 είναι µικρότερη από
3σ4 (Σχ. 6.2δ). Οι τιµές των µ3 και µ4 πολλές φορές κανονικοποιούνται πριν χρησι-
µοποιηθούν διαιρούµενες µε την σ3 αντίστοιχα σ4.

¶·Ú¿‰ÂÈÁÌ· 6.1
(α) Να αποδείξετε ότι για οποιοδήποτε ιστόγραµµα ισχύει: µ0 = 1 και µ1 = 0. (β) Τα pixels µιας περιοχής
έχουν κβαντιστεί µε Q = 256 στάθµες. Οι τιµές των ιστών του ιστογράµµατος δίνονται από την ακολουθία
p(i) = c⋅i, i = 0,1,...,Q–1. Να υπολογίσετε την τιµή της παραµέτρου c, τη µέση τιµή m, καθώς και τη µ2. ∆ίνο-
νται οι σχέσεις 1+2+…+Ν = Ν(Ν+1)/2, 12+22+…+Ν2 = Ν(Ν+1)(2Ν+1)/6, 13+23+… +Ν3 = Ν2(Ν+1)2/4.
Λύση
(α) Για τις ροπές µηδενικής και πρώτης τάξης, ανεξάρτητα από το τιµή του Q και των όρων της ακο-
λουθίας p(i), ισχύει

∑ ∑
Q −1 Q −1
µ0 = (i − m )0 ⋅ p(i ) = p(i ) = 1, δηλαδή µ0 = 1.
i =0 i =0

∑ ∑ (i ⋅ p(i ) − m ⋅ p(i )) = ∑ ∑
Q −1 Q −1 Q −1 Q −1
µ1 = (i − m )1 ⋅ p(i ) = i ⋅ p(i ) − m ⋅ p(i ) =
i =0 i =0 i =0 i =0

= m–m⋅1 = 0, δηλαδή µ1 = 0.

∑ ∑
Q −1 Q −1
(β) Για τον προσδιορισµό της παραµέτρου c ξεκινάµε µε τη σχέση p(i ) = 1 , ή c ⋅ i =1 , ή
i =0 i =0
c⋅(Q–1)Q/2 = 1, ή c = 2/[(Q–1)Q] = 2/255/256, ή c = 3.1⋅10–5.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 124

124 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™

255 2
∑ ∑
Q −1
Ισχύει επίσης m = i ⋅ p(i ) = c ⋅ i = 3,1⋅10–5⋅255⋅256⋅(2⋅255+1)/6, ή m = 172,4.
i =0 i =0

Τέλος

∑ ∑ ∑
Q −1 Q −1 Q −1
µ2 = (i − m )2 ⋅ p(i ) = c ⋅ (i 2 + 2 ⋅ i ⋅ m + m2 ) ⋅ i =… = c ⋅ ( i 3 + 2 ⋅ i 2 ⋅ m + m2 ⋅ i ) =
i =0 i =0 i =0

 
∑ ∑ ∑
Q −1 Q −1 Q −1
c⋅ i3 + 2 ⋅m ⋅ i 2 + m2 ⋅ i
=  i =0 i =0 i =0  =

= 3.1 ⋅10 −5 ⋅ [ 2552 ⋅ ( 255 + 1)2 / 4 + 2 ⋅172.4 ⋅155 ⋅ (155 + 1) ⋅ ( 2 ⋅155 + 1) / 6 +


= + (172.4 )2 ⋅155 ⋅ (155 + 1) / 2]

δηλαδή µ2 = 5.76⋅104.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 6.1

Τα pixels µιας περιοχής έχουν κβαντιστεί µε Q = 64 στάθµες. Οι τιµές των ιστών


του ιστογράµµατος δίνονται από την ακολουθία p(i) = c⋅|i–32|, i = 0,1,...,Q–1. Να
υπολογίσετε την τιµή της παραµέτρου c, και τη µέση τιµή vm. Να θεωρήσετε γνω-
στές τις σχέσεις µε τα αθροίσµατα των διαδοχικών ακεραίων που δίνονται στο
παράδειγµα 6.1.

6.1.1‚ ¶›Ó·Î˜ Û˘ÓÂÌÊ¿ÓÈÛ˘

Από την περιγραφή που δώσαµε µέχρι εδώ εύκολα αντιλαµβανόµαστε ότι περιγρά-
φοντας ένα τµήµα υφής µε ροπές του ιστογράµµατος δεν χρησιµοποιούµε τη βασι-
κή πληροφορία που χαρακτηρίζει την υφή. Το πώς, δηλαδή, οι τιµές των pixels δια-
δέχονται η µια την άλλη µέσα στην περιοχή. Για παράδειγµα, αν υπάρχει περιοδική
µεταβολή των τιµών αυτών προς µια διεύθυνση της περιοχής, ή αν οι τιµές αυτές
παραµένουν σταθερές προς άλλη διεύθυνση, ή, τέλος, αν καµία κανονικότητα δεν
παρατηρείται στην περιοχή. Το χαρακτηριστικό αυτό, που ποσοτικοποιεί τη χωρική
οργάνωση της φωτεινότητας στην εικόνα, µπορούµε να το αναδείξουµε χρησιµο-
ποιώντας τον Πίνακα Συνεµφάνισης (Coocurance Matrix) (Π.Σ).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 125

6.1 Yº∏ ∆√À ∂™ø∆∂ƒπ∫√À ¶∂ƒπ√Ã∏™ 125

0 3 2 2 1 3 0 1  n(0, 0 ) n(0,1) n(0, 2 ) n(0, 3 )  1 4 3 2


1 1 0 1 0 2 3 1  n(1, 0 ) n(1,1) n(1, 2 ) n(1, 3 )   0 1 5 3
AD =   = 
2 3 2 3 2 0 0 3  n( 2, 0 ) n( 2,1) n( 2, 2 ) n( 2, 3 )  8 4 5 1
    ™¯‹Ì· 6.3
2 2 3 2 0 2 3 2  n(3, 0 ) n(3,1) n(3, 2 ) n(3, 3 )  3 1 4 4
ε= ε: Η δοσµένη
1 0 1 2 2 1 2 3
 0, 020 0, 082 0, 061 0, 041 εικόνα, τµήµα από
3 1 2 3 3 0 2 0  0, 000 0, 020 0,102 0, 061
υφή. ΑD: Πίνακας
3 2 3 0 2 2 1 1 CD =   των επαναλήψε-
 0,164 0, 082 0,102 0, 020
ων. CD: Πίνακας
 
0 0 0 1 2 1 0 2  0, 061 0, 020 0, 082 0, 082 Συνεµφάνισης

Θα δώσουµε τον ορισµό των Π.Σ. µε ένα παράδειγµα. ∆ίνεται η ε, µια ψηφιακή εικό-
να µεγέθους 8 × 8 µε τιµές που έχουν προκύψει από Q = 4 στάθµες κβάντισης (Σχ.
6.3). Ορίζουµε τη διεύθυνση γειτνίασης των pixels, D = SE (µια γραµµή κάτω ένα pixel
δεξιά). Υπάρχουν συνολικά Ν = (8–1) × (8–1) = 49 ζεύγη από pixels της ε, τα οποία
γειτνιάζουν κατά την διεύθυνση D. Για παράδειγµα, ο γείτονας του ε(1,1), προς την
κατεύθυνση αυτή, είναι το ε(2,2) και γενικά του ε(k,k) το ε(k+1,k+1). Καλούµε n(i,j)
το πλήθος από αυτά τα ζεύγη, στα οποία το πρώτο pixel έχει τιµή i και το δεύτερο j,
µε i,j = 0,1,2,3. Με τα n(i,j) δηµιουργούµε τον πίνακα επαναλήψεων ΑD (Σχ. 6.3).
∆ιαιρώντας τα στοιχεία του ΑD µε το πλήθος των ζευγών Ν = 49, προκύπτει ο πίνα-
κας CD (Σχ.6.3). Ο CD καλείται Πίνακας Συνεµφάνισης και κάθε στοιχείο του
CD(k,m) k,m = 1,2,3,4 αποτελεί εκτίµηση της συνδυασµένης πιθανότητας του ενδε-
χοµένου «ένα ζεύγος από διαδοχικά pixels της ε, τα οποία γειτνιάζουν κατά την διεύ-
θυνση D, έχουν τιµές το πρώτο k–1 και το δεύτερο m–1'. Στην ουσία τα CD(k,m) δεν
είναι τίποτε άλλο από τις τιµές ενός ιστογράµµατος δεύτερης τάξης, όπου η κατά
προσέγγιση πιθανότητες αντιστοιχούν σε συνδυασµούς τιµών pixels ανά δύο. Από
τον τρόπο δηµιουργίας του CD προκύπτει εύκολα, πως το άθροισµα των στοιχείων
του ισούται µε µονάδα. Τα στοιχεία αυτά συνήθως δεν είναι όλα ίσα µεταξύ τους και
οι θέσεις, στις οποίες ο Π.Σ. εµφανίζει µεγάλες, ή µικρές τιµές, είναι χαρακτηριστι-
κές της υφής από την οποία δηµιουργήθηκε. ∆ύο δείγµατα διαφορετικής υφής συνή-
θως παρουσιάζουν διαφορετικούς Π.Σ. και διαχωρίζοντας τους πίνακες αυτούς γίνε-
ται δυνατός ο διαχωρισµός των δειγµάτων.
Για να δηµιουργήσουµε έναν µικρής διάστασης και εύκολου στο χειρισµό Π.Σ., πρέ-
πει το πλήθος των σταθµών κβάντισης Q της αντίστοιχης εικόνας να είναι σχετικά
µικρό. Για τον υπολογισµό λοιπόν του Π.Σ. µιας περιοχής εικόνας πρέπει προηγου-
µένως να κβαντίσουµε τα pixels της µε ένα σχετικά µικρό αριθµό σταθµών.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 126

126 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™

Προφανώς η κατεύθυνση D είναι µια µόνο από τις δυνατές επιλογές. Αν είχαµε επι-
λέξει µια άλλη κατεύθυνση, π.χ. την D = Ε (ένα pixel δεξιά) ο πίνακας συνεµφάνισης
θα ήταν άλλος, δεδοµένου ότι τα ζεύγη που θα εξετάζαµε θα ήταν διαφορετικά. Για
παράδειγµα στην περίπτωση αυτή ο γείτονας του ε(1,1) είναι ο ε(1,2) και γενικά του
ε(k,m) είναι ο ε(k,m+1). Για τη νέα κατεύθυνση, D, οι ΑD και CD παίρνουν τη µορφή:

3 4 5 2  0, 054 0, 071 0, 089 0, 036


4 2 4 1  0, 071 0, 036 0, 071 0, 018
AD =   CD =  
3 4 4 8  0, 054 0, 071 0, 071 0,143
   
3 2 6 1  0, 054 0, 036 0,107 0, 018

Επίσης µια άλλη δυνατότητα είναι να µην εξετάσουµε διαδοχικά pixels, αλλά pixels
που απέχουν συγκεκριµένη απόσταση. Γίνεται αµέσως αντιληπτό ότι στην πράξη
έχουµε στη διάθεσή µας ένα αριθµό διπλών συνδυασµών από αποστάσεις και κατευ-
θύνσεις. Για περισσότερες λεπτοµέρειες ο αναγνώστης µπορεί να µελετήσει το [4].
Στη συνέχεια δίνουµε µερικές βασικές ποσότητες που υπολογίζονται από τους Π.Σ.
και χρησιµοποιούνται στην πράξη για ταξινόµηση περιοχών µε διαφορετική υφή.

Η Μέγιστη Πιθανότητα: Ορίζεται σαν το µέγιστο στοιχείο του Π.Σ.

{
{ C D (i , j )
max }
i, j

δηλαδή είναι η πιθανότητα του πιο συχνά εµφανιζόµενου ζεύγους τιµών της εικόνας.

Η Εντροπία: Ορίζεται ως:


Q Q

H =− ∑ ∑C D (i , (
j ) log 2 C D (i, j ) )
i =1 j =1

Αυτή παρουσιάζει τόσο µεγαλύτερη τιµή όσο µεγαλύτερη οµοιοµορφία υπάρχει στις
τιµές του πίνακα CD. Σε ένα πίνακα που όλα τα στοιχεία του είναι ίσα αποδεικνύε-
ται ότι η τιµή της εντροπίας γίνεται η µέγιστη δυνατή, ίση µε Η = log2(Q2).

Η Ενέργεια Ε: Ορίζεται ως:

Q Q 2

E= ∑ ∑ [C
i =1 j =1
D (i , j) ]
και αντίθετα από την εντροπία παρουσιάζει τόσο µικρότερη τιµή όσο µεγαλύτερη
οµοιοµορφία υπάρχει στις τιµές του πίνακα CD. Σε ένα πίνακα που όλα τα στοιχεία
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 127

6.1 Yº∏ ∆√À ∂™ø∆∂ƒπ∫√À ¶∂ƒπ√Ã∏™ 127

του είναι ίσα η ενέργεια λαµβάνει την ελάχιστη τιµή της ίση µε 1/(Q2).

Οι ροπές Αδράνειας Rk τάξης k ως προς τη κύρια διαγώνιο

Q Q

Rk = ∑ ∑| i − j |
i =1 j =1
k
C D (i , j ) .

Οι ροπές αυτές παρουσιάζουν µικρές τιµές όταν τα στοιχεία του Π.Σ. µε τις µεγάλες
τιµές βρίσκονται στη κύρια διαγώνιο, δηλαδή όταν στην ε εµφανίζονται συχνά ζεύγη
της µορφής (i,i) πράγµα που σηµαίνει όµοια pixels κατά τη διεύθυνση γειτονίας, δηλα-
δή λεπτή υφή. Αντίθετα, σε τραχεία υφή παρουσιάζονται απότοµες µεταβολές στην
τιµή των γειτονικών pixels της ε, εµφανίζουν µεγάλη τιµή τα αποµακρυσµένα από τη
κύρια διαγώνιο σηµεία του CD και η Rκ έχει αυξηµένη σηµαντικά την τιµή της.
Αυτά είναι µερικά από τα περιγράφοντα στοιχεία ενός Π.Σ. και της αντίστοιχής υφής.
Περισσότερα τέτοια στοιχεία µπορεί να βρει ο αναγνώστης στο [4].

6.1.2 º·ÛÌ·ÙÈ΋ ̤ıÔ‰Ô˜ ÂÚÈÁÚ·Ê‹˜

Στη µέθοδο αυτή η ποσοτική περιγραφή της υφής γίνεται µε τη βοήθεια του φάσµα-
τος Fourier |F(u,v)| της περιοχής. To φάσµα αυτό για µια ψηφιακή εικόνα προσεγγί-
ζεται από το διακριτό µετασχηµατισµό [3,4], ο οποίος υπολογίζεται µέσω του ταχέ-
ως αλγόριθµου FFT. Στο Σχ. 6.4α και 6.4β δίνεται ένα παράδειγµα µε δύο δείγµατα
υφής και τα αντίστοιχα φάσµατα.
Υπάρχουν πολλοί τρόποι για τη δηµιουργία στοιχείων περιγραφής του |F(u,v)|. Για
παράδειγµα, εξαγωγή στοιχείων περιγραφής µε µια διάσταση από το δισδιάστατο
φάσµα |F(u,v)| γίνεται υπολογίζοντας τη συνάρτηση του φάσµατος σε πολικές συντε-
ταγµένες |F(r,θ)| και στη συνέχεια υπολογίζοντας τις µονοδιάστατες συναρτήσεις :
∞ 2π
Φr (θ ) = ∫
0
| F ( r ,θ ) | dr και Φθ ( r ) = ∫0
| F ( r , θ ) | dθ .

Αν δειγµατοληπτήσουµε σε ισαπέχοντα σηµεία τις µονοδιάστατες αυτές συναρτήσεις


δηµιουργούµε διάνυσµα µε ουσιώδη χαρακτηριστικά της εξεταζόµενης περιοχής.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 128

128 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™

α β γ δ

™¯‹Ì· 6.4
Η φασµατική µέθοδος περιγραφής υφής. (α) ∆υο διαφορετικά δείγµατα υφής. (β) Τα φάσµατά τους |F(u,v|. (γ)
Μονοδιάστατη περιγραφή Φθ(r). (δ) Μονοδιάστατη περιγραφή Φr(θ).

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 6.2

Τι είναι σωστό και τι λάθος από τα παρακάτω;


Σωστό Λάθος
1. Η υφή αποτελεί ιδιότητα του εσωτερικού µιας περιοχής
και δεν υπάρχει µέθοδος µέτρησής της. ❏ ❏
2. Η µ3 λαµβάνει πάντα τιµές θετικές. ❏ ❏
3. Η µ4 λαµβάνει αρνητικές τιµές για πλατύκυρτα
ιστογράµµατα και θετικές για λεπτόκυρτα. ❏ ❏
4. Το µέγεθος του Π.Σ. εξαρτάται από το πλήθος
των σταθµών κβάντισης της εικόνας. ❏ ❏
5. Για κάθε περιοχή εικόνας κατασκευάζεται µόνο ένας Π.Σ. ❏ ❏
6. Το άθροισµα όλων των στοιχεία ενός Π.Σ ισούται µε 1. ❏ ❏
7. Ως ουσιώδη χαρακτηριστικά της υφής χρησιµοποιούµε
τους συντελεστές Fourier που υπολογίζονται από τον DFT
µετασχηµατισµό του εσωτερικού της εξεταζόµενης περιοχής. ❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 129

6.2 √π ƒ√¶∂™ ªπ∞™ ¶∂ƒπ√Ã∏™ 129

6.2 √È ƒÔ¤˜ ÌÈ·˜ ÂÚÈÔ¯‹˜

Οι ροπές είναι από τα περισσότερο συχνά χρησιµοποιούµενα στοιχεία περιγραφής µιας


περιοχής. Τα µεγέθη που περιλαµβάνει η κατηγορία αυτή απεικονίζουν συµµετρίες ή
ασυµµετρίες της περιοχής. Με τη βοήθεια των ροπών γίνεται δυνατός ο ορισµός χαρα-
κτηριστικών ευθειών (αξόνων) της περιοχής, ο εντοπισµός των οποίων φανερώνει τον
προσανατολισµό της περιοχής στο επίπεδο. Επίσης στις ροπές συµπεριλαµβάνονται
στοιχεία περιγραφής αναλλοίωτα σε µετασχηµατισµούς παράλληλης µεταφοράς, περι-
στροστροφής και αλλαγής κλίµακας τόσο για µονόχρωµες όσο και για ασπρόµαυρες
περιοχές. Στην ενότητα αυτή θα συµβολίζουµε ℜ το σύνολο των σηµείων της περιο-
χής και a(x,y) οι τιµές των pixels της για κάθε (x,y) που ανήκει στο ℜ.

6.2.1 ƒÔ¤˜, ÎÂÓÙÚÈΤ˜ ÚÔ¤˜ Î·È Î·ÓÔÓÈÎÔÔÈË̤Ó˜ ÚÔ¤˜

Για i, j φυσικούς αριθµούς, η ροπή (moment) mi,jτάξεως i+j ορίζεται, από τη σχέση:

mij = ∑
4∑
1243
i j
x y a( x , y ) (6.3)

όπου το άθροισµα εκτείνεται σε όλα τα pixels της περιοχής ℜ.

Οι ροπές µηδενικής και πρώτης τάξεως έχουν ένα ιδιαίτερο φυσικό περιεχόµενο.

Η m00 = ∑ ℜ
a( x , y ) ισούται µε τη «µάζα» της περιοχής, ή Ν φορές τη µέση

φωτεινότητα, όπου Ν είναι ο αριθµός των pixels της ℜ. Το σηµείο (xC,yC) µε συντε-
ταγµένες :

m10 m01
xC = κ αι yC = (6.4)
m00 m00
καλείται κεντροειδές (centroid) της περιοχής. Το σηµείο αυτό είναι χαρακτηριστι-
κό της περιοχής και χρησιµοποιείται για την κατασκευή της υπογραφής του περι-
γράµµατος (βλέπε κεφάλαιο 5), καθώς επίσης και τον ορισµό των κεντρικών ροπών
της περιοχής. Από τον τρόπο ορισµού των ροπών προκύπτει εύκολα ότι οι τιµές τους,
όλες εκτός από εκείνες της µηδενικής τάξεως, εξαρτώνται από την επιλογή του
συστήµατος των συντεταγµένων και αλλάζουν σε κάθε µετασχηµατισµό µεταφοράς,
περιστροφής ή αλλαγής κλίµακας.
Οι Κεντρικές Ροπές συµβολίζονται µε µij και ορίζονται µε βάση τη σχετική από-
σταση των pixels της περιοχής από το κεντροειδές C.
µij = ∑
1
42∑43( x − x C )i ( y − yC ) j a( x , y ) (6.5)

£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 130

130 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™

Είναι εύκολο να δούµε ότι κατά την παράλληλη µεταφορά του συστήµατος συντε-
ταγµένων οι αποστάσεις των σηµείων από το κεντροειδές παραµένουν σταθερές και
οι κεντρικές ροπές παραµένουν αναλλοίωτες σε τέτοιους µετασχηµατισµούς. Οι τιµές
τους όµως µεταβάλλονται µετά από αλλαγή κλίµακας, ή την περιστροφή των αξόνων.
Οι κεντρικές κανονικοποιηµένες ροπές, συµβολίζονται µε nij, και ορίζονται ως:

µij i+ j
nij = λ
,λ= +1 (6.6)
m00 2
Αποδεικνύεται ότι οι τιµές των ροπών αυτών παραµένουν αναλλοίωτες σε παράλ-
ληλη µεταφορά και σε αλλαγή κλίµακας [4].

6.2.2 √È ƒÔ¤˜ ÙÔ˘ Hu

Η αναζήτηση ουσιωδών χαρακτηριστικών αναλλοίωτων και σε µετασχηµατισµούς


περιστροφής οδήγησε στη δηµιουργία των ροπών του Hu. Πρόκειται για µια σειρά
από επτά µεγέθη, τα φ1, φ2,…,φ7, που υπολογίζονται συναρτήσει των κεντρικών
κανονικοποιηµένων ροπών της περιοχής και των οποίων οι τιµές παραµένουν κατά
προσέγγιση αναλλοίωτες σε περιστροφή, παράλληλη µεταφορά και αλλαγή κλίµα-
κας. Οι έξη πρώτες από αυτές παραµένουν αναλλοίωτες και σε κατοπτρικούς µετα-
σχηµατισµούς. Από τους τελευταίους προκύπτει µια περιοχή συµµετρική µε την
αρχική, ως προς άξονα. Η φ7 δίνει τιµές περίπου αντίθετες για µια ασύµµετρη περιο-
χή και την κατοπτρική της. Οι σχέσεις που δίνουν τις ροπές του Hu είναι:

ϕ1 = n20 + n02

( )
2
ϕ 2 = n20 − n02 + 4n11
2

= (n ) + (3n − n )
2 2
ϕ3 30 − 3n12 21 03

= (n + n ) + (n + n )
2 2
ϕ4 30 12 21 03

= (n − 3n )(n + n )(n + n ) (
− 3 n21 + n03  + )
2 2
ϕ5
 
30 12 30 12 30 12

( )(
+ 3n21 − n03 n21 + n03 3 n30 + n12 ) ( ) − (n )
+ n03 
2 2

 
21

( )(
ϕ 6 = n20 − n02  n30 + n12 ) − (n
+ n03  + 4n11 n30 + n12 n21 + n03) ( )( )
2 2
 21 (6.7)

( )( )(
n30 + n12  n30 + n12 − 3 n21 + n03  + ) ( )
2 2
ϕ 7 = 3n21 − n03
 

( )( ) (
n21 + n03 3 n30 + n12 − n21 + n03  ) ( )
2 2
+ 3n12 − n30
 
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 131

6.2 √π ƒ√¶∂™ ªπ∞™ ¶∂ƒπ√Ã∏™ 131

¶›Ó·Î·˜ 6.1
Οι τιµές των ροπών του Hu, όπως υπολογίστηκαν για τις 4 περιοχές του Σχ. 6.5.

φ1 φ2*100 φ3*100 φ4*104 φ5*107 φ6*106 φ7*107


1 0.3016 0.4765 0.3311 0.4491 0.1455 0.0683 0.0939
2 0.3016 0.4792 0.3306 0.4541 0.1499 0.0247 0.0921
3 0.3014 0.4616 0.3212 0.4460 0.1334 0.2462 0.1035
4 0.3011 0.4725 0.3263 0.4565 0.1473 0.0784 –0.0967

Στο Σχ. 6.5α δίνεται µια αεροφωτογραφία ενώ στα 6.5β, 6.5γ, και 6.5δ τρεις εικόνες,
που έχουν προκύψει από την αρχική µετά από περιστροφή, αλλαγή κλίµακας, και κατο-
πτρικό µετασχηµατισµό (Βλέπε υπότιτλο σχήµατος). Για τις τέσσερις εικόνες του Σχ,
6.5 έχουν υπολογιστεί οι επτά ροπές του Hu και τα αποτελέσµατα δίνονται στον Πίνα-
κα 6.1. Όπως φαίνεται οι τιµές των φ1 έως φ6 παραµένουν σχεδόν σταθερές και για τις
τέσσερις αεροφωτογραφίες. Η φ7 έχει την ίδια περίπου τιµή για τις πρώτες τρεις εικό-
νες ενώ αλλάζει πρόσηµο για την τέταρτη, που περιέχει κατοπτρικό µετασχηµατισµό.
Οι µικρές µεταβολές που εµφανίζονται οφείλονται κατά κύριο λόγο στο θόρυβο, που
εισέρχεται στις εικόνες κατά τη δηµιουργία των περιστραµµένων ή αναδειγµατολη-
πτηµένων αντιγράφων, καθώς και στα σφάλµατα των πράξεων που προκύπτουν κατά
τον υπολογισµό της αριθµητικής τιµής των ροπών, ιδιαίτερα αυτών των υψηλής τάξης.

α β ™¯‹Ì· 6.5
(α) Η αρχική
αεροφωτογραφία.
(β) Μετά από
στροφή. (γ) Μετά
από στροφή και
σµίκρυνση. (δ)
∆ηµιουργία κατο-
πτρικής και στη
συνέχεια στροφή
γ δ και σµίκρυνση.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 132

132 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™

Στην πράξη, η χρήση των ροπών του Hu στις ασπρόµαυρες εικόνες είναι πιο δύσκο-
λη από ότι στη θεωρία, επειδή φωτογραφίες της ίδιας περιοχής που έχουν ληφθεί σε
διαφορετικές χρονικές στιγµές, µε διαφορετικές κάµερες και φωτισµό, διαφέρουν
σηµαντικά στις τιµές των pixels και η τιµή των ροπών εξαρτάται έντονα από τις τελευ-
ταίες. Πρέπει λοιπόν να γίνει προεπεξεργασία των νέων λήψεων ώστε να αποκτήσουν
ιστόγραµµα παρόµοιο µε αυτό του πρωτότυπου πριν από τον υπολογισµό των ροπών.

¶›Ó·Î·˜ 6.2
Η τιµή των 6 πρώτων ροπών του Hu για τις 12 µορφές του Σχ. 6.6.

φ1 φ2*100 φ3*103 φ4*103 φ5*105 φ6*103


1_1 0.2599 1.1276 5.2724 1.4573 0.4039 0.1547
1_2 0.2596 1.1223 5.2204 1.4357 0.3930 0.1521
1_3 0.2620 1.2036 5.1726 1.4898 0.4132 0.1634
1_4 0.2603 1.1321 5.2401 1.4247 0.3892 0.1516
2_1 0.2343 0.7174 6.1699 1.0325 0.2606 0.0875
2_2 0.2344 0.7195 6.1837 1.0389 0.2633 0.0881
2_3 0.2344 0.7277 6.1967 1.0529 0.2689 0.0898
2_4 0.2342 0.7068 6.1296 1.0141 0.2528 0.0853
3_1 0.3078 0.3065 0.4590 0.0654 0.0011 –0.0036
3_2 0.3076 0.3034 0.4680 0.0669 0.0012 –0.0037
3_3 0.3077 0.3072 0.5221 0.0824 0.0014 –0.0043
3_4 0.3080 0.3142 0.4120 0.0603 0.0009 –0.0034

™¯‹Ì· 6.6
Τρεις οµάδες µορ-
φών που έχουν
προκύψει από
περιστροφές και
αλλαγές µεγέθους
τριών διαφορετι-
κών µορφών.

Μερικοί ερευνητές έχουν προτείνει και ροπές που παραµένουν αναλλοίωτες σε σχε-
τικές µικρές µεταβολές της τιµής της φωτεινότητας της εικόνας [6].
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 133

6.2 √π ƒ√¶∂™ ªπ∞™ ¶∂ƒπ√Ã∏™ 133

Μεγάλη αξιοπιστία παρουσιάζει η εφαρµογή των ροπών του Hu στις µονόχρωµες


εικόνες καθώς δεν υπάρχει πλέον το πρόβληµα της διαφοροποίησης των τιµών των
pixels από εικόνα σε εικόνα. Στο Σχ. 6.6, έχουν χρησιµοποιηθεί τρεις διαφορετικές
µορφές και για κάθε µια από αυτές έχουν δηµιουργηθεί µέσω µετασχηµατισµών από
τρία επιπλέον δείγµατα. Ο Πίνακας 6.2 δίνει τις τιµές των ροπών φ1 έως φ6 για τις
δώδεκα αυτές µορφές. Εύκολα διαπιστώνουµε ότι οι τιµές που αντιστοιχούν σε µορ-
φές της ίδιας οµάδας παρουσιάζουν µικρές διαφορές µεταξύ τους σε σύγκριση µε τις
διαφορές που παρουσιάζουν όταν οι µορφές ανήκουν σε διαφορετικές οµάδες. Στο
Σχ. 6.7, έχει χαραχθεί διάγραµµα τριών διαστάσεων µε άξονες τις ροπές φ1, φ2, φ3.
Σ’ αυτό, τα σηµεία που αντιστοιχούν σε µορφές της ίδιας οµάδας συγκεντρώνονται
σε χωριστές περιοχές του χώρου. Με άλλα λόγια, οι τρεις αυτές ροπές είναι ιδιαίτε-
ρα ελκυστικές για επιλογή τους ως ουσιώδη χαρακτηριστικά σε ένα πρόβληµα ταξι-
νόµησης των τριών αυτών µορφών, δεδοµένου ότι παρουσιάζουν υψηλή διαχωρι-
στική ικανότητα. ∆ηλαδή, για διαφορετικό τύπο αεροπλάνου συγκεντρώνονται σε ™¯‹Ì· 6.7
διαφορετική περιοχή του χώρου. Στο διάγραµµα
των τριών διαστά-
σεων µε άξονες τις
8 ροπές φ1, φ2,, φ3,
τα σηµεία που
7
φ3 αντιστοιχούν σε
6 µορφές της ίδιας
οµάδας συγκε-
5
3 * Mορφή 1 ντρώνονται σε
1.5
2.5 1.4 ο Mορφή 2 χωριστές περιοχές
1.3
φ2
2 1.1
1.2 φ1 + Mορφή 3 του χώρου.

6.2.3 ™ÙÚÔÊÔṲ́˜ Î·È Î‡ÚÈÔÈ ¿ÍÔÓ˜


Έστω µια µορφή s µε Ν pixels, τα Pk, µε συντεταγµένες (xk,yk) για k = 1,2,…,N. Έστω
επίσης µια ευθεία ε του επιπέδου και έστω dk, k = 1,2,…,N, οι αποστάσεις των pixels


N
από την ε. Ορίζουµε ως στροφορµή Ιε της s ως προς την ε το άθροισµα d k2 .
k =1

Ας θεωρήσουµε µια δέσµη ευθειών που διέρχονται από το κεντροειδές C της s και
ας υπολογίσουµε την στροφορµή της s ως προς µερικές από τις ευθείες αυτές. Μια
µορφή για την οποία οι στροφορµές αυτές έχουν διαφορετικές τιµές καλείται έκκε-
ντρος (eccentric). Στην αντίθετη περίπτωση, όταν οι στροφορµές έχουν την ίδια τιµή
για οποιαδήποτε ευθεία της συγκεκριµένης δέσµης η µορφή καλείται µη έκκεντρος.
Για παράδειγµα, µια µορφή µε σχήµα κυκλικού δίσκου, ή τετραγώνου, ή ισόπλευ-
ρου τριγώνου είναι µη έκκεντρος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 134

134 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™

Για τις έκκεντρες µορφές ισχύει το ακόλουθο θεώρηµα:

£∂øƒ∏ª∞ 6.1

Από τις ευθείες που διέρχονται από το κεντροειδές µιας έκκεντρης µορφής, s, υπάρχει
µια µόνο ευθεία, η εΠ, ως προς την οποία η ροπή αδράνειας της s, ΙΠ, λαµβάνει τη µικρό-
τερη τιµή και µία µόνο, η ε∆, ως προς την οποία η ροπή αδράνειας της s, Ι∆, λαµβάνει τη
µεγαλύτερη τιµή. ∆ηλαδή, για κάθε ευθεία ε της δέσµης, διαφορετική από την εΠ και την
ε∆, ισχύει: lΠ < Ιε< Ι∆. Επίσης ισχύει, ότι η εΠ και η ε∆ είναι κάθετες µεταξύ τους.
∆εν θα δώσουµε την απόδειξη του πιο πάνω θεωρήµατος, µπορείτε όµως να τη βρεί-
τε στο [2]. Τις ευθείες εΠ και ε∆ καλούµε κύριους (prιncipal) άξονες της s. Ειδικά τον
πρώτο από αυτούς καλούµε πρωτεύοντα (major), και το δεύτερο δευτερεύοντα
(minor). Αυτοί χρησιµοποιούνται για τη δηµιουργία υπογραφών περιγράµµατος,
(βλέπε υποενότητα 5.3), για την δηµιουργία αναλλοίωτων ροπών, αλλά και για τον
ορισµό ενός συστήµατος συντεταγµένων που εξαρτάται αποκλειστικά από την
µορφή. Στο Σχ. 6.8 δίνεται το διάγραµµα µιας µορφής στην οποία έχει συνσχεδια-
στεί το κεντροειδές και οι κύριοι άξονες.

ας
™¯‹Ì· 6.8 ύω ν άξον
C Πρωτε
Το κεντροειδές, C,
και οι κύριοι άξο-
νες, Πρωτεύων ας
εύω ν άξον
και ∆ευτερεύων ∆ευτερ
µιας µορφής.

Με βάση τους κύριους άξονες ορίζονται περιγράφοντα στοιχεία της µορφής όπως:
Η εκκεντρότητα e της µορφής που ορίζεται µε βάση τις τιµές των στροφορµών της
µορφής ως προς τους κύριους άξονες από τη σχέση:

I ∆ − IΠ
e= (6.8)
I ∆ + IΠ
Ο λόγος λC = wC/hC των διαστάσεων του περιγεγραµµένου στη µορφή ορθογώνιου,
του οποίου οι πλευρές είναι παράλληλες προς τους κύριους άξονες αυτής (Σχ. 6.9).
Και τα δύο πιο πάνω περιγράφοντα στοιχεία είναι αναλλοίωτα σε µετασχηµατισµούς
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 135

™YNOæH 135

µεταφοράς, περιστροφής και αλλαγής κλίµακας.


Εκτός από τα γεωµετρικά στοιχεία που προκύπτουν µε τη βοήθεια των ροπών για
την περιγραφή µιας µορφής, χρησιµοποιούνται επίσης η περίµετρος του περιγράµ-
µατος, το εµβαδόν της, και ο λόγος (περίµετρος περιγράµµατος)2/εµβαδόν, που καλεί- ™¯‹Ì· 6.9
ται και συντελεστής µορφής και άλλα. Στον κύκλο ο συντελεστής µορφής έχει την Ο λόγος λC =
ελάχιστη τιµή ίση µε 4π. wC/hC των διαστά-
σεων του περιγε-
γραµµένου στη
µορφή ορθογωνίου,
που έχει πλευρές
παράλληλες προς
τους κύριους άξονές
της, αποτελεί περι-
γράφον στοιχείο
αναλλοίωτο σε
wc µετασχηµατισµούς
hc µεταφοράς περι-
στροφής και αλλα-
γής κλίµακας.

™‡ÓÔ„Ë
Στο κεφάλαιο αυτό µελετήσαµε µερικά από τα πιο γνωστά περιγράφοντα στοιχεία
του εσωτερικού της περιοχής µιας εικόνας. Τα στοιχεία αυτά προέκυψαν είτε από την
επεξεργασία στατιστικών κατανοµών, είτε από τις δισδιάστατες ροπές της περιοχής.
Στην πρώτη περίπτωση χρησιµοποιήσαµε τη στατιστική προσέγγιση µε το ιστόγραµ-
µα της εικόνας, ή τους Πίνακες Συνεµφάνισης, καθώς και µεθόδους βασισµένες στο
φάσµα Fourier. Στη δεύτερη περίπτωση γνωρίσαµε µεταξύ των άλλων τις αναλλοί-
ωτες ροπές του Hu καθώς και τις στροφορµές µιας µορφής µε βάση τις οποίες ορί-
ζεται ο συντελεστής εκκεντρότητας της µορφής και προσδιορίζονται οι κύριοι άξο-
νες, όταν αυτή είναι έκκεντρη.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 136

136 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 6.3

Τι είναι σωστό και τι λάθος από τα παρακάτω;


Σωστό Λάθος
1. Οι κεντρικές ροπές µιας περιοχής παραµένουν αναλλοίωτες
σε µετασχηµατισµούς παράλληλης µεταφοράς. ❏ ❏
2. Οι κανονικοποιηµένες ροπές παραµένουν αναλλοίωτες
σε κάθε γραµµικό και γεωµετρικό µετασχηµατισµό. ❏ ❏
3. Το Κεντροειδές και οι Κύριοι Άξονες µιας περιοχής δίνουν
τη δυνατότητα να οριστούν περιγράφοντα στοιχεία
αναλλοίωτα σε µετασχηµατισµούς περιστροφής µεταφοράς
και αλλαγής κλίµακας. ❏ ❏
4. Αν θεωρήσουµε ένα σύστηµα συντεταγµένων µε άξονες
παράλληλους προς τους κύριους άξονες µιας µορφής,
τότε η στροφορµές ΙΠ και Ι∆ ισούνται µε τις κεντρικές
ροπές δευτέρας τάξεως. ❏ ❏
5. Μια µορφή µε σχήµα κύκλου, τετραγώνου, ή ισόπλευρου
τριγώνου έχει εκκεντρότητα ίση µε µονάδα, επειδή οι
πλευρές του περιγεγραµµένου ορθογωνίου, του οποίου
οι διαστάσεις είναι παράλληλες προς τους Κύριους Άξονες
είναι ίσες µεταξύ τους. ❏ ❏
6. Οι ροπές Hu µιας περιοχής παραµένουν αναλλοίωτες
σε µετασχηµατισµούς περιστροφής και αλλαγής κλίµακας. ❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 137

B I B § I O ° PA º I A 137

µÈ‚ÏÈÔÁÚ·Ê›·

1. T. Pavlidis, «Structural Pattern Recognition», Springer Verlag, Berlin 1977.


2. R. C. Gonzalez, R.E Woods «Digital Image Processing» Addison–Wessley 1993
3. Α. Σκόδρας και Β. Αναστασόπουλος,, «Ψηφιακή Επεξεργασία Εικόνων και Σηµά-
των», Βιβλίο Ελληνικού Ανοικτού Πανεπιστήµιου, 1999.
4. S. Theodoridis, K. Koutroumbas, «Pattern Recognition», Academic Press, 1998.
5. Ι Πήτας., «Ψηφιακή Επεξεργασία Εικόνας», Πανεπιστήµιο Θεσσαλονίκη 1996.
6. R.J.Prokop and A. P. Reeves, «A Survey of Moment–Based Techniques for
Unoccluded Object Representation and Recognition», Graphical Models and
Image Processing, Vol. 54, No 5, September, pp 435–460, 1992.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 138
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 139

Bayesian TaÍÈÓÔÌËÙ¤˜

™ÎÔfi˜

Σκοπός του κεφαλαίου αυτού είναι να εισαγάγει τον αναγνώστη στις βασικές αρχές

σχεδιασµού ενός ταξινοµητή και στη συνέχεια να εστιάσει σε µία κατηγορία ταξινο-
µητών, που βασίζονται στο βασικό θεώρηµα του Bayes.
7
º ∞ § ∞ π √

¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Γνωρίζετε ποιος είναι ο ρόλος του ταξινοµητή σ’ ένα σύστηµα ταξινόµησης.
• Tαξινοµείτε πρότυπα σύµφωνα µε τον Bayesian ταξινοµητή.
• Γνωρίζετε τι είναι ο ταξινοµητής ελάχιστης απόστασης.
• Γνωρίζετε τι είναι τα παράθυρα Parzen.
• Γνωρίζετε τι είναι ο ταξινοµητής Πλησιέστερου Γείτονα.

ŒÓÓÔȘÎÏÂȉȿ
• ∆ιακλασική Απόσταση
• Επιφάνεια Απόφασης
• Παράθυρο Parzen
• Συνάρτηση ∆ιάκρισης
• Ταξινοµητής Bayes
• Ταξινοµητής Ελάχιστης Απόστασης
• Ταξινοµητής Πλησιέστερου Γείτονα.

∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ

Στο κεφάλαιο αυτό παρουσιάζονται τεχνικές ταξινόµησης που σχετίζονται µε το θεώ-


ρηµα του Bayes. Αυτές οι µέθοδοι είναι εξαιρετικά αποτελεσµατικές όταν είναι γνω-
( )
στές οι πυκνότητες πιθανότητας p x | ω i , όπου ωi, i = 1,2,...,m, οι κλάσεις του ταξι-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 140

140 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

νοµητή και x το διάνυσµα των τιµών των ουσιωδών χαρακτηριστικών ενός δείγµα-
τος. Οι συναρτήσεις αυτές µπορούν να προσεγγιστούν όταν διατίθεται ένας ικανο-
ποιητικός αριθµός από αναγνωρισµένα δείγµατα, δηλαδή δείγµατα για καθένα από
τα οποία είναι γνωστή η κλάση στην οποία ανήκει.

Στην αρχή του κεφαλαίου αυτού, στην Ενότητα 7.1, περιγράφονται τα βασικά στοι-
χεία ενός ταξινοµητή. Στη συνέχεια, Ενότητα 7.2, περιγράφονται οι κατά Bayes ταξι-
(
νοµητές, η λειτουργία των οποίων στηρίζεται στην ακριβή γνώση των p x | ω i και )
µε τους οποίους επιτυγχάνεται η ελάχιστη πιθανότητα του σφάλµατος ταξινόµησης.
Στην Ενότητα 7.3, εισάγονται οι έννοιες της συνάρτησης διάκρισης και της επιφά-
( )
νειας απόφασης. Εάν δεν είναι γνωστές οι p x | ω i , η χρήση Bayessian ταξινοµη-
τών προϋποθέτει την εκτίµηση των πυκνοτήτων πιθανότητας µε βάση τα δείγµατα
εκπαίδευσης (αναγνωρισµένα δείγµατα). Για το σκοπό αυτό, στην Ενότητα 7.4 χρη-
σιµοποιούνται τα παράθυρα Parzen και στην Ενότητα 7.5 χρησιµοποιείται ένας αριθ-
µός από k γείτονες. Τέλος, στην Ενότητα 7.6 παρουσιάζεται ο ταξινοµητής του πλη-
σιέστερου γείτονα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 141

7 . 1 µ ∞ ™ π ∫ ∞ ™ ∆∞ ¢ π ∞ ™ Ã ∂ ¢ π ∞ ™ ª √ À ™ À ™ ∆ ∏ ª ∞∆ √ ™ ∆∞ • π ¡ √ ª ∏ ™ ∏ ™ 141

7.1 µ·ÛÈο ÛÙ¿‰È· ۯ‰ȷÛÌÔ‡ Û˘ÛÙ‹Ì·ÙÔ˜ Ù·ÍÈÓfiÌËÛ˘

Ο ταξινοµητής, θα µπορούσε να πει κανείς, ότι αποτελεί την καρδιά του συστήµα-
τος ταξινόµησης. Όπως έχουµε ήδη αναφέρει στο πρώτο κεφάλαιο, ο σχεδιασµός
ενός συστήµατος ταξινόµησης θα µπορούσε να διαιρεθεί σε δύο µεγάλα στάδια, το
στάδιο της δηµιουργίας και της επιλογής των ουσιωδών χαρακτηριστικών και αυτό
της σχεδίασης του ταξινοµητή.

7.1.1 ™Ù¿‰ÈÔ ‰ËÌÈÔ˘ÚÁ›·˜ Î·È ÂÈÏÔÁ‹˜ Ô˘ÛȈ‰ÒÓ ¯·Ú·ÎÙËÚÈÛÙÈÎÒÓ

Στο πρώτο στάδιο παράγονται και στη συνέχεια επιλέγονται τα ουσιώδη χαρακτη-
ριστικά, µε τα οποία περιγράφουµε τα πρότυπα. Τέτοια χαρακτηριστικά µπορεί να
είναι, για παράδειγµα, οι διάφορες ροπές περιοχής, διάφορα χαρακτηριστικά ιστο-
γράµµατος, χαρακτηριστικά περιγράµµατος. Από την πληθώρα, στην κυριολεξία,
των χαρακτηριστικών, που είναι δυνατόν να παραχθούν, δεν είναι όλα πλούσια σε
πληροφορία. Ας πούµε, για παράδειγµα, ότι η διασπορά της έντασης γύρω από τη
µέση τιµή σε µια εικόνα, που πρέπει να ταξινοµήσουµε σε µία από δύο κλάσεις, παίρ-
νει περίπου την ίδια τιµή για όλες τις εικόνες, ανεξάρτητα από ποια κλάση ανήκουν.
Ένα τέτοια χαρακτηριστικό είναι φτωχό σε πληροφορία ταξινόµησης. Εµείς απ’ όλα
τα ουσιώδη χαρακτηριστικά, που είναι δυνατόν να παραχθούν, θα θέλαµε να επιλέ-
ξουµε εκείνα, των οποίων οι τιµές, για πρότυπα που ανήκουν σε διαφορετικές κλά-
σεις, διαφέρουν όσο γίνεται περισσότερο. Όπως συνήθως λέγεται, στην κατάλληλη
ορολογία, τα ουσιώδη χαρακτηριστικά θα πρέπει να επιλέγονται έτσι ώστε οι τιµές
που λαµβάνουν για τα διάφορα πρότυπα να έχουν µεγάλη δια–κλασική (between
class) απόσταση και µικρή ενδο–κλασική (within–class) απόσταση. Στο Σχ. 7.1 δίνο-
νται δύο απλοποιηµένα παραδείγµατα για δύο χαρακτηριστικά x1, x2. Με αστερίσκο
™¯‹Ì· 7.1
συµβολίζονται οι τιµές που λαµβάνουν για τη µία κλάση, και µε τελεία για τη δεύ-
Τιµές χαρακτηρι-
τερη κλάση. Από τα παραπάνω συνάγεται ότι το x1 είναι ένα πλούσιο σε πληροφο-
στικών µε
ρία ταξινόµησης χαρακτηριστικό ενώ το x2 είναι φτωχό, διότι οι τιµές που λαµβάνει
(a) µεγάλη διακλα-
για τις δύο κλάσεις επικαλύπτονται. σική και (β) µικρή
διακλασική από-
x1 x2 σταση.

Η επιλογή χαρακτηριστικών δεν είναι µία απλή διαδικασία, αλλά συνήθως, το απο-
τέλεσµα εφαρµογής µιας σειράς µεθοδολογιών επιλογής χαρακτηριστικών. Στο βιβλίο
αυτό δεν θα ασχοληθούµε µε τέτοιες µεθοδολογίες. Ο ενδιαφερόµενος αναγνώστης
µπορεί να αναφερθεί, για παράδειγµα, στο [1].
Στη συνέχεια θα υποθέσουµε ότι έχουµε επιλέξει l ουσιώδη χαρακτηριστικά, x1, x2,
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 142

142 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

… xl. Με τα χαρακτηριστικά αυτά δηµιουργούµε τα ουσιώδη χαρακτηριστικά δια-


νύσµατα (feature vectors),
x = (x1, x2, ...,xl)T
στον l–διάστατο χώρο, δηλαδή x ∈R l . Επιπλέον, υποθέτουµε ότι υπάρχει µια αµφι-
µονοσήµαντη σχέση µεταξύ προτύπων και διανυσµάτων. ∆ηλαδή, σε κάθε διάνυσµα
αντιστοιχεί ένα και µόνο πρότυπο.
Μια παρατήρηση, που έχει ιδιαίτερη σηµασία για µας, είναι ότι οι τιµές που λαµβά-
νουν διάφορα πρότυπα δεν είναι προβλέψιµες αλλά έχουν ένα βαθµό τυχαιότητας.
Για παράδειγµα, µάλλον θα µας εξέπληττε εάν η µέση τιµή των pixels για διαφορε-
τικές ακτινογραφίες υγιών (µη υγιών) ήταν όλες ίδιες. Η τυχαιότητα των τιµών που
προκύπτουν οφείλεται και στα όργανα µετρήσεως, αλλά πολύ περισσότερο στις δια-
φοροποιήσεις που υπάρχουν µεταξύ των ιστών των διαφορετικών ατόµων. Στη συνέ-
χεια, θα θεωρούµε τα ουσιώδη χαρακτηριστικά xi, i = 1, 2, …, l, ως τυχαίες µετα-
βλητές και τα αντίστοιχα διανύσµατα ως τυχαία διανύσµατα x στον l–διάστατο χώρο
ή όπως θα λέµε στο χώρο των (ουσιωδών) χαρακτηριστικών (feature space).

7.1.2 ™Ù¿‰ÈÔ Û¯Â‰›·Û˘ ÙÔ˘ Ù·ÍÈÓÔÌËÙ‹

Έχοντας επιλέξει τα χαρακτηριστικά, στο δεύτερο στάδιο, σχεδιάζουµε τον ταξινο-


µητή. Ο ταξινοµητής δεν είναι τίποτε άλλο από µία συνάρτηση ή ένα σύνολο συναρ-
τήσεων, µε ελεύθερη µεταβλητή το τυχαίο χαρακτηριστικό διάνυσµα x, που διαιρεί
τον l–διάστατο χώρο σε περιοχές Rk, k = 1, 2, …, m. Καθεµιά από αυτές τις περιο-
χές αντιστοιχεί σε µία από τις m–κλάσεις (m = 2 για ένα πρόβληµα δύο κλάσεων).
Ο σχεδιασµός αυτός βασίζεται στην πληροφορία που απορρέει από το σύνολο των
διανυσµάτων εκπαίδευσης που έχουµε στη διάθεσή µας. Η σχεδίαση του ταξινοµη-
τή θα µας απασχολήσει στο παρόν και στο επόµενο κεφάλαιο.
Με την ολοκλήρωση του σχεδιασµού του ταξινοµητή, η ταξινόµηση ενός αγνώστου
πρότυπου γίνεται ως εξής. Μετρούµε την τιµή που παίρνει το αντίστοιχο χαρακτη-
ριστικό διάνυσµα για το συγκεκριµένο πρότυπο. Στη συνέχεια ταξινοµούµε το πρό-
τυπο στην κλάση που αντιστοιχεί στην περιοχή, Rk, του χώρου όπου βρίσκεται το
διάνυσµα x. Προφανώς µια τέτοια διαδικασία εµπεριέχει και την έννοια του λανθα-
σµένης ταξινόµησης. Ένας από τους στόχους στη διαδικασία σχεδιασµού ενός ταξι-
νοµητή είναι η ελαχιστοποίηση αυτού του λάθους.

7.2 ∆·ÍÈÓÔÌËÙ¤˜ Bayes

Στόχος µας στην ενότητα αυτή είναι να σχεδιάσουµε τον ταξινοµητή, αντλώντας έννοι-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 143

7 . 2 ∆ ∞ • π ¡ √ ª ∏ ∆ ∂ ™ B AY E S 143

ες και γνώσεις από τη θεωρία πιθανοτήτων. Θα ξεκινήσουµε, για χάρη της απλότητας,
από το πρόβληµα δύο κλάσεων, που θα συµβολίσουµε ω1 και ω2 αντίστοιχα. Υποθέ-
τουµε ότι έχουµε στη διάθεσή µας ένα σύνολο Ν διανυσµάτων εκπαίδευσης, δηλαδή,

{ }
X = x1 , x2 ,..., x N , xi ∈ Rl , i = 1, 2, 3,..., N
Για καθένα από τα διανύσµατα εκπαίδευσης γνωρίζουµε την κλάση από την οποία
προέρχεται. Η διαθεσιµότητα αυτής της πληροφορίας θα θεωρείται δεδοµένη για το
σχεδιασµό οποιουδήποτε ταξινοµητή στα πλαίσια του βιβλίου αυτού, όπου δια-
πραγµατευόµαστε το πρόβληµα της ταξινόµησης µε εκπαίδευση.
Στη συνέχεια, υποθέτουµε ότι γνωρίζουµε τις πιθανότητες Ρ(ω1) και Ρ(ω2), τις πιθανό-
τητες δηλαδή κάποιο χαρακτηριστικό διάνυσµα να ανήκει σε µία από τις δύο κλάσεις.
Μία τέτοια πληροφορία είναι εύκολα υπολογίσιµη. Για παράδειγµα, εάν Ν1 από τα δια-
νύσµατα εκπαίδευσης ανήκουν στην κλάση ω1 και Ν2 στην κλάση ω2 (Ν = Ν1+Ν2), τότε

N1 N2
P (ω 1) ≈ , P (ω 2 ) ≈
N N
Μία άλλη πληροφορία που µπορεί επίσης να ποσοτικοποιηθεί, και γι’ αυτό θα υπο-
θέσουµε ότι είναι γνωστή, είναι η υπό συνθήκη πυκνότητες πιθανότητας p(x|ω1) και
p(x|ω2). Οι πυκνότητες πιθανότητας (pdf) µπορούν, για παράδειγµα, να προσεγγι-
στούν από τα αντίστοιχα ιστογράµµατα. Χρησιµοποιώντας τα Ν1 διανύσµατα της
κλάσης ω1 µπορούµε να προσεγγίσουµε την p(x|ω1) και µε τα Ν2 διανύσµατα της ω2
την p(x|ω2). Έχουµε τώρα στη διάθεσή µας όλα τα απαραίτητα υλικά για να σχε-
διάσουµε τον ταξινοµητή µας. Πίσω από τον σχεδιασµό αυτό υπάρχει ένα πολύ απλό
και λογικό σκεπτικό. Όταν µας δοθεί ένα άγνωστο χαρακτηριστικό διάνυσµα x (που
δεν ανήκει προφανώς στο σύνολο των γνωστών διανυσµάτων εκπαίδευσης, Χ) ο
ταξινοµητής θα πρέπει να το ταξινοµεί στην πιο πιθανή κλάση. ∆εδοµένης, δηλαδή,
µιας µέτρησης του x, που αντιστοιχεί στο άγνωστο πρότυπο, το παραπάνω σκεπτι-
κό µας παραπέµπει στο να υπολογίσουµε τις πιθανότητες P(ω1|x) και P(ω2|x) και να
ταξινοµήσουµε το x στην κλάση που αντιστοιχεί στη µεγαλύτερη τιµή από τις δύο
πιθανότητες.[1] Οι P(ωi|x), i = 1,2, είναι οι πιθανότητες το πρότυπο να είναι σε µια
από τις δύο κλάσεις, όταν γνωρίζουµε την τιµή του x και είναι γνωστές ως
a–posteriori πιθανότητες, σε αντιδιαστολή µε τις Ρ(ωi), i = 1, 2, που είναι γνωστές
και ως a–priori πιθανότητες. Τις πιθανότητες όµως P(ωi|x), i = 1,2, δεν τις γνωρί-
ζουµε. Αυτό δεν είναι πρόβληµα, καθώς από τη θεωρία πιθανοτήτων γνωρίζουµε το
θεώρηµα Bayes που µας λέει ότι:

[1] Οι Πυκνότητες πιθανότητας συµβολίζονται µε µικρό p και οι πιθανότητες µε κεφαλαίο P


£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 144

144 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

( )( )
P ω i p x | ω i = p( x )P ω i | x( )
ή
(
P (ω i ) p x | ω i )
(
P ωi | x =) p( x )
(7.1)

Είµαστε τώρα έτοιµοι να διατυπώσουµε τον κανόνα ταξινόµησης:


Εάν η τιµή του x είναι τέτοια ώστε: P(ω1|x)>P(ω2|x), ταξινόµησε το x στην κλάση ω1.
Αλλιώς ταξινόµησε το x στην κλάση ω2 .
Από τον κανόνα αυτό και µε βάση την (7.1) καταλήγουµε στον ταξινοµητή για δύο
κλάσεις, όπως φαίνεται στον Πίνακα 7.1. Παρατηρήστε ότι η p(x) δεν υπεισέρχεται
στους τελικούς υπολογισµούς. Αυτό οφείλεται στο ότι είναι µία θετική ποσότητα
ανεξάρτητη των κλάσεων και µπορεί να απαλειφθεί από τις ανισότητες.
Η παραπάνω διαδικασία γενικεύεται και για την περίπτωση m κλάσεων. Όπως φαί-
νεται στον Πίνακα 7.1, το x καταχωρείται στην κλάση ωk για την οποία η συνάρτη-
ση P(ωk)p(x|ωk) λαµβάνει τη µεγαλύτερη τιµή.

¶›Ó·Î·˜ 7.1
Tαξινοµητής Bayes για 2 και για m κλάσεις

Ταξινοµητής Bayes (για 2 κλάσεις):


Αν P(ω1)p(x| ω1)> P(ω2)p(x| ω2)
τότε ταξινόµησε το x στην κλάση ω1
Αλλιώς στην κλάση ω2.

Ταξινοµητής Bayes (για m κλάσεις):


Ταξινόµησε το x στην κλάση ωκ για την οποία ισχύει:
P (ω k ) p( x | ω k ) = max P (ω i ) p( x | ω i )
i =1, 2 ,…, m

Στο Σχ. 7.2 δίνονται οι πυκνότητες πιθανότητας p(x|ω1) και p(x|ω2) για ένα παρά-
δειγµα ταξινόµησης, µε δύο ισοπίθανες κλάσεις P(ω1) = P(ω2) = 1/2. Στο παράδειγ-
µα αυτό έχει επιλεγεί να χρησιµοποιηθούν διανύσµατα χαρακτηριστικών µε µία µόνο
συνιστώσα. Γι αυτό αντί του διανύσµατος x χρησιµοποιείται η βαθµωτή µεταβλητή
x και o χαρακτηριστικός χώρος είναι µονοδιάστατος (l = 1). Με τα πιο πάνω δεδο-
µένα ο ταξινοµητής Bayes ορίζει το σηµείο x0 µε το οποίο χωρίζεται ο χώρος στην
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 145

7 . 2 ∆ ∞ • π ¡ √ ª ∏ ∆ ∂ ™ B AY E S 145

περιοχή R1 για κάθε σηµείο της οποίας ισχύει p(x| ω1)> p(x| ω2) και στην R2 για την
οποία ισχύει αντίστοιχα p(x| ω2)> p(x| ω1). Είναι ενδιαφέρον να υπολογίσουµε την
πιθανότητα Pe µε την οποία ένα δείγµα x ταξινοµείται σε λάθος κλάση. Ισχύει:
Pe = P({x ανήκει στην ω1 και x>x0} ή{x ανήκει στην ω2 και x<x0}) =
= P({x ανήκει στην ω1 και x>x0} +P{x ανήκει στην ω2 και x<x0}) =
= P(x ανήκει στην ω1)P(x>x0| x ανήκει στην ω1)+
+ P(x ανήκει στην ω2)P(x<x0| x ανήκει στην ω2) =
= (½)P(x>x0| x ανήκει στην ω1)+ (½)P(x<x0| x ανήκει στην ω2), ή
Pe = (½)(P1+P2) (7.2)
όπου
+∞
P1 = P(x>x0| x ανήκει στην ω1) = ∫x p( x | ω )dx
1 (7.3)
0
και
x
0
P2 = P(x<x0| s ανήκει στην ω2) = ∫−∞ p( x | ω )dx
2 (7.4)

p(x|ω)
p(x|ω1)

p(x|ω2)

™¯‹Ì· 7.2
Περιοχές
ταξινόµησης που
προκύπτουν από
x1 x τον Bayesian
R1 R2 ταξινοµητή.

Από τις (7.2), (7.3) και (7.4) φαίνεται ότι η πιθανότητα σφάλµατος Pe είναι ίση µε
το µισό του ολικού εµβαδού των γραµµοσκιασµένων περιοχών του σχήµατος 7.1.
Από το παραπάνω παράδειγµα γίνεται σαφές ότι ο Bayesian ταξινοµητής διαιρεί τον
χώρο σε περιοχές, έτσι ώστε η περιοχή Ri, όπου αποφασίζεται η κλάση ωi, είναι εκεί-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 146

146 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

νη η περιοχή για την οποία ισχύει P(ωi)p(x| ωi)> P(ωj)p(x| ωj), ∀ i ≠ j .


Αν και φθάσαµε στον κατά Bayes ταξινοµητή µέσα από το απλό σκεπτικό να ταξι-
νοµούµε το άγνωστο x στην πιο πιθανή κλάση, αποδεικνύεται ότι ο ταξινοµητής
αυτός έχει µια βαθιά θεωρητική υπόσταση. Είναι ο ταξινοµητής που δίνει τη µικρό-
τερη πιθανότητα λάθους, Ρe, από οποιονδήποτε άλλο ταξινοµητή. Με άλλα λόγια, ο
κατά Bayes ταξινοµητής είναι ο βέλτιστος ταξινοµητής. Αυτό µπορεί να το επιβεβαι-
ώσει κανείς και από το σχήµα 7.3. Για οποιοδήποτε άλλη τιµή κατωφλίου x1 ≠ x0, το
άθροισµα των εµβαδών των γραµµοσκιασµένων περιοχών γίνεται µεγαλύτερο και,
εποµένως, µεγαλώνει η Ρe. Για µια πιο αναλυτική απόδειξη ο αναγνώστης παραπέ-
µπεται στο [1].

p(x|ω)
p(x|ω1)

p(x|ω2)

™¯‹Ì· 7.3
Όταν το κατώφλι
δεν είναι το βέλτι-
στο, το ολικό
εµβαδόν που αντι-
στοιχεί στην πιθα-
νότητα λανθασµέ-
νης ταξινόµησης, x1 x
αυξάνει. R1 R2

¶·Ú¿‰ÂÈÁÌ· 7.1
P(ωi) p(x|ωi)

1 x2
ω1 1/2 exp( − )
2π 2

1 ( x − 1)2
ω2 1/3 exp( − )
2π 2

1 ( x − 2 )2
ω3 1/6 exp( − )
2π 2

Σε ένα πρόβληµα τριών κλάσεων χρησιµοποιείται ένα µόνο χαρακτηριστικό για την
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 147

7 . 3 ™ À ¡ ∞ ƒ ∆ ∏ ™ ∂ π ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ∞ ¶ √ º ∞ ™ ∏ ™ – T∞ • π ¡ √ ª ∏ ∆ ∏ ™ ∂ § ∞ Ã π ™ ∆ ∏ ™ ∞ ¶ √ ™ ∆∞ ™ ∏ ™ 147

ταξινόµηση των δειγµάτων. Οι πυκνότητες πιθανότητας p(x|ωi) και οι a–priori πιθα-


νότητες P(ωi) για τις τρεις κλάσεις καταγράφονται στον παραπλεύρως πίνακα. Η
τιµή του χαρακτηριστικού x ενός άγνωστου δείγµατος βρέθηκε x = 1.6. Να ταξινο-
µηθεί το δείγµα αυτό σύµφωνα µε τον Bayes ταξινοµητή.
Απάντηση
Θα πρέπει να υπολογίσουµε την µέγιστη τιµή P(ωi)p(x| ωi),i = 1,2,3, για x = 1.6.
Έχουµε P(ω1)p(x| ω1) = 0.0555, P(ω2)p(x| ω2) = 0.1111, P(ω3)p(x|ω3) = 0.0614.
Σύµφωνα µε τη θεωρία που αναπτύξαµε στη ενότητα αυτή, το δείγµα µε x = 1.6 ταξι-
νοµείται στην κλάση που αντιστοιχεί στη µέγιστη τιµή, δηλαδή στην κλάση ω2..

7.3 ™˘Ó·ÚÙ‹ÛÂȘ ‰È¿ÎÚÈÛ˘ – EÈÊ¿ÓÂȘ ‰È¿ÎÚÈÛ˘ – EÈÊ¿ÓÂȘ ·fi-


Ê·Û˘ – T·ÍÈÓÔÌËÙ‹˜ ÂÏ¿¯ÈÛÙ˘ ·fiÛÙ·Û˘

Στην προηγούµενη ενότητα γνωρίσαµε τον κατά Bayes ταξινοµητή. Είδαµε ότι η
φιλοσοφία διαίρεσης του l–διάστατου χώρου των χαρακτηριστικών στις περιοχές
ταξινόµησης Ri, i = 1,2,3,…m, βασίστηκε σε ένα συγκεκριµένο σύνολο συναρτήσε-
ων, δηλαδή στις συναρτήσεις
hi(x)≡ P(ωi)p(x| ωi), i = 1,2,..,m (7.5)
και η διαίρεση του χώρου έγινε σύµφωνα µε το πού η καθεµιά από τις παραπάνω m
συναρτήσεις παίρνει τιµή µεγαλύτερη από όλες τις άλλες συναρτήσεις. Σε πολλές
περιπτώσεις είναι απλούστερο από άποψη µαθηµατικού φορµαλισµού και µαθηµα-
τικών υπολογισµών να χρησιµοποιούµε συναρτήσεις όπως οι παραπάνω. Με άλλα
λόγια, εάν g(x) είναι µια µονότονη συνάρτηση, τότε µπορούµε να ορίσουµε τις
fi ( x ) ≡ g (hi ( x )), i = 1, 2,..., m (7.6)
και στη θέση των hi(x) µπορούµε να χρησιµοποιούµε τις fi(x). To γεγονός ότι η g(x)
είναι µονότονη έχει ως αποτέλεσµα να µην αλλοιώνει τις σχετικές θέσεις των µεγί-
στων και εποµένως η διαίρεση του χώρου είτε µε βάση τις hi ή τις fi θα είναι ακριβώς
η ίδια. Οι συναρτήσεις που προκύπτουν είναι γνωστές και ως συναρτήσεις διάκρι-
σης. Ο ένας λόγος που µας οδηγεί στη χρήση συναρτήσεων διάκρισης είναι η απλού-
στευση των υπολογισµών. Για παράδειγµα, εάν g(x) = ln(x) (που είναι µονότονη
συνάρτηση) και η p(x| ωi) είναι εκθετικής µορφής, όπως στο παράδειγµα 1 του κεφα-
λαίου 7, η δράση του λογαρίθµου θα έχει ως αποτέλεσµα οι υπολογισµοί να περιορί-
ζονται µόνο στους εκθέτες. Υπάρχει όµως και ένας άλλος ουσιαστικός λόγος. Οι
συναρτήσεις διάκρισης γίνονται η αφετηρία «απογαλακτισµού» µας από τον Bayesian
ταξινοµητή. Ο ταξινοµητής αυτός, αν και βέλτιστος, δεν είναι ελεύθερος µειονεκτη-
µάτων. Ο υπολογισµός των p(x| ωi) δεν είναι πάντα µια εύκολη υπόθεση, ιδίως όταν
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 148

148 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

ο αριθµός των δεδοµένων εκπαίδευσης, Ν, είναι σχετικά µικρός. Σε πολλές, εποµέ-


νως, περιπτώσεις κρίνεται προτιµότερο να διαιρέσει κανείς τον χώρο των χαρακτη-
ριστικών υιοθετώντας µια άλλη κατάλληλη (για κάθε πρόβληµα) επιλογή συναρτή-
σεων διάκρισης, που να µην σχετίζονται, κατ’ ανάγκη, µε τον Bayesian ταξινοµητή.
Ο ταξινοµητής που θα προκύψει δεν θα είναι βέλτιστος, µε κριτήριο την πιθανότητα
λάθους, αλλά πιθανόν να έχει άλλα προτερήµατα που να καθιστούν την χρήση του
ελκυστική στην πράξη. Θα συναντήσουµε τέτοιους ταξινοµητές σύντοµα.

x2

f1(x) > f2(x)


f1,2(x) = 0

ω1
f1(x) < f2(x)
™¯‹Ì· 7.4
Παράδειγµα επι-
φάνειας απόφασης ω2
στον δισδιάστατο
χώρο (x1,x2). x1

Μια άλλη έννοια µε «έντονη παρουσία» στην αναγνώριση προτύπων είναι αυτή της
επιφάνειας απόφασης. Ας πάρουµε την περίπτωση δύο κλάσεων. Για το απλό αυτό
πρόβληµα θα έχουµε δύο συναρτήσεις διάκρισης, ας πούµε την f1(x) και f2(x). Στην
περίπτωση του Bayesian ταξινοµητή αυτές είναι οι P(ωi)p(x|ωi) = fi(x), i = 1,2. Σύµ-
φωνα µε τα όσα έχουµε πει, δεν είναι δύσκολο να δούµε ότι αποφασίζουµε ω1 εάν
f1(x)–f2(x)>0 και ω2 εάν f1(x)–f2(x)<0. Ας ορίσουµε τη συνάρτηση

f1,2 ( x ) ≡ f1 ( x ) − f 2 ( x ) (7.7)

H επιφάνεια που ορίζεται από την εξίσωση


f1,2(x) = 0 (7.8)
χωρίζει τον χώρο των χαρακτηριστικών στις δύο περιοχές R1 και R2 µε βάση τις οποί-
ες αποφασίζουµε ω1και ω2 αντίστοιχα, και συγκεκριµένα
R1: f1,2(x)>0 και R2: f1,2(x)<0 (7.9)
H επιφάνεια που ορίζει η (7.8) είναι γνωστή ως επιφάνεια απόφασης (Σχ. 7.4). Από
την µια πλευρά της (f1,2(x)>0) βρίσκεται η περιοχή R1 και από την άλλη (f1,2(x)<0) η
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 149

7 . 3 ™ À ¡ ∞ ƒ ∆ ∏ ™ ∂ π ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ∞ ¶ √ º ∞ ™ ∏ ™ – T∞ • π ¡ √ ª ∏ ∆ ∏ ™ ∂ § ∞ Ã π ™ ∆ ∏ ™ ∞ ¶ √ ™ ∆∞ ™ ∏ ™ 149

R2. Στην περίπτωση πολλών κλάσεων, επιφάνειες απόφασης έχουν νόηµα και ορί-
ζονται από συναρτήσεις διάκρισης µόνο γειτονικών περιοχών.
Στη συνέχεια, θα εφαρµόσουµε τα παραπάνω σε µία ειδική κατηγορία προβληµάτων
στα οποία οι πυκνότητες πιθανότητας ακολουθούν Gaussian κατανοµές. Από τη θεω-
ρία πιθανοτήτων και στατιστικής γνωρίζουµε ότι η πυκνότητα πιθανότητας µιας βαθ-
µωτής τυχαίας µεταβλητής x που ακολουθεί Gaussian κατανοµή δίνεται από τη σχέση

1 ( x − µ )2
p( x ) = exp( − ) (7.10)
2 µσ 2 2σ 2

[]
όπου µ = Ε x , η µέση τιµή δηλαδή της x και σ 2 = Ε ( x − µ )2 , η διασπορά της. [ ]
Η (7.10) γενικεύεται για περισσότερες διαστάσεις. Ας το δούµε αυτό λίγο σταδιακά.
Εάν x1, x2 είναι δύο στοχαστικά ανεξάρτητες Gaussian µεταβλητές, µε την ίδια δια-
σπορά σ2 και µέσες τιµές µ1, µ2 αντίστοιχα, τότε (λόγω ανεξαρτησίας) η από κοινού
πυκνότητα πιθανότητας (joint probability density) θα είναι

1 ( x1 − µ1 )2 ( x2 − µ2 )2
p( x ) ≡ p( x1 , x2 ) = p( x1 ) p( x2 ) = exp( − )exp( − ), ή
2πσ 2 2σ 2 2σ 2
1 ( x1 − µ1 )2 + ( x2 − µ2 )2
p( x ) = exp( − ) (7.11)
2πσ 2 2σ 2
Στην περίπτωση που οι µεταβλητές δεν είναι ανεξάρτητες και η διάσταση του προ-
βλήµατος είναι l, η (7.11) γενικεύεται στην

1  1 
p( x ) = exp − ( x − µ )T Σ −1 ( x − µ ) (7.12)
( 2π )l 2 Σ
12
 2 

όπου Σ η ορίζουσα του l×l πίνακα Σ, που ορίζεται ως

(
Σ≡ E  x − µ x − µ  )( )
T
  (7.13)

και είναι γνωστός ως πίνακας συνδιασποράς, και µ = E x . Εµείς θα εστιάσουµε []


σε πίνακες συνδιασποράς της µορφής:

σ2 L 0 L 0
M M M
Σ= σ I = 02
L σ2 L 0
M M M (7.14)
0 L 0 L σ2
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 150

150 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

∆εν είναι δύσκολο να δει κανείς, ότι για την περίπτωση αυτή και για διάσταση l = 2,
η (7.12) καταλήγει στην (7.11).
Μετά την µικρή αυτή αναδροµή, ας επιστρέψουµε στο πρόβληµα της ταξινόµησης.
Για λόγους απλότητας θα σταθούµε στο πρόβληµα δύο κλάσεων µε δισδιάστατο
χώρο χαρακτηριστικών. Τα αποτελέσµατα γενικεύονται άµεσα σε πολλές διαστάσεις
και πολλές κλάσεις. Υιοθετούµε τις ακόλουθες υποθέσεις:
• Κλάσεις ισοπίθανες, P(ω1) = P(ω2).
• Τα χαρακτηριστικά είναι στοχαστικά ανεξάρτητες τυχαίες µεταβλητές µε την ίδια
διασπορά, σ2.
• Σε κάθε κλάση τα χαρακτηριστικά ακολουθούν Gaussian κατανοµή.
• Η διασπορά είναι ίδια για όλες τις κλάσεις.
Γράφοντας λίγο διαφορετικά την (7.11), οι παραπάνω υποθέσεις κωδικοποιούνται ως

 2
1 x − ξi
p( x | ω i ) = exp −  , i = 1, 2 (7.15)
2πσ 2  2σ 2 
 
όπου . η Ευκλείδεια απόσταση µεταξύ του x και µi και µi η µέση τιµή της κλά-
2
σης ωi, δηλαδή x − µi = ( x1 − µi1 )2 + ( x2 − µi 2 )2 .

Υιοθετώντας στην θέση της g(x) την λογαριθµική συνάρτηση, οι αντίστοιχες συναρ-
τήσεις διάκρισης για την περίπτωση του Bayesian ταξινοµητή γίνονται
2
x − µi
((
f i ( x ) = ln p x | ω i )) = −ln(2πσ ) −2
2σ 2

και επειδή το σ είναι σταθερά, για τον υπολογισµό της µέγιστης τιµής µεταξύ f1(x)
και f2(x) αρκεί να υπολογίσουµε την ελάχιστη (λόγω του αρνητικού προσήµου)
Ευκλείδεια απόσταση του x από τις δύο µέσες τιµής µ1 και µ2 δηλαδή την ελάχιστη
των τιµών ||x–µ1|| και ||x–µ2||. Τελικά το δείγµα ταξινοµείται στην κλάση της οποίας
η µέση τιµή βρίσκεται πλησιέστερα στο x. Ο ταξινοµητής αυτός είναι γνωστός και
ως ταξινοµητής ελάχιστης Ευκλείδειας απόστασης.
Μερικές φορές ο ταξινοµητής αυτός χρησιµοποιείται έστω και εάν οι υποθέσεις που
διατυπώθηκαν παραπάνω δεν ισχύουν. Βέβαια, στις περιπτώσεις αυτές ο ταξινοµητής
δεν είναι Bayesian και, εποµένως, δεν είναι βέλτιστος ως προς την πιθανότητα λάθους.
Ας µείνουµε λίγο ακόµα στον απλό αυτό ταξινοµητή. Από τον ορισµό του ταξινο-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 151

7 . 3 ™ À ¡ ∞ ƒ ∆ ∏ ™ ∂ π ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ∞ ¶ √ º ∞ ™ ∏ ™ – T∞ • π ¡ √ ª ∏ ∆ ∏ ™ ∂ § ∞ Ã π ™ ∆ ∏ ™ ∞ ¶ √ ™ ∆∞ ™ ∏ ™ 151

µητή ελάχιστης απόστασης και από τις (7.8) και (7.9), έπεται ότι η επιφάνεια από-
φασης περιγράφεται από την
f1,2(x) = ||x–µ1||2–||x–µ2||2 (7.17)

ή f1,2 ( x ) = ( x − µ2 )T ( x − µ2 ) − ( x − µ1 )T ( x − µ1 ) = 0 (7.16)
και µετά από λίγες πράξεις καταλήγουµε στη σχέση

f1,2 ( x ) = w T ( x − x0 ) = 0 (7.18)

όπου

1
w = µ1 − µ2 κ αι x0 = (µ1 + µ2 )
2
Η 7.18 είναι η εξίσωση µιας ευθείας. Από το σχήµα 7.5 φαίνεται ότι η ευθεία αυτή
είναι η µεσοκάθετος του ευθύγραµµου τµήµατος που συνδέει τα σηµεία που αντι-
στοιχούν στις µέσες τιµές. Πράγµατι, όλα τα σηµεία πάνω στη γραµµή αυτή απέ-
χουν ίση απόσταση από τις µέσες τιµές. Τα σηµεία στην αριστερή πλευρά είναι πλη-
σιέστερα στην µ1 (ω1) και αυτά στη δεξιά πλευρά πλησιέστερα στην µ2 (ω2). Με
άλλα λόγια, η επιφάνεια απόφασης είναι ευθεία (επίπεδο / υπερεπίπεδο, για µεγα-
λύτερη του l = 2 διάσταση). Ο ταξινοµητής, δηλαδή, είναι γραµµικός. Αυτό συµβαί-
νει γιατί υποθέσαµε ότι για όλες τις κλάσεις οι διασπορές είναι ίδιες ∆εν είναι δύσκο-
λο να διαπιστώσετε ότι, εάν οι διασπορές δεν είναι ίδιες σε όλες τις κλάσεις, τότε οι
επιφάνειες απόφασης που προκύπτουν δεν είναι υπερεπίπεδα αλλά τετραγωνικής
µορφής, π.χ., (υπερ)παραβολοειδή, (υπερ)ελλειψοειδή. Για περισσότερες λεπτοµέ-
ρειες ο ενδιαφερόµενος αναγνώστης παραπέµπεται στο [1].

x2

µ2 µ1 – µ2
™¯‹Ì· 7.5
Η επιφάνεια από-
µ1 φασης που αντι-
x0
στοιχεί στον ταξι-
νοµητή ελάχιστης
Ευκλείδειας από-
στασης είναι υπε-
x1 ρεπίπεδο.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 152

152 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

¶·Ú¿‰ÂÈÁÌ· 7.2
Σε ένα πρόβληµα χρησιµοποιείται ένα µόνο χαρακτηριστικό για την ταξινόµηση των
δειγµάτων σε δύο κλάσεις ω1 και ω2 µε a–priori πιθανότητες P(ω1) και P(ω2). Οι
υπό συνθήκη πιθανότητες ακολουθούν Gaussian κατανοµές µε µέσες τιµές 0 και 1
αντίστοιχα για κάθε κλάση. Η διασπορά είναι σ2 και για τις δύο κλάσεις. Να υπολο-
γιστεί η τιµή κατωφλίου x0 που διαχωρίζει τις περιοχές R1 και R2, όπου αποφασίζουµε
ω1 και ω2 αντίστοιχα.
Απάντηση
Σύµφωνα µε τον κατά Bayes ταξινοµητή οι περιοχές καθορίζονται από:
R1: P(ω1)p(x|ω1)>P(ω2)p(x|ω2) και R2: P(ω1)p(x|ω1)<P(ω2)p(x|ω2)
Στην τιµή κατωφλίου οι δύο ποσότητες είναι ίσες και οι αντίστοιχες καµπύλες τέµνο-
νται (Σχ. 7.2). Άρα η τιµή κατωφλίου x0 προκύπτει ως λύση της εξίσωσης

P (ω1 )  x 2  P (ω 2 )  ( x − 1)2 
exp − 0 2  = exp − 0 2  .
2πσ  2σ  2πσ  2σ 

Λαµβάνοντας το λογάριθµο και απαλείφοντας τις ίσες ποσότητες έχουµε:

x02 ( x0 − 1)2  P (ω 2 ) 

2σ 2
+ ln (
P (ω 1 ) )
= −
2σ 2 ( ) 1
+ ln P (ω 2 ) , ή x0 = − σ 2 ln 
2  P (ω1 ) 

Στην περίπτωση που το πρόβληµα ήταν τέτοιο ώστε οι καµπύλες να είχαν περισσό-
τερα από ένα σηµείο τοµής, η εξίσωση θα είχε πολλαπλή λύση.

¶·Ú¿‰ÂÈÁÌ· 7.3
Σε ένα πρόβληµα µε δύο ισοπίθανες κλάσεις ω1 και ω2 και δύο ουσιώδη χαρακτη-
ριστικά x1, x2, στο δισδιάστατο χώρο, τα χαρακτηριστικά διανύσµατα σε κάθε κλάση
ακολουθούν τις κατανοµές

1  x2 +x 2 1  ( x − 1)2 + ( x2 − 1)2 
p( x | ω1 ) = exp − 1 2
 και p( x | ω 2 ) = exp − 1 
2π  2  2π  2 

∆ίνεται ότι ένα πρότυπο χαρακτηρίζεται από το διάνυσµα χαρακτηριστικών x = (0.3,


0.6)T. Σε ποια κλάση ανήκει, σύµφωνα µε τον Bayesian ταξινοµητή;
Απάντηση
Παρατηρούµε ότι οι κλάσεις είναι ισοπίθανες (P(ω1) = P(ω2)) και ότι τα διανύσµα-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 153

7 . 4 ¶ ∞ ƒ∞ £ À ƒ∞ PA R Z E N 153

τα ακολουθούν Gaussian κατανοµή και στις δύο κλάσεις. Επίσης, όπως προκύπτει
άµεσα από τη σύγκριση των πυκνοτήτων πιθανότητας του παραδείγµατος µε την
(7.11), το µητρώο συνδιασποράς Σ είναι το ίδιο και στις δύο κλάσεις και µάλιστα
ισχύει:

1 0
Σ=  
0 1 
Άρα o Bayesian ταξινοµητής ισοδυναµεί µε τον ταξινοµητή ελάχιστης Ευκλείδειας
απόστασης, όπως ήδη εξηγήσαµε στην ενότητα 7.3. Σύµφωνα µε τις κατανοµές του
παραδείγµατος έχουµε:

ω1 = (0, 0 )Τ και ω 2 = (1, 1)Τ

Η Ευκλείδεια απόσταση του χαρακτηριστικού διανύσµατος x του του άγνωστου πρω-


τύπου από τις µέσες τιµές είναι

dε1 = 0.32 + 0.62 = 0.671 και dε 2 = 0.72 + 0.42 = 0.806 .

Άρα το δείγµα ταξινοµείται στην κλάση ω1, η µέση τιµή της οποίας ευρίσκεται πλη-
σιέστρα στο x.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 7.1

Θεωρήστε ένα πρόβληµα µίας διάστασης (l = 1) και δύο ισοπίθανων κλάσεων. Σε


κάθε µία από τις κλάσεις το χαρακτηριστικό ακολουθεί την Rayleigh κατανοµή

 x x2 
 2 exp( − ), x > 0
p( x | ω i ) =  σ i 2σ i
2

 
0, x < 0 

Να υπολογιστεί το σηµείο x0 του κατωφλίου που διαχωρίζει τις δύο περιοχές R1 και R2.

7.4 ¶·Ú¿ı˘Ú· Parzen


Στις προηγούµενες ενότητες θεωρήσαµε ότι οι πυκνότητες πιθανότητας p( x | ω i ) για
κάθε κλάση είναι γνωστές. Στην ενότητα αυτή θα µας απασχολήσει το πώς οι συναρτή-
σεις αυτές εκτιµώνται από τα Ν διανύσµατα του συνόλου εκπαίδευσης Χ. Ταυτόχρονα,
η µεθοδολογία αυτή θα µας ανοίξει το δρόµο για να ορίσουµε ένα νέο ταξινοµητή.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 154

154 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

Η εκτίµηση των άγνωστων συναρτήσεων p( x | ω i ) δεν ακολουθεί κάποιο µονό-


δροµο και υπάρχει πληθώρα µεθόδων και φιλοσοφιών προσέγγισης του προβλήµα-
τος. Στο [1] υπάρχει µια πιο εκτεταµένη παρουσίαση του προβλήµατος. Στην παρού-
σα ενότητα θα προσεγγίσουµε το πρόβληµα µε σηµείο εκκίνησης το γνωστό µας
ιστόγραµµα, στο µονοδιάστατο χώρο.
Έστω ότι θέλουµε να προσεγγίσουµε την πυκνότητα πιθανότητας p(x), της τυχαίας
µεταβλητής x µε δεδοµένο το σύνολο N µετρήσεων του x, το Χ = {x1, … xN}. Όπως
φαίνεται στο Σχ. 7.6 χωρίζουµε τον άξονα των πραγµατικών αριθµών σε διαδοχικά
διαστήµατα εύρους h. Στη συνέχεια µετράµε πόσα από τα Ν στοιχεία του Χ εµπί-
πτουν στο κάθε διάστηµα και κατασκευάζουµε το ιστόγραµµα. Ο κάθετος άξονας
αντιστοιχεί στον αριθµό των δειγµάτων ανά διάστηµα.

p(x)

™¯‹Ì· 7.6
Προσσέγγιση
πυκνότητας
πιθανότητας µε
x
ιστόγραµµα. (α)

Εάν k είναι ο αριθµός δειγµάτων που βρίσκονται σε κάποιο διάστηµα, τότε η πιθα-
νότητα να προκύψει τιµή του x στο συγκεκριµένο αυτό διάστηµα θα είναι, κατά προ-
σέγγιση, ίση µε
P≈k/N (7.19)
Στη συνέχεια, θεωρούµε ότι η πυκνότητα πιθανότητας στο διάστηµα είναι σταθερή
για όλα τα σηµεία που ανήκουν στο ίδιο διάστηµα. Άρα, η πυκνότητα πιθανότητας
για το παραπάνω διάστηµα προσεγγίζεται από

1 k h h
p( x ) ≈ pˆ ( x ) = pˆ ( xˆ ) = , xˆ − ≤ x ≤ xˆ +
hN 2 2 (7.20)
όπου x̂ το µέσον του διαστήµατος. Η παραπάνω διαδικασία επαναλαµβάνεται για
όλα τα διαστήµατα. Αποδεικνύεται ότι, εάν: α) η p(x) είναι συνεχής συνάρτηση, β)
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 155

7 . 4 ¶ ∞ ƒ∞ £ À ƒ∞ PA R Z E N 155

το εύρος h τείνει στο µηδέν, γ) τα Ν και k τείνoυν στο ∞ µε τρόπο ώστε ο λόγος k/N
)
να τείνει στο µηδέν, τότε η προσέγγιση p( x ) τείνει στην p(x), ∀ x ∈ R.
Οι παραπάνω υποθέσεις είναι πολύ λογικές. Μας λένε ότι το εύρος του διαστήµα-
τος πρέπει να τείνει στο µηδέν (ώστε να έχει νόηµα η υπόθεση σταθερής τιµής σε
όλο το διάστηµα για συνεχή p(x)), ο αριθµός των δειγµάτων Ν να είναι πολύ µεγά-
λος και ταυτόχρονα ο αριθµός των δειγµάτων k σε κάθε διάστηµα να είναι επίσης
µεγάλος, ώστε η εκτίµηση των πιθανοτήτων να είναι καλή. ∆εδοµένου βέβαια ότι ο
αριθµός των διαστηµάτων είναι πολύ µεγάλος (h → 0), ο αριθµός των δειγµάτων
που αντιστοιχεί σε κάθε διάστηµα είναι ένα µικρό ποσοστό του Ν (k/N → 0).
Ένας άλλος τρόπος για να γράψουµε την 7.20, που θα µας διευκολύνει στη συνέχεια
για γενικεύσεις, είναι ο εξής. Ορίζουµε τη συνάρτηση φ(x)

1, x ≤ 1

ϕ( x) =  2 (7.21)
0, αλλού
Τότε η προσέγγιση στην 7.20 γράφεται

1 1 xi − x  
N
p( x ) ≈
h  N ∑ Ê
i =1
h  
(7.22)

Πράγµατι, από τον ορισµό 7.21 έχουµε ότι

 h h
 x − xi  1, για x − ≤ xi ≤ x +
φ =
  2 2
 h  
0, αλλού

Με άλλα λόγια, αντικαθιστούµε στην (7.22) την τιµή του x, όπου θέλουµε να εκτι-
µήσουµε την p(x). Τότε το άθροισµα ισούται µε τον αριθµό των δειγµάτων του Χ
που βρίσκονται στο διάστηµα εύρους h, το οποίο έχει ως µέσον το συγκεκριµένο x.
Η 7.22 γενικεύεται άµεσα για την περίπτωση των πολλών διαστάσεων, δηλαδή

11  xi − x  
N
p( x ) ≈ 
hl  N
∑ φ
i =1
h 
 (7.23)

 1
1 για x j ≤ , j = 1, 2,..., l
όπου όπου φ( x) =  2 (7.24)
0 αλλού

£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 156

156 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

και xj η j–διάσταση του x. H (7.23) και η (7.24) είναι απόρροια του τρόπου που κατα-
σκευάζουµε ιστογράµµατα στον πολυδιάστατο χώρο. Τη θέση διαστηµάτων εύρους
h την παίρνουν υπερκύβοι ακµής h και όγκου hl. Κατ’ αναλογία µε όσα είπαµε παρα-
πάνω, οι (7.23) και (7.24) µας λένε ότι, για να προσεγγίσουµε την p(x), καθιστούµε
το x κέντρο ενός υπερκύβου ακµής h, µετρούµε πόσα από τα σηµεία του συνόλου
εκπαίδευσης βρίσκονται εντός του κύβου αυτού και η p(x) δίνεται από το πηλίκο του
αριθµού αυτού µε το γινόµενο Νhl.
Μπορεί να αποδειχθεί ότι η προσέγγιση (7.22) γενικεύεται αν στη θέση της φ(.) στην
(7.21) χρησιµοποιηθούν και άλλες συναρτήσεις, υπό την προϋπόθεση ότι πληρούν
ορισµένες συνθήκες. Οι συναρτήσεις αυτές είναι γνωστές και ως παράθυρα Parzen.
Η Gaussian συνάρτηση µε µέση τιµή 0 και διασπορά 1 είναι µια τέτοια συνάρτηση.
Για περισσότερες λεπτοµέρειες ο αναγνώστης παραπέµπεται στο [1].
Για να δούµε τώρα πώς όλα τα παραπάνω ενσωµατώνονται στο πρόβληµα της ταξι-
νόµησης. Στον πίνακα 7.2 δίνεται ο αλγόριθµος ταξινόµησης ενός προτύπου, µε διά-
νυσµα χαρακτηριστικών x, µε τη µέθοδο των παραθύρων Parzen. Το πρόβληµα περι-
λαµβάνει δύο κλάσεις, τις ω1 και ω2 µε Ν1 και Ν2 αντίστοιχα διανύσµατα εκπαίδευσης.

¶›Ó·Î·˜ 7.2
Αλγόριθµος Ταξινόµησης µε τη µέθοδο των παραθύρων Parzen. Πρόβληµα µε δύο
κλάσεις.

• Επιλέγουµε κατάλληλα το h

• Υπολογίζουµε τις αποστάσεις του x απ’ όλα τα διανύσµατα εκπαίδευσης, και


κρατάµε εκείνα τα οποία βρίσκονται εντός ενός υπερκύβου ακµής h µε κέντρο
το x. Με άλλα λόγια εκείνα τα xi για τα οποία ισχύει
xij − x j ≤ h / 2, j = 1, 2,…l. Από αυτά ας υποθέσουµε ότι βρέθηκαν k1 να προ-
έρχονται από την κλάση ω1 και k2 από την κλάση ω2.

• Εάν P(ω1)(k1/N1)>(k2/N2)P(ω2), ταξινοµούµε το x στην κλάση ω1, διαφορετικά


στην κλάση ω2.

Η επιλογή του h αποτελεί ένα κρίσιµο βήµα του αλγορίθµου. Όπως γνωρίζουµε ήδη
η τιµή του πρέπει να τείνει στο µηδέν, αλλά τότε ο αριθµός των δειγµάτων εκπαί-
δευσης που περιλαµβάνονται στον αντίστοιχο υπερκύβο θα είναι µηδενικός (δεδο-
µένου ότι στην πράξη το Ν είναι πάντα πεπερασµένο). Το h λοιπόν επιλέγεται όσο
γίνεται πιο µικρό αλλά αρκετά µεγάλο ώστε τα k1, k2 να έχουν ικανοποιητική τιµή.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 157

7 . 5 Y ¶ √ § √ ° π ™ ª √ ™ ¶ À ∫ ¡ √ ∆ ∏ ∆∞ ™ ¶ π £ ∞ ¡ √ ∆ ∏ ∆∞ ™ ∞ ¶ √ ∆ √ À ™ K ¶ § ∏ ™ π ∂ ™ ∆ ∂ ƒ √ À ™ ° ∂ π ∆ √ ¡ ∂ ™ 157

Εάν υιοθετούνται γενικευµένες συναρτήσεις ως παράθυρα, τότε χρησιµοποιείται η


7.23 µε Ν1 και Ν2 στη θέση του Ν, για την p(x|ω1) και p(x|ω2), αντίστοιχα.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 7.2

∆ίνεται το διάνυσµα x = (0.5, 0.6)T. Ποια από τα παρακάτω διανύσµατα ανήκουν


στον «υπερκύβο» (τετράγωνο. Στην περίπτωση αυτή l = 2) µε ακµή h = 0.4 και
κέντρο το x.

x1 = (0.6, 0.5)T , x2 = (0.7, 0.9)T


x 3 = (0.1, 0.6)T , x 4 = (0.8, 0.1)T

7.5 YÔÏÔÁÈÛÌfi˜ ˘ÎÓfiÙËÙ·˜ Èı·ÓfiÙËÙ·˜ ·fi ÙÔ˘˜ k ÏËÛȤÛÙÂÚÔ˘˜


Á›ÙÔÓ˜

Στη µέθοδο παραθύρων Parzen, η προσέγγιση της πυκνότητας πιθανότητας σε


κάποιο σηµείο x έγινε µε βάση τον αριθµό των δειγµάτων εκπαίδευσης, από κάθε
κλάση, που εµπεριέχονται σε ένα σταθερό όγκο hl γύρω από το x. Στην παρούσα ενό-
τητα θα αντιστρέψουµε τους ρόλους. Αντί να χρησιµοποιήσουµε µία περιοχή στα-
θερού όγκου, αυξάνουµε σταδιακά τον όγκο της περιοχής γύρω από το x, µέχρις ότου
εντοπιστούν εντός αυτής k διανύσµατα εκπαίδευσης. Το k είναι ένας ακέραιος που
προεπιλέγεται. Εάν V είναι ο όγκος της περιοχής που περιλαµβάνει τα k διανύσµα-
τα, τότε προσεγγίζουµε την άγνωστη τιµή της πυκνότητας πιθανότητας p(x) ως

k
p( x ) ≈
NV ( x )

όπου Ν ο αριθµός των δειγµάτων εκπαίδευσης για την κατανοµή p(x) και V(x) ο αντί-
στοιχος όγκος, που δίνεται ως συνάρτηση του x για να δηλώσει ότι ο όγκος αυτός
εξαρτάται από την εκάστοτε θέση. Αποδεικνύεται ότι όταν το k → ∞ και
(k / N ) → 0 , η προσέγγιση αυτή συγκλίνει στην τιµή p(x) ([1]).
Εξειδικεύοντας τα παραπάνω στο πρόβληµα της ταξινόµησης, και για την περίπτω-
ση δύο κλάσεων (η γενίκευση για περισσότερες κλάσεις είναι προφανής) προκύπτει
ο αλγόριθµος του Πίνακα 7.3. Για την εφαρµογή του αλγορίθµου διαθέτουµε Ν1 και
Ν2 δείγµατα εκπαίδευσης από τις κλάσεις ω1, ω2 αντίστοιχα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 158

158 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

¶›Ó·Î·˜ 7.3
Αλγόριθµος Ταξινόµησης, βασισµένος στην εκτίµηση των πυκνοτήτων πιθανότητας
µε τη µέθοδο των k πλησιέστερων γειτόνων.

• Μας δίδονται Ν1 διανύσµατα εκπαίδευσης από την ω1 και Ν2 από την ω2.
• Επιλέγουµε το k
• Με κέντρο το x αυξάνουµε σταδιακά τον όγκο της περιοχής ώστε να συµπερι-
ληφθούν k δείγµατα από την κλάση ω1 και k δείγµατα από την κλάση ω2. Οι
αντίστοιχοι όγκοι θα είναι V1 και V2.
• Εάν ταξινοµούµε το x στην ω1, διαφορετικά στην ω2.

Παρατήρηση
1. Μπορούµε να επιλέξουµε διαφορετικές τιµές του k για τις δύο κλάσεις.
2. Η περιοχή που επιλέγεται δεν είναι ανάγκη να είναι υπερκύβος. Μπορεί να έχει
και άλλες µορφές, όπως για παράδειγµα υπερσφαίρα. Αυτό διευκολύνει στην υλο-
ποίηση του αλγορίθµου. Υπολογίζουµε τις Ευκλείδειες αποστάσεις του x απ’ όλα
τα διανύσµατα κάθε κλάσης, κατατάσσουµε τα τελευταία κατά αύξουσα σειρά
απόστασης, και υπολογίζουµε τους αντίστοιχους όγκους της υπερσφαίρας που
περιλαµβάνουν k διανύσµατα για καθεµιά από τις κλάσεις.

¶·Ú¿‰ÂÈÁÌ· 7.4
Στο Σχ. 7.7 δίνεται η γεωµετρία κατανοµής των χαρακτηριστικών διανυσµάτων από
δυο κλάσεις. Τα διανύσµατα της ω1 συµβολίζονται µε «∗»και της ω2 µε «•».Το πλέγ-
µα έχει πλευρά 0.1. Να ταξινοµηθεί το διάνυσµα (0.7,0.6)Τ, σύµφωνα µε τη µέθοδο
εκτίµησης των πυκνοτήτων πιθανότητας µε βάση τους 5 πλησιέστερους γείτονες.
∆ίνεται P(ω1) = P(ω2) = 1/2.

1.3

0.9

0.6

0.3

0
™¯‹Ì· 7.7 0 0.4 0.7 1 1.4
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 159

7 . 6 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ ¶ § ∏ ™ π ∂ ™ ∆ ∂ ƒ ∏ ™ ° ∂ π ∆ ¡ π ∞ ™ ∏ ™ 159

Απάντηση

Υπολογίζουµε τις αποστάσεις όλων των διανυσµάτων της ω1 από το (0.7,0.6)Τ. Τα


πέντε πλησιέστερα είναι τα: (0.8,0.6)Τ, (0.7,0.7)Τ, (0.6,0.7)Τ, (0.6,0.6)Τ, (0.6,0.5)Τ και
βρίσκονται εντός του κύκλου που έχει κέντρο το σηµείο (0.7,0.6) και ακτίνα

0.12 + 0.12 = 2 × 0.1 ≡ ρ . Επαναλαµβάνουµε τη διαδικασία για τα πέντε πιο


κοντινά σηµεία της κλάσης ω2. Αυτά είναι τα: (0.7,0.5)Τ, (0.8,0.5)Τ, (0.9,0.6)Τ,
(0.8,0.7)Τ, (0.9,0.8)Τ και βρίσκονται εντός του κύκλου µε κέντρο το σηµείο (0.7, 0.6)

και µε ακτίνα ρ΄ = 0.22 + 0.22 = 2 × 0.2 = 2 ρ . Τα διανύσµατα εκπαίδευσης που


διαθέτουµε είναι Ν1 = 63 για την κλάση ω1 και Ν2 = 59 για κλάση ω2. Έχουµε:

1 5 1 5 1 5 1 5
= ⋅ = 0. 63 και = ⋅ = 0.17.
( ) 2 59 ⋅ π ⋅ 4 ⋅ 2 ⋅ 0.01
2
2 Ν 1πρ 2 2 63 ⋅ π ⋅ 2 ⋅ 0.01 2 Ν π 2ρ
2

∆ηλαδή το (0.7,0.6)Τ ταξινοµείται στην κλάση ω1.

7.6 T·ÍÈÓÔÌËÙ¤˜ ÏËÛȤÛÙÂÚ˘ ÁÂÈÙÓ›·Û˘

Μια παραλλαγή της προηγούµενης µεθόδου µας οδηγεί σ’ ένα νέο ταξινοµητή. Στις
προηγούµενες µεθόδους, το σηµείο αφετηρίας ήταν πάντα ο Bayesian ταξινοµητής
και οι διάφορες τεχνικές ήταν διαφορετικές απόπειρες εκτίµησης των εµπλεκοµέ-
νων pdf’s. Στην ενότητα αυτή θα «απελευθερωθούµε», για πρώτη φορά, από το βέλ-
τιστο ταξινοµητή.
Το σκεπτικό που δεσπόζει στο νέο ταξινοµητή είναι απλό. Για την ταξινόµηση του
άγνωστου προτύπου ακολουθούµε τα βήµατα:
• Επιλέγουµε ένα k, περιττό για την περίπτωση των δύο κλάσεων.
• Με κέντρο το x αυξάνουµε τον όγκο της περιοχής έως ότου περιλάβει συνολικά
k διανύσµατα εκπαίδευσης. Μετρούµε πόσα από αυτά ανήκουν στην κλάση ω1,
ας πούµε k1 και πόσα στην κλάση ω2, έστω k2.
• Ταξινοµούµε το x στην κλάση ω1 εάν k1>k2 και διαφορετικά στην κλάση ω2. Για
περισσότερες κλάσεις, ταξινοµούµε το x στην κλάση που εκπροσωπείται µε το
µεγαλύτερο αριθµό διανυσµάτων από τα k συνολικά.
Η απλούστερη εκδοχή της µεθόδου αυτής είναι όταν k = 1. Με άλλα λόγια, όταν µας
δίνεται το x, υπολογίζουµε την απόστασή του απ’ όλα τα διανύσµατα εκπαίδευσης
του Χ, και το ταξινοµούµε στην κλάση, στην οποία ανήκει το πλησιέστερο στο x από
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 160

160 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

τα διανύσµατα εκπαίδευσης. Αποδεικνύεται ότι, ο απλός αυτός ταξινοµητής πλη-


σιέστερου γείτονα µπορεί να οδηγήσει σε ικανοποιητικά αποτελέσµατα όταν ο αριθ-
µός Ν των δειγµάτων εκπαίδευσης είναι αρκετά µεγάλος. Πράγµατι, αν θεωρήσου-
µε ότι το Ν → ∞ και συµβολίσουµε µε ΡΒ την ελάχιστη πιθανότητα λάθους που αντι-
στοιχεί, βέβαια, στον Bayesian ταξινοµητή, τότε η πιθανότητα λάθους του ταξινο-
µητή πλησιέστερου γείτονα (k = 1), ΡΝΝ, φράσσεται [1, 2] από:
PB ≤ PNN ≤ 2 PB
∆ηλαδή, το λάθος που θα κάνουµε θα είναι το πολύ διπλάσιο του Bayesian ταξινο-
µητή. Για µικρές τιµές του PB αυτό δεν είναι κακό. Για παράδειγµα, εάν ΡΒ = 0.005
τότε PNN ≤ 0.01 . Λάθος της τάξης 1% δεν είναι κακό. Θα πρέπει, βέβαια, να τονι-
στεί ότι λάθη αυτής της τάξης αντιστοιχούν σε «εύκολα» προβλήµατα, δηλαδή σε
εύκολα διαχωρίσιµες κλάσεις.
Τέλος, για την περίπτωση όπου k>1 υπάρχουν, επίσης, ενδιαφέροντα αποτελέσµα-
τα. Για N → ∞ µπορεί να αποδειχθεί ότι η πιθανότητα λάθους του ταξινοµητή
k–πλησιέστερων γειτόνων, ΡkNN, φράσσεται από [3].

PB ≤ PkNN ≤ PB + 2 PNN / k

Προφανώς, για k → ∞ PkNN → PB . Όλα αυτά, βέβαια, απαιτούν µεγάλα Ν και k,


που, βέβαια, στην πράξη κάθε άλλο παρά τον κανόνα αποτελούν. Ταυτόχρονα δηµι-
ουργούν πολύ υψηλές υπολογιστικές απαιτήσεις, δεδοµένου ότι κάθε φορά θα πρέ-
πει να υπολογίζονται οι πλησιέστεροι γείτονες µέσα από ένα µεγάλο αριθµό δειγ-
µάτων. Για µια εκτενέστερη συζήτηση ο ενδιαφερόµενος αναγνώστης παραπέµπε-
ται στα [1, 2, 4].

¶·Ú¿‰ÂÈÁÌ· 7.5
Τα διανύσµατα εκπαίδευσης για δύο κλάσεις ω1, ω2 είναι:
Για την ω1:
x1 = (3.1, 2.5)T, x2 = (5.6, 7.1)T, x3 = (8.2, 2.4)T, x4 = (3.4, 3)T, x5 = (4.3, 8)T, x6 = (10,
11.1)T
x7 = (5.5, 3.5)T, x8 = (5.7, 2.5)T, x9 = (5,3)T.
Για την ω2:
x10 = (3.1, 3.9)T, x11 = (4,1)T, x12 = (7,2)T, x13 = (3.5, 3.5)T, x14 = (4.5, 3.8)T, x15 = (5.2,
2.6)T
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 161

7 . 6 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ ¶ § ∏ ™ π ∂ ™ ∆ ∂ ƒ ∏ ™ ° ∂ π ∆ ¡ π ∞ ™ ∏ ™ 161

x16 = (7.5, 2.8)T, x17 = (5.5, 2.5)T, x18 = (6,4)T.


Να ταξινοµηθεί το x = (4,3)Τ σύµφωνα µε τον ταξινοµητή k = 3 πλησιέστερων γειτόνων.
Απάντηση
Υπολογίζουµε τις αποστάσεις του x απ’ όλα τα διανύσµατα των κλάσεων ω1 ω2. Τα
τρία πλησιέστερα στο x διανύσµατα είναι τα x4 (ω1), x13 (5ω1) και x14 (ω2), µε Ευκλεί-
δειες αποστάσεις d4 = 0.60, d13 = 0.71 και d14 = 0.94, αντίστοιχα. Οι αποστάσεις όλων
των άλλων σηµείων είναι µεγαλύτερες. Σύµφωνα µε τον ταξινοµητή k = 3 πλησιέ-
στερων γειτόνων ταξινοµούµε το x στην κλάση ω2, εφόσον οι δύο από τους πλη-
σιέστερους γείτονες ανήκουν στην ω2.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 7.3

Για το πρόβληµα του παραδείγµατος 7.5, να ταξινοµηθεί το x = (6.2,4.3)Τ σύµφω-


να µε τον ταξινοµητή πλησιέστερης γειτνίασης k = 1.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 7.4

Σωστό Λάθος
1. Η επιλογή των ουσιωδών χαρακτηριστικών πρέπει να
γίνεται µε τέτοιο τρόπο ώστε αυτά να έχουν την ίδια
τιµή για όλα τα στοιχεία µιας κλάσης. ❏ ❏
2. Για να λυθεί το πρόβληµα ταξινόµησης δύο κλάσεων
χωρίζουµε πάντα τον δισδιάστατο χώρο, το επίπεδο,
σε περιοχές καθεµιά από τις οποίες θα αντιστοιχεί
σε µία κλάση. ❏ ❏
3. Ένας κατά Bayes ταξινοµητής στη λειτουργία του
παρουσιάζει σφάλµατα, όπως συµβαίνει και µε
οποιοδήποτε άλλο ταξινοµητή. Η πιθανότητα όµως
να συµβεί ένα σφάλµα είναι η ελάχιστη δυνατή. ❏ ❏
4. Ο ταξινοµητής ελάχιστης Ευκλείδειας απόστασης
είναι µια παραλλαγή του Bayessian ταξινοµητή,
γι’ αυτό επιτυγχάνει πάντα πιθανότητα σφάλµατος
PED ελάχιστη, ίση µε του ταξινοµητή Bayes, PB. ❏ ❏
5. Η ταξινόµηση µε την τεχνική των παραθύρων Parzen
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 162

162 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™

δεν απαιτεί κανένα άµεσο υπολογισµό για στατιστικά


στοιχεία των κλάσεων που ταξινοµούµε. ❏ ❏
6. Η τιµή της πιθανότητας σφάλµατος PNN
στους ταξινοµητές πλησιέστερου γείτονα είναι
πάντα ίση µε την πιθανότητα σφάλµατος PB του
Bayes ταξινοµητή. ❏ ❏

™‡ÓÔ„Ë
Στο κεφάλαιο αυτό έγινε µια συνοπτική περιγραφή του τρόπου επιλογής των ουσιω-
δών χαρακτηριστικών µε τα οποία περιγράφονται τα πρότυπα ενός συστήµατος ταξι-
νόµησης. Στη συνέχεια παρουσιάστηκε η κατηγορία των τεχνικών ταξινόµησης που
στηρίζονται σε στατιστικές µεθόδους. Στα πλαίσια των τεχνικών αυτών γνωρίσαµε
τον ταξινοµητή Bayes, καθώς και τους ταξινοµητές ελάχιστης απόστασης. Επίσης
γνωρίσαµε τεχνικές προσέγγισης των συναρτήσεων πυκνότητας πιθανότητας οι οποί-
ες οδηγούν σε µεθόδους ταξινόµησης, όπως τη χρήση των k πλησιέστερων γειτόνων
ή του ενός πλησιέστερου γείτονα.

µÈ‚ÏÈÔÁÚ·Ê›·

1. S. Theodoridis, K. Koutroumbas: «Pattern Recognition», Academic Press, 1998


2. R. Duda, P.E. Hart: Pattern Classification and Scene Analysis», John Wiley, 1973
3. L. Derroye. L. Gyorfi, G. Lugosi: «A Probabilistic Theory of Pattern
Recognition», Springer–Verlag, 1996
4. F. Fukunaga: «Introduction to Statistical Pattern Recognition», 2nd ed., Academic
Press, 1990
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 163

T·ÍÈÓÔÌËÙ¤˜ NÂ˘ÚˆÓÈÎÒÓ ¢ÈÎÙ‡ˆÓ

™ÎÔfi˜
∫ ∂

8
º

Σκοπός του παρόντος κεφαλαίου είναι να εισαγάγει τον αναγνώστη σε µία σχετικά
νέα κατηγορία ταξινοµητών, γνωστών ως νευρωνικά δίκτυα. Τα δίκτυα αυτά αποτε-
λούν σήµερα ένα από τα βασικά εργαλεία σχεδιασµού ταξινοµητών.
∞ § ∞ π √

¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Eπιλύσετε ένα πρόβληµα ταξινόµησης µε τον Αλγόριθµο Perceptron, όταν οι κλά-
σεις είναι γραµµικά διαχωρίσιµες.
• Σχεδιάζετε το κύκλωµα ενός νευρώνα ή την Αρχιτεκτονική Perceptron, που µπο-
ρεί να υλοποιήσει τον οµώνυµο αλγόριθµο.
• Σχεδιάζετε Perceptrons δύο ή τριών στρωµάτων για την επίλυση προβληµάτων
ταξινόµησης µε δύο ή περισσότερες κλάσεις.
• Περιγράψετε τη βασική µορφή του αλγορίθµου Οπισθοδροµικής ∆ιάδοσης, που
χρησιµοποιείται στην εκπαίδευση πολυστρωµατικών Perceptrons,

ŒÓÓÔȘ ÎÏÂȉȿ
• Αλγόριθµος Απότοµης Κατάδυσης
• Αλγόριθµος Εκµάθηνσης
• Αλγόριθµος Οπισθοδροµικής ∆ιάδοσης.
• Αλγόριθµος Perceptron
• Γραµµικά ∆ιαχωρίσιµες κλάσεις
• Εκπαίδευση του Perceptron
• Κρυφό Στρώµα Νευρώνων
• Λογιστική Συνάρτηση.
• Μηχανή που Μαθαίνει.
• Νευρώνας
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 164

164 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡

• Συνάρτηση Ενεργοποίησης ενός Perceptron


• Συνάρτηση Κόστους
• Σύναψη
• Ταξινοµητής Perceptron

∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Όπως έχουµε ήδη αναφέρει στο προηγούµενο κεφάλαιο, ο σκοπός ενός ταξινοµητή
είναι να χωρίσει το χώρο σε περιοχές και να τις «ονοµατίσει» σύµφωνα µε τις υπάρ-
χουσες κλάσεις. Ο βέλτιστος τρόπος για να επιτευχθεί αυτό είναι µε την εφαρµογή
του Bayesian ταξινοµητή. Είδαµε, όµως, ότι η εφαρµογή του βέλτιστου ταξινοµητή
δεν είναι πάντα εύκολη, λόγω έλλειψης πληροφορίας σχετικά µε τις αναγκαίες για
τους υπολογισµούς pdf’s.
Στο κεφάλαιο αυτό θα «ξεχάσουµε» τον κατά Bayes ταξινοµητή και θα προσπαθή-
σουµε να διαιρέσουµε το χώρο µε άλλους τρόπους. Οι τρόποι αυτοί θα είναι βέλτι-
στοι ως προς κάποιο κριτήριο, το οποίο όµως δεν είναι κατ’ ανάγκη η πιθανότητα
λάθους. Οι ταξινοµητές που θα εστιάσουµε έχουν τις ρίζες τους στην έρευνα που άρχι-
σε το τέλος της δεκαετίας του ’50 µε στόχο να κατασκευαστούν «µηχανές που µαθαί-
νουν». Στην κατεύθυνση αυτή έγινε προσπάθεια να µοντελοποιηθεί ο τρόπος µε τον
οποίο λειτουργούν τα βασικά στοιχεία του ανθρώπινου εγκεφάλου, οι νευρώνες.
Αυτός είναι και ο λόγος που οι ταξινοµητές που θα εξετάσουµε στο κεφάλαιο αυτό
είναι γνωστοί και ως νευρωνικά δίκτυα.
Στην αρχή του κεφαλαίου, στην Ενότητα 8.1, θα εστιάσουµε στο βασικό δοµικό στοι-
χείο τέτοιων ταξινοµητών, που είναι γνωστό ως Perceptron ή νευρώνας. Ο απλός
αυτός ταξινοµητής διαχωρίζει το χώρο γραµµικά µε ένα υπερεπίπεδο. Στη συνέχεια,
Ενότητα 8.2, το βασικό αυτό δοµικό στοιχείο χρησιµοποιείται για την ανάπτυξη πιο
πολύπλοκων αρχιτεκτονικών, µε δυνατότητες µη γραµµικής διαίρεσης του χώρου.
Στην ίδια ενότητα γίνεται η περιγραφή της µεθοδολογίας εκπαίδευσης πολυστρωµα-
τικών Perceptrons.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 165

8.1 √ ∞§°√ƒπ£ª√™ PERCEPTRON 165

8.1 √ ·ÏÁfiÚÈıÌÔ˜ Perceptron


Στην ενότητα αυτή θα εστιάσουµε και πάλι στο απλούστερο πρόβληµα των δύο κλάσε-
ων ω1 και ω2. Επιπλέον, θα υποθέσουµε ότι οι δύο αυτές κλάσεις είναι γραµµικά δια-
χωρίσιµες. Αυτό σηµαίνει, ότι υπάρχει τουλάχιστον ένα υπερεπίπεδο που να διαχωρίζει
πλήρως τις δύο κλάσεις. Με άλλα λόγια, υπάρχουν συντελεστές w0* , w1* ,..., wl* , τέτοιοι
ώστε το υπερεπίπεδο µε εξίσωση w1* x1 + w2* x2 + ... + wl* xl + w0* = 0 , ή xT w * + w0* = 0
να διαχωρίζει πλήρως τις δύο κλάσεις.
x2

x
w0
– wT = [w1,w2]
w2 z

™¯‹Ì· 8.1
w Γεωµετρική ερµη-
νεία των παραµέ-
τρων που περιγρά-
φουν µία ευθεία,
d
wTx+w0 = 0, για
w0 x1 w1>0, w2>0,

w1 – + w0<0 .

Στο Σχ. 8.1 φαίνεται η γεωµετρική ερµηνεία (για την περίπτωση δύο διαστάσεων)
των παραµέτρων που υπεισέρχονται στη γενική εξίσωση:
g(x) = wTx+w0 = 0 (8.1)
Για l διαστάσεις αυτή είναι η εξίσωση ενός υπερεπιπέδου, στον l–διάστατο χώρο,
των χαρακτηριστικών διανυσµάτων. Από τη µια πλευρά (+) του υπερεπιπέδου έχου-
µε g(x)>0 και από την άλλη πλευρά (–) g(x)<0. Το διάνυσµα παραµέτρων w είναι
κάθετο στο υπερεπίπεδο g(x) = 0. Οι αποστάσεις d και z του σχήµατος αποδεικνύε-
ται ότι δίνονται από τις σχέσεις:

w0 g ( x)
d= και z =
w12 + w22 w12 + w22

Όταν w0 = 0, το υπερεπίπεδο διέρχεται από την αρχή των αξόνων. Για τους σκοπούς
του κεφαλαίου µπορούµε να γράψουµε την (8.1) ισοδύναµα ως
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 166

166 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡

ˆ =0
xˆ T w (8.2)
όπου x̂ T = (xΤ,1) και ŵ T = (wT, w0). Με άλλα λόγια, η (8.2) µας λέει ότι µπορού-
µε να εργαζόµαστε ισοδύναµα στον (l+1)–διάστατο χώρο και µε υπερεπίπεδα που
διέρχονται από την αρχή των αξόνων. Στη συνέχεια θα εργαζόµαστε µε υπερεπίπε-
δα της µορφής wTx = 0 χωρίς, εποµένως, βλάβη της γενικότητας.
Το ζητούµενο τώρα είναι, εάν µας δοθούν τα Ν διανύσµατα εκπαίδευσης του Χ, πώς
µπορούµε να προσδιορίσουµε ένα υπερεπίπεδο που να διαχωρίζει τις κλάσεις. Τη
λύση την έδωσε πρώτος ο Rosenblatt [1]. Η πορεία που θα ακολουθήσουµε είναι
αυτή της ελαχιστοποίησης ενός κατάλληλα επιλεγµένου κόστους µε τη βοήθεια ενός
αναδροµικού αλγορίθµου. Η συνάρτηση κόστους, που υιοθετείται για το παρόν πρό-
βληµα, έχει ενδιαφέρον. Εάν w είναι το διάνυσµα των συντελεστών ενός υπερεπι-
πέδου, ορίζουµε τη Perceptron συνάρτηση κόστους ως

J (w) = ∑ (x w)δ
x ∈Y
T
x (8.3)

όπου Υ το σύνολο εκείνων των x ∈ X που ταξινοµούνται λάθος από το w και

−1, x ∈ω1
δx =  (8.4)
+1, x ∈ω 2

Προφανώς J( w ) ≥ 0 . Πράγµατι, εάν x ∈ω1 και ταξινοµείται λάθος, τότε θα πρέπει


x T w < 0 , που όµως πολλαπλασιάζεται µε –1 και γίνεται θετικό. Με ανάλογο σκεπτι-
κό καταλήγουµε ότι η ποσότητα είναι θετική όταν x ∈ω 2 και ταξινοµείται λάθος.
Πολλαπλασιάζοντας εποµένως µε το κατάλληλο κάθε φορά δx καθιστούµε το γινόµε-
νο πάντα θετικό. Η J(w) µηδενίζεται όταν όλα τα x ∈ X ταξινοµούνται σωστά και Υ
είναι το κενό σύνολο. Ένας αναδροµικός αλγόριθµος που ελαχιστοποιεί τη συνάρτη-
ση κόστους (8.3) είναι ο αλγόριθµος Perceptron, το t–βήµα του οποίου δίνεται από:

w(t + 1) = w(t ) − ρt ∑δ x
x ∈Y
x (8.5)

Για αρχικό όρο w(0) της ακολουθίας των διανυσµάτων–συντελεστών, που υπολογί-
ζεται µέσω της (8.5) χρησιµοποιείται ένα τυχαίο µη µηδενικό διάνυσµα, και για ρt
µια κατάλληλα επιλεγµένη ακολουθία, π.χ., ρt = σταθερά<2, ή ρt = σταθερά/t. Απο-
δεικνύεται ότι, κάτω από αυτές τις προϋποθέσεις ο αλγόριθµος Perceptron συγκλί-
νει σε µια λύση µετά από πεπερασµένο αριθµό βηµάτων αναδροµής. Το πόσα
βήµατα απαιτούνται εξαρτάται από την αρχική τιµή w(0) και την επιλογή της ρt. Για
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 167

8.1 √ ∞§°√ƒπ£ª√™ PERCEPTRON 167

πιο πολλές λεπτοµέρειες και µερικές θεωρητικές αναζητήσεις ο αναγνώστης παρα-


πέµπεται στο [2]. Θα πρέπει να τονιστεί ότι, ο αλγόριθµος δεν συγκλίνει όταν οι κλά-
σεις δεν είναι γραµµικά διαχωρίσιµες.
Η αναδροµή (8.5) µας λέει ότι στο βήµα t, όπου έχουµε το w(t), υπολογίζουµε τα
εσωτερικά γινόµενα xΤw(t) µε όλα τα x ∈ X , και δηµιουργούµε το άθροισµα στην
(8.5) από εκείνα τα διανύσµατα που ταξινοµούνται λάθος. Στη συνέχεια κάνουµε τη
διόρθωση w(t+1).
Η (8.5) δεν είναι η µοναδική µορφή του αλγόριθµου Perceptron. Μία άλλη δηµοφι-
λής µορφή είναι η ακόλουθη:

w(t + 1) = w(t ) + ρx ( t ) εάν x ( t ) ∈ω1 και w T (t )x ( t ) ≤ 0

w(t + 1) = w(t ) − ρx ( t ) εάν x ( t ) ∈ω 2 και w (t )x ( t ) ≥ 0


T
(8.6)

w(t + 1) = w(t ) διαφορετικά


Στη µορφή (8.6) παρουσιάζονται τα διανύσµατα εκπαίδευσης στον αλγόριθµο το ένα
µετά το άλλο και χρησιµοποιείται ένα µόνο διάνυσµα εκπαίδευσης σε κάθε βήµα του
αλγορίθµου. Με x(t) συµβολίζεται το δείγµα που έχει σειρά να παρουσιαστεί στο
βήµα t. Από την ίδια σχέση φαίνεται ότι αν το δείγµα αυτό ταξινοµείται σωστά, δεν
γίνεται διόρθωση. Εάν ταξινοµείται λάθος, τότε επιβάλουµε στο w(t) διορθωτικές
κινήσεις. Στο Σχ. 8.2, φαίνεται πώς ο αλγόριθµος στρέφει το επίπεδο, ώστε να τοπο-
θετήσει το x(t) στη σωστή κλάση. Η επιλογή του ρ εδώ παίζει προφανώς σηµαντικό
ρόλο. Αποδεικνύεται ότι και αυτός ο αλγόριθµος συγκλίνει σε πεπερασµένο αριθµό
βηµάτων, υπό την προϋπόθεση βέβαια ότι οι κλάσεις είναι γραµµικά διαχωρίσιµες.
Πρέπει να τονιστεί ότι για να επιτευχθεί σύγκλιση θα πρέπει, συνήθως, να χρησιµο-
ποιήσουµε τα διανύσµατα του X περισσότερες από µία φορές. Κάθε φορά που εξα-
ντλούµε τα στοιχεία του Χ λέµε ότι συµπληρώσαµε µία εποχή (epoch). Στη συνέ-
χεια παρουσιάζονται τα διανύσµατα στον αλγόριθµο από την αρχή. Για να επιτευ-
χθεί σύγκλιση απαιτείται ένας αριθµός εποχών.
Μετά τη σύγκλιση του αλγορίθµου Perceptron και τον υπολογισµό των παραµέτρων
wi, i = 0,…, l, η ταξινόµηση γίνεται σύµφωνα µε το πρόσηµο του wTx, όπου x το
(επαυξηµένο µε 1) προς ταξινόµηση άγνωστο διάνυσµα. Όταν το πρόσηµο της ποσό-
τητας είναι θετικό το x βρίσκεται στη µια πλευρά του υπερεπιπέδου και ταξινοµεί-
ται στην ω1, ενώ όταν το πρόσηµο είναι αρνητικό το x βρίσκεται στην άλλη πλευρά
του υπερεπιπέδου και ταξινοµείται στην ω2.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 168

168 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡

x2

x(t)
™¯‹Ì· 8.2
w(t+1)
Η ευθεία w(t)(δια-
κεκοµένη) ταξινο-
µεί λάθος το x(t). w* x(t)
Ο αλγόριθµος
Perceptron στρέ- x1
φει το επίπεδο
(w(t+1)) ώστε να
ω1
περιλάβει το x(t)
στη σωστή κλάση. ω2

¶·Ú¿‰ÂÈÁÌ· 8.1
Σε ένα πρόβληµα ταξινόµησης δύο κλάσεων χρησιµοποιούνται διανύσµατα χαρα-
κτηριστικών µε δύο συνιστώσες. Στο Σχ. 8.3 έχουν σχεδιαστεί µε «+» και «ο» τα
αναγνωρισµένα διανύσµατα καθώς και η ευθεία µε εξίσωση x1+x2–0.5 (αυτή µε τη
διακεκοµµένη γραµµή), η οποία έχει προκύψει κατά την εκτέλεση του t βήµατος της
(8.5). Όπως φαίνεται από το σχήµα, η ευθεία αυτή χωρίζει το χώρο των χαρακτηρι-
στικών αφήνοντας όµως τα διανύσµατα (0.4, 0.05)Τ και (–0.2, 0.75)Τ σε λάθος περιο-
χή. Να εκτελεστεί η επόµενη επανάληψη του αλγορίθµου της (8.5), να υπολογιστεί
η νέα εξίσωση της ευθείας, να σχεδιαστεί η ευθεία στο διάγραµµα και να εξεταστεί
αν διαχωρίζει σωστά όλα τα δείγµατα. ∆ίνεται ρt = ρ = 0.7.
Απάντηση
Από τα δεδοµένα προκύπτουν: w(t) = (1,1,–0.5)T, x1 = (0.4,0.05,1)T, x2 =
(–0.2,0.75,1)T, δx1 = –1, και δx2 = 1.
Η επόµενη επανάληψη, σύµφωνα µε την (8.5) δίνει:
w(t+1) = w(t)–ρ(δx1x1+ δx2x2), ή
w(t+1) = (1,1,–0.5)T–0.7[(–1) (0.4,0.05,1)T+(+1) (–0.2,0.75,1)T], ή
w(t+1) = (1.42,0.51,–0.5)T.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 169

8.1 √ ∞§°√ƒπ£ª√™ PERCEPTRON 169

x2 1

0.5

™¯‹Ì· 8.3
Ένα παράδειγµα
–0.5
–0.5 0 0.5 1 του αλγόριθµου
x1 Perceptron.

Από το διάνυσµα των συντελεστών προκύπτει η εξίσωση της ευθείας


1.42x1+0.51x2–0.5 = 0, η οποία όταν χαραχθεί στο διάγραµµα του σχήµατος (συνε-
χής γραµµή) διαπιστώνουµε ότι ταξινοµεί σωστά όλα τα διανύσµατα και, εποµένως,
η (t+1) επανάληψη είναι και η τελική.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 8.1

Η κλάση ω1 περιλαµβάνει τα διανύσµατα (0,0)Τ και (0,1)Τ, και η κλάση ω2 τα (1,1)Τ


και (1,0)Τ. Να χρησιµοποιηθεί ο αλγόριθµος Perceptron (8.6) µε ρ = 1 και επαυξη-
µένου w(0) = (0,1,0)Τ ώστε να υπολογίσει µια ευθεία που να διαχωρίζει τις κλάσεις.

8.1.1 ∏ ·Ú¯ÈÙÂÎÙÔÓÈ΋ Perceptron

Στο Σχ. 8.4 φαίνεται η αρχιτεκτονική Perceptron ή όπως επίσης λέγεται ενός νευ-
ρώνα. Τα ουσιώδη χαρακτηριστικά x1,…, xl διεγείρουν τα στοιχεία (nodes) της εισό-
δου. Καθένα από αυτά πολλαπλασιάζεται µε το αντίστοιχο βάρος wi. Τα wi είναι γνω-
στά ως συνάψεις. Τα επιµέρους γινόµενα αθροίζονται µαζί µε το w0, γνωστό ως
κατώφλιο (threshold). Ο υπολογισµός των συνάψεων και του κατωφλίου γίνεται µε
τη βοήθεια του αλγoρίθµου Perceptron. Στη συνέχεια η έξοδος του αθροιστή περνά
από µία µη γραµµική συνάρτηση f(.), που στην προκειµένη περίπτωση είναι η µονα-
διαία βηµατική συνάρτηση.
1, z > 0
f (z) = 
0, z < 0
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 170

170 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡

Η συνάρτηση αυτή είναι γνωστή και ως συνάρτηση ενεργοποίησης (activation) του


Perceptron. Με άλλα λόγια, το Perceptron υλοποιεί ένα υπερεπίπεδο wTx+w0 = 0 και
η έξοδος είναι 1 ή 0 ανάλογα από το αν το x βρίσκεται στη µία ή την άλλη πλευρά
του υπερεπιπέδου. Σε άλλες περιπτώσεις η f(.) µπορεί να έχει και άλλη µορφή. Για
™¯‹Ì· 8.4 παράδειγµα, η έξοδος µπορεί να είναι –1 ή 1.
(a) Αρχιτεκτονική
x1 x1
Perceptron και (b)
x2 w1 x2 w1
συµβολισµός όπου
ο αθροιστής και η w2 w2
Σ f
συνάρτηση ενερ-
γοποίησης συµβο- wl wl
λίζονται από κοι- xl w0 xl w0
νού µε ένα κύκλο. (α) (β)

Το βασικό αυτό στοιχείο χρησιµοποιήθηκε από τον Rosenblat στα τέλη της δεκαε-
τίας του 50 για να µοντελοποιήσει τους βασικούς νευρώνες του εγκεφάλου. Είναι
ένα απλό παράδειγµα µιας µηχανής που µαθαίνει (learning mahine). Με άλλα
λόγια, ενός στοιχείου του οποίου οι ελεύθερες παράµετροι (π.χ. συνάψεις κατώφλι)
υπολογίζονται µε τη βοήθεια ενός αλγορίθµου εκµάθηνσης (π.χ., αλγόριθµος
Perceptron) που ενεργεί πάνω στο σύνολο των διανυσµάτων εκπαίδευσης.

8.2 ªË ÁÚ·ÌÌÈο ‰È·¯ˆÚ›ÛÈÌ· ÚÔ‚Ï‹Ì·Ù·

8.2.1 ¶ÚÔ‚Ï‹Ì·Ù· Perceptrons 2–ÛÙڈ̿وÓ

Το Perceptron είναι ένας βασικός ταξινοµητής κατάλληλος για γραµµικά διαχωρί-


σιµα προβλήµατα. Τα προβλήµατα όµως αυτά αποτελούν µειοψηφία στην πράξη.
Στη συνέχεια θα εστιάσουµε σε ένα, γνωστό σε όλους µας, πρόβληµα που δεν επι-
δέχεται γραµµική προσέγγιση.
Οι Boolean συναρτήσεις µπορούν να εκληφθούν ότι εκτελούν χρέη ταξινόµησης σε
πρόβληµα δύο κλάσεων. Πράγµατι, η έξοδος µιας τέτοιας συνάρτησης είναι «1», ή «0»
εξαρτώµενη από την τιµή των δυαδικών δεδοµένων x = (x1, x2,..., xl)T της εισόδου της.
Με αυτό τον τρόπο τo x ταξινοµείται στην κλάση ω1 («1»), ή ω2 («0»). Η Boolean
XOR πράξη είναι ένα κλασικό µη γραµµικό πρόβληµα ταξινόµησης. Στον Πίνακα 8.1
δίνονται οι Αληθοπίνακες των λογικών πράξεων XOR και ΟR για δύο εισόδους x1, x2.
Στα Σχήµατα 8.5α και 8.5β φαίνονται τα αντίστοιχα σηµεία στο δισδιάστατο χώρο
χαρακτηριστικών µαζί µε τις κλάσεις που ανήκουν. Είναι σαφές ότι δεν υπάρχει µια
µοναδική ευθεία (υπερεπίπεδο) που να χωρίζει τις δύο κλάσεις στο XOR πρόβληµα,
ενώ αυτό είναι εφικτό στο γραµµικά διαχωρίσιµο πρόβληµα της πράξης OR.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 171

8 . 2 ª ∏ ° ƒ∞ ª ª π ∫ ∞ ¢ π ∞ à ø ƒ π ™ π ª ∞ ¶ ƒ √ µ § ∏ ª ∞∆∞ 171

x2 x2

XOR OR

ω1 ω2 ω1 ω1
1 1

™¯‹Ì· 8.5
ω2 ω1 ω2 ω2 Γεωµετρία του
0 1 x1 0 1 x1 προβλήµατος (a)
(α) (β) XOR και (b) OR.

¶›Ó·Î·˜ 8.1
Οι Αληθοπίνακες των πυλών ΧΟR και ΟR.
x1 x2 XOR Κλάση x1 x2 OR Κλάση
0 0 0 ω2 0 0 0 ω2
0 1 1 ω1 0 1 1 ω1
1 0 1 ω1 1 0 1 ω1
1 1 0 ω2 1 1 1 ω1

Για την αντιµετώπιση του προβλήµατος XOR θα ακολουθήσουµε την εξής πορεία.
Θα σχηµατίσουµε δύο αντί µιας ευθείας (υπερεπίπεδα), όπως φαίνεται στο Σχ. 8.6.
Η κλάση ω1 βρίσκεται µεταξύ των ευθειών και η ω2 εκτός των ευθειών. Ας δούµε
τώρα αυτή τη διαδικασία λίγο διαφορετικά, που θα µας οδηγήσει αργότερα σε γενι-
κεύσεις. Στην ουσία χωρίζουµε τους υπολογισµούς µας σε δύο φάσεις. Στην πρώτη
φάση δηµιουργούµε δύο υπερεπίπεδα g1(x) = 0 και g2(x) = 0, χρησιµοποιώντας δύο
Perceptrons. Η έξοδος των Perceptrons αυτών είναι y1 και y2 αντίστοιχα, όπως φαί-
νεται και στον Πίνακα 8.2.
Πράγµατι, σε σχέση µε το πρώτο υπερεπίπεδο (ευθεία) g1(x) του Σχ. 8.6 (έξοδος y1
στον στον Πίνακα) µόνο το (0,0) σηµείο βρίσκεται στη (–) πλευρά και όλα τα άλλα
στην (+). Το τοπίο αλλάζει για το υπερεπίπεδο (ευθεία) g2(x) (έξοδος y2). Συνδυά-
ζοντας τώρα τα y1, y2, Σχ.8.7, παρατηρούµε ότι τα σηµεία της κλάσης ω2 (µεταξύ
των ευθειών στο Σχ. 8.6) αντιστοιχούν σε ένα σηµείο (1, 0) και τα εκτός των ευθει-
ών (Σχ. 8.6) στα σηµεία (0, 0) και (1, 1). Τα τρία όµως αυτά σηµεία είναι γραµµικά
διαχωρίσιµα!
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 172

172 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡

x2

ω1 ω2
(0,1)
(1,1)

™¯‹Ì· 8.6
ω2 ω1
Ταξινόµηση του
(0,0) (1,0) x1
XOR µε δύο
ευθείες. g1(x) g2(x)

¶›Ó·Î·˜ 8.2
Αληθοπίνακας για τις δύο φάσεις υπολογισµού του XOR προβλήµατος.
1η φάση 2η φάση
x1 x2 y1 y2
0 0 0(–) 0(–) ω2 (0)
1 0 1(+) 0(–) ω1 (1)
0 1 1(+) 0(–) ω1 (1)
1 1 1(+) 1(+) ω2 (0)

y2

ω2
(1,1)

™¯‹Ì· 8.7
Τα σηµεία του
XOR προβλήµα-
τος είναι γραµµικά ω2 ω1
διαχωρίσιµα στον
(0,0) (1,0) y1
νέο χώρο (y1,y2).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 173

8 . 2 ª ∏ ° ƒ∞ ª ª π ∫ ∞ ¢ π ∞ à ø ƒ π ™ π ª ∞ ¶ ƒ √ µ § ∏ ª ∞∆∞ 173

Με άλλα λόγια, στην πρώτη φάση υπολογισµών µετασχηµατίζουµε το χώρο των


χαρακτηριστικών σε ένα νέο χώρο (y1, y2). Στον µετασχηµατισµένο αυτό χώρο, οι
κλάσεις είναι γραµµικά διαχωρίσιµες και στη δεύτερη φάση υπολογισµών οι κλά-
σεις διαχωρίζονται µε ένα τρίτο Perceptron στο χώρο (y1, y2). Το Σχ 8.8 δείχνει µια
τέτοια αρχιτεκτονική που υλοποιεί το XOR πρόβληµα. Το δίκτυο που προκύπτει
είναι γνωστό και ως Perceptron 2 στρωµάτων. Τα ουσιώδη χαρακτηριστικά εφαρ-
µόζονται στα στοιχεία εισόδου. Τα δύο Perceptrons ή νευρώνες του πρώτου στρώ-
µατος, γνωστό και ως κρυφό στρώµα, µετασχηµατίζουν την είσοδο στο χώρο (y1,
y2), που είναι ο συνδυασµός των εξόδων των Perceptrons του πρώτου στρώµατος.
Στη συνέχεια, το τρίτο Perceptron, γνωστό ως Perceptron ή νευρώνας εξόδου υλο-
ποιεί το υπερεπίπεδο που λύνει το γραµµικό πρόβληµα στον (y1, y2) χώρο. Τα βάρη
του Σχ. 8.8 αντιστοιχούν στις ευθείες των σχηµάτων 8.6 και 8.7. Η αρχιτεκτονική
αυτή γενικεύεται άµεσα και για l εισόδους και περισσότερους από δύο, p, νευρώνες
στο κρυφό στρώµα, Σχ. 8.9.

x1 1
1
1 ™¯‹Ì· 8.8
–1
1
2 –1 Perceptron
2
–1
2 στρωµάτων για
1
x2 την επίλυση
του XOR
–3
2 προβλήµατος.

Το παραπάνω σκεπτικό του µετασχηµατισµού του χώρου των χαρακτηριστικών σε


έναν άλλο χώρο δεν είναι µεµονωµένο, αλλά εντάσσεται σε ένα γενικότερο σηµα-
ντικό θεωρητικό αποτέλεσµα. Αποδεικνύεται ότι µεταβαίνοντας σε ένα νέο χώρο,
εν γένει µεγαλύτερης διάστασης, η πιθανότητα το πρόβληµα να µετατραπεί σε γραµ-
µικά διαχωρίσιµο αυξάνει [2].

x1 y1

y2
x2

™¯‹Ì· 8.9

yp Αρχιτεκτονική
xl Perceptron 2
στρωµάτων
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 174

174 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡

8.2.2 ¢È·¯ˆÚÈÛÙÈ΋ ÈηÓfiÙËÙ· ÙˆÓ Perceptrons ‰‡Ô ÛÙڈ̿وÓ

Στο Σχ. 8.9, καθένας από τους p νευρώνες του κρυφού στρώµατος υλοποιεί ένα υπε-
ρεπίπεδο, στον l–διάστατο χώρο των χαρακτηριστικών. Η έξοδος του κάθε νευρώ-
να είναι 1 ή 0 ανάλογα µε τη θέση του διανύσµατος εισόδου ως προς το αντίστοιχο
υπερεπίπεδο. Το Σχ. 8.10 αντιστοιχεί σε ένα Perceptron στο δισδιάστατο (l = 2) χώρο
µε τρεις νευρώνες στο κρυφό στρώµα (ένας για κάθε ευθεία). Οι τρεις ευθείες g1, g2,
g3 χωρίζουν το επίπεδο των χαρακτηριστικών σε επτά περιοχές (πολύεδρα στη γενι-
κή περίπτωση). Σε καθεµιά από αυτές τις περιοχές αντιστοιχεί και µια τριάδα αριθ-
µών (y1, y2, y3) που δείχνει τη σχετική θέση (1(+) και 0(–)) της περιοχής ως προς τις
ευθείες g1, g2, g3, αντίστοιχα. Στο σχήµα επίσης οι δύο περιοχές έχουν αντιστοιχη-
θεί, στις δύο κλάσεις.

+ g3
ω2x
– 111
ω2x
ω1x 110
™¯‹Ì· 8.10
011
Περιοχές που ω2x
+ 010
χωρίζουν τον δισ- – ω1x ω1x ω2x g2
διάστατο χώρο 001 000 100
τρεις ευθείες. + – g1

Με άλλα λόγια, ο «κωδικός» κάθε περιοχής είναι το σηµείο (y1, y2, y3) στο χώρο που
µετασχηµατίζουν την 2–διάστατη είσοδο οι τρεις νευρώνες του κρυφού στρώµατος.
Ουσιαστικά, αυτός είναι ένας µετασχηµατισµός της εισόδου στις κορυφές ενός µονα-
διαίου κύβου (υπερκύβου στην περίπτωση p>3 νευρώνων). Το κρίσιµο ζήτηµα εδώ
είναι το πώς κατανέµονται οι περιοχές αυτές στις δύο κλάσεις ω1, ω2. Για το παρά-
δειγµα του σχήµατος 8.10, οι κλάσεις είναι έτσι κατανεµηµένες, ώστε οι κορυφές
του κύβου που αντιστοιχούν στην κλάση ω1 να είναι γραµµικά διαχωρίσιµες από τις
κορυφές που αντιστοιχούν στην κλάση ω2. (Παρατηρήστε ότι µία κορυφή, η 101 γι’
αυτή την περίπτωση δεν αντιστοιχεί σε περιοχή. Αυτό συµβαίνει πάντα και η κορυ-
φή αυτή δεν επηρεάζει το πρόβληµα.). Έτσι, η υλοποίηση ενός επιπέδου από το νευ-
ρώνα εξόδου διαχωρίζει τις κλάσεις, Σχ. 8.11. Εάν όµως οι περιοχές κατανέµονται
στις κλάσεις έτσι ώστε οι κορυφές του κύβου που αντιστοιχούν στην κλάση ω1 να
µην είναι γραµµικά διαχωρίσιµες από εκείνες που αντιστοιχούν στην ω2, τότε δεν
είναι δυνατόν το επίπεδο που υλοποιεί ο νευρώνας εξόδου να διαχωρίσει τις δύο κλά-
σεις. Για παράδειγµα, εάν η ω1 αποτελείται από τις περιοχές 000 και 111 και η ω2
από τις υπόλοιπες, δεν θα ήταν δυνατόν να σχεδιάσουµε ένα επίπεδο που να έχει στη
µια του πλευρά τις κορυφές της ω1 και στην άλλη πλευρά τις υπόλοιπες.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 175

8 . 2 ª ∏ ° ƒ∞ ª ª π ∫ ∞ ¢ π ∞ à ø ƒ π ™ π ª ∞ ¶ ƒ √ µ § ∏ ª ∞∆∞ 175

011 111
™¯‹Ì· 8.11
Οι κωδικοί των περιο-
χών του σχήµατος
010
8.10 αντιστοιχούν στις
κορυφές ενός κύβου.
101
y2 y3 Το επίπεδο, που υλο-
ποιεί ο νευρώνας εξό-
δου, διαχωρίζει τις
000 100 y1 κλάσεις.

Συνοψίζοντας, µπορούµε να πούµε ότι ένα Perceptron 2–στρωµάτων είναι δυνατόν


να διαχωρίσει δύο κλάσεις που αποτελούνται από ενώσεις πολυεδρικών περιοχών,
αλλά όχι οποιαδήποτε ένωση πολυεδρικών περιοχών.

8.2.3 Perceptrons 3–ÛÙڈ̿وÓ

Το προηγούµενο «αδιέξοδο» που δηµιουργήθηκε µε τα Perceptron 2–στρωµάτων


µπορούµε εύκολα να το υπερκεράσουµε χρησιµοποιώντας, για µια ακόµη φορά, την
εµπειρία µε την οποία µας εµπλούτισε το XOR πρόβληµα. Εάν οι δύο κλάσεις αντι-
στοιχούν στις κορυφές του υπερκύβου (µετά τον αρχικό µετασχηµατισµό) µε τρόπο
που να µην είναι γραµµικά διαχωρίσιµες, τότε ας επιχειρήσουµε να σχεδιάσουµε
περισσότερα από ένα υπερεπίπεδα και να δηµιουργήσουµε ένα ακόµη στρώµα στο
Perceptron. Η λύση εδώ περιλαµβάνει τρεις φάσεις.
Στην πρώτη φάση, ο χώρος των χαρακτηριστικών µετασχηµατίζεται στις κορυφές
ενός υπερκύβου, µε τα Perceptrons του 1ου στρώµατος. Στη συνέχεια, επιλέγουµε
όλες τις κορυφές που αντιστοιχούν στη µία από τις δύο κλάσεις, ας πούµε την ω1.
Για καθεµιά από τις κορυφές αυτές, υλοποιούµε (στο µετασχηµατισµένο χώρο) ένα
υπερεπίπεδο µε τη βοήθεια ενός νευρώνα. Οι συντελεστές υπολογίζονται έτσι ώστε
η συγκεκριµένη κορυφή να βρίσκεται στην (+) πλευρά και όλες οι άλλες στην (–).
Άρα η έξοδος του νευρώνα αυτού είναι 1 µόνο για τα σηµεία της περιοχής που αντι-
στοιχεί στη συγκεκριµένη κορυφή και 0 για όλες τις άλλες περιοχές (ανεξάρτητα της
κλάσης). Επαναλαµβάνουµε την παραπάνω διαδικασία ξεχωριστά για καθεµιά από
τις κορυφές που αντιστοιχούν στην κλάση ω1. Εάν, για παράδειγµα, είχαµε p τέτοι-
ες κορυφές, στη δεύτερη αυτή φάση υπολογισµών θα χρειαζόµαστε p νευρώνες.
Παρατηρήστε ότι, κάθε φορά, που εµφανίζεται ένα x από κάποια περιοχή που ανή-
κει στην ω1, τότε ο ένας από τους p νευρώνες θα δίνει έξοδο 1 και όλοι οι άλλοι 0.
Αντίθετα, όταν το x ανήκει σε οποιαδήποτε από τις περιοχές της ω2, τότε όλοι οι p
νευρώνες θα δίνουν έξοδο 0. Εποµένως, παρέχοντας τις εξόδους των p νευρώνων ως
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 176

176 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡

είσοδο σε ένα άλλο νευρώνα που υλοποιεί µια OR πύλη, η έξοδος του νευρώνα
αυτού θα είναι πάντα 1 για την ω1 και 0 για την ω2.

x1

x2

™¯‹Ì· 8.12
Αρχιτεκτονική
Perceptron 3 xl
στρωµάτων.

Η αρχιτεκτονική του σχήµατος 8.13 υλοποιεί την παραπάνω αλληλουχία υπολογισµών.


Το νευρωνικό αυτό δίκτυο είναι γνωστό ως Perceptron 3–στρωµάτων. Τα ουσιώδη
χαρακτηριστικά εφαρµόζονται στα στοιχεία εισόδου. Οι νευρώνες του 1ου κρυφού
στρώµατος υλοποιούν τα υπερεπίπεδα της πρώτης φάσης υπολογισµών. Οι νευρώνες
του 2ου κρυφού στρώµατος αντιστοιχούν στη 2η φάση υπολογισµών και πραγµατο-
ποιούν το διαχωρισµό των περιοχών. Ο νευρώνας εξόδου αντιστοιχεί στην τρίτη φάση
υπολογισµών, υλοποιεί µια πύλη OR και πραγµατοποιεί το διαχωρισµό των κλάσεων.
Με την παραπάνω κατασκευαστική απόδειξη, αποδείξαµε ότι ένα Perceptron 3–στρω-
µάτων µπορεί να διαχωρίσει σε δύο κλάσεις οποιαδήποτε ένωση πολυεδρικών περιοχών
στο χώρο των χαρακτηριστικών διανυσµάτων. Το αποτέλεσµα αυτό είναι πολύ σηµαντι-
κό και αναδεικνύει τις δυνατότητες ταξινόµησης αυτού του τύπου νευρωνικών δικτύων.
Παρατηρήσεις
1. Εάν έχουµε περισσότερες των δύο κλάσεων, η φιλοσοφία που εκθέσαµε είναι άµεσα
επεκτάσιµη, αρκεί να αυξήσουµε τους νευρώνες εξόδου και να αντιστοιχήσουµε ένα
νευρώνα σε κάθε κλάση. Κάθε φορά που ένα πρότυπο x από µία κλάση εφαρµόζε-
ται στο δίκτυο, ο αντίστοιχος νευρώνας εξόδου θα δίνει 1 και οι υπόλοιποι 0.
2. Μέχρις στιγµής, αναδείξαµε τις δυνατότητες ταξινόµησης των πολυστρωµατικών
Perceptrons. Στην πράξη, βέβαια, ο υπολογισµός των συνάψεων δεν είναι δυνατόν
να γίνει αναλυτικά. Όπως και για το βασικό Perceptron, έτσι και για τα γενικευµέ-
να αυτά νευρωνικά δίκτυα θα πρέπει να αναπτύξουµε αλγορίθµους εκµάθηνσης.
3. Ένα άλλο βασικό ερώτηµα, που συνδέεται µε τα πολυστρωµατικά Perceptrons,
είναι ο υπολογισµός του αριθµού των νευρώνων για κάθε στρώµα. Στην πράξη,
όπου οι περιοχές των κλάσεων δεν είναι γνωστές εκ των προτέρων, αυτό δεν είναι
εύκολο θέµα. Επίσης, στην πράξη οι διάφορες περιοχές δεν είναι απαραίτητα
πολύεδρα. Η µελέτη και οι δυνατότητες των νευρωνικών δικτύων, σε σχέση µε
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 177

8 . 2 ª ∏ ° ƒ∞ ª ª π ∫ ∞ ¢ π ∞ à ø ƒ π ™ π ª ∞ ¶ ƒ √ µ § ∏ ª ∞∆∞ 177

άλλους ταξινοµητές, αποτελεί ακόµη ανοικτό θέµα έρευνας.

¶·Ú¿‰ÂÈÁÌ· 8.2
∆ίνονται τα παρακάτω διανύσµατα και οι κλάσεις στις οποίες ανήκουν:
ω1: (0.1, – 0.2)Τ, (0.2, 0.1)Τ, (–0.15, 0.2)Τ, (1.1, 0.8)Τ, (1.2, 1.1)Τ
ω2: (1.1, – 0.1)Τ, (1.25, 0.15)Τ, (0.9, 0.1)Τ, (0.1, 1.2)Τ, (0.2, 0.9)Τ
Να ελεγχθεί εάν αυτά είναι γραµµικά διαχωρίσιµα, και να σχεδιαστεί µια κατάλλη-
λη αρχιτεκτονική Perceptron που να τα διαχωρίζει.
Απάντηση

Από το Σχ. 8.13 φαίνεται πως τα διανύσµατα αυτά δεν είναι γραµµικά διαχωρίσιµα. ∆ύο
ευθείες γραµµές που διαχωρίζουν τις δύο κλάσεις είναι οι 2x1+2x2–1 = 0 και 2x1+2x2–3
= 0. Εποµένως, το Perceptron δύο στρωµάτων του σχήµατος 8.13 ταξινοµεί τις κλάσεις.
Ο νευρώνας εξόδου υλοποιεί την ευθεία y1 − y2 − 1 / 2 = 0 στον (y1, y2) χώρο.

x2

1.5 x1 2
1
2
–1
2 –1 ™¯‹Ì· 8.13
–1
0.5 x2 2
2 Γεωµετρία του
–3 παραδείγµατος 8.2
0.5 1.5 x1 και το Perceptron
g1 g2 που επιλύει το
(α) (β) πρόβληµα.

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 8.2

Σχεδιάστε τις ακόλουθες τρεις ευθείες στο χώρο των δύο διαστάσεων: x1+x2 = 0,
x2 = 1/4, –x1+x2 = 0.
Για καθεµιά από τις περιοχές που δηµιουργούνται από τις τοµές τους, προσδιορίστε
τις κορυφές του κύβου στις οποίες αντιστοιχούν, µετά το µετασχηµατισµό που υλο-
ποιούν οι νευρώνες του πρώτου στρώµατος ενός πολυστρωµατικού Perceptron. Συν-
δυάστε τις περιοχές που δηµιουργούνται έτσι ώστε α) το πρόβληµα να είναι διαχωρί-
σιµο από Perceptron 2 στρωµάτων και β) από Perceptron 3 στρωµάτων. Για καθεµιά
από τις περιπτώσεις προσδιορίστε αναλυτικά συνάψεις και παραµέτρους κατωφλίου.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 178

178 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡

8.2.4 √ ·ÏÁfiÚÈıÌÔ˜ ÔÈÛıÔ‰ÚÔÌÈ΋˜ ‰È¿‰ÔÛ˘

Στην παρούσα υποενότητα θα περιγράψουµε µια µεθοδολογία εκπαίδευσης πολυ-


στρωµατικών Perceptrons. Υποθέτουµε ότι:

• Υπάρχουν Ν διανύσµατα εκπαίδευσης, X = {x(1), x(2),..., x( N )} . Για καθένα από


τα δείγµατα αυτά γνωρίζουµε την κλάση που προέρχεται. Αυτό θα περιγράφεται µε
ένα αντίστοιχο διάνυσµα y(i ) = (0, 0,...,1,..., 0)T , i = 1, 2, …, N. Το διάνυσµα
y(i ) ∈ R m έχει όλα τα στοιχεία 0, εκτός από το στοιχείο στην θέση r, όπου r η κλάση
που ανήκει το αντίστοιχο x(i) και r ∈{1, 2,..., m} , για ένα πρόβληµα m κλάσεων.

• Θεωρούµε ότι έχουµε l στοιχεία εισόδου ( x ∈Rl ) , και m νευρώνες εξόδου, ένα
για κάθε κλάση. Η έξοδος κάθε νευρώνα, όταν στην είσοδο εµφανίζεται το x(i),
είναι yˆ p (i ), p = 1, 2,..., m . Οι έξοδοι αυτοί αποτελούν τα στοιχεία ενός διανύσµα-
)
τος y(i ) , το οποίο θα θέλαµε, ιδανικά, να ισούται µε y(i ) . Στην πραγµατικότη-
)
τα όµως διαφέρουν. Αυτός είναι ο λόγος που το y(i ) είναι γνωστό ως το πραγ-
µατικό διάνυσµα εξόδου και το y(i ) ως το επιθυµητό.

• Στην πράξη επιλέγουµε τη διαφορά µεταξύ επιθυµητών και πραγµατικών εξόδων


να είναι ελάχιστη. Ένα τέτοιο κριτήριο είναι το ολικό τετραγωνικό σφάλµα:

N
J= ∑ Ε (i )
i =1

όπου
m

∑ ( yˆ (i) − y (i))
1
Ε (i ) = p p
2
2 p =1

• Η ελαχιστοποίηση του κόστους J µε τη βοήθεια αναδροµικών αλγορίθµων απαι-


τεί την παραγώγιση του κόστους ως προς τις άγνωστες παραµέτρους, δηλαδή τις
συνάψεις και τις παραµέτρους κατωφλίου όλων των νευρώνων όλων των στρω-
µάτων. Αυτό όµως δεν είναι δυνατόν, όταν οι συναρτήσεις ενεργοποίησης των
νευρώνων είναι η ασυνεχής µοναδιαία βηµατική συνάρτηση. Η δυσκολία αυτή
µπορεί να ξεπεραστεί εάν στη θέση της µοναδιαίας βηµατικής υιοθετήσουµε τη
λογιστική (logistic) συνάρτηση που ορίζεται ως:

1
f (x) =
1 + exp( − ax )
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 179

8 . 2 ª ∏ ° ƒ∞ ª ª π ∫ ∞ ¢ π ∞ à ø ƒ π ™ π ª ∞ ¶ ƒ √ µ § ∏ ª ∞∆∞ 179

όπου η παράµετρος α καλείται κλίση της συνάρτησης. Όσο πιο µεγάλη η τιµή της τόσο
πιο πολύ πλησιάζει η f(x) τη µοναδιαία βηµατική, Σχ. 8.14. Η προσέγγιση της βηµα-
τικής από τη λογιστική συνάρτηση είναι µία από πολλές άλλες δυνατές επιλογές [2].

f(x)
1

α3 > α2 > α1

™¯‹Ì· 8.14
Η λογιστική
συνάρτηση για διά-
0 x φορες τιµές του α.

• Ο αναδροµικός αλγόριθµος ελαχιστοποίησης που παρουσιάζουµε, ανήκει στην


κατηγορία των αλγορίθµων απότοµης κατάδυσης (gradient descent) [2], και είναι
της µορφής
w qj (t + 1) = w qj (t ) + ∆w qj

όπου w qj είναι το διάνυσµα των παραµέτρων (συνάψεις και κατώφλι) του j–νευ-
ρώνα στο q στρώµα και t το παρόν βήµα αναδροµής του αλγορίθµου. Η διόρθωση
∆ είναι ανάλογη του gradient του κόστους J ως προς w qj (t). Λόγω της πολυπλο-
κότητος ενός πολυστρωµατικού Perceptron ο υπολογισµός του gradient δεν είναι
απλός. Ο βασικός λόγος είναι ότι οι τιµές των παραµέτρων των νευρώνων ενός
στρώµατος επηρεάζονται από τις τιµές των παραµέτρων των νευρώνων των προη-
γούµενων στρωµάτων. Ο υπολογισµός των gradients επιτυγχάνεται υπολογίζοντας
πρώτα τα gradients ως προς τους νευρώνες του τελευταίου στρώµατος, στη συνέ-
χεια του προτελευταίου, κ.ο.κ. Αυτός είναι ο λόγος που ο αλγόριθµος είναι γνω-
στός ως «Αλγόριθµος Οπισθοδροµικής ∆ιάδοσης». Οι λεπτοµέρειες είναι αρκετά
τεχνικές και παραλείπονται. Ο ενδιαφερόµενες αναγνώστης παραπέµπεται στο [2].
Παρατηρήσεις
1. Η συνάρτηση κόστους J είναι µία µη γραµµική συνάρτηση ως προς τις αγνώστους
παραµέτρους. Εποµένως η συνάρτηση αυτή αποτελείται, γενικά, από ένα αριθµό
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 180

180 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡

τοπικών ελαχίστων. Ο αλγόριθµος συγκλίνει σε ένα από αυτά, ανάλογα από το


σηµείο εκκίνησης στο βήµα t = 0. Στην πράξη, ο αλγόριθµος εφαρµόζεται παρα-
πάνω από µία φορά, µε διαφορετικές αρχικές συνθήκες και επιλέγεται η λύση που
αντιστοιχεί στο µικρότερο τελικό κόστος.
2. Υπάρχει ένας αριθµός παραλλαγών του αλγορίθµου αυτού µε στόχο πάντα την
επιτάχυνση της σύγκλισης του [2, 3].
3. Το κόστος ελαχίστων τετραγώνων δεν είναι η µόνη επιλογή. Άλλα κόστη έχουν
επίσης προταθεί και χρησιµοποιηθεί [2, 3].
4. Ένα σηµαντικό πρόβληµα µε τα νευρωνικά δίκτυα είναι η επιλογή του µεγέθους
της αρχιτεκτονικής. Πόσα στρώµατα και πόσοι νευρώνες για κάθε στρώµα απαι-
τούνται; Όπως για κάθε ταξινοµητή, έτσι και τα δίκτυα αυτά θα πρέπει να είναι
«αρκετά» µεγάλα για να µαθαίνουν το τι διαφοροποιεί τις διαφορετικές κλάσεις,
αλλά όχι «τόσο µεγάλα» ώστε να µαθαίνουν το τι διαφοροποιεί τα δείγµατα της
ίδιας κλάσης και επίσης τις ιδιαιτερότητες του συγκεκριµένου συνόλου εκπαί-
δευσης. Όταν το δίκτυο είναι πολύ µεγάλο (αριθµός παραµέτρων µεγάλος) έχει
περιορισµένες δυνατότητες γενίκευσης. Με άλλα λόγια, η συµπεριφορά του είναι
φτωχή όταν του δίνονται διανύσµατα εκτός του συνόλου εκπαίδευσης. Για το
σκοπό αυτό έχουν αναπτυχθεί µεθοδολογίες υπολογισµού ενός βέλτιστου αριθ-
µού νευρώνων. Η πιο συνηθισµένη τάση είναι να ξεκινάµε από µεγάλα δίκτυα
και να αφαιρούµε σταδιακά νευρώνες σύµφωνα µε κάποιο κριτήριο [2, 3]
5. Τα πολυστρωµατικά Perceptrons που περιγράψαµε δεν είναι τα µόνα νευρωνικά
δίκτυα. Η βιβλιογραφία είναι πλούσια σε διαφορετικές µορφές και αρχιτεκτονι-
κές. Εµείς, στο βιβλίο αυτό, απλώς ανοίξαµε µια πόρτα…

ÕÛÎËÛË ∞˘ÙÔ·ÍÈÔÏfiÁËÛ˘ 8.3

Τι είναι σωστό και τι λάθος από τα παρακάτω;


Σωστό Λάθος
1. Με τον αλγόριθµο Perceptron είναι δυνατή πάντα η λύση
ενός προβλήµατος ταξινόµησης µε δύο κλάσεις. ❏ ❏
2. Η συνάρτηση ενεργοποίησης του Perceptron δέχεται
για είσοδο το διάνυσµα των χαρακτηριστικών και
δίνει έξοδο 1, ή 0. ❏ ❏
3. Είναι δυνατή η ταξινόµηση του XOR αν χρησιµοποιηθούν
δύο ευθείες. ❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 181

™YNOæH 181

4. Ένα Perceptron τριών στρωµάτων είναι δυνατόν να


διαχωρίσει σε δύο κλάσεις οποιαδήποτε ένωση πολυεδρικών
περιοχών στο χώρο των χαρακτηριστικών διανυσµάτων. ❏ ❏
5. Η Εκπαίδευση ενός πολυστρωµατικού δικτύου σηµαίνει
τον καθορισµό της τιµής των συνάψεων και κατωφλίου
για κάθε Perceptron που περιλαµβάνεται σε αυτό. ❏ ❏

™‡ÓÔ„Ë
Στο κεφάλαιο αυτό παρουσιάσαµε το βασικό δοµικό στοιχείο των νευρωνικών
δικτύων, τον νευρώνα ή Perceptron. ∆ιαπιστώσαµε ότι µε τη χρήση ενός Perceptron
µπορεί να διαχωριστούν δύο κλάσεις εφόσον το πρόβληµα επιδέχεται γραµµική λύση.
Στη συνέχεια παρουσιάστηκε ο τρόπος ενσωµάτωσης του Perceptron σε αρχιτεκτο-
νικές δύο και τριών στρωµάτων για την επίλυση προβληµάτων ταξινόµησης, που
απαιτούν µη γραµµικές λύσεις. Τέλος παρουσιάσαµε την φιλοσοφία του αλγορίθµου
οπισθοδροµικής διάδοσης, µια από τις γνωστές διαδικασίες που χρησιµοποιούνται
για τον καθορισµό της τιµής των παραµέτρων των Perceptrons στις αρχιτεκτονικές
των στρωµάτων.

µÈ‚ÏÈÔÁÚ·Ê›·

1. F. Rosenblatt: «The Perceptron: A Probabilistic Model for Information Storage


and Orangization in the Brain», Psychological Review, vol. 95, pp 386–408, 1958.
2. S. Theodoridis, K. Koutroumbas: «Pattern Recognition», Academic Press, 1998
3. S. Haykin: «Neural Networks», McMillan, 1994
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 182
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 183

A·ÓÙ‹ÛÂȘ AÛ΋ÛÂˆÓ A˘ÙÔ·ÍÈÔÏfiÁËÛ˘

1.1
Η σωστή αντιστοίχιση είναι η ακόλουθη:
Κατωφλίωση Βελτίωση Εικόνας

Εξαγωγή Χαρακτηριστικών

Αποµάκρυνση του θορύβου


από την εικόνα Κατάτµηση Εικόνας

Ανίχνευση Ακµών

Εξάλειψη
των παραµορφώσεων εικόνας Αναγνώριση Μορφών και Σκηνής

Αν απαντήσατε σωστά συγχαρητήρια. Αν έχετε κάποιο λάθος διαβάστε προσεκτικά


ξανά τις παραγράφους 1.2 και 1.3.

1.2
Σωστό Λάθος
1. Ο υπολογιστής, όπως υπερέχει του ανθρώπου στην
εκτέλεση των αριθµητικών πράξεων, έτσι υπερτερεί
αυτού και στην ικανότητα αναγνώρισης της εικόνας. ❏ ✓

Ο άνθρωπος µπορεί να αναγνωρίσει αντικείµενα και
µορφές από µια εικόνα µε πολλές αλλοιώσεις και µε
µικρό φωτισµό, κάτι που ο υπολογιστής δεν µπορεί να
πραγµατοποιήσει.
2. Για την τόνωση των ακµών µιας εικόνας
χρησιµοποιείται παραγώγιση της εικόνας. ✓
❏ ❏
Μια εικόνα παραγωγίζεται µε αριθµητική µέθοδο και
ανιχνεύεται η κατεύθυνση της κλίσης.
3. Τα συστήµατα λήψης εικόνας στα ΣΟΑ παράγουν
τέλειες εικόνες, έτοιµες για ανάλυση. ❏ ✓

Πολλές φορές πρόκειται για συστήµατα φορητά και σχετι-
κώς φθηνά, γι’ αυτό παρουσιάζουν ατέλειες στους φακούς
τους και µη γραµµικότητες στα συστήµατα ψηφιοποίησης.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 184

184 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

4. Ο υπολογιστής ευκολότερα κατασκευάζει µια


ασπρόµαυρη εικόνα από µια µονόχρωµη,
παρά το αντίστροφο. ❏ ✓

Από µονόχρωµες εικόνες του εκτυπωτή, µε ειδικές µεθό-
δους, µπορεί να κατασκευαστεί ασπρόµαυρη εικόνα πολύ
χαµηλής ποιότητας. Αντίθετα υπάρχουν πολλές µέθοδοι
µε τις οποίες ο υπολογιστής µπορεί να κατασκευάσει
µονόχρωµες εικόνες από µια ασπρόµαυρη.
5. Η ταξινόµηση ενός προτύπου γίνεται µε βάση
τα ουσιώδη χαρακτηριστικά του. ✓
❏ ❏
Πράγµατι, τα ουσιώδη χαρακτηριστικά αποτελούν την
ποσοτικοποίηση της πληροφορίας που εµπεριέχεται σε
κάθε πρότυπο. Με βάση αυτά γίνεται η ταξινόµηση του
προτύπου σε µια από τις κατηγορίες του συστήµατος.
Συγχαρητήρια σε όποιον απάντησε σωστά σε όλες τις παραπάνω ερωτήσεις! Έχει
κατανοήσει αρκετά καλά την ύλη του πρώτου κεφαλαίου. Το ίδιο ισχύει και για όποι-
ον απάντησε σωστά σε όλες, εκτός της ερώτησης 4. Η ερώτηση αυτή χρειάζεται λίγο
περισσότερες γνώσεις, από αυτές που σας δώσαµε στο πρώτο Κεφάλαιο. Όποιος
απάντησε σωστά σε λιγότερες από τρεις ερωτήσεις, δεν πρέπει να απογοητεύεται,
µια και το κεφάλαιο είναι εισαγωγικό και υπάρχουν σ’ αυτό πολλές πρωτόγνωρες
έννοιες. Πάντως πρέπει να µελετήσει προσεκτικά όλο το κεφάλαιο ξανά.

2.1
Σωστό Λάθος
1. Ένα σήµα, το οποίο σε κάποια σηµεία του πεδίου
ορισµού του λαµβάνει αρνητικές τιµές δεν µπορεί
να παρασταθεί ως εικόνα. ❏ ✓

∆εν είναι αλήθεια. Μπορούµε να προσθέσουµε σε όλα τα
δείγµατα µια σταθερή ποσότητα, έτσι ώστε να γίνουν όλα
µη αρνητικά. Η πρόσθεση της ίδιας ποσότητας, ή ακόµη και
ο πολλαπλασιασµός όλων των δειγµάτων µε τον ίδιο αριθ-
µό δεν αλλάζει τη µορφή της παράστασης ενός σήµατος.
2. ∆εν είναι δυνατόν να διαβιβαστεί µια εικόνα µε
τηλεπικοινωνιακό τρόπο παρά µόνο αν γίνει ψηφιακή. ❏ ✓

£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 185

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 185

Είναι δυνατή η διαβίβαση αναλογικής εικόνας. Αναφέ-


ρουµε, για παράδειγµα, την κλασική µέθοδο εκποµπής
του σήµατος της τηλεόρασης. Σ’ αυτήν το δισδιάστατο
σήµα µετατρέπεται σε µονοδιάστατο πριν απότην εκπο-
µπή και επανασυντίθεται σε δισδιάστατο µετά τη λήψη.
3. Τα δείγµατα που λαµβάνονται κατά τη δειγµατοληψία
µιας εικόνας δεν µπορούν να αποθηκευτούν απευθείας
σε ψηφιακούς καταχωρητές. ✓
❏ ❏
Πράγµατι, τα δείγµατα αυτά προέρχονται από ένα αλφά-
βητο µε άπειρο πλήθος συµβόλων και είναι αδύνατη η
κωδικοποίησή τους.
4. Η επιλογή της κατάλληλης τιµής d για την πλευρά
του πλέγµατος δειγµατοληψίας γίνεται µε στόχο
τη δηµιουργία όσο το δυνατόν µικρότερης διάστασης
πίνακα δειγµάτων Ε. ❏ ✓

Πολύ µικρή τιµή του d συνεπάγεται πολλά δείγµατα και
µεγάλο µέγεθος του πίνακα E. Εντούτοις το d πρέπει να
έχει τιµή οπωσδήποτε µικρότερη από το dMAX, µια στα-
θερά που σχετίζεται µε τη µέγιστη φασµατική συνιστώσα
της υπό δειγµατοληψία εικόνας στο πεδίο συχνοτήτων.
5. Μια ψηφιακή εικόνα προκύπτει πάντα
από την ψηφιοποίηση µιας αναλογικής. ❏ ✓

∆εν είναι απαραίτητο. Οι ψηφιακές κάµερες ψηφιοποι-
ούν απευθείας το είδωλο που παράγει ο φακός αλλά και
πολλές ψηφιακές εικόνες δηµιουργούνται από τον υπο-
λογιστή µε εκτέλεση κατάλληλων αλγορίθµων.
6. Το µοναδικό σηµείο, στο οποίο η ψηφιακή εικόνα
πλεονεκτεί της αναλογικής, είναι ότι η πρώτη
αποθηκεύεται στον υπολογιστή. ❏ ✓

Εκτός από αυτό, τα αντίγραφά της είναι πανοµοιότυπα,
δεν υφίστανται αλλοιώσεις από το πέρασµα του χρόνου,
µπορεί να διαβιβαστεί µέσα από ψηφιακά δίκτυα και
µάλιστα µε απόλυτη πιστότητα, και είναι δυνατή η επε-
ξεργασία της από τον υπολογιστή.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 186

186 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

Όποιος απάντησε σωστά και στις έξι ερωτήσεις αξίζει συγχαρητήρια. Το ίδιο λέµε
και σ’ εκείνους που απάντησαν σωστά σε όλες εκτός από τις 2 και 3. Όποιος απά-
ντησε σε λιγότερες από τρεις ερωτήσεις δεν πρέπει να απογοητευτεί αλλά θα πρέπει
να διαβάσει ξανά τις ενότητες 2.1 και 2.2, οπότε και θα είναι καλύτερα προετοιµα-
σµένος για τη συνέχεια.

2.2
Σωστές απαντήσεις είναι η Γ και η ∆.
Α. Η ποιότητα µιας φωτογραφίας εξαρτάται από την ποιότητα της φωτογραφικής
µηχανής. Καλή ποιότητα µπορεί να υπάρξει και στην αναλογική και στη ψηφια-
κή φωτογραφία.
B. Είναι εύκολη η εκτύπωση σε απλό χαρτί της ψηφιακής φωτογραφίας. Ακόµη µπο-
ρεί να εκτυπωθεί και σε φωτογραφικό χαρτί αν δοθεί στο φωτογραφείο.
Γ, ∆. Αν επιλέξατε Γ και ∆ συγχαρητήρια! Μερικά από τα πλεονεκτήµατα της ψηφια-
κής εικόνας είναι η εύκολη διαβίβασή της µέσα από το δίκτυο, αλλά και η επε-
ξεργασία της µε τον υπολογιστή. Με την επεξεργασία αυτή, εκτός των άλλων,
µπορούν να πραγµατοποιηθούν αλλαγές στα πρόσωπα και στη σκηνή της αρχικής
εικόνας, το γνωστό µας montage. Αν δεν επιλέξατε ούτε τη Γ ούτε τη ∆ µην απο-
γοητεύεστε, µελετήστε πιο προσεκτικά την ενότητα 2.1 και θα είστε καλύτερα
προετοιµασµένοι για να συνεχίσετε στις επόµενες ενότητες.
Ε. Η µεγάλης κλίµακας µεγέθυνση της εικόνας απαιτεί τον υπολογισµό της τιµής
του σήµατος σε πολλά σηµεία µεταξύ των δειγµάτων. Επίσης, πρέπει να αναδει-
χτούν λεπτοµέρειες που βρίσκονται σε απόσταση µικρότερη από το µήκος της
πλευράς του πλέγµατος δειγµατοληψίας, κάτι που και η θεωρία το αποκλείει. Η
επιλογή της Ε ως σωστής απάντησης φανερώνει ότι δεν έχετε κατανοήσει πλή-
ρως τις παρατηρήσεις της ενότητας 2.2. Μελετήστε την ενότητα ξανά και την επό-
µενη φορά θα αντιµετωπίζετε µε επιτυχία παρόµοιες ερωτήσεις.

2.3
Σωστό Λάθος
1. Το σφάλµα κβάντισης µειώνεται όσο το πλήθος
σταθµών κβάντισης αυξάνει. ✓
❏ ❏
Ακριβώς! Επιλέγοντας λοιπόν αρκετά µεγάλο Q ο θόρυ-
βος της ψηφιακής εικόνας µειώνεται στα επίπεδα του
θορύβου της αναλογικής.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 187

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 187

2. Τα pixels σε µια εικόνα µε 12 bits κβάντιση έχουν τιµές


0–4095, ενώ σε µια µε 8 bits οι τιµές είναι 0–255.
Άρα η πρώτη είναι πιο φωτεινή από τη δεύτερη. ❏ ✓

Οι αριθµοί αυτοί είναι κωδικοί και όχι τιµές έντασης
φωτεινότητας. Οι πραγµατικές τιµές έντασης προκύπτουν
όταν οι αριθµοί αυτοί πολλαπλασιαστούν µε το 1/(Q–1).
3. Αν τις εικόνες του Σχ. 2.5 τις δούµε σε οθόνη µε
διακριτική ικανότητα βάθους 4 bits/pixel, τότε
και οι δύο θα παρουσιάζουν ψευδή περιγράµµατα. ✓
❏ ❏
Στην περίπτωση αυτή η οθόνη χρησιµοποιεί µόνο τα 4
bits ανά pixel και εποµένως, και οι δύο εικόνες έχουν την
ίδια µορφή.
4. Μια ψηφιακή οθόνη, που περιέχει 1024 × 768 pixels
µε 32 bits/pixel διακριτική ικανότητα βάθους, πρέπει
να συνοδεύεται από περισσότερα από 3 Mbyte µνήµη. ✓
❏ ❏
Για την ακρίβεια 3 × 1024 × 768 = 2359296 bytes.
5. Η ψηφιακή εικόνα υστερεί πάντα στην ποιότητα
από την αντίστοιχη αναλογική. ❏ ✓

Επιλέγοντας το κατάλληλο πλέγµα δειγµατοληψίας είναι
δυνατόν να µεταφερθούν όλες οι λεπτοµέρειες της ανα-
λογικής στην ψηφιακή εικόνα. Εξάλλου, µε τη σωστή επι-
λογή του πλήθους των σταθµών κβάντισης ο θόρυβος
κβάντισης ελαττώνεται στα επίπεδα του θορύβου της ανα-
λογικής εικόνας.
Συγχαρητήρια σε όποιον απάντησε σωστά και στις πέντε ερωτήσεις! Ακόµη και µε
τέσσερις σωστές απαντήσεις είµαστε ευχαριστηµένοι. Όποιος είχε λιγότερες από
τρεις σωστές απαντήσεις πρέπει να µελετήσει ξανά τις ενότητες 2.3 και 2.4. Έτσι θα
είναι καλά προετοιµασµένος για τη συνέχεια.

2.4
α) Τα αρχικά δείγµατα της έγχρωµης εικόνας αποτελούνται από τρεις πίνακες, τους
ΕR, ΕG, ΕB, καθενας από τους οποίους έχει µέγεθος Ν = 500 × 300 = 15 × 104
δείγµατα.
Επειδή το πλήθος των σταθµών κβάντισης Q και το πλήθος των bits της κωδικο-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 188

188 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

ποίησης ν του κάθε pixel συνδέονται µε τη σχέση Q = 2v, συνεπάγεται ότι ν =


log2Q = log2256 = 8. Άρα κάθε δείγµα αντιστοιχεί σε 8 bits ή σε 1 byte, και επο-
µένως, οι τρεις πίνακες των δειγµάτων αντιστοιχούν σε µέγεθος µνήµης D = 3 ×
N × 1 byte ή D = 45 × 104bytes.
β) Όταν η εικόνα είναι ασπρόµαυρη υπάρχει ένας µόνο πίνακας δειγµάτων, καθένα
από τα οποία θα κβαντιστεί και θα κωδικοποιηθεί, όπως και στην απάντηση του
α, µε 1 byte. Εποµένως ο όγκος της µνήµης θα είναι D = N × 1 byte, ή D = 15 ×
104 bytes.
Αν η εικόνα κβαντιστεί µε Q = 2 δηλαδή ν = 1 bit/δείγµα το µέγεθος µνήµης D
είναι D = N × 1bit = 15 × 104/8 bytes, δηλαδή D = 18.750 bytes.
γ) Με αριθµητική δοκιµή είναι δυνατόν να διαπιστωθεί ότι για να καλυφθεί η µια
διάσταση της οθόνης από την εικόνα, πρέπει αυτή να µεγεθυνθεί ώστε τα 500
pixels της να καταλάβουν όλα τα 1288 pixels της πρώτης διάστασης της οθόνης,
οπότε έχουµε αύξηση του µεγέθους της εικόνας Ζ = 1288/500, δηλαδή Ζ = 2,576
φορές. Εποµένως η δεύτερη διάσταση της εικόνας γίνεται Ζ × 300 = 773 pixels,
και το συνολικό πλήθος των pixels οθόνης που καλύπτονται από την εικόνα είναι
Τ = 1288 × 773, δηλαδή T = 995.624 pixels.
δ) Καθώς η οθόνη είναι έγχρωµη χρησιµοποιούνται τρία bytes/pixel οθόνης ανε-
ξάρτητα από το αν τα pixel της εικόνας κωδικοποιούνται µε τρία, ή ένα byte ή
ακόµη και ένα bit. Εποµένως η µνήµη οθόνης που χρησιµοποιείται από την εικό-
να έχει µέγεθος Μ = 3 × T, δηλαδή Μ = 2.986.872 bytes οθόνης.

3.1
Σωστό Λάθος
1. Η ποιότητα µιας ψηφιακής εικόνας διατηρείται
αναλλοίωτη για πάντα. ❏ ✓

Το σωστό είναι ότι η ποιότητα της εικόνας διατηρείται
αναλλοίωτη εφόσον το αποθηκευτικό µέσο παραµένει
ανέπαφο. Για παράδειγµα, η ποιότητα ψηφιακής εικό-
νας, που έχει αποθηκευτεί σε µαγνητική ταινία, παρα-
µένει σταθερή εφόσον φροντίζουµε να γίνεται ανανέω-
ση της εγγραφής σε τακτά χρονικά διαστήµατα
2. Ο θόρυβος που έχει προσβάλει µια εικόνα είναι δυνατόν
µε κατάλληλα φίλτρα να εξουδετερωθεί πλήρως
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 189

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 189

και να γίνει αποκατάσταση της εικόνας. ❏ ✓



Ένα καλά σχεδιασµένο φίλτρο µπορεί να ελαχιστοποιή-
σει το θόρυβο της εικόνας, αλλά δεν θα τον εξουδετε-
ρώσει πλήρως. Για το λόγο αυτό στην περίπτωση της
αντιµετώπισης του θορύβου µιλάµε για τόνωση της
εικόνας και όχι για αποκατάσταση.
3. Η τροποποίηση του ιστογράµµατος βελτιώνει την ποιότητα
µιας εικόνας µε κακή φωτεινότητα, αλλά δεν
την αποκαθιστά πλήρως. ✓
❏ ❏
Πράγµατι αυτό µπορούµε να το διαπιστώσουµε και από
τις εικόνες που προκύπτουν έπειτα από την τροποποίηση
του ιστογράµµατος. Στα ιστογράµµατα των εικόνων αυτών
παρατηρούµε πολλές κενές γραµµές, που σηµαίνει ότι οι
αντίστοιχες τιµές δεν εµφανίζονται. Αυτό ισοδυναµεί ως
εάν έχει γίνει κβάντιση µε µικρότερο αριθµό σταθµών.
4. Με την ισοστάθµιση του ιστογράµµατος επιτυγχάνεται
ώστε η φωτεινότητα να γίνει ίδια σε όλα τα σηµεία
της εικόνας. ❏ ✓

Στην τροποποίηση αυτή ο στόχος είναι ένα οµοιόµορφο
ιστόγραµµα. Στην πράξη όµως αυτό δεν επιτυγχάνεται
ποτέ.
5. Από τα παραδείγµατα που έχουν δοθεί για την ισοστάθµιση
προκύπτει ότι δεν επιτυγχάνεται πάντα ο στόχος
του οµοιόµορφου ιστογράµµατος. ✓
❏ ❏
Πράγµατι, τα ιστογράµµατα του Σχ. 3.6 κάθε άλλο παρά
οµοιόµορφη κατανοµή έχουν. Εντούτοις, από αυτά φαί-
νεται ότι υπάρχει µεγάλη διασπορά των τιµών, που
σηµαίνει µεγάλη αντίθεση στην φωτεινότητα της εικόνας.
Επίσης υπάρχουν ιστοί στις µεγάλες τιµές , που σηµαίνει
µεγάλη τιµή στη µέση φωτεινότητα της εικόνας.
Όποιος απάντησε σωστά και στις πέντε ερωτήσεις, αξίζει συγχαρτήρια! Το ίδιο λέµε
και σε εκείνον που απάντησε σωστά σε όλες εκτός από την πρώτη. Αν απαντήσατε
λάθος σε περισσότερες από τρεις ερωτήσεις, πρέπει να µελετήσετε µε προσοχή τις
ενότητες 3.1 και 3.2 και θα είστε καλύτερα προετοιµασµένοι για τη συνέχεια.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 190

190 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

3.2
Σωστό Λάθος
1. Μια εικόνα κατά τη διαβίβασή της µέσα από ψηφιακό
κανάλι είναι δυνατόν να προσβληθεί από θόρυβο. ✓
❏ ❏
Άλλωστε ο κρουστικός θόρυβος δηµιουργείται συνήθως
κατά τη διαβίβαση ψηφιακής εικόνας µέσα από κανάλι µε
σχετικά µεγάλη πιθανότητα σφάλµατος. Κατά τη διαβίβαση
όµως µέσα από αξιόπιστα κανάλια, όπως είναι τα δίκτυα
επικοινωνίας, η ψηφιακή εικόνα παραµένει ανέπαφη
2. Κατά την εφαρµογή του φίλτρου κινούµενου µέσου
ή του φίλτρου µεσαίου σε µια εικόνα µε βάθος 8 bits/pixel,
τα pixels της εικόνας που προκύπτει έχουν τιµή
από 0 µέχρι 255. ✓
❏ ❏
Πράγµατι στο φίλτρο µεσαίου η τιµή των pixels της νέας
εικόνας είναι τιµή κάποιου pixel της αρχικής, εποµένως
ανήκει πάντα στην ίδια περιοχή τιµών. Το ίδιο συµβαίνει
και µε το φίλτρο κινούµενου µέσου στο οποίο οι νέες τιµές
υπολογίζονται ως ο µέσος όρος ενός αριθµού από τις
αρχικές. Στην τελευταία αυτή περίπτωση, καθώς ο µέσος
όρος δεν είναι πάντα ακέραιος, πρέπει να γίνει στρογγυλο-
ποίηση της τιµής που υπολογίζεται από τη σχέση (3.6)
3. Το φίλτρο κινούµενου µέσου δηµιουργεί θόλωµα
στην εικόνα όπου εφαρµόζεται. ✓
❏ ❏
Πράγµατι η εντύπωση του θολώµατος δίνεται από τις
ακµές της εικόνας, οι οποίες µε την εφαρµογή του
µέσου όρου της περιοχής γίνονται πιο λείες.
4. Το φίλτρο κινούµενου µέσου δεν είναι το ίδιο
αποτελεσµατικό όπως το φίλτρο µεσαίου,
στην αντιµετώπιση του κρουστικού θορύβου. ✓
❏ ❏
Αυτό συµβαίνει επειδή ο µέσος όρος διαχέει την τιµή
του θορύβου από κάποιο pixel, στο οποίο βρίσκεται
αποµονωµένος, σε όλα τα pixels της γειτονικής περιο-
χής. (Εν. 3.3)
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 191

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 191

5. Στη διαδικασία τόνωσης των ακµών απαιτείται η εκ νέου


κβάντιση και κωδικοποίηση των τιµών της εικόνας,
που προκύπτει µε την άθροιση των δύο αρχικών εικόνων. ✓
❏ ❏
Σίγουρα αυτό θα συµβεί, καθώς το άθροισµα θα δώσει
τιµές εκτός του αρχικού διαστήµατος (0,Q–1). (Εν. 3.4)
Συγχαρητήρια σε όποιον έχει απαντήσει σωστά και στις πέντε ερωτήσεις. Σε καλή
φόρµα είστε και µε τέσσερις σωστές απαντήσεις. Λιγότερες από τρεις σωστές απα-
ντήσεις δεν πρέπει να σας απογοητεύσουν. Μελετήστε ξανά τις υποενότητες που
αντιστοιχούν στις λανθασµένες απαντήσεις και θα µπορείτε να συνεχίσετε µε επι-
τυχία τη µελέτη σας

4.1
1. ∆ιαιρούµε το κάθε pixel της εικόνας του πίνακα a µε το αντίστοιχο του b. Τα απο-
τελέσµατα τοποθετούνται στον πίνακα C.

×0.01
103 108 113 112 112 108 102 105 101 93 92 25

93 92 93 99 37 38 103 105 104 100 104 20


105 101 95 24 31 34 31 107 108 106 101
15
105 97 20 19 24 19 18 28 104 102 107
106 116 32 35 34 24 27 29 33 107 103 10

109 108 110 42 38 37 33 108 109 107 104 5


97 94 94 91 18 19 92 96 102 103 102
0
106 105 104 100 99 97 99 102 101 101 100 0 0.5 1 1.5 2
C(k,m)=a(k,m)/b(k,m) Iστόγραµµα των στοιχείων του C

2. Κατασκευάζουµε το ιστόγραµµα των στοιχείων του C στο οποίο εµφανίζονται δύο


διαχωρισµένοι λοβοί.
3. Επιλέγουµε τιµή κατωφλίου Τ = 1.0 και εκτελούµε τη διαδικασία κατωφλίωσης,
οπότε προκύπτει ο πίνακας d.

255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 0 0 255 255 255 255 255
255 255 255 0 0 0 0 255 255 255 255
255 255 0 0 0 0 0 0 255 255 255
255 255 0 0 0 0 0 0 0 255 255
255 255 255 0 0 0 0 255 255 255 255
255 255 255 255 0 0 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 192

192 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

Συγχαρητήρια αξίζουν σε όποιον έφθασε στη τελική µορφή του πίνακα d. Σίγουρα
χρειάστηκαν αρκετές πράξεις µέχρι την κατασκευή του ιστογράµµατος και όποιος
έκανε λάθη στις πράξεις πρέπει να ξαναπροσπαθήσει. Ίσως κάποιο πρόγραµµα σε
µια γνωστή σας προγραµµατιστική γλώσσα να σας διευκολύνει σηµαντικά. Όποιος
δεν µπόρεσε να προτείνει διαδικασία για την επίλυση, πρέπει οπωσδήποτε να µελε-
τήσει ξανά µε προσαοχή την ενότητα 4.1, και είµαστε σίγουροι ότι θα έχει καλύτε-
ρα αποτελέσµατα στην προσπάθειά σας.

4.2
Σωστό Λάθος
1. Η τεχνική της κατωφλίωσης δεν είναι δυνατόν
να εφαρµοστεί σε οποιαδήποτε εικόνα. ✓
❏ ❏
Πράγµατι, η τεχνική αυτή µπορεί να εφαρµοστεί µε
βεβαιότητα µόνο αν η περιοχή, που επιθυµούµε να δια-
χωρίσουµε από την υπόλοιπη εικόνα, έχει διαφορετική
ανακλαστικότητα από την υπόλοιπη σκηνή και ο φωτι-
σµός είναι οµοιόµορφος. Σε αντίθετη περίπτωση δεν
είναι σίγουρο ότι θα γίνει δυνατή η κατωφλίωση παρ’
ότι έχει αναπτυχθεί µια µεγάλη ποικιλία τεχνικών µε
προσαρµοζόµενο κατώφλιο.
2. Στο διαδίκτυο βρήκαµε µια εικόνα παρόµοια µε αυτή
του Σχ. 4.3α. Οι φοιτητές µας θα µπορέσουν να διορθώσουν
τη φωτεινότητα της και να επιτύχουν την κατωφλίωσή της
µε χρήση καθολικού κατωφλίου. ❏ ✓

∆εν είναι δυνατόν να συµβεί κάτι τέτοιο εφόσον δεν
έχουµε προσπέλαση στο χώρο και τη φωτογραφική
µηχανή που δηµιούργησε την εικόνα.
3. ∆εν είναι δυνατή η κατωφλίωση της εικόνας του Σχ. 4.3α µε
προσαρµοζόµενο κατώφλιο χρησιµοποιώντας τη σχέση (4.1). ✓
❏ ❏
Η εφαρµογή της σχέσης (4.1) σε εσωτερικά σηµεία των
δύο γεωµετρικών σχηµάτων θα δώσει για αποτέλεσµα
τιµή κατωφλίου µικρότερη από τις τιµές των pixels της
περιοχής και έτσι τα σηµεία αυτά θα λάβουν τη φωτει-
νότητα του φόντου. Η κατωφλίωση ίσως να είναι επιτυ-
χής αν η περιοχή άθροισης µεγαλώσει υπερκαλύπτοντας
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 193

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 193

τις διαστάσεις των σχηµάτων αυτών.


4. Η σταθερά που αφαιρείται από τη σχέση (4.1) δεν µπορεί
να λάβει πολύ µεγάλη τιµή. ✓
❏ ❏
Μεγάλη αύξηση της σταθεράς αυτής θα κάνει το κατώ-
φλιο µικρότερο από την τιµή των pixels στα γράµµατα.
Τότε τα τελευταία µε την κατωφλίωση θα αποκτήσουν
τη φωτεινότητα του φόντου και θα χαθούν.
5. Το ιστόγραµµα της παραγώγου χωρίζεται σε δύο λοβούς
και έτσι γίνεται δυνατή η κατωφλίωση της εικόνας. ❏ ✓

Στην περίπτωση αυτή η κατωφλίωση γίνεται µε βάση το
δεδοµένο ποσοστό των σηµείων µε τη µεγαλύτερη τιµή
και όχι µε βάση την ύπαρξη των λοβών.
6. Τα αποτελέσµατα της εφαρµογής των τελεστών κλίσης
του Sobel είναι από κάθε άποψη καλύτερα από εκείνα
των τελεστών του Robert. ❏ ✓

Οι πρώτοι υπερέχουν στις περιπτώσεις εικόνων µε έντο-
νη την παρουσία του θορύβου. ∆ηµιουργούν όµως θόλω-
µα στην εικόνα, διαπλάτυνση στις ακµές της και εποµέ-
νως σφάλµα στον εντοπισµό τους. Επιπλέον, για την
εφαρµογή των τελεστών του Robert χρειάζονται πολύ
λιγότερες πράξεις από όσες για τους τελεστές του Sobel
Όποιος απάντησε σωστά και στις έξη, ή στις πέντε ερωτήσεις, αξίζει συγχαρητήρια.
Τέσσερις σωστές απαντήσεις είναι αρκετές. Αν απαντήσατε λάθος σε περισσότερες από
τρεις ερωτήσεις µην απογοητεύεστε, αλλά να επαναλάβετε τις ενότητες 4.1 και 4.2.

4.3
Η απάντηση δίνεται από τους πίνακες a και b. Όποιος τους έχει κατασκευάσει σωστά
µπορεί να συνεχίσει µε το κεφάλαιο 5. Αν δεν τα καταφέρατε µη στενοχωριέστε!
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 194

194 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 0 0 255 255 255 255 255
255 255 255 0 0 0 0 255 255 255 255
255 255 0 0 125 125 0 0 225 255 255
255 255 0 125 125 125 125 0 0 255 255
255 255 0 0 125 125 125 125 0 255 255
255 255 255 0 0 125 125 0 0 255 255
255 255 255 255 0 0 0 0 255 255 255
255 255 255 255 255 0 0 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255

α
Tέλος πρώτου σταδίου

255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 0 0 255 255 255 255 255
255 255 255 0 0 0 0 255 255 255 255
255 255 0 0 255 255 0 0 225 255 255
255 255 0 255 255 255 255 0 0 255 255
255 255 0 0 255 255 255 255 0 255 255
255 255 255 0 0 255 255 0 0 255 255
255 255 255 255 0 0 0 0 255 255 255
255 255 255 255 255 0 0 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255

α
Tέλος πρώτου σταδίου

Μελετήστε ξανά την ενότητα 4.3, και θα είστε έτοιµοι για να αντιµετωπίσετε τις
δυσκολίες του επόµενου κεφαλαίου.

5.1
Σωστό Λάθος
1. Αν διαθέτουµε τον κώδικα αλύσου µπορούµε να υπολογί-
σουµε την περίµετρο του αντίστοιχου περιγράµµατος,
χωρίς προηγουµένως να το ανακατασκευάσουµε. ✓
❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 195

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 195

Με επεξεργασία του κώδικα µπορούµε να υπολογίσου-


µε και άλλα στοιχεία του περιγράµµατος, όπως το ύψος,
το πλάτος, το εµβαδό και άλλα.
2. Ο κώδικας αλύσου µπορεί να χρησιµοποιηθεί µόνο για
µια κλειστή γραµµή, όπως είναι το περίγραµµα. ❏ ✓

Μια µικρή τροποποίηση του αλγόριθµου, που είδαµε
στον Πίνακα 5.1, δίνει τη δυνατότητα να κωδικοποιεί
και µη κλειστές γραµµές. Αυτό βρίσκει σηµαντικές
εφαρµογές στην καταµέτρηση συνοριακών γραµµών,
µήκους παραλιακών γραµµών, κτλ.
3. Το πολύγωνο προσέγγισης που δηµιουργείται µε διαδο-
χικές υποδιαιρέσεις έχει το πλεονέκτηµα ότι οι κορυφές του
βρίσκονται πάνω σε pixel του περιγράµµατος. ✓
❏ ❏
Εκτός από αυτό, έχει επίσης το πλεονέκτηµα ότι οι
κορυφές του πολυγώνου βρίσκονται σε σηµεία καµπής
του περιγράµµατος.
4. Τα πολύγωνα προσέγγισης µπορούν να κωδικοποιηθούν
ακριβώς όπως ο κώδικας αλύσου. ❏ ✓

Αυτό είναι αδύνατο, αφού δεν έχουµε µόνο οχτώ κατευ-
θύνσεις γειτνίασης, αλλά πρακτικά απεριόριστο αριθµό.
5. Ο κώδικας αλύσου παραµένει αναλλοίωτος σε ολίσθηση
της µορφής ή σε περιστροφή των αξόνων. ❏ ✓

Ο κώδικας αλύσου δεν µεταβάλλεται κατά τη ολίσθηση
της µορφής, αλλά αλλάζει µε τη στροφή των αξόνων.
Ο διαφορικός κώδικας αλύσου µένει αναλλοίωτος σε
στροφές των αξόνων που είναι πολλαπλάσια του π/2.
Συγχαρητήρια σε όποιον έχει απαντήσει σωστά και στις πέντε ερωτήσεις. Σε καλή
φόρµα είστε και µε τέσσερις σωστές απαντήσεις. Αν απαντήσατε σωστά σε λιγότε-
ρες από τρεις ερωτήσεις µην απογοητεύεστε. Μελετήστε ξανά τις ενότητες 5.1 και
5.2 και θα µπορείτε να συνεχίσετε µε επιτυχία τη µελέτη σας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 196

196 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

5.2
Σωστό Λάθος
1. Η υπογραφή παραµένει αναλλοίωτη στη µεταφορά,
στη στροφή και στην αλλαγή της κλίµακας των αξόνων. ✓
❏ ❏
Πράγµατι, η υπογραφή είναι κατεξοχήν ένα περιγράφον
στοιχείο, που παραµένει αναλλοίωτο στις µεταβολές
αυτές.
2. Περίγραµµα µε ένα, ή περισσότερα ευθύγραµµα τµήµατα
αντιστοιχεί σε ιστόγραµµα κλίσεων µε ισχυρούς ιστούς
σε ισάριθµες θέσεις. ✓
❏ ❏
Προφανώς, αφού οι εφαπτόµενες σε όλα τα σηµεία του
ίδιου ευθύγραµµου τµήµατος παρουσιάζουν την ίδια
κλίση. Αντίστροφα, ένα οµοιόµορφο ιστόγραµµα σηµαί-
νει ένα καµπύλο, µάλλον, κυκλικό περίγραµµα.
3. Για τον υπολογισµό της υπογραφής ενός περιγράµµατος,
πρέπει αυτό πρώτα να προσεγγιστεί µε µια συνεχή γραµµή,
ώστε να είναι δυνατή η ανίχνευση της τοµής επιβατικής
ακτίνας και περιγράµµατος, ή η χάραξη της εφαπτοµένης
στο περίγραµµα και ο υπολογισµός της κλίσης της. ❏ ✓

Οι προσδιορισµοί αυτοί γίνονται µε τη βοήθεια αριθµη-
τικών µεθόδων.
4. Οι συντελεστές Fourier, που υπολογίζονται από τον DFT
µετασχηµατισµό ενός περιγράµµατος, δεν µεταβάλλονται
στην περίπτωση που γίνει περιστροφή των αξόνων. ❏ ✓

Οι ίδιοι οι συντελεστές Fourier µεταβάλλονται µε την
περιστροφή. Αντίθετα, αν επιλεγούν ως στοιχεία περι-
γραφής το πηλίκο |fk|/|f1| k = 1,2,3... Αυτά τα στοιχεία
παραµένουν αναλλοίωτα σε µεταφορά, στροφή και
αλλαγή της κλίµακας των αξόνων.
5. Τα µέτρα των συντελεστών Fourier του περιγράµµατος
είναι περίπου όλα της ίδιας τάξης µεγέθους ώστε
µπορούµε να επιλέξουµε οποιουσδήποτε από αυτούς
για περιγράφοντα στοιχεία. ❏ ✓

£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 197

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 197

Οι περισσότεροι συντελεστές έχουν σχεδόν µηδενικό


µέτρο και µόνο οι ακραίοι από αυτούς έχουν σηµαντική
τιµή. Άρα επιλέγουµε τους ακραίους συντελεστές κατάλ-
ληλα κανονικοποιηµένους για να δηµιουργήσουµε
ουσιώδη χαρακτηριστικά ενός περιγράµµατος.
Όποιος απάντησε σωστά στις πέντε ή στις τέσσερις ερωτήσεις, κατέχει πολύ καλά
την ύλη. Αν δεν καταφέρατε να απαντήσετε τουλάχιστον στις τρεις ερωτήσεις πρέ-
πει να µελετήσετε ξανά τις ενότητες 5.3 και 5.4. Τότε θα είστε σίγουρα έτοιµοι να
προχωρήσετε στο επόµενο κεφάλαιο.

6.1
Για τον προσδιορισµό της παραµέτρου c ξεκινάµε µε τη σχέση
 
∑ ∑ ∑ ∑
Q −1 Q −1 32 63
p(i ) = 1 , ή c ⋅ | i − 32 | = 1 , ή c ⋅  (32 − i ) + (i − 32 ) = 1 , ή ,
i =0 i =0  0 33 

[
c ⋅ 32 ⋅ 33 − (1 + 2 + L + 32 ) + (33 + 34 + L + 63 ) − 32 ⋅ (63 − 33 + 1) = 1 ]
[
c ⋅ 32 ⋅ 33 − 2 ⋅ (1 + 2 + L + 32 ) + (1 + L + 32 + 33 + 34 + L + 63 ) − 32 ⋅ 31 = 1]
c ⋅ [32 ⋅ 33 − 2 ⋅ 32 ⋅ 33 / 2 + 63 ⋅ 64 / 2 − 32 ⋅ 31] = 1 , ή 1024·c = 1, ή c = 9,8⋅10 –4
.

Ισχύει επίσης
 
∑ ∑ ∑ ∑
Q −1 63 32 63
m= i ⋅ p(i ) = c ⋅ i⋅ | i − 32 | = c ⋅  i ⋅ (32 − i ) + i ⋅ (i − 32 ) , ή
i =0 i =0  0 33 

 
∑ ∑ ∑ ∑
32 32 63 63
m = c ⋅ 32 ⋅ i− i2 + i 2 − 32 ⋅ i , ή
 0 0 33 33 
    
∑ ∑ ∑ ∑ ∑ ∑
32 32 63 32 63 32
m = c ⋅ 32 ⋅ i− i2 + i2 − i 2 − 32 ⋅ i− i ,ή
 0 0  0 0   0 0 

 
∑ ∑ ∑ ∑
32 32 63 63
m = c ⋅ 64 ⋅ i − 2⋅ i2 + i 2 − 32 ⋅ i
 0 0 0 0 

[
m = c ⋅ 64 ⋅ 32 ⋅ 33 / 2 − 2 ⋅ 32 ⋅ 33 ⋅ 65 / 6 + 63 ⋅ 64 ⋅127 / 6 − 32 ⋅ 63 ⋅ 64 / 2 , ]
ή m = 31744⋅c και τελικά m = 31.1.
Συγχαρητήρια αξίζει όποιος προσδιόρισε µε ακρίβεια τις τιµές των c και m. Όποιος
είχε αριθµητικά λάθη πρέπει να προσπαθήσει ξανά υποµονετικά αφού προηγούµε-
να επαναλάβει την υποενότητα 6.1.1α. Θα νιώσετε πολύ πιο έτοιµος να προχωρή-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 198

198 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

σετε στη µελέτη της επόµενης υποενότητας, όταν υπολογίσετε επιτυχώς τα c και m.

6.2
Σωστό Λάθος
1. Η υφή αποτελεί ιδιότητα του εσωτερικού µιας περιοχής
και δεν υπάρχει µέθοδος µέτρησής της. ❏ ✓

Υπάρχουν τρεις µέθοδοι ποσοτικής περιγραφής της
υφής. Είναι η Στατιστική, η Φασµατική και η ∆οµική.
2. Η µ3 λαµβάνει πάντα τιµές θετικές. ❏ ✓

Η µ3 λαµβάνει µηδενικές τιµές για συµµετρικά ιστο-
γράµµατα. Για ασύµµετρα ιστογράµµατα η µ3 γίνεται
αρνητική ή θετική, δίνοντας στο αντίστοιχο ιστόγραµ-
µα τον χαρακτηρισµό της αρνητικής, ή της θετικής
ασυµµετρίας.
3. Η µ4 λαµβάνει αρνητικές τιµές για πλατύκυρτα
ιστογράµµατα και θετικές για λεπτόκυρτα. ❏ ✓

Η µ4 λαµβάνει πάντα θετικές τιµές. Στα πλατύκυρτα
ιστογράµµατα ισχύει µ4 > 3σ4 ενώ στα λεπτόκυρτα
ισχύει µ4 < 3σ4.
4. Το µέγεθος του Π.Σ. εξαρτάται από το πλήθος
των σταθµών κβάντισης της εικόνας. ✓
❏ ❏
Πράγµατι! Το µέγεθος είναι Q × Q.
5. Για κάθε περιοχή εικόνας κατασκευάζεται µόνο ένας Π.Σ. ❏ ✓

Είναι δυνατόν να κατασκευαστούν 8 Π.Σ, ένα για
κάθε κατεύθυνση γειτνίασης. Επίσης για κάθε µια
κατεύθυνση είναι δυνατός ο ορισµός πολλαπλών Π.Σ.
αν θεωρηθούν ζεύγη από pixels που απέχουν απόστα-
ση µεγαλύτερη από µια θέση.
6. Το άθροισµα όλων των στοιχεία ενός Π.Σ ισούται µε 1. ✓
❏ ❏
Για τον υπολογισµό των στοιχείων του αρχικού πίνα-
κα ΑD καταµετρούνται όλα τα δυνατά ζεύγη τιµών της
περιοχής. Το άθροισµα λοιπόν των στοιχείων του ΑD
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 199

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 199

ισούται µε το πλήθος ΝΖ των ζευγών. Επειδή ο CD


προκύπτει από τη διαίρεση του ΑD µε το ΝΖ, το άθροι-
σµα όλων των CD(i,j) ισούται µε 1.
7. Ως ουσιώδη χαρακτηριστικά της υφής χρησιµοποιούµε
τους συντελεστές Fourier που υπολογίζονται από τον DFT
µετασχηµατισµό του εσωτερικού της εξεταζόµενης περιοχής. ❏ ✓

Ο DFT µετασχηµατισµός θα µπορούσε να χρησιµο-
ποιηθεί ως Σχήµα Αναπαράστασης. Για τα ουσιώδη
χαρακτηριστικά επιθυµούµε ένα µικρό αριθµό από
σταθερές στις οποίες όµως να έχουν αποτυπωθεί οι
ιδιότητες της υφής που εξετάζουµε. Αυτούς τους αριθ-
µούς τους λαµβάνουµε από δείγµατα των µονοδιάστα-
των σχηµάτων, των Φr(θ) και Φθ(r), που προκύπτουν
µε επεξεργασία του DFT.
Συγχαρητήρια σε όποιον έχει απαντήσει σωστά και στις επτά ερωτήσεις. Καλά πήγα-
τε και µε έξι ή πέντε σωστές απαντήσεις, Αν απαντήσατε σωστά σε λιγότερες από
τρεις ερωτήσεις µην απογοητεύεστε. ∆ιαβάστε ξανά την ενότητα 6.1 και θα µπορείτε
να συνεχίσετε µε επιτυχία τη µελέτη σας.

6.3
Σωστό Λάθος
1. Οι κεντρικές ροπές µιας περιοχής παραµένουν αναλλοίωτες
σε µετασχηµατισµούς παράλληλης µεταφοράς. ✓
❏ ❏
Πράγµατι! Έτσι περιοχές που έχουν µεταφερθεί
παράλληλα διατηρούν τις ίδιες τιµές για τις κεντρικές
τους ροπές.
2. Οι κανονικοποιηµένες ροπές παραµένουν αναλλοίωτες
σε κάθε γραµµικό και γεωµετρικό µετασχηµατισµό. ❏ ✓

Αυτές παραµένουν αναλλοίωτες µόνο σε µετασχηµατι-
σµούς παράλληλης µεταφοράς και αλλαγής κλίµακας.
3. Το Κεντροειδές και οι Κύριοι Άξονες µιας περιοχής δίνουν
τη δυνατότητα να οριστούν περιγράφοντα στοιχεία
αναλλοίωτα σε µετασχηµατισµούς περιστροφής
µεταφοράς και αλλαγής κλίµακας. ✓
❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 200

200 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

Πράγµατι! Να θυµηθούµε την υπογραφή του περιγράµ-


µατος (Κεφ. 5), την εκκεντρότητα και το πηλίκο των
πλευρών του περιγεγραµµένου ορθογωνίου, που έχουν
διαστάσεις παράλληλες προς τους κύριους άξονες.
4. Αν θεωρήσουµε ένα σύστηµα συντεταγµένων µε άξονες
παράλληλους προς τους κύριους άξονες µιας µορφής,
τότε η στροφορµές ΙΠ και Ι∆ ισούνται µε τις κεντρικές
ροπές δευτέρας τάξεως. ✓
❏ ❏
Πράγµατι! Άν ληφθούν ο άξονας των τετµηµένων και
τεταγµένων παράλληλοι προς τον Πρωτεύοντα και τον
∆ευτερεύοντα άξονα αντίστοιχα ισχύει: µ20 = ΙΠ και
µ02 = ΙΣ. Επιπλέον αποδεικνύεται ότι ισχύει µ11 = 0.
5. Μια µορφή µε σχήµα κύκλου, τετραγώνου, ή ισόπλευρου
τριγώνου έχει εκκεντρότητα ίση µε µονάδα, επειδή οι
πλευρές του περιγεγραµµένου ορθογωνίου, του οποίου
οι διαστάσεις είναι παράλληλες προς τους Κύριους Άξονες
είναι ίσες µεταξύ τους. ❏ ✓

Οι µορφές αυτές παρουσιάζουν σταθερή τιµή στρο-
φορµής ως προς οποιοδήποτε άξονα που διέρχεται
από το κεντροειδές, εποµένως δεχόµαστε ότι θα ισχύει
ΙΠ = Ι∆ και εποµένως βάσει της (6.8) η εκκεντρότητα
είναι µηδέν.
6. Οι ροπές Hu µιας περιοχής παραµένουν αναλλοίωτες
σε µετασχηµατισµούς περιστροφής και αλλαγής κλίµακας. ✓
❏ ❏
Πράγµατι! Επί πλέον όµως παραµένουν αναλλοίωτες
και σε µετασχηµατισµούς µεταφοράς. Οι πρώτες έξη
από αυτές παραµένουν αναλλοίωτες και σε κατοπτρι-
κούς µετασχηµατισµούς.
Συγχαρητήρια σε όποιον έχει απαντήσει σωστά και στις έξι ερωτήσεις. Καλά πήγα-
τε και µε πέντε σωστές απαντήσεις, Αν απαντήσατε σωστά σε λιγότερες από τρεις
ερωτήσεις µην απογοητεύεστε. ∆ιαβάστε ξανά την ενότητα 6.2 και θα µπορείτε να
συνεχίσετε µε επιτυχία τη µελέτη σας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 201

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 201

7.1
Σύµφωνα µε τoν Bayesian ταξινοµητή οι δύο περιοχές R1, R2 καθορίζονται ανάλο-
γα µε το ποια από τις ποσότητες P(ω1)p(x|ω1) και P(ω2)p(x|ω2) είναι µεγαλύτερη.
Στην τιµή κατωφλίου, x0, οι δυο ποσότητες είναι ίσες και οι αντίστοιχες καµπύλες
τέµνονται. Η τιµή κατωφλίου προκύπτει εποµένως από τη λύση της εξίσωσης:

x0  − x02  x0  − x02 
exp 2 = exp 2
σ 12  2σ 1  σ 22  2σ 2 

και λαµβάνοντας τους λογαρίθµους αµφοτέρων των πλευρών προκύπτει:

 1  x2  1  x2
( ) ( )
ln x0 + ln  2  − 0 2 = ln x0 + ln  2  − 0 2 ,
 σ 1  2σ 1  σ 2  2σ 2

 1 1   1  1
x02  2 − 2  = ln  2  − ln  2 
 2σ 2 2σ 1   σ2   σ1 

2σ 12σ 22 σ 12
και τελικά x0 = ln
σ 12 − σ 22 σ 22

Συγχαρητήρια σε όποιον έχει λύσει µε επιτυχία την άσκηση. Αν λύσατε την άσκηση,
αλλά υπήρξαν λογιστικά λάθη να είστε προσεκτικοί στις επόµενες ασκήσεις και όλα
θα πάνε καλά. Όποιος δεν κατάφερε να προχωρήσει καθόλου στην άσκηση ας µην
απελπίζεται. Να διαβάσει προσεκτικά την Ενότητα 7.3 και να λύσει τα παραδείγµα-
τα 7.1 και 7.2. Τότε σίγουρα θα είναι σε θέση να αντιµετωπίζει τέτοιες ασκήσεις.

7.2
|xi1–x1| |xi2–x2| |xi1–x1|<h/2 και |xi2–x2|<h/2
x1 0.1 0.1 Αληθής
x2 0.2 0.3 Ψευδής
x3 0.4 0.0 Ψευδής
x4 0.3 0.5 Ψευδής
Για να βρίσκεται ένα διάνυσµα xi εντός του τετραγώνου µε κέντρο το x και ακµή h
= 0.4, πρέπει και οι δύο συνιστώσες του, xi1 και xi2 να πληρούν τη σχέση |xij–xj|<h/2,
j = 1,2 όπου x1, x2 οι συνιστώσες του x. Εκτελώντας τους υπολογισµούς για τα τέσ-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 202

202 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

σερα διανύσµατα της άσκησης, όπως φαίνεται και στον πίνακα, διαπιστώνουµε ότι
µόνο ένα από αυτά, το x1, βρίσκεται εντός του τετραγώνου.
Όποιος έλυσε σωστά την άσκηση σίγουρα έχει καταλάβει την ταξινόµηση µε τη
µέθοδο των παραθύρων Parzen. Αν έγινε λάθος που δεν οφείλεται σε πράξεις µελε-
τήστε ξανά προσεκτικά την ενότητα 7.4, πριν συνεχίσετε τη µελέτη του υπόλοιπου
κεφαλαίου.

7.3
Σύµφωνα µε τις αποστάσεις, όπως υπολογίστηκαν και στο παράδειγµα 7.5, το πλη-
σιέστερο διάνυσµα στο x είναι το x18 που ανήκει στην κλάση ω2. Σύµφωνα, εποµέ-
νως, µε τον ταξινοµητή πλησιέστερου γείτονα, ταξινοµούµε το x στην κλάση ω2.
Αν δεν βρήκατε σωστά τη λύση µελετήστε ξανά την ενότητα 7.6 και σίγουρα δεν θα
επαναλάβετε το λάθος.

7.4
Σωστό Λάθος
1. Η επιλογή των ουσιωδών χαρακτηριστικών πρέπει
να γίνεται µε τέτοιο τρόπο ώστε αυτά να έχουν την ίδια
τιµή για όλα τα στοιχεία µιας κλάσης.
Οι τιµές των ουσιωδών χαρακτηριστικών µεταβάλλονται
από πρότυπο σε πρότυπο λόγω των σφαλµάτων που
δηµιουργούνται κατά τη µέτρησή τους και διαφοροποιήσεις
των ίδιων των προτύπων (Υποενότητα 7.1.1). ❏ ✓

2. Για να λυθεί το πρόβληµα ταξινόµησης δύο κλάσεων
χωρίζουµε πάντα τον δισδιάστατο χώρο, το επίπεδο,
σε περιοχές καθεµιά από τις οποίες θα αντιστοιχεί σε
µία κλάση.
Πρέπει να χωριστεί ο χώρος των ουσιωδών
χαρακτηριστικών σε περιοχές που να αντιστοιχούν
στις κλάσεις. Η διάσταση αυτού είναι l και όχι
απαραίτητα 2 ώστε να είναι επίπεδο. (Υποενότητα 7.1.2) ❏ ✓

3. Ένας κατά Bayes ταξινοµητής στη λειτουργία του
παρουσιάζει σφάλµατα, όπως συµβαίνει και µε οποιοδήποτε
άλλο ταξινοµητή. Η πιθανότητα όµως να συµβεί ένα
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 203

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 203

σφάλµα είναι η ελάχιστη δυνατή.


Πράγµατι! Σε οποιοδήποτε ταξινοµητή µερικά πρότυπα
ταξινοµούνται εσφαλµένα. Στον Bayessian ταξινοµητή,
όµως, η πιθανότητα σφάλµατος είναι η ελάχιστη δυνατή.
Το πρόβληµα όµως µε τον ταξινοµητή αυτό είναι ότι για
την κατασκευή του πρέπει να γνωρίζουµε επακριβώς
τις συναρτήσεις πυκνότητας πιθανότητας, p(x|ωi),
i = 1,2,..., m, πράγµα που δεν συµβαίνει πάντα στην πράξη.
(Ενότητα 7.2) ✓
❏ ❏
4. Ο ταξινοµητής ελάχιστης Ευκλείδειας απόστασης είναι
µια παραλλαγή του Bayessian ταξινοµητή, γι’ αυτό
επιτυγχάνει πάντα πιθανότητα σφάλµατος PED ελάχιστη,
ίση µε του ταξινοµητή Bayes, PB.
Θα προσέξατε ότι στην τάξη των ταξινοµητών αυτών
δεν χρησιµοποιούνται οι p(x|ωi), i = 1,2,..., m, αλλά
µόνο η µέση τιµή των ουσιωδών χαρακτηριστικών.
Για το λόγο αυτό στη γενική περίπτωση ισχύει PED>PB.
Μόνο σε περιπτώσεις µε ειδικές συµµετρίες, όπως στην
περίπτωση που όλες οι κατανοµές είναι Gaussian µε
τον ίδιο διαγώνιο πίνακα συνδιασποράς σ2Ι,
ισχύει PED = PB. (Ενότητα 7.3) ❏ ✓

5. Η ταξινόµηση µε την τεχνική των παραθύρων Parzen
δεν απαιτεί κανένα άµεσο υπολογισµό για στατιστικά
στοιχεία των κλάσεων που ταξινοµούµε.
Στην πραγµατικότητα στην τεχνική αυτή χρησιµοποιούνται
δείγµατα εκπαίδευσης και από τις τιµές
των χαρακτηριστικών τους προσεγγίζονται
οι p(x|ωi), i = 1,2,..., m. Αν χρησιµοποιηθεί πολύ µεγάλος
αριθµός τέτοιων δειγµάτων το σφάλµα του ταξινοµητή
πλησιάζει σηµαντικά την ελάχιστη τιµή
του Bayes (Ενότητα 7.4). ✓
❏ ❏
6. Η τιµή της πιθανότητας σφάλµατος PNN στους ταξινοµητές
πλησιέστερου γείτονα είναι πάντα ίση µε την πιθανότητα
σφάλµατος PB του Bayes ταξινοµητή.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 204

204 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

Στην περίπτωση που το πλήθος των δειγµάτων εκπαίδευσης


είναι πολύ µεγάλο, ισχύει PB ≤ PNN ≤ 2PB εποµένως για
µικρές τιµές του PB η PNN παραµένει µικρή. (Ενότητα 7.6) ❏ ✓

Συγχαρητήρια αξίζουν σε όσους απάντησαν σωστά και στις έξι ερωτήσεις. Ικα-
νοποιηµένοι είµαστε και από όσους απάντησαν στις πέντε. Όσοι έκαναν περισ-
σότερα από δύο λάθη δεν πρέπει να απογοητευτούν. Να διαβάσουν ξανά προσε-
κτικά τις αντίστοιχες ενότητες και θα είναι σε θέση να συνεχίσουν τη µελέτη του
επόµενου κεφαλαίου.

8.1
Τα διανύσµατα εκπαίδευσης παρουσιάζονται στον αλγόριθµο µε την ακόλουθη σειρά:
(0, 0)T, (0, 1)T, (1, 0)T, (1, 1)T. Τα διανύσµατα επεκτείνονται, σύµφωνα µε τα όσα
είπαµε στη θεωρία, προσθέτοντας τo 1 ως τρίτο στοιχείο, ώστε να γίνουν οι υπολο-
γισµοί στον 3–διάστατο χώρο για επίπεδα που διέρχονται από την αρχή των αξόνων.
Τα διαδοχικά βήµατα των αναδροµών είναι:
w(0) = (0, 1, 0)T

Yπολογισµός προσήµου Aποτέλεσµα H τιµή του w για την


της παράστασης wTx ταξινόµησης επόµενη αναδροµή
wT(0) x(0) = (0, 1, 0) (0, 0, 1)Τ = 0 ΛΑΘΟΣ w(1) = w(0)+(0, 0, 1)T = (0, 1, 1)T
wT(1) x(1) = (0, 1, 1) (0, 1, 1)Τ = 2>0 ΣΩΣΤΟ w(2) = w(1) = (0, 1, 1)T
wT(2) x(2) = (0, 1, 1) (1, 0, 1)Τ = 1>0 ΛΑΘΟΣ w(3) = w(2) –(1, 0, 1)T = (–1, 1,0)
wT(3) x(3) = (–1, 1,0) (1, 1, 1)Τ = 0 ΛΑΘΟΣ w(4) = w(3) –(1, 1, 1)T = (–2, 0,–1)
wT(4) x(4) = (–2, 0,–1) (0, 0, 1)Τ = 0 ΛΑΘΟΣ w(5) = w(4)+(0, 0, 1)T = (–2, 0, 0)T
wT(5) x(5) = (–2, 0, 0) (0, 1, 1)Τ = 0 ΛΑΘΟΣ w(6) = w(5)+(0, 1, 1)T = (–2, 1, 1)T
wT(6) x(6) = (–2,1, 1) (1, 0, 1)Τ = –1<0 ΣΩΣΤΟ w(7) = w(6) = (–2, 1,1)
wT(7) x(7) = (–2, 1,1 ) (1, 1, 1)Τ = 0 ΛΑΘΟΣ w(8) = w(7) –(1, 1, 1)T = (–3, 0,0)
wT(8) x(8) = ( –3, 0,0) (0, 0, 1)Τ = 0 ΛΑΘΟΣ w(9) = w(8)+(0, 0, 1)T = (–3, 0, 1)T
wT(9) x(9) = (–3, 0, 1) (0, 1, 1)Τ = 1>0 ΣΩΣΤΟ w(10) = w(9) = (–3, 0,1)Τ
wT(10) x(10) = (–3, 0, 1) (1, 0, 1)Τ = –2<0 ΣΩΣΤΟ w(11) = w(10) = (–3, 0, 1)
wT(11) x(11) = (–3, 0, 1 ) (1, 1, 1)Τ–2<0 ΣΩΣΤΟ w(12) = w(11) = (–3, 0, 1)
wT(12) x(12) = ( –3, 0,1) (0, 0, 1)Τ = 1>0 ΣΩΣΤΟ ΤΕΛΟΣ ΥΠΟΛΟΓΙΣΜΩΝ
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 205

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 205

Άρα έχει επιτευχθεί σύγκλιση και η ευθεία µε παραµέτρους w = (–3, 0, 1)T, δηλαδή
η ευθεία –3x1+1 = 0 ταξινοµεί τα διανύσµατα.
Όποιος εκτέλεσε σωστά τα βήµατα του αλγορίθµου αξίζει συγχαρητήρια! Αν δεν τα
καταφέρατε, αλλά νοµίζετε ότι θυµάστε πλήρως τον αλγόριθµο, προσπαθήστε ξανά
µε περισσότερη προσοχή και χωρίς να βλέπετε τη λύση. Αν δεν συµβαίνει αυτό το
τελευταίο µη στενοχωριέστε, διαβάσετε το παράδειγµα 8.1 και τη σχέση (8.6) και
δοκιµάστε ξανά.

8.2
Οι τρεις ευθείες φαίνονται στο Σχ. 8.15a. Οι περιοχές που δηµιουργούν έχουν ονοµα-
τιστεί σύµφωνα µε τη θέση κάθε περιοχής ως προς καθεµιά από τις ευθείες. Στο Σχ.
8.15b φαίνονται οι κορυφές του κύβου στις οποίες µετασχηµατίζονται οι περιοχές.
Για να είναι το πρόβληµα διαχωρίσιµο από ένα Perceptron 2–στρωµάτων, θα πρέπει
οι περιοχές να συνδυαστούν έτσι ώστε οι αντίστοιχες κορυφές του κύβου να είναι
γραµµικά διαχωρίσιµες. Ένας τέτοιος συνδυασµός, προφανώς όχι ο µόνος, είναι:
ω1:(000 ) ∪ (001)

ω2: Οι υπόλοιπες

x2
g3(x) = 0
111
011 111
0.5
011 110
0.25 g2(x) = 0
101 010
110
0.5
100 x1 001 101
001

000
000 100
™¯‹Ì· 8.15
g1(x) = 0 Γεωµετρία της
(α) (β) ασκήσεως 8.2.

Ένα επίπεδο που χωρίζει τις κορυφές αυτές είναι το

1
y2 + y 3 − =0
2

που φαίνεται στο σχήµα 8.16b. Το Perceptron του σχήµατος 8.16a, υλοποιεί τις ευθεί-
ες του 8.15a και το παραπάνω επίπεδο και, εποµένως, επιλύει το πρόβληµα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 206

206 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

™¯‹Ì· 8.16
Perceptron 2
στρωµάτων για
την άσκηση Αυτο-
αξιολόγησης 8.2. (α) (β)

Ένας συνδυασµός που οδηγεί σε µη γραµµικά διαχωρίσιµες περιοχές είναι ο

ω1:(000 ) ∪ (111)

ω2: Οι υπόλοιπες

™¯‹Ì· 8.17
Perceptron 3
στρωµάτων για
την άσκηση Αυτο-
αξιολόγησης 8.2. (α) (β)

Στο σχήµα 8.17b φαίνονται τα δύο επίπεδα –y1–y2–y3+1/2 = 0 και y1+y2+y3–5/2 = 0.


που διαχωρίζουν τις κορυφές αυτές από τις υπόλοιπες, Πράγµατι, το πρώτο από τα
επίπεδα αφήνει την κορυφή (000) στην (+) πλευρά και όλες τις άλλες κορυφές στην
(–) πλευρά. Το δεύτερο επίπεδο αφήνει στην (+) πλευρά την κορυφή (111) και όλες
τις άλλες στην (–). Ο νευρώνας εξόδου πραγµατοποιεί µία OR πύλη και υλοποιεί την
ευθεία z1 + z2 − 1 / 2 = 0 . Τo Perceptron του σχήµατος 8.17a επιλύει το πρόβληµα.
Αξίζει συγχαρητήρια σε όποιον έλυσε ολόκληρη την άσκηση. Επιτυχία είναι και η
λύση του πρώτου µέρους της. Αν δεν καταφέρατε να λύσετε ούτε το πρώτο µέρος µην
στενοχωριέστε! ∆ιαβάστε προσεκτικά την υποενότητα 8.2.3 και προσπαθήστε ξανά.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 207

A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 207

8.3
Σωστό Λάθος
1. Με τον αλγόριθµο Perceptron είναι δυνατή πάντα η λύση
ενός προβλήµατος ταξινόµησης µε δύο κλάσεις. ❏ ✓

Η λύση είναι δυνατή µόνο όταν οι κλάσεις είναι γραµµικά
διαχωρίσιµες. (Υποενότητα 8.1) ❏ ✓

2. Η συνάρτηση ενεργοποίησης του Perceptron δέχεται για είσοδο
το διάνυσµα των χαρακτηριστικών και δίνει έξοδο 1, ή 0. ✓
❏ ❏
Οι τιµές των ουσιωδών χαρακτηριστικών πολλαπλασιάζονται
επί τις συνάψεις, τα επιµέρους γινόµενα αθροίζονται µε
το κατώφλι και το αποτέλεσµα της άθροισης οδηγείται
ως είσοδος στην f(.). (Υποενότ. 8.1.2) ✓
❏ ❏
3. Είναι δυνατή η ταξινόµηση του XOR αν χρησιµοποιηθούν
δύο ευθείες. (Ενότητα. 8.2) ✓
❏ ❏
4. Ένα Perceptron τριών στρωµάτων είναι δυνατόν να διαχωρίσει
σε δύο κλάσεις οποιαδήποτε ένωση πολυεδρικών περιοχών
στο χώρο των χαρακτηριστικών διανυσµάτων.
Πράγµατι! Με το πρώτο στρώµα ο χώρος µετασχηµατίζεται
στις κορυφές υπερκύβου, το δεύτερο στρώµα περιέχει νευρώνες
για την µία µόνο κλάση και το τρίτο αποτελείται από
ένα νευρώνα που υλοποιεί µια OR πύλη. (Υποενότ. 8.2.3) ✓
❏ ❏
5. Η Εκπαίδευση ενός πολυστρωµατικού δικτύου σηµαίνει
τον καθορισµό της τιµής των συνάψεων και κατωφλίου
για κάθε Perceptron που περιλαµβάνεται σε αυτό.
Πράγµατι! Ο καθορισµός αυτός γίνεται µε τη χρήση
γνωστών εκ των προτέρων προτύπων για κάθε κλάση
και την εκτέλεση κατάλληλου αλγορίθµου ταξινόµησης.
(Υποενότ. 8.2.4) ✓
❏ ❏
Συγχαρητήρια στον αναγνώστη που έχει απαντήσει σωστά και στις πέντε ερωτήσεις.
Καλή επίδοση είναι και οι τέσσερις σωστές απαντήσεις. Όσοι έκαναν περισσότερα
από δύο λάθη να µήν απογοητευτούν! Να προσπαθήσουν ξανά διαβάζοντας τις αντί-
στοιχες ενότητες. Είναι σίγουρο ότι η επανάληψη αυτή θα τους επιτρέψει να κατα-
νοήσουν πλήρως και το κεφάλαιο αυτό.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 208

°ÏˆÛÛ¿ÚÈ

Ακµές Εικόνας: Τα όρια µεταξύ διαφορετικών περιοχών ενός αντικειµένου, ή δια-


φορετικών αντικειµένων που απεικονίζονται στην εικόνα.
Perceptron: Βασικό δοµικό στοιχείο που υλοποιεί ένα γραµµικό ταξινοµητή δύο
κλάσεων.
Pixel Οθόνης: Το µικρότερο φωτεινό τµήµα µιας οθόνης, του οποίου η τιµή φωτει-
νότητας δύναται να καθοριστεί ανεξάρτητα από την υπόλοιπη οθόνη.
Pixel Ψηφιακής Εικόνας: βλέπε Στοιχείο της Ψηφιακής Εικόνας
Αλγόριθµος Οπισθοδροµικής ∆ιάδοσης: Τύπος Αλγόριθµου εκµάθηνσης νευρω-
νικού δικτύου που µαθαίνει µε δύο ή περισσότερες βαθµίδες. Στον
αλγόριθµο αυτό προσεγγίζονται αρχικά οι παράµετροι των τελευταίων
βαθµίδων και µε βάση τα εξαγόµενα αυτά γίνεται προσδιορισµός των
παραµέτρων των πρώτων βαθµίδων.
Αλγόριθµος Perceptron: Επαναληπτικός αλγόριθµος, µε τον οποίο σε ένα πρόβλη-
µα ταξινόµησης µε γραµµικά διαχωρίσιµες κλάσεις, χρησιµοποιούνται
τα διανύσµατα εκπαίδευσης και προσδιορίζονται υπερεπίπεδα–επιφά-
νειες απόφασης του ταξινοµητή Perceptron.
Αλγόριθµος Απότοµης Κατάδυσης: Αλγόριθµος προσδιορισµού παραµέτρων
συστήµατος που στηρίζεται στην µεταβολή των παραµέτρων προς την
κατεύθυνση εκείνη στην οποία η συνάρτηση κόστους λαµβάνει µικρό-
τερη τιµή.
Αλγόριθµος Εκµάθηνσης: Ένας αλγόριθµος, που χρησιµοποιεί ένα σύνολο διανυ-
σµάτων εκπαίδευσης και προσδιορίζει τις τιµές των αγνώστων παρα-
µέτρων ενός συστήµατος.
Αναγνώριση Μορφών: Βλέπε αναγνώριση προτύπων.
Αναγνώριση Προτύπων: Είναι η επιστηµονική περιοχή, που ασχολείται µε το σχε-
διασµό συστηµάτων ικανών να ταξινοµήσουν πρότυπα (patterns), σε
κατηγορίες (classes).
Αναγνώριση Σκηνής: Η εκτέλεση Αναγνώρισης Μορφών σε όλη την εικόνα.
Ανακατασκευή Εικόνας: Η δηµιουργία µιας εικόνας σε οθόνη, ή σε εκτυπωτή, µε
βάση τα δεδοµένα που έχουν κωδικοποιηθεί σε ένα αρχείο εικόνας.
Ανακλαστικότητα: Φυσικό µέγεθος της επιφάνειας ενός φωτιζόµενου αντικειµένου,
που ορίζεται ως ο λόγος της ποσότητας του φωτός που ανακλάται από
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 209

°§ø™™∞ƒπ 209

την επιφάνεια προς την ποσότητα φωτός που προσπίπτει σ’ αυτή.


Ανίχνευση Ακµών: Τεχνική µε την οποία αναδεικνύονται οι ακµές σε µια εικόνα.
Ανίχνευση Περιγράµµατος: Τεχνική µε την οποία καταγράφονται τα σηµεία του
περιγράµµατος µιας περιοχής της εικόνας.
Αποκατάσταση της Εικόνας: Το σύνολο των τεχνικών βελτίωσης, οι οποίες έχουν
στόχο την απαλλαγή της εικόνας από παραµορφώσεις που έχει υποστεί
κατά τη λήψη και την ψηφιοποίηση της.
Ασπρόµαυρη Εικόνα: Εικόνα, στην οποία η ακολουθία των pixels λαµβάνει περισ-
σότερες από δύο τιµές.
Βελτίωση Εικόνας: Μερική ή ολική επανόρθωση της υποβάθµισης που έχει υπο-
στεί µια εικόνα.
Γραµµικά ∆ιαχωρίσιµες κλάσεις: Πρόβληµα ταξινόµησης στο οποίο οι επιφάνει-
ες απόφασης είναι υπερεπίπεδα, δηλαδή είναι γραµµικές συναρτήσεις
των µεταβλητών του χώρου των χαρακτηριστικών .
∆ειγµατοληψία: Το πρώτο στάδιο ψηφιοποίησης ενός αναλογικού σήµατος. Σ’ αυτό
λαµβάνονται δείγµατα µε κάποια συχνότητα (fS) και δηµιουργείται ένα
σήµα διακριτό στο χρόνο.
∆ευτερεύων Άξονας: Άξονας που διέρχεται από το κεντροειδές της µορφής, µε την
ιδιότητα η αντίστοιχη στροφορµή να µην είναι µικρότερη καµιάς από
εκείνες που υπολογίζονται για οποιοδήποτε άλλο άξονα, που διέρχεται
επίσης από το κεντροειδές.
∆ιακλασική Απόσταση: Η απόσταση στο χώρο των χαρακτηριστικών µεταξύ της
µέσης τιµής των διανυσµάτων δύο διαφορετικών κλάσεων.
∆ιακριτική Ικανότητα Βάθους Οθόνης: Ο δυαδικός λογάριθµος του αριθµού των δια-
φορετικών τιµών φωτεινότητας που µπορεί να λάβει ένα pixel οθόνης.
∆ιακριτική Ικανότητα Οθόνης: Η πυκνότητα µε την οποία είναι τοποθετηµένα τα
pixels πάνω στην επιφάνεια της οθόνης.
∆ιακριτός Μετασχηµατισµός Fourier: Ο µετασχηµατισµός Fourier ενός διακρι-
τού σήµατος.
∆ιάταση του Ιστογράµµατος: Τροποποίηση Ιστογράµµατος µε στόχο ένα επιλεγ-
µένο διάστηµα τιµών του να αποκτήσει µεγαλύτερο εύρος στο νέο ιστό-
γραµµα. Με την τεχνική αυτή επιδιώκεται αύξηση της αντίθεσης για
επιλεγµένα αντικείµενα σε µια εικόνα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 210

210 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

∆ιαφορικός Κώδικας Αλύσου: Κώδικας Αλύσου, στον οποίο κωδικοποιείται η


µεταβολή της κατεύθυνσης γειτνίασης των διαδοχικών pixels της γραµ-
µής.
∆ισδιάστατο Σήµα: Μία µεταβαλλόµενη ποσότητα που µαθηµατικά παριστάνεται
ως συνάρτηση δύο µεταβλητών z = f(x,y), όπου x,y ανεξάρτητες µετα-
βλητές. Η σχέση που συνδέει µια εξαρτηµένη µεταβλητή z µε δύο ανε-
ξάρτητες µεταβλητές x και y.
∆ίτονη Εικόνα: βλέπε δυαδική Εικόνα.
∆οµική Προσέγγιση: Μέθοδος ανάλυσης της υφής, η οποία στηρίζεται στην παρά-
θεση του τρόπου διαδοχής στην περιοχή της υφής στοιχειωδών τµηµά-
των της εικόνας.
∆υαδική Εικόνα: Εικόνα, στην οποία η ακολουθία των pixels λαµβάνει δύο µόνο
διαφορετικές τιµές.
Εκπαίδευση του Perceptron: Η εκτέλεση αλγόριθµου εκµάθηνσης για ένα νευρώ-
να Perceptron.
Εντροπία των Τιµών ενός Πίνακα: Στοιχείο περιγραφής ενός πίνακα. Η τιµή του
γίνεται τόσο µεγαλύτερη όσο τα στοιχεία αυτά διαφέρουν λιγότερο.
Επιφάνεια Απόφασης: Σηµεία του χώρου, όπου οι συναρτήσεις διάκρισης δύο γει-
τονικών περιοχών λαµβάνουν την ίδια τιµή. Πρόκειται για επιφάνειες
που χωρίζουν το χώρο των χαρακτηριστικών σε περιοχές, κάθε µία από
τις οποίες αντιστοιχεί σε µια µόνο κλάση.
Ερµηνεία, ή Αντίληψη Σκηνής: Αναγνώριση των αντικειµένων µιας σκηνής από
την εικόνα της, καθώς και της σχετικής θέσης που κατέχουν αυτά µετα-
ξύ τους.
Εύρος Βαθµίδας Κβάντισης: Το σταθερό εύρος των υποδιαστηµάτων, στα οποία
χωρίζεται το διάστηµα τιµών µιας µεταβλητής κατά την οµοιόµορφο
κβάντιση.
Θόλωµα της Εικόνας: Παραµόρφωση της εικόνας που δηµιουργείται από διάφορες
αιτίες, όπως τη σχετική κίνηση της µηχανής λήψης και του αντικειµέ-
νου, την επεξεργασία της εικόνας µε φίλτρο κινούµενου µέσου, κ.λ.π.
Θόρυβος Κβάντισης: Το τυχαίο σήµα που ισούται µε τη διαφορά µεταξύ των αρχι-
κών και των κβαντισµένων δειγµάτων µιας ακολουθίας σήµατος.
Ισοστάθµιση του Ιστογράµµατος: Τροποποίηση Ιστογράµµατος µε στόχο η εικό-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 211

°§ø™™∞ƒπ 211

να που θα προκύψει να έχει ιστόγραµµα µε οµοιόµορφη κατανοµή.


Ιστόγραµµα Κλίσεων Περιγράµµατος: Σχήµα Αναπαράστασης του περιγράµµα-
τος, το οποίο περιλαµβάνει τη πυκνότητα πιθανότητας τιµών της κλί-
σης του περιγράµµατος.
Ιστόγραµµα Τιµών των pixels: Γραφική παράσταση της συχνότητας µε την οποία
επαναλαµβάνονται οι διαφορετικές τιµές στα pixels της εικόνας.
Καθολικό Κατώφλιο: Επιλεγµένη αριθµητική τιµή που χρησιµοποιείται κατά τη
διαδικασία της κατωφλίωσης µιας εικόνας. Στα pixels µε τιµές µικρό-
τερες από αυτό τίθεται η τιµή «µηδέν» ενώ στα υπόλοιπα η δυϊκή τιµή.
Κατάτµηση Εικόνας: Η υποδιαίρεση µιας εικόνας σε χωριστές περιοχές κάθε µια
από τις οποίες είναι πιθανόν να περιέχει µια µορφή.
Κατοπτρικός Μετασχηµατισµός: Μετασχηµατισµός περιοχής, στον οποίο η δηµι-
ουργούµενη εικόνα είναι συµµετρική ως προς άξονα µε το πρωτότυπο.
Κατωφλίωση µε Προσαρµοζόµενο Κατώφλιο: ∆ιαδικασία της κατωφλίωσης, στην
οποία η τιµή του κατωφλίου λαµβάνεται διαφορετική για κάθε pixel.
Κατωφλίωση: Η µετατροπή µιας ασπρόµαυρης εικόνας σε δίχρωµη εικόνα.
Κβάντιση: Η διαδικασία, µε την οποία µια ακολουθία σήµατος µε τιµές σε ένα διά-
στηµα πραγµατικών αριθµών προσεγγίζεται από µια ακολουθία µε
πεπερασµένο πλήθος τιµών, επιδιώκοντας το µέσο τετραγωνικό σφάλ-
µα να είναι ελάχιστο. Συνήθως, µετά την κβάντιση ακολουθεί η κωδι-
κοποίηση των κβαντισµένων δειγµάτων.
Κεντρικές Ροπές: Ροπές στις οποίες οι αποστάσεις των συντεταγµένων µετρώνται
ως προς το κεντροειδές όταν πρόκειται για περιοχή εικόνας, ή τη µέση
τιµή όταν πρόκειται για ιστόγραµµα.
Κεντροειδές: Το σταθµισµένο ως προς τη φωτεινότητα κέντρο µιας περιοχής εικόνας.
Κλάση Προτύπων: Κατηγορία Προτύπων
Κλίση δισδιάστατης συνάρτησης σε σηµείο: Το gradient. Ένα διάνυσµα µε συνι-
στώσες τις δύο µερικές παραγώγους της συνάρτησης στο σηµείο.
Κρυφό Στρώµα Νευρώνων: Ένα από τα ενδιάµεσα στρώµατα νευρώνων, ενός πολυ-
στρωµατικού Perceptron, µεταξύ των στρωµάτων εισόδου και εξόδου.
Κύκλωµα Κβάντισης: Το κύκλωµα µε το οποίο πραγµατοποιείται η διαδικασία της
κβάντισης.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 212

212 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

Κύριοι Άξονες Μορφής: Οι δύο άξονες, ο Πρωτεύων και ο ∆ευτερεύων µιας µορ-
φής, οι οποίοι, όπως αποδεικνύεται, είναι κάθετοι µεταξύ τους.
Κώδικας Αλύσου: Σχήµα Αναπαράστασης µε το οποίο κωδικοποιείται η σχετική
θέση των pixels ενός περιγράµµατος και γενικότερα µιας γραµµής. Στη-
ρίζεται στην καταγραφή των κατευθύνσεων γειτνίασης των διαδοχικών
pixels της γραµµής.
Λευκός Προσθετικός Θόρυβος: Τυχαίο σήµα µε στατιστικά ανεξάρτητα διαδοχικά
δείγµατα.
Λογιστική Συνάρτηση: Τύπος συνάρτησης που προσεγγίζει τη µοναδιαία βηµατι-
κή συνάρτηση.
Μάσκα ∆ιαφόρισης: Πίνακας, τα στοιχεία του οποίου χρησιµοποιούνται ως συντε-
λεστές για τον υπολογισµό µιας από τις µερικές παραγώγους, ή της
παραγώγου κατά κάποια κατεύθυνση της εικόνας.
Μηχανή που Μαθαίνει: Ένα σύστηµα µε αγνώστους παραµέτρους, οι τιµές των
οποίων είναι δυνατόν να προσδιοριστούν χρησιµοποιώντας ένα σύνο-
λο από διανύσµατα εκπαίδευσης και έναν αλγόριθµο εκµάθηνσης.
Μονόχρωµη Εικόνα: βλέπε ∆υαδική Εικόνα
Μορφή ή Πρότυπο: Αντικείµενο, ή άλλη οντότητα, την οποία ενδιαφερόµαστε να
εντοπίσουµε σε µια εξεταζόµενη εικόνα.
Νευρώνας: Μια στοιχειώδης µηχανή που µαθαίνει, κατάλληλος για προβλήµατα
ταξινόµησης µε δύο γραµµικά διαχωρίσιµες κλάσεις.
Ολίσθηση του Ιστογράµµατος: Τροποποίηση ιστογράµµατος,κατά την η ένταση
όλων των pixels µε τιµή µικρότερη από ένα µέγιστο, αυξάνεται κατά
µία σταθερά.
Ουσιώδη Χαρακτηριστικά: Είναι µια κατάλληλα επιλεγµένη κωδικοποίηση της
πληροφορίας που εµπεριέχεται σε κάθε πρότυπο.
Παράθυρο Parzen: Παραλλαγή του ταξινοµητή Bayes, στην οποία εκτιµάται η τιµή
της πυκνότητα πιθανότητας για κάθε κλάση στο σηµείο του άγνωστου
διανύσµατος από το χώρο που καταλαµβάνει ένας δεδοµένος αριθµός
διανυσµάτων εκπαίδευσης, k, αυτής.
Πίνακας Συνεµφάνισης Τιµών: Πίνακας που προσεγγίζει τις τιµές της συνδυασµέ-
νης πυκνότητας πιθανότητας των τιµών ζευγών από pixels της περιοχής.
Πλήθος Σταθµών Κβάντισης: Το πλήθος των διαφορετικών τιµών, που µπορούν
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 213

°§ø™™∞ƒπ 213

να εµφανιστούν σε µια κβαντισµένη ακολουθία σήµατος.


Πρωτεύων Άξονας: Άξονας που διέρχεται από το κεντροειδές της µορφής και έχει
την ιδιότητα η αντίστοιχη στροφορµή να µην είναι µεγαλύτερη καµιάς
από εκείνες που υπολογίζονται για οποιοδήποτε άλλο άξονα που διέρ-
χεται επίσης από το κεντροειδές.
Ροπές Ιστογράµµατος: Βλέπε ροπές
Ροπές του Hu: Ροπές περιοχής εικόνας που είναι αναλλοίωτες σε µεταφορά, στρο-
φή, και αλλαγή κλίµακας. Φέρουν το όνοµα του ερευνητή που τις όρισε
για πρώτη φορά.
Ροπές: Σειρά αριθµών που χρησιµοποιούνται ως στοιχεία περιγραφής, κυρίως ενός
ιστογράµµατος, ή µιας περιοχής εικόνας. Οι τιµές τους καθορίζονται
από τις τιµές των σηµείων του σήµατος και τις αποστάσεις των συντε-
ταγµένων αυτών από καθορισµένους άξονες ή σηµεία.
Ροπή Αδράνειας Πίνακα ως προς µια ∆ιαγώνιο του: Στοιχείο περιγραφής πίνακα.
Σαρωτής: Συσκευή µε την οποία γίνεται ψηφιοποίηση µιας εικόνας από την παρά-
στασή της σε χαρτί ή film.
Στατιστικές Τεχνικές Ταξινόµησης: Ταξινόµηση µετά από στατιστική επεξεργα-
σία των ουσιωδών χαρακτηριστικών.
Στατιστική Ροπή: Σειρά αριθµών που αποδίδει τις αποκλίσεις των τιµών µιας
συνάρτησης πυκνότητας πιθανότητας από τη µέση τιµή.
Στοιχείο Περιγραφής: Ουσιώδες Χαρακτηριστικό.
Στοιχείο της Ψηφιακής Εικόνας: Ένα δείγµα του σήµατος της εικόνας. Συνήθως
καλείται pixel.
Στροφορµή Μορφής ως προς Άξονα: Τύπος ροπής στον οποίο χρησιµοποιείται το
τετράγωνο της απόστασης του κάθε pixel από τον άξονα.
Συναρτήσεις ∆ιάκρισης: Συναρτήσεις µε πεδίο ορισµού το χώρο των ουσιωδών
χαρακτηριστικών ενός ταξινοµητή, µία για κάθε κλάση, οι οποίες ορί-
ζονται µε τέτοιο τρόπο, ώστε στα σηµεία του χώρου που αντιστοιχούν
σε µια συγκεκριµένη κλάση η αντίστοιχη συνάρτηση διάκρισης να λαµ-
βάνει τιµή µεγαλύτερη από όλες τις υπόλοιπες.
Συνάρτηση Ενεργοποίησης Νευρώνα: Η µη γραµµική συνάρτηση που υλοποιεί ο
νευρώνας, µετά τον γραµµικό συνδυασµό των εισόδων του.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 214

214 ANA§Y™H EIKONA™ KAI ANA°NøPI™H ¶POTY¶øN

Συνάψεις: Οι παράµετροι ενός νευρώνα, οι τιµές των οποίων καθορίζονται από ένα
αλγόριθµο εκµάθυνσης.
Σχήµα Αναπαράστασης: Είδος λεπτοµερούς κωδικοποίησης περιγράµµατος, ή εσω-
τερικού περιοχής, ικανό να χρησιµοποιηθεί ακόµη και για την ανακα-
τασκευή (έστω και προσεγγιστικά) αυτών.
Ταξινόµηση µε Επίβλεψη: Σύστηµα ταξινόµησης στο οποίο ο αριθµός των κλάσε-
ων είναι εκ των προτέρων γνωστός και χρησιµοποιούνται γνωστά πρό-
τυπα εκπαίδευσης από κάθε κλάση.
Ταξινόµηση Χωρίς Επίβλεψη: Σύστηµα ταξινόµησης στο οποίο δεν διατίθενται
γνωστά πρότυπα των κλάσεων και δεν είναι γνωστός ο αριθµός των
υπαρχόντων κλάσεων.
Ταξινοµητής Bayes: Τύπος ταξινοµητή που στηρίζεται στο θεώρηµα Bayes. Για την
εφαρµογή του θεωρείται γνωστή η υπό συνθήκη πυκνότητα πιθανότη-
τας για κάθε γνωστή κλάση και το άγνωστο διάνυσµα ταξινοµείται στην
κλάση για την οποία η πιθανότητα λάθους υπολογίζεται µικρότερη από
όλες τις υπόλοιπες.
Ταξινοµητής Ελάχιστης Απόστασης: Τύπος ταξινοµητή, στον οποίο η ταξινόµη-
ση γίνεται µε βάση την ελάχιστη απόσταση του άγνωστου διανύσµα-
τος από τη µέση τιµή των διανυσµάτων εκπαίδευσης κάθε κλάσης.
Ταξινοµητής Πλησιέστερου Γείτονα: Τύπος ταξινοµητή, στον οποίο το άγνωστο
διάνυσµα ταξινοµείται στην ίδια κλάση µε αυτή του πλησιέστερου µε
αυτό διανύσµατος εκπαίδευσης.
Ταξινοµητής: Η βαθµίδα ενός συστήµατος ταξινόµησης, όπου αποφασίζεται (µε
βάση τα ουσιώδη χαρακτηριστικά) σε ποια, από ένα σύνολο γνωστών
κλάσεων, ένα άγνωστο πρότυπο ανήκει.
Ταχύς Μετασχηµατισµός Fourier: Αλγόριθµος µε τον οποίο υπολογίζονται οι
συντελεστές του ∆ιακριτού Μετασχηµατισµού Fourier σε χρόνο πολύ
µικρότερο από εκείνο που απαιτεί η ο υπολογισµός µε βάση τις σχέσεις
ορισµού του τελευταίου.
Τελεστές Kirsch: Τύπος τελεστών προσανατολισµού.
Τελεστές Robert: Τύπος τελεστών κλίσης
Τελεστές Sobel: Τύπος τελεστών κλίσης
Τελεστές Κλίσης: ∆ύο µάσκες παραγώγισης µε τις οποίες προσεγγίζονται οι τιµές
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 215

°§ø™™∞ƒπ 215

των µερικών παραγώγων της έντασης, ως προς x και ως προς y σε ένα


σηµείο της εικόνας. Με τις δύο αυτές παραγώγους δηµιουργείται το διά-
νυσµα της κλίσης.
Τελεστές Προσανατολισµού: Σειρά από µάσκες διαφόρισης κατά διαδοχικές διευ-
θύνσεις. Χρησιµοποιούνται για την προσέγγιση της µεγαλύτερης τιµής
της παραγώγου κατά κατεύθυνση σε ένα pixel της εικόνας.
Τόνωση της Εικόνας: Οµάδα τεχνικών επεξεργασίας εικόνας, µε τις οποίες γίνεται
ελάττωση του θορύβου και ενδυνάµωση χαρακτηριστικών, που βελ-
τιώνουν την υποκειµενική αντίληψη της εικόνας.
Τόνωση της Αντίθεσης: Τεχνική Επεξεργασίας Εικόνας µε την οποία γίνεται διεύ-
ρυνση της κλίµακας µεταξύ της ελάχιστης και της µέγιστης τιµής των
pixels της εικόνας.
Τόνωση των Ακµών: Τεχνική µε την οποία γίνεται ενδυνάµωση των ακµών µιας
εικόνας
Τροποποίηση του Ιστογράµµατος: Αλλαγή της τιµής των pixels µιας εικόνας σύµ-
φωνα µε αριθµητική σχέση που έχει προκύψει από την ανάλυση του
ιστογράµµατός της, µε στόχο τη βελτίωση της υποκειµενικής αντίλη-
ψης της εικόνας.
Υπογραφή Περιγράµµατος: Μονοδιάστατο Σχήµα Αναπαράστασης του περιγράµ-
µατος αναλλοίωτο σε αλλαγές κλίµακας και περιστροφής,.
Υφή Περιεχοµένου Περιοχής: Ιδιότητα της επιφάνειας αντικειµένου που ανακλά-
ται το φως από αυτήν.
Φίλτρο Κινούµενου Μέσου: Τύπος ψηφιακού φίλτρου, στον οποίο η τιµή του κάθε
pixel της εικόνας εξόδου τίθεται ίση µε τη µέσο όρο των τιµών των
pixels µιας περιοχής καθορισµένου µεγέθους γύρω από το αντίστοιχο
pixel της εικόνας εισόδου.
Φίλτρο Μεσαίου: Τύπος ψηφιακού φίλτρου, στον οποίο η τιµή του κάθε pixel της εικό-
νας εξόδου τίθεται ίση µε τη µεσαία σε µέγεθος τιµή των pixels µιας περιο-
χής καθορισµένου µεγέθους του αντίστοιχου pixel της εικόνας εισόδου.
Ψηφιακή Εικόνα: Εικόνα που προκύπτει από την ψηφιοποίηση µιας αναλογικής
εικόνας.
Ψηφιοποίηση σήµατος: Η διαδοχική εκτέλεση στο σήµα των διαδικασιών της δειγ-
µατοληψίας, της κβάντισης και της κωδικοποίησης των κβαντισµένων
δειγµάτων.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 216

E›ÏÔÁÔ˜

Στο βιβλίο που µόλις τέλειωσε ο αναγνώστης, έγινε προσπάθεια να αναπτυχθεί η


βασική θεωρία της Ανάλυσης Εικόνας και της Αναγνώρισης Προτύπων. ∆εν γνωρί-
ζουµε σε ποια έκταση έγινε αυτό δυνατό, αλλά ακόµη και αν επαληθεύτηκαν οι πιο
αισιόδοξες προθέσεις µας, ο αναγνώστης πρέπει να γνωρίζει ότι οι γνώσεις που έχει
αποκτήσει στην περιοχή δεν είναι ιδιαίτερα σηµαντικές. Αν έχει σκοπό να ασχολη-
θεί εκτενώς µε το αντικείµενο πρέπει να καταφύγει στη βιβλιογραφία που αναφέρε-
ται στα επί µέρους κεφάλαια αλλά πολύ περισσότερο να παρακολουθήσει επιστη-
µονικά περιοδικά της πιο πάνω περιοχής. Παράλληλα πρέπει να φροντίσει να αυξή-
σει τις εργαστηριακές του εµπειρίες στα πρακτικά θέµατα της περιοχής.

You might also like