Professional Documents
Culture Documents
Σηµείωση
Το ΕΑΠ είναι υπεύθυνο για την επιµέλεια έκδοσης και την ανάπτυξη των κειµένων σύµφωνα µε τη Μεθο-
δολογία της εξ Αποστάσεως Εκπαίδευσης. Για την επιστηµονική αρτιότητα και πληρότητα των συγγραµ-
µάτων την αποκλειστική ευθύνη φέρουν οι συγγραφείς, κριτικοί αναγνώστες και ακαδηµαϊκοί υπεύθυνοι
που ανέλαβαν το έργο αυτό.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 2
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 3
Πρόγραµµα Σπουδών
ΠΛΗΡΟΦΟΡΙΚΗ
Θεµατική Eνότητα
ΣHMATA KAI EΠEΞEPΓAΣIA EIKONAΣ
Tόµος Γ'
Aνάλυση Eικόνας
και Aναγνώριση Προτύπων
EΜΜΑΝΟΥΗΛ ΣΑΓΚΡΙΩΤΗΣ ΣΕΡΓΙΟΣ ΘΕΟ∆ΩΡΙ∆ΗΣ
Eπίκ. Kαθηγητής Tµ. Πληροφορικής Kαθηγητής Tµ. Πληροφορικής
Πανεπιστηµίου Aθηνών Πανεπιστηµίου Aθηνών
ΠATPA 2003
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 4
Πρόγραµµα Σπουδών
ΠΛHPOΦOPIKH
Θεµατική Ενότητα
ΣHMATA KAI EΠEΞEPΓAΣIA EIKONAΣ
Τόµος Γ'
Aνάλυση Eικόνας και Aναγνώριση Προτύπων
Συγγραφή
Κριτική Ανάγνωση
BAΣIΛEIOΣ MEPTZIOΣ
Kαθηγητής Tµήµατος Hλεκτρολόγων Mηχανικών και Mηχανικών Yπολογιστών ∆ΠΘ
Γλωσσική Επιµέλεια
EΛENH KOYTΣOΣΠYPOY
ISBN: 960–538–225–3
Kωδικός Έκδοσης: ΠΛH 44/3
¶ÂÚȯfiÌÂÓ·
K∂º∞§∞π√ 1
∏ ·Ó·ÁÓÒÚÈÛË ÚÔÙ‡ˆÓ Î·È Ë ·Ó¿Ï˘ÛË ÂÈÎfiÓ·˜
K∂º∞§∞π√ 2
H „ËÊȷ΋ ÂÈÎfiÓ· Î·È Ë ‰È·¯Â›ÚËÛ‹ Ù˘ ·fi ÙÔÓ ˘ÔÏÔÁÈÛÙ‹
K∂º∞§∞π√ 3
∆¯ÓÈΤ˜ ‚ÂÏÙ›ˆÛ˘ Ù˘ ÂÈÎfiÓ·˜
K∂º∞§∞π√ 4
∆¯ÓÈΤ˜ ηٿÙÌËÛ˘ Ù˘ ÂÈÎfiÓ·˜
¶EPIEXOMENA 7
K∂º∞§∞π√ 5
∞Ó··Ú¿ÛÙ·ÛË Î·È ÂÚÈÁÚ·Ê‹ ÂÚÈÁÚ¿ÌÌ·ÙÔ˜
K∂º∞§∞π√ 6
¶ÂÚÈÁÚ¿ÊÔÓÙ· ÛÙÔȯ›· ÙÔ˘ ÂÛˆÙÂÚÈÎÔ‡ ÂÚÈÔ¯‹˜ ÂÈÎfiÓ·˜
K∂º∞§∞π√ 7
Bayesian TaÍÈÓÔÌËÙ¤˜
¶EPIEXOMENA 9
K∂º∞§∞π√ 8
T·ÍÈÓÔÌËÙ¤˜ NÂ˘ÚˆÓÈÎÒÓ ¢ÈÎÙ‡ˆÓ
¶ÚfiÏÔÁÔ˜
Στο βιβλίο αυτό περιλαµβάνονται στοιχεία από τη θεωρία της Ανάλυσης Εικόνας και
της Αναγνώρισης Προτύπων. Οι περιοχές αυτές της επιστήµης βρίσκονται σε άµεση
συγγένεια µε την επεξεργασία σήµατος και εφαρµογές τους εντοπίζονται σε τοµείς
της επιστήµης, όπως Ροµποτική, Αναγνώριση χαρακτήρων κειµένου (OCR), Ιατρι-
κή Πληροφορική, κ.λ.π. Εφαρµογές τους συναντάµε πλέον στο γραφείο, στο πολυ-
κατάστηµα, στο ιατρείο, στις οδικές αρτηρίες, στη βιοµηχανία και σε κάθε τοµέα
ανθρώπινης δραστηριότητας.
Για όλους τους πιο πάνω λόγους νοµίζουµε ότι ο νέος επιστήµονας που έχει αποφα-
σίσει να ασχοληθεί µε την πληροφορική, είναι απαραίτητο να διδαχθεί τουλάχιστόν
ένα εξαµηνιαίο µάθηµα που θα του δώσει τις βασικές αρχές από την Ανάλυση Εικό-
νας και την Αναγνώριση Προτύπων. Για τους ίδιους λόγους, το µάθηµα αυτό έχει
συµπεριληφθεί στην ενότητα της Πληροφορικής του Ανοικτού Πανεπιστηµίου και
το βιβλίο που έχετε στα χέρια σας προσπαθεί να καλύψει την αντίστοιχη ύλη.
Σαν βιβλίο το οποίο, κατ’ αρχήν, απευθύνεται σε σπουδαστές που έχουν περιορι-
σµένες δυνατότητες άµεσης επικοινωνίας µε τους δασκάλους τους, ο καθορισµός
του όγκου του καθώς και η επιλογή και η ανάπτυξη της ύλης του έγινε µε βάση τους
ειδικούς κανόνες, που πρέπει να ακολουθούνται όταν το έντυπο προορίζεται για
εκπαίδευση από απόσταση. Κάθε κεφάλαιο περιέχει ένα σηµαντικό αριθµό από
παραδείγµατα καθώς και ασκήσεις, η λύση των οποίων βρίσκεται γραµµένη στο
τέλος του κεφαλαίου. Ο αναγνώστης πρέπει να επιλύει την κάθε άσκηση στο σηµείο
του κειµένου που τη συναντά, δηλαδή αµέσως µετά τη µελέτη του αντίστοιχου τµή-
µατος της ύλης. Στη συνέχεια, πρέπει να ελέγχει την απάντησή του µελετώντας την
λύση που υπάρχει στο τέλος του αντίστοιχου κεφαλαίου και στην περίπτωση που
διαπιστώσει ότι κάποιες απαντήσεις του είναι εσφαλµένες, να ακολουθεί τις υπο-
δείξεις που δίνονται για συµπληρωµατική µελέτη. Συµβουλεύουµε τον αναγνώστη
να ακολουθήσει σχολαστικά την πιο πάνω διαδικασία ώστε να υπάρξει ταχεία κατα-
νόηση και εµπέδωση της υπό µελέτη ύλης.
Καταβλήθηκε ιδιαίτερη προσπάθεια να περιοριστούν στο δυνατό οι προαπαιτούµε-
νες πανεπιστηµιακές γνώσεις που πρέπει να έχει ο σπουδαστής για να µπορεί να
µελετήσει µε ευχέρεια το βιβλίο ακόµη και αν επιλέξει το µάθηµα στα πρώτα έτη
των σπουδών του. Τα µαθηµατικά που προαπαιτούνται καλύπτονται στο µεγαλύτε-
ρο µέρος τους από τα µαθηµατικά λυκείου της θετικής κατεύθυνσης. Επιπλέον
αυτών, ο σπουδαστής θα χρειαστεί να έχει µελετήσει στοιχεία στατιστικής και ειδι-
κότερα στατιστικές κατανοµές. Είναι γνωστό ότι στα πρώτα χρόνια σπουδών, ακόµη
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 12
και για το σπουδαστή της πληροφορικής, η εικόνα είναι γνωστή µόνο σαν στοιχείο
των κειµένων του, δεν έχει ακόµα συνειδητοποιήσει ότι πρόκειται για ένα σήµα και
πολύ περισσότερο δεν έχει τη δυνατότητα να επιδρά σ’ αυτήν. Για το λόγο αυτό περι-
λάβαµε στην ύλη ενότητες σχετικές µε τη δηµιουργία και τη διαχείριση της ψηφια-
κής εικόνας από τον υπολογιστή παρουσιάζοντας πολύ σύντοµα τη διαδικασία της
δειγµατοληψίας και πιο αναλυτικά την κβάντιση καθώς και στοιχεία από την ανα-
κατασκευή της εικόνας από την οθόνη του υπολογιστή.
Ένα µεγάλο µέρος των ασκήσεων του βιβλίου αυτού, αυτές που περιέχουν σηµα-
ντικό όγκο υπολογισµών, παρουσιάζονται ως να έχουν λυθεί µε µολύβι και χαρτί. Η
έκταση των απαιτούµενων υπολογισµών είναι τέτοια ώστε αν χρειαστεί µπορεί να
πραγµατοποιηθεί µε αυτό τον τρόπο. Εµείς όµως συµβουλεύουµε τους σπουδαστές
να κατασκευάζουν προγράµµατα και να χρησιµοποιούν τον υπολογιστή για την το
πραγµατοποίηση των πράξεων. Για το σκοπό αυτό µπορεί να χρησιµοποιηθεί οποι-
αδήποτε προγραµµατιστική γλώσσα γνωρίζουν καλλίτερα, αν και πιστεύουµε ότι η
χρήση µιας εξελιγµένης γλώσσας, όπως για παράδειγµα το MATLAB, θα τους απαλ-
λάξει από µακροχρόνιο γράψιµο εντολών και την αντίστοιχη διαδικασία ανίχνευσης
και διόρθωσης σφαλµάτων (debugging).
Το βιβλίο αποτελείται από οκτώ κεφάλαια. Στο πρώτο από αυτά γίνεται προσπάθεια
να δοθεί συνοπτικά η ύλη που περιέχεται σε όλο το βιβλίο. Αν και γνωρίζουµε ότι
αυτό θα δηµιουργήσει κάποιες δυσκολίες στον αναγνώστη, πιστεύουµε ότι είναι απα-
ραίτητο, ώστε να αποκτήσει µια γενική άποψη ολόκληρου του αντικειµένου πριν
από την αναλυτική παράθεση των επί µέρους εννοιών.
Στο δεύτερο και τρίτο κεφάλαιο γίνεται µια προσπάθεια να παρουσιάσουµε στον
αναγνώστη τις απαραίτητες γνώσεις για τη διακίνηση της ψηφιακής εικόνας µε τον
υπολογιστή και τις στοιχειώδης τεχνικές επεξεργασίας της. Θεωρήθηκε σκόπιµο να
συµπεριληφθούν τα θέµατα αυτά ώστε να υπάρξει σχετική αυτοδυναµία του βιβλί-
ου, πολύ περισσότερο που αυτό απευθύνεται σε φοιτητές που κατά τεκµήριο δεν
έχουν χειριστεί την εικόνα ως σήµα.
Στα τέταρτο, πέµπτο και έκτο κεφάλαια παρουσιάζονται µέθοδοι της ανάλυσης εικό-
νας οι οποίες αποσκοπούν στην ανάδειξη ουσιωδών χαρακτηριστικών περιγράµµα-
τος και περιοχής εικόνας. Πιο αναλυτικά, στο τέταρτο κεφάλαιο γίνεται η παρου-
σίαση µερικών από τις πιο κλασικές µεθόδους κατάτµησης της εικόνας. Σ’ αυτό
παρουσιάζονται τεχνικές κατωφλίωσης και ανάδειξης ακµών. Στο πέµπτο και έκτο
κεφάλαιο παρουσιάζονται τα σχήµατα αναπαράστασης και τα στοιχεία περιγραφής
του περιγράµµατος και του εσωτερικού µιας περιοχής εικόνας αντίστοιχα. Τέλος,
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 13
¶PO§O°O™ 13
στα κεφάλαια επτά και οχτώ δίνονται οι πιο βασικές τεχνικές ταξινόµησης µε επί-
βλεψη. Στο πρώτο από αυτά περιγράφονται τεχνικές που στηρίζονται κυρίως στην
ελαχιστοποίηση του σφάλµατος ενώ στο τελευταίο γίνεται αναφορά στα νευρωνικά
δίκτυα και στους τρόπους επίλυσης προβληµάτων ταξινόµησης µε αυτά.
Αισθανόµαστε υποχρέωση να ευχαριστήσουµε τον Κριτικό Αναγνώστη καθηγητή
Μέρτζιο Βασίλειο, καθώς και τα µέλη της Οµάδας Εκτέλεσης Έργου του Ελληνικού
Ανοικτού Πανεπιστηµίου, οι οποίοι παρακολούθησαν από κοντά τη συγγραφή ολό-
κληρου του βιβλίου. Οι παρατηρήσεις τους βοήθησαν στη διαµόρφωση του τελικού
ύφους και της µορφής του βιβλίου αυτού. Επίσης, πρέπει να ευχαριστήσουµε τους
συντονιστές του προγράµµατος της Πληροφορικής, ∆ρ Χρήστο Παναγιωτακόπου-
λο και κυρία ∆ήµητρα Παρασκευοπούλου για την άψογη συνεργασία που είχαµε.
Τελειώνοντας θέλουµε να ευχαριστήσουµε τους υποψήφιους διδάκτορες Γιάννη
Κοψίνη και Κώστα Παναγιωτόπουλο για τη βοήθεια που πρόσφεραν στην κατα-
σκευή των σχηµάτων, καθώς και τις χρήσιµες παρατηρήσεις που έκαναν διαβάζο-
ντας τα χειρόγραφα κατά τη διάρκεια της συγγραφής του βιβλίου.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 14
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 15
™ÎÔfi˜
∫ ∂
1
º
Σκοπός του κεφαλαίου αυτού είναι να παρουσιάσει συνοπτικά τις µεθόδους και τεχνι-
κές των επιστηµονικών περιοχών της Ανάλυσης Εικόνας και της Αναγνώρισης Προ-
τύπων, καθώς επίσης και τον τρόπο που οι τεχνικές αυτές συνδυάζονται στα πλαίσια
∞ § ∞ π √
¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού, θα είστε σε θέση νa:
ŒÓÓÔȘ ÎÏÂȉȿ
• Ακµές Εικόνας
• Αναγνώριση Μορφών
• Αναγνώριση Προτύπων
• Αναγνώριση Σκηνής
• Ανάλυση Εικόνας
• Ανίχνευση Ακµών
• Ανίχνευση Περιγράµµατος
• Βελτίωση Εικόνας
• ∆ιακριτός Μετασχηµατισµός Fourier
• ∆ισδιάστατο Σήµα
• Ερµηνεία ή Αντίληψη Σκηνής
• Κατάτµηση Εικόνας
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 16
• Κατηγορίες Προτύπων
• Κατωφλίωση
• Μορφή ή Πρότυπο
• Ουσιώδη Χαρακτηριστικά
• Περίγραµµα Περιοχής
• Στατιστικές Τεχνικές Ταξινόµησης
• Στατιστική Ροπή
• Στοιχείο της Ψηφιακής Εικόνας
• Ταξινόµηση µε Επίβλεψη
• Ταξινόµηση Χωρίς Επίβλεψη
∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Το βιβλίο αυτό εστιάζει στη µελέτη δύο από τους πιο σύγχρονους επιστηµονικούς κλά-
δους της Πληροφορικής: Την «Ανάλυση Εικόνας» (Image Analysis) και την «Ανα-
γνώριση Προτύπων» (Pattern Recognition). Οι µέθοδοι και οι τεχνικές τους συν-
δυάζονται για την ανάπτυξη των «Συστηµάτων Οπτικής Αναγνώρισης» (ΣΟΑ). Στα
κεφάλαια που ακολουθούν θα µελετήσουµε τις βασικές αρχές και τις κυριότερες τεχνι-
κές αυτών των περιοχών της επιστήµης.
Για την άνετη κατανόηση των κεφαλαίων του βιβλίου αυτού, ο αναγνώστης πρέπει
να γνωρίζει το συµβολισµό και τη χρήση των διανυσµάτων και των πινάκων, καθώς
και στοιχεία από την Μαθηµατική Ανάλυση, όπως την έννοια του ορίου, της παρα-
γώγου και του ολοκληρώµατος. Επιθυµητό είναι επίσης να γνωρίζει µερικά στοιχεία
από την επεξεργασία σήµατος [1], όπως το Μετασχηµατισµό Fourier και το ∆ιακρι-
τό Μετασχηµατισµό Fourier.
Το κεφάλαιο αυτό αποτελείται από τρεις ενότητες. Στην πρώτη ενότητα, (Ενότητα
1.1) σκιαγραφείται η ανάγκη της αυτόµατης ανάλυσης των εικόνων, γίνεται η σύγκρι-
ση των λειτουργιών αναγνώρισης µιας σκηνής από τον άνθρωπο και από τον υπο-
λογιστή και δίνονται µερικά πρώτα στοιχεία για τον τρόπο εισαγωγής µιας εικόνας
σε ένα υπολογιστικό σύστηµα. Στη δεύτερη ενότητα, (Ενότητα 1.2) δίνονται οι βασι-
κές βαθµίδες ενός ΣΟΑ και αναφέρεται µια σειρά από καθηµερινές εφαρµογές των
συστηµάτων αυτών . Τέλος στην τρίτη ενότητα, (Ενότητα 1.3) δίνονται µε συντοµία
οι µέθοδοι της Ανάλυσης Εικόνας και της Αναγνώρισης Προτύπων που χρησιµοποι-
ούνται για την πραγµατοποίηση των βαθµίδων των ΣΟΑ.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 17
«Μια εικόνα αξίζει όσο χίλιες λέξεις» αναφέρει ένα παλιό κινέζικο ρητό και αποδί-
δει πλήρως την πραγµατικότητα, καθώς η αντίληψη του περιβάλλοντος από τους
ανθρώπους σε µεγάλο ποσοστό στηρίζεται στην αίσθηση της όρασης. Μερικά από
τα πιο αξιοθαύµαστα χαρακτηριστικά του ανθρώπου αποκαλύπτονται όταν αυτός
παρατηρεί µια εικόνα. Αναγνωρίζει και αποµνηµονεύει εύκολα τη µορφή των προ-
σώπων και των αντικειµένων και αντιλαµβάνεται ταχύτατα τις σχετικές θέσεις τους,
καθώς και τη σκηνή που απεικονίζεται στην εικόνα. Για το λόγο αυτό οι άνθρωποι
ανέκαθεν χρησιµοποίησαν οπτικές αναπαραστάσεις, δηλαδή εικόνες, για να εκφρά-
σουν τα συναισθήµατά τους ή για να εµπλουτίσουν τις διηγήσεις τους.
Με την ανάπτυξη της τεχνολογίας, η χρήση της εικόνας γίνεται πιο συχνή. Εκτός από
τις φωτογραφίες, όπου αποτυπώνονται σκηνές τις καθηµερινής µας ζωής, ένα µεγά-
λο πλήθος εικόνων δηµιουργείται από ειδικά µηχανήµατα και προορίζεται να χρησι-
µοποιηθεί από εξειδικευµένους επιστήµονες. Τέτοιες είναι οι ιατρικές εικόνες, οι µετε-
ωρολογικές και οι δορυφορικές εικόνες, οι εικόνες από Radar, οι εικόνες από το µικρό-
κοσµο της βιολογίας. Όλες αυτές οι εικόνες περιέχουν πληθώρα στοιχείων, τα οποία
πρέπει πρώτα να εντοπιστούν, να µετρηθούν και στη συνέχεια να καταχωρηθούν στον
υπολογιστή. Εκεί γίνεται η επεξεργασία και η ταξινόµηση των στοιχείων αυτών.
Ο αυτόµατος εντοπισµός, η µέτρηση και η καταχώρηση των στοιχείων από τον ίδιο
τον υπολογιστή συντοµεύει και ελαττώνει σηµαντικά το κόστος για τη συνολική δια-
δικασία αξιολόγησης της εξεταζόµενης εικόνας. Άρχισε λοιπόν η προσπάθεια, όλες
αυτές οι λειτουργίες να «καλυφθούν» από τον υπολογιστή και να περιοριστεί η ανά-
µειξη του ανθρώπου στο ελάχιστο δυνατό. Προς την κατεύθυνση αυτή οδήγησαν εφαρ-
µογές όπως τα ροµπότ, η τεχνητή όραση, η λήψη δορυφορικών φωτογραφιών αποµα-
κρυσµένων περιοχών, η συνεχής οπτική παρακολούθηση σκηνής για την ανίχνευση
καθορισµένου αντικειµένου. Το αποτέλεσµα των προσπαθειών αυτών είναι τα ΣΟΑ.
Ο τρόπος που αναγνωρίζει ο άνθρωπος τα αντικείµενα σε µια σκηνή είναι πολύ πιο
σύνθετος από τον τρόπο που λειτουργεί ο υπολογιστής στα ΣΟΑ. Κατά την παρα-
τήρηση µιας σκηνής και την αναγνώριση των αντικειµένων που απεικονίζονται σε
αυτή, ο ανθρώπινος νους λειτουργεί ταχύτατα µε τρόπο που δεν έχει γίνει ακόµα
πλήρως κατανοητός. Αυτή η ικανότητα αναγνώρισης είναι πολυσύνθετη και πραγ-
µατοποιείται µε επιτυχία κάτω από ευµενείς ή δυσµενείς συνθήκες φωτισµού και
ευκρίνειας της εικόνας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 18
Στο σηµείο αυτό είναι ανάγκη να γνωρίσουµε τον τρόπο διαχείρισης της εικόνας από
τον υπολογιστή, δηλαδή τη µορφή µε την οποία αυτή αποθηκεύεται στη µνήµη και
συµµετέχει στην εκτέλεση των αλγορίθµων του υπολογιστή. Η ακίνητη εικόνα είναι
ένα σήµα δύο χωρικών διαστάσεων ενώ ή κινούµενη, όπως η εικόνα στην οθόνη της
τηλεόρασης, είναι σήµα τριών διαστάσεων. Το δισδιάστατο σήµα z = f(x,y) µιας ακί-
νητης εικόνας έχει ως ανεξάρτητες µεταβλητές x,y τις δύο γεωµετρικές διαστάσεις
του φωτεινού υποστρώµατος, το πλάτος και το µήκος. Η εξαρτηµένη µεταβλητή z
είναι η τιµή του σήµατος, δηλαδή η ένταση της φωτεινότητας, ή απλώς η ένταση της
εικόνας στο συγκεκριµένο σηµείο. Σε µια έγχρωµη εικόνα η «τιµή» του σήµατος
δίνεται από µια τριάδα µη αρνητικών πραγµατικών αριθµών, που προσδιορίζουν την
ένταση των τριών βασικών χρωµάτων, του πράσινου, του ερυθρού και του κυανού.
Με άλλα λόγια απαιτούνται τρεις συναρτήσεις, µία για κάθε χρώµα. Σε µια ασπρό-
µαυρη εικόνα η ένταση των τριών αυτών βασικών χρωµάτων είναι ίδια. Έτσι η τιµή
του σήµατος σε ένα σηµείο ασπρόµαυρης εικόνας είναι ένας µη αρνητικός πραγµα-
τικός αριθµός.
Για να εισαχθεί µια εικόνα στον υπολογιστή, πρέπει προηγουµένως να ψηφιοποιη-
θεί. Η ψηφιακή εικόνα που προκύπτει µε τον τρόπο αυτό παρίσταται µε έναν πίνα-
κα ακεραίων αριθµών, που αντιστοιχούν στην ένταση των δειγµάτων της. Κάθε δείγ-
µα από αυτά ονοµάζεται pixel, ένας όρος που προέρχεται από τη σύντµηση των λέξε-
ων picture element (στοιχείο της εικόνας). Στο Κεφάλαιο 2 γίνεται µια πιο λεπτοµε-
ρής περιγραφή της ψηφιοποίησης της εικόνας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 19
1 . 2 ∆∞ ™ À ™ ∆ ∏ ª ∞∆∞ √ ¶ ∆ π ∫ ∏ ™ ∞ ¡ ∞ ° ¡ ø ƒ π ™ ∏ ™ 19
Στο Σχ. 1.1 δίνεται το λειτουργικό διάγραµµα ενός ΣΟΑ. ∆ιακρίνουµε τη βαθµίδα
λήψης της εικόνας και τρεις λειτουργικές βαθµίδες δια µέσου των οποίων καταλήγουµε
σε µια κωδικοποιηµένη περιγραφή της σκηνής που παριστάνει η αντίστοιχη εικόνα.
Καθεµιά από τις βαθµίδες αυτές χρησιµοποιεί διαφορετικές τεχνικές και µεθόδους.
Η διασύνδεση του συστήµατος µε το περιβάλλον γίνεται µέσω του συστήµατος
λήψης, που περιλαµβάνει την κάµερα και το σύστηµα ψηφιοποίησης της εικόνας.
Στο Σχ. 1.1, το σύστηµα λήψης έχει σχεδιαστεί µε το σύµβολο της κάµερας. Στην
έξοδο του συστήµατος λήψης έχει δηµιουργηθεί η ψηφιακή εικόνα, η οποία όµως
έχει υποστεί υποβάθµιση της ποιότητάς της. Η υποβάθµιση αυτή οφείλεται σε σφάλ-
µατα του συστήµατος λήψης και σε θόρυβο που εισάγει αυτό στην εικόνα.
Η βαθµίδα Βελτίωσης και Αποκατάστασης της Εικόνας (image enhancement and
restoration) λαµβάνει στην είσοδό της την υποβαθµισµένη εικόνα. Στο στάδιο αυτό
εξουδετερώνονται ή ελαχιστοποιούνται οι αλλοιώσεις που έχει υποστεί η εικόνα. Στην
έξοδο της βαθµίδας αυτής έχουµε την εικόνα της εισόδου σαφώς βελτιωµένη. Στο Κεφά-
λαιο 3 δίνεται η περιγραφή µερικών από τις πιο απλές τεχνικές Βελτίωσης Εικόνας.
Bελτίωσηx
εικόνας
Aνάλυσηx
εικόνας
Aναγνώρισηx
προτύπωνx
και σκηνής ™¯‹Ì· 1.1
Άνθρωπος,x Tο λειτοργικό διά-
σανίδι
γραµµα ενός
∆ύο άνθρωποιx Συστήµατος Oπτι-
σε τραµπάλα κής Aναγνώρισης
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 20
Ένας συνεχώς αυξανόµενος αριθµός από ΣΟΑ εγκαθίστανται και λειτουργούν αυτό-
µατα ή ηµιαυτόµατα, καλύπτοντας εφαρµογές σε όλο και περισσότερους κλάδους.
Τα συστήµατα αυτά τα συναντάµε συνεχώς στην καθηµερινή µας ζωή, µέσα στο γρα-
φείο µας, στα καταστήµατα, στα εργοστάσια, στα ιατρικά κέντρα. ΣΟΑ αναλύουν
δορυφορικές φωτογραφίες και υποβοηθούν την πρόγνωση του καιρού, την παρακο-
λούθηση της φυτικής παραγωγής, τον εντοπισµό ασθενειών στις δασικές εκτάσεις
του πλανήτη µας, κ.λ.π. Στον Πίνακα 1.1 γίνεται µια συνοπτική αναφορά σε µερικές
από τις εφαρµογές των συστηµάτων αυτών.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 21
1 . 2 ∆∞ ™ À ™ ∆ ∏ ª ∞∆∞ √ ¶ ∆ π ∫ ∏ ™ ∞ ¡ ∞ ° ¡ ø ƒ π ™ ∏ ™ 21
¶›Ó·Î·˜ 1.1
Συνοπτική αναφορά εφαρµογών Συστηµάτων Oπτικής Aναγνώρισης.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 22
1.3 ª¤ıÔ‰ÔÈ Î·È Ù¯ÓÈΤ˜ Ù˘ ·Ó¿Ï˘Û˘ ÂÈÎfiÓ·˜ Î·È Ù˘ ·Ó·ÁÓÒÚÈÛ˘
ÚÔÙ‡ˆÓ
Οι µέθοδοι και οι τεχνικές που χρησιµοποιούνται στα ΣΟΑ προέρχονται από τις
περιοχές της Ανάλυσης Εικόνας και της Αναγνώρισης Προτύπων και θα παρουσια-
στούν αναλυτικά στα επόµενα κεφάλαια του βιβλίου. Στην ενότητα αυτή θα δώσου-
µε µια συνοπτική περιγραφή αυτών των µεθόδων για να αποκτήσετε αντίληψη ολό-
κληρης της περιοχής πριν από την αναλυτική εξέταση των επιµέρους θεµάτων. Θα
σας συµβουλεύαµε στην πρώτη ανάγνωση να µελετήσετε προσεκτικά αυτή την ενό-
τητα, χωρίς όµως να επιµείνετε αναγκαστικά στην πλήρη κατανόησή της, και να επα-
νέλθετε αφού µελετήσετε όλο το βιβλίο.
Η Ανάλυση Εικόνας είναι η επιστηµονική περιοχή της Επεξεργασίας Εικόνας που περι-
λαµβάνει τις τεχνικές µε τις οποίες γίνεται ο εντοπισµός διαφορετικών περιοχών σε µια
εικόνα καθώς και εκείνες µε τις οποίες γίνεται στη συνέχεια η κατάτµησή της, µε στόχο
το διαχωρισµό από αυτήν των περιοχών που έχουν µεγάλη πιθανότητα να περιέχουν
ένα αναζητούµενο πρότυπο. Οι περιοχές αυτές διαχωρίζονται από τις γειτονικές τους.
α β
™¯‹Ì· 1.2
(α) Πρωτότυπο,
(β) Παραγώγιση
για τόνωση των
ακµών, (γ) Κατω-
φλίωση και ανά-
δειξη ακµών,
(δ)Ανίχνευση περι-
γράµµατος. γ δ
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 23
1.3 ª∂£√¢√π ∫∞π ∆∂áπ∫∂™ ∆∏™ ∞¡∞§À™∏™ ∂π∫√¡∞™ ∫∞π ∆∏™ ∞¡∞°¡øƒπ™∏™ ¶ƒ√∆À¶ø¡ 23
Στη συνέχεια της υποενότητας δίνονται συνοπτικά µερικές από τις βασικές τεχνικές
που χρησιµοποιεί η Ανάλυση Εικόνας.
Ανίχνευση Ακµών (Edge Detection): Σε αυτή γίνεται η παραγώγιση του σήµατος
της ασπρόµαυρης εικόνας και ανιχνεύεται η κατεύθυνση προς την οποία η κλίση
(gradient) της εικόνας παρουσιάζει µέγιστη τιµή. Στην υποενότητα 4.2 παρουσιά-
ζονται αναλυτικά οι µέθοδοι της τεχνικής αυτής.
Κατωφλίωση (Thresholding): Με την τεχνική αυτή η εικόνα µετατρέπεται από
ασπρόµαυρη σε µονόχρωµη, σε εικόνα δηλαδή δύο τόνων. Η κατωφλίωση χρησι-
µοποιείται για το διαχωρισµό περιοχών της εικόνας µε διαφορετικές εντάσεις φωτει-
νότητας. Χρησιµοποιείται επίσης για να διαχωρίσει τις ακµές από την υπόλοιπη εικό-
να ύστερα από την ανίχνευσή τους. Στην υποενότητα 4.1 θα γίνει παρουσίαση µερι-
κών από τις πιο γνωστές µεθόδους της τεχνικής αυτής.
Ανίχνευση Περιγράµµατος (Boundary Detection): Με την εφαρµογή της µεθόδου
αυτής εντοπίζονται τα σηµεία του περιγράµµατος των µορφών, που περιέχονται στην
εικόνα. Η τεχνική αυτή έπεται συνήθως της κατωφλίωσης και η εφαρµογή της σε εικό-
νες, στις οποίες έχει γίνει ο διαχωρισµός των περιοχών τους, είναι σχετικά εύκολη.
Στο Σχ. 1.2 δίνεται ένα παράδειγµα εικόνας στην οποία επιχειρείται ο εντοπισµός
περιοχών της. Η εικόνα είναι η ασπρόµαυρη µορφή µιας δορυφορικής φωτογραφίας
και δείχνει µερικά νησιά του Αιγαίου. Στην εικόνα αυτή έχει γίνει κατά σειρά παρα-
γώγιση, κατωφλίωση και ανίχνευση του περιγράµµατος. Με τη βοήθεια της τελευ-
ταίας εικόνας µπορεί να γίνει εύκολα ο διαχωρισµός της περιοχής κάθε νησιού από
την υπόλοιπη εικόνα. Στην υποενότητα 5.1 δίνεται ένα αλγόριθµος εντοπισµού του
περιγράµµατος για µονόχρωµες εικόνες.
Το στάδιο αυτό χαρακτηρίζει τις τεχνικές εκείνες που χρησιµοποιούνται για το δια-
χωρισµό των προτύπων σε κατηγορίες. Η «είσοδος» στο στάδιο αυτό είναι τα επι-
λεγµένα χαρακτηριστικά που περιγράφουν το πρότυπο και η «έξοδος» η κλάση, στην
οποία το πρότυπο κατατάσσεται. Για παράδειγµα, σ’ ένα σύστηµα αυτόµατης ανα-
γνώρισης ιατρικών εικόνων το σύστηµα πρέπει να αποφασίζει εάν η περιοχή (πρό-
τυπο), του απεικονιζόµενου όγκου, αντιστοιχεί στην κλάση «καλοήθους» ή «κακοή-
θους» όγκου.
Οι τεχνικές ταξινόµησης υποδιαιρούνται σε δύο µεγάλες κατηγορίες. Στις Τεχνικές
Ταξινόµησης µε Επίβλεψη και στις Τεχνικές χωρίς Επίβλεψη. Στην πρώτη από τις
δύο κατηγορίες οι κλάσεις είναι εκ των πρότερων γνωστές και το σύστηµα ταξινό-
µησης εκπαιδεύεται µε ένα αριθµό γνωστών προτύπων εκπαίδευσης (training
patterns) από κάθε κλάση. Για το παράδειγµα που προαναφέραµε, αυτό προϋποθέ-
τει ότι εχουµε στη διάθεσή µας από ένα νοσοκοµείο έναν αριθµό ακτινογραφιών που
αντιστοιχούν σε ασθενείς µε καλοήθεις και κακοήθεις όγκους. Μετά την εκπαίδευ-
ση (σχεδιασµό) του συστήµατος ταξινόµησης, αυτό µπορεί να ταξινοµήσει στη µία
ή την άλλη κλάση ένα άγνωστο πρότυπο, το οποίο πρέπει να αναγνωρίσουµε. Στην
ταξινόµηση χωρίς επίβλεψη το πρόβληµα είναι πιο δύσκολο διότι δεν διαθέτουµε
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 25
1.3 ª∂£√¢√π ∫∞π ∆∂áπ∫∂™ ∆∏™ ∞¡∞§À™∏™ ∂π∫√¡∞™ ∫∞π ∆∏™ ∞¡∞°¡øƒπ™∏™ ¶ƒ√∆À¶ø¡ 25
πρότυπα γνωστά, ή, και δεν γνωρίζουµε εκ των προτέρων τον αριθµό των κλάσεων.
Στο βιβλίο αυτό θα ασχοληθούµε µόνο µε ταξινόµηση µε επίβλεψη.
Κατωφλίωση
Βελτίωση Εικόνας
Εξαγωγή Χαρακτηριστικών
Αποµάκρυνση του θορύβου από την Κατάτµηση Εικόνας
εικόνα
Ανίχνευση Ακµών
Αναγνώριση Μορφών και Σκηνής
Εξάλειψη των παραµορφώσεων εικόνας
™‡ÓÔ„Ë
Στις παραγράφους που µελετήσαµε στο παρόν εισαγωγικό Κεφάλαιο έγινε µια γενι-
κή επισκόπηση του υλικού από το οποίο απαρτίζεται το βιβλίο. Μια δεύτερη ανά-
γνωση της εισαγωγής, µετά τη µελέτη ολόκληρου του βιβλίου, θα σας βοηθήσει να
έχετε µια ολοκληρωµένη και καθαρή άποψη για το αντικείµενο που διδαχθήκατε.
Στις παραγράφους του κεφαλαίου αυτού είδαµε:
• Την ανάγκη που υπάρχει στην πράξη για την αυτόµατη αναγνώριση της εικόνας
από τον υπολογιστή.
• Τη λειτουργική δοµή ενός Αυτόµατου Συστήµατος Οπτικής Αναγνώρισης.
• Εφαρµογές των Αυτόµατων Συστηµάτων Οπτικής Αναγνώρισης.
• Τις Βασικές βαθµίδες στη διαδικασία της Ανάλυσης Εικόνας .
• Τις Βασικές βαθµίδες ενός συστήµατος Αναγνώρισης Προτύπων.
Όσοι επιθυµούν µια συµπληρωµατική εισαγωγική περιγραφή του αντικειµένου µπο-
ρούν να συµβουλευτούν τη βιβλιογραφία που παραθέτουµε.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 27
B I B § I O ° PA º I A 27
µÈ‚ÏÈÔÁÚ·Ê›·
H „ËÊȷ΋ ÂÈÎfiÓ·
Î·È Ë ‰È·¯Â›ÚËÛ‹ Ù˘ ·fi ÙÔÓ ˘ÔÏÔÁÈÛÙ‹
™ÎÔfi˜
∫ ∂
2º
Σκοπός του κεφαλαίου αυτού είναι να παρουσιάσει τη µεθοδολογία µε την οποία δηµι-
ουργείται µια ψηφιακή εικόνα, καθώς και τον τρόπο που ο υπολογιστής διαχειρίζε-
ται την ψηφιακή εικόνα στις µονάδες αποθήκευσης, κατά την εκτέλεση των αλγορίθ-
∞ § ∞ π √
¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Mετατρέπετε σε ψηφιακή εικόνα ένα δισδιάστατο αναλογικό σήµα.
• Xειρίζεστε την ψηφιακή εικόνα όπως έναν πίνακα αριθµών.
• Oρίζετε τους όρους pixel εικόνας, pixel οθόνης, διακριτική ικανότητα οθόνης, δια-
κριτική ικανότητα pixel και µέγεθος εικόνας.
• Yπολογίζετε το πλήθος των bytes, που χρειάζεται µια εικόνα για να αποθηκευτεί
στη µονάδα αποθήκευσης.
• Yπολογίζετε το πλήθος των bytes που χρειάζονται για να γίνει ανακατασκευή της
ψηφιακής εικόνας και παρουσίασή της στην οθόνη του υπολογιστή.
ŒÓÓÔȘ ÎÏÂȉȿ
• Ανακατασκευή Εικόνας
• Ασπρόµαυρη Εικόνα
• ∆ειγµατοληψία
• ∆ιακριτική Ικανότητα Βάθους Οθόνης
• ∆ιακριτική Ικανότητα Οθόνης
• ∆ίτονη Εικόνα
• ∆υαδική Εικόνα
• Εύρος Βαθµίδας Κβάντισης
• Θόρυβος Κβάντισης
• Κβάντιση
• Κύκλωµα Κβάντισης
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 30
• Μονόχρωµη Εικόνα
• Pixel Εικόνας
• Pixel Οθόνης
• Πλήθος Σταθµών Κβάντισης
• Σαρωτής
• Ψηφιακή Εικόνα
∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Η βιβλιογραφία αναφέρει χρήση της ψηφιακής εικόνας από το 1921. Πρόκειται για
ασπρόµαυρες δηµοσιογραφικές εικόνες της εποχής µε ικανοποιητική ευκρίνεια [1], που
διαβιβάζονταν µέσα από υποβρύχιο καλώδιο µεταξύ Λονδίνου και Νέας Υόρκης. Στην
εποχή µας, έγχρωµες ψηφιακές εικόνες µεγάλης ευκρίνειας, διαβιβάζονται προς σταθ-
µούς της γης από αποµακρυσµένα σηµεία του διαστήµατος. Παράλληλα, ένας τεράστιος
αριθµός ψηφιακών εικόνων διακινούνται καθηµερινά µέσα από το διαδίκτυο, ή µετα-
φέρονται µε τα CD–ROM ή ακόµη µεταδίδονται από την ψηφιακή τηλεόραση.
Γιατί όµως η προτίµηση αυτή στις ψηφιακές εικόνες; Η εύκολη και η απόλυτα ακρι-
βής αντιγραφή τους, η δυνατότητα συµπίεσης και διαβίβασης τους µέσα από τα ψηφια-
κά δίκτυα δεδοµένων, η δυνατότητα αποθήκευσής τους σε ψηφιακά µέσα για απεριό-
ριστο χρόνο, χωρίς να υποστούν οποιαδήποτε αλλοίωση στην ποιότητά τους, καθώς
και η δυνατότητα επεξεργασίας τους από τον υπολογιστή είναι µερικές µόνο από τις
αιτίες που οι ψηφιακές επικράτησαν των αναλογικών εικόνων στις πιο πολλές εφαρ-
µογές. Στο µέλλον, φαίνεται ότι η αντικατάσταση αυτή θα είναι γενικός κανόνας.
Το Κεφάλαιο αυτό αποτελείται από τέσσερις ενότητες, οι οποίες ασχολούνται µε τη
δηµιουργία της ψηφιακής εικόνας και τη διαχείρισή της από τον υπολογιστή. Στην
πρώτη ενότητα (Ενότητα 2.1), γίνεται η παρουσίαση της εικόνας ως ένα δισδιάστα-
το ή τρισδιάστατο σήµα και εξηγείται η ανάγκη της ψηφιοποίησής της για τη δηµι-
ουργία της ψηφιακής εικόνας. Η τεχνική της ψηφιοποίησης παρουσιάζεται στις επό-
µενες δύο παραγράφους. Πιο συγκεκριµένα, στην Ενότητα 2.2 περιγράφεται η διαδι-
κασία της δειγµατοληψίας της εικόνας και οι κανόνες που πρέπει να τηρούνται σ’
αυτήν, ενώ στην επόµενη (Ενότητα 2.3) περιγράφονται οι διαδικασίες της κβάντισης
και της κωδικοποίησης. Τέλος, στην τελευταία ενότητα (Ενότητα 2.4) περιγράφεται
ο τρόπος ανακατασκευής µιας ψηφιακής εικόνας και η παρουσίασή της στην οθόνη
του υπολογιστή. Για την παρακολούθηση αυτού του κεφαλαίου, ο αναγνώστης δεν
χρειάζεται ιδιαίτερες γνώσεις από άλλες περιοχές επιστήµης.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 31
2 . 1 ∂ π ∫ √ ¡ ∞ : ∂ ¡ ∞ ™ ∏ ª ∂ π √ ¢ À √ ∏ ∆ ƒ π ø ¡ ¢ π ∞ ™ ∆∞ ™ ∂ ø ¡ 31
Γενικά, µια ακίνητη εικόνα είναι ένα σήµα z = f(x,y) µε δύο ανεξάρτητες µεταβλη-
τές. Στο σήµα αυτό η εξαρτηµένη µεταβλητή z αντιστοιχεί στην ένταση φωτεινότη-
τας της εικόνας και οι ανεξάρτητες µεταβλητές x και y είναι οι δυο γεωµετρικές δια-
στάσεις του υποστρώµατος της εικόνας, το πλάτος και το µήκος. Σε µια έγχρωµη
εικόνα, η τιµή του σήµατος σε ένα σηµείο Σ του υποστρώµατος, µε συντεταγµένες
(x,y), είναι µια διατεταγµένη τριάδα µη αρνητικών πραγµατικών αριθµών (R,G,B).
Καθένας από αυτούς δίνει την ένταση για ένα από τα τρία βασικά χρώµατα, στα
οποία αναλύεται η απόχρωση του φωτός που εκπέµπει το Σ. Τα τρία αυτά βασικά
χρώµατα είναι το ερυθρό ( Στις ασπρόµαυρες (grayscale) εικόνες η ένταση είναι η
ίδια και για τα τρία αυτά R), το πράσινο (G) και το κυανούν (B) βασικά χρώµατα.
Την κοινή αυτή τιµή δεχόµαστε ως την τιµή του σήµατος z.
α β
f(x,y)
™¯‹Ì· 2.1
Παραδείγµατα εικόνων που χρησιµοποι-
ούνται σε διαφορετικές επιστηµονικές
περιοχές. Στο (γ) έχουν σχεδιαστεί οι διευ-
θύνσεις αύξησης των ανεξάρτητων µετα-
x γ βλητών x,y.
Στο Σχ. 2.1 δίνουµε µερικά παραδείγµατα από εικόνες. Πρόκειται για εικόνες που
έχουν ληφθεί µε διαφορετικούς τύπους αισθητήρων και χρησιµοποιούνται σε δια-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 32
φορετικές επιστηµονικές περιοχές. Η εικόνα του Σχ. 2.1α είναι µια δορυφορική
φωτογραφία, η οποία έχει ληφθεί µε αισθητήρα ευαίσθητο σε ακτινοβολία µε µήκος
κύµατος στην περιοχή του υπερύθρου (infrared). Στον τύπο αυτό των εικόνων, η
ένταση σχετίζεται µε τη θερµοκρασία του αντικειµένου που φωτογραφίζεται. Η εικό-
να του 2.1β είναι επίσης δορυφορική φωτογραφία και έχει ληφθεί στο ορατό φάσµα
του φωτός. Τέλος, στο 2.1γ έχουµε µια ιατρική εικόνα. Πρόκειται για µια ακτινο-
γραφία. Εδώ η ένταση της εικόνας είναι ανάλογη προς την απορρόφηση της ακτι-
νοβολίας ακτίνων x από τους ιστούς.
Στην εικόνα του Σχ. 2.1γ, έχει σηµειωθεί η φορά µεταβολής των µεταβλητών x,y. Η
αρχή των αξόνων είναι στο πάνω αριστερά άκρο της εικόνας. Η πρώτη µεταβλητή,
x, µεταβάλλεται από πάνω προς τα κάτω και η δεύτερη, y, από αριστερά προς τα
δεξιά. Πρέπει να τονιστεί, ότι η διάταξη αυτή των αξόνων έχει καθιερωθεί διεθνώς
και ακολουθείται στη διαχείριση της εικόνας και διαφέρει από την αντίστοιχη διά-
ταξη που συνήθως χρησιµοποιούµε στις γραφικές παραστάσεις. Η κινούµενη εικό-
να, όπως αυτή που βλέπουµε στην τηλεόραση ή στον κινηµατογράφο, είναι ένα τρισ-
διάστατο σήµα z = f(x,y,t), όπου η τρίτη ανεξάρτητη µεταβλητή είναι ο χρόνος t.
Όπως και κάθε άλλο σήµα, έτσι και η εικόνα µπορεί να υπάρξει στη συνεχή ή αναλο-
γική µορφή, και στη διακριτή ή ψηφιακή µορφή. Στην αναλογική εικόνα τα φωτει-
νά σηµεία ευρίσκονται τοποθετηµένα µε συνεχή τρόπο σε όλο το υπόστρωµα. Η έντα-
ση φωτεινότητας σε κάθε σηµείο της µπορεί να πάρει οποιαδήποτε τιµή µέσα σε ένα
καθορισµένο διάστηµα µη αρνητικών πραγµατικών αριθµών. Αναλογικές είναι όλες
οι εικόνες που λαµβάνουµε σε φιλµ, σε φωτογραφικό χαρτί, τα χειρόγραφα και άλλα.
Η ψηφιακή εικόνα προκύπτει είτε από ψηφιοποίηση της αναλογικής εικόνας µε ειδι-
κές συσκευές, τους σαρωτές (scanners ), είτε από την απευθείας λήψη φωτογραφίας
µε ψηφιακές φωτογραφικές µηχανές. Στην τελευταία αυτή περίπτωση η ψηφιοποίη-
ση γίνεται στο αναλογικό είδωλο που δηµιουργείται µέσα στη µηχανή. Τέλος, ψηφια-
κές εικόνες µπορούν να δηµιουργηθούν από τον ίδιο υπολογιστή, είτε τεχνητές είτε
ως αποτέλεσµα επεξεργασίας άλλων ψηφιακών εικόνων. Οι εικόνες που βλέπουµε
στην οθόνη του υπολογιστή µας, καθώς και οι εκτυπώσεις του, είναι όλες ψηφιακές.
Η ψηφιοποίηση µιας εικόνας, όπως και κάθε σήµατος, περιλαµβάνει δύο στάδια:
• Τη δειγµατοληψία (sampling) της αναλογικής εικόνας.
• Tην κβάντιση (quantization) των δειγµάτων.
Αυτές οι δύο λειτουργίες διαδέχονται η µια την άλλη, για κάθε δείγµα που λαµβάνεται.
Στην πραγµατικότητα η διαχείριση των δειγµάτων από τον υπολογιστή προϋποθέτει
πάντα µία κβάντιση, επειδή τα δείγµατα είναι πραγµατικοί αριθµοί και δεν µπορούν να
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 33
2 . 2 ∏ ¢ ∂ π ° ª ∞∆ √ § ∏ æ π ∞ ∆ ∏ ™ ∞ ¡ ∞ § √ ° π ∫ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 33
αποθηκευτούν σε έναν καταχωρητή, παρά µόνο αφού πρώτα κβαντιστούν, λόγω του
πεπερασµένου αριθµού bits που διαθέτουν οι καταχωρητές σ’ έναν υπολογιστή.
Στο Σχ. 2.2α, έχουµε σχεδιάσει το διάγραµµα ενός συνεχούς δισδιάστατου σήµατος
z = f(x,y), µε πεδίο ορισµού Π, το τετράγωνο που ορίζεται από τις σχέσεις, –2 ≤ x ≤
2 και –2 ≤ y ≤ 2. Όπως φαίνεται στο Σχ. 2.2β, για να δειγµατοληπτηθεί το σήµα αυτό,
ορίζεται ένα τετραγωνικό πλέγµα µε ευθείες παράλληλες προς τους άξονες των µετα-
βλητών x και y και µε µήκος πλευράς d. Η τιµή του d, στο παράδειγµα του σχήµα-
τος, έχει ληφθεί ίση µε το 1/4 της πλευράς του Π, δηλαδή d = 1. Στη συνέχεια αριθ-
µούνται οι ευθείες του πλέγµατος και κάθε κόµβος του αντιστοιχεί σε ένα διατεταγ-
µένο ζεύγος ακεραίων (m,n). Οι ακέραιοι αυτοί είναι οι δύο αύξοντες αριθµοί των
γραµµών που ορίζουν τον κόµβο και ξεκινούν µε 1.
z=f(x,y)
y
x
α
(1,5)
5
4
(1,1) 1 3
2 ™¯‹Ì· 2.2
2
1 3 α) Το σήµα z =
4 (5,5)
5 f(x,y). β) Η δειγ-
d µατοληψία του
(5,1) β σήµατος z = f(x,y).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 34
Ας υποθέσουµε ότι ο κόµβος Κ αντιστοιχεί στο διατεταγµένο ζεύγος (mK,nK) και έχει
συντεταγµένες (xK,yK). Ο αναγνώστης µπορεί εύκολα να επαληθεύσει ότι ισχύει:
xK = –3+mK και yK = –3+nK (2.1)
Χρησιµοποιώντας τη σχέση (2.1) για κάθε κόµβο του πλέγµατος (m,n) λαµβάνεται
ένα δείγµα s(m,n) που ισούται µε την τιµή του σήµατος f(x,y) στο σηµείο του κόµ-
βου. Τα δείγµατα αυτά αποτελούν τα στοιχεία ενός πίνακα Ε διαστάσεων 5 × 5.
Στην ακολουθία των δειγµάτων που έχει ληφθεί, όπως φαίνεται και από το Σχ. 2.2β,
έχει αποτυπωθεί ένα µέρος µόνο από τις λεπτοµέρειες του αρχικού σήµατος. Αν επα-
ναλάβουµε τη διαδικασία µε πλευρά πλέγµατος d µικρότερη από το 1/4 της πλευράς
του Π, θα καλύψουµε περισσότερες λεπτοµέρειες του σήµατος, αλλά συγχρόνως, ο
πίνακας των δειγµάτων E θα έχει µεγαλύτερη διάσταση. Το ερώτηµα που προκύπτει
είναι πόσο µικρό πρέπει να γίνει το πλέγµα δειγµατοληψίας και πόσο µεγάλη η διά-
σταση του πίνακα E, ώστε να είµαστε «ικανοποιηµένοι» από τις λεπτοµέρειες του
αρχικού σήµατος που έχουν αποτυπωθεί στα δείγµατα.
Το ερώτηµα αυτό έχει απαντηθεί από τον Nyquist [6], σύµφωνα µε το θεώρηµα του
οποίου αποδεικνύεται ότι, όταν είναι d ≤ dMAX, όπου dMAX ένα πάνω φράγµα, τότε
από τα δείγµατα που έχουν ληφθεί στους κόµβους του πλέγµατος υπολογίζεται µε
απόλυτη ακρίβεια η τιµή του αρχικού σήµατος, σε οποιοδήποτε σηµείο µεταξύ των
κόµβων αυτών. Αυτό σηµαίνει ότι όταν d ≤ dMAX, µπορεί να γίνει πλήρης και ακρι-
βής ανακατασκευή του αρχικού σήµατος από τα δείγµατα που λαµβάνονται, άρα µε
τη δειγµατοληψία δεν χάνεται πληροφορία. Η τιµή dMAX σχετίζεται µε τη µέγιστη
φασµατική Fourier συνιστώσα στο πεδίο συχνοτήτων [6]. Στο σηµείο αυτό, θα πρέ-
πει να αναφέρουµε ότι δεν είναι απαραίτητο πάντα το πλέγµα των σηµείων δειγµα-
τοληψίας να έχει τετραγωνική µορφή όπως στο Σχ. 2.2β. Υπάρχουν τεχνικές µε άλλες
µορφές πλέγµατος, αλλά δεν θα επεκταθούµε σε περισσότερες λεπτοµέρειες στο
θέµα αυτό. Ο αναγνώστης που επιθυµεί µια λεπτοµερέστερη προσέγγιση των τεχνι-
κών της δειγµατοληψίας εικόνας, µπορεί να διαβάσει τα αντίστοιχα κεφάλαια από
τα [2,3]. Εδώ θα αναφέρουµε µόνο ότι:
• To µήκος του d που θα επιλέξουµε για τη δειγµατοληψία µιας αναλογικής εικόνας,
εξαρτάται από το σήµα που δειγµατοληπτούµε. Η τιµή αυτή πρέπει να είναι τόσο
µικρότερη, όσο ταχύτερες είναι οι µεταβολές που παρουσιάζει το σήµα.
• Αν το µήκος του d επιλεγεί µεγαλύτερο από ότι πρέπει, το σήµα που θα προκύψει
κατά την ανακατασκευή θα έχει παραµορφώσεις και θα χαθούν από αυτό λεπτοµέ-
ρειες του αρχικού σήµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 35
2 . 2 ∏ ¢ ∂ π ° ª ∞∆ √ § ∏ æ π ∞ ∆ ∏ ™ ∞ ¡ ∞ § √ ° π ∫ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 35
• Αν το µήκος του d επιλεγεί πολύ µικρό, ο αριθµός δειγµάτων µεγαλώνει πολύ και
έτσι αυξάνει τόσο ο χρόνος επεξεργασίας της ψηφιοποιηµένης εικόνας, όσο και οι
ανάγκες για αποθήκευση.
Από τις δύο τελευταίες επισηµάνσεις προκύπτει ότι το d πρέπει να επιλέγεται µε προ-
σοχή, έτσι ώστε ούτε σηµαντικές λεπτοµέρειες να χάνονται, ούτε υπερβολικός όγκος
δεδοµένων να δηµιουργείται.
Στο Σχ. 2.3 δίνεται ένα παράδειγµα κακής επιλογής του d. Συγκεκριµένα, δίνονται
οι εκτυπώσεις από δύο ασπρόµαυρες ψηφιακές εικόνες, που έχουν δηµιουργηθεί µε
δειγµατοληψία της ίδιας αναλογικής. Στην αριστερή εικόνα, το µήκος του πλέγµα-
τος δειγµατοληψίας είχε αρκετά µικρή τιµή, και για το λόγο αυτό φαίνεται καθαρά
η υφή του υφάσµατος. Αντίθετα, στη δεξιά εικόνα, το πλέγµα δειγµατοληψίας ήταν
µεγαλύτερο από το επιτρεπτό. Το αποτέλεσµα είναι ότι χάθηκαν οι λεπτοµέρειες της
εικόνας του υφάσµατος. Παρά ταύτα, στην περίπτωση αυτή, το µήκος του πλέγµα-
τος είναι αρκετά µικρό για να φανεί µε σχετική ευκρίνεια το λουλούδι, στο οποίο η
ένταση φωτεινότητας παρουσιάζει πολύ µικρότερη συχνότητα εναλλαγής.
™¯‹Ì· 2.3
Αριστερά: Σωστή
δειγµατοληψία.
∆εξιά: Έχουν
ληφθεί λιγότερα
δείγµατα από τα
αναγκαία.
Στο τέλος λοιπόν της δειγµατοληψίας διαθέτουµε έναν πίνακα πραγµατικών αριθ-
µών Ε. Το στοιχείο Ε(m,n) είναι η τιµή της έντασης φωτεινότητας της εικόνας στο
αντίστοιχο σηµείο δειγµατοληψίας του πλέγµατος. Οι διαστάσεις του πίνακα Ε, που
προέκυψε από τη δειγµατοληψία του σήµατος z = f(x,y) στο Σχ. 2.2, έχουν την ίδια
τιµή και ο πίνακας είναι τετραγωνικός. Σε άλλες περιπτώσεις, ο αριθµός των γραµ-
µών του πλέγµατος δειγµατοληψίας είναι διαφορετικός σε καθεµιά από τις δύο
κατευθύνσεις και ο πίνακας Ε που προκύπτει έχει άνισες διαστάσεις, δηλαδή δεν
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 36
είναι τετραγωνικός. Όπως έχουµε ήδη αναφέρει και στο πρώτο κεφάλαιο, κάθε στοι-
χείο του πίνακα Ε είναι γνωστό και ως στοιχείο της εικόνας (picture element) ή πιο
συχνά ως pixel της ψηφιακής εικόνας.
Όταν η εικόνα που θέλουµε να δειγµατοληπτήσουµε είναι έγχρωµη, σε κάθε pixel
αντιστοιχούν τρεις πραγµατικές τιµές (R,G,B) και µε αυτές κατασκευάζονται τρεις
πίνακες πραγµατικών αριθµών, ο ΕR, ο ΕG και ο ΕB.
¶·Ú¿‰ÂÈÁÌ· 2.1
Το σήµα στο Σχ. 2.2α δίνεται από τη συνάρτηση z = g(x,y) = |sinc(0,8x)| |sinc(0,8y)|
ηµ (πw )
όπου sin c(w ) = για w ≠ 0 και sin c(w) = 1 για w = 0. Το διάγραµµα του Σχ.
πw
2.2α δίνει τις τιµές του σήµατος για το υποσύνολο Π του R2:
¶›Ó·Î·˜ 2.1
Οι τιµές των συντεταγµένων (x,y) για κάθε κόµβο (m,n) του πλέγµατος δειγµατοληψίας.
n =1 n =2 n =3 n =4 n =5
m=1 (–2,–2) (–2,–1) (–2,0) (–2,1) (–2,2)
m=2 (–1,–2) (–1,–1) (–1,0) (–1,1) (–1,2)
m=3 (0,–2) (0,–1) (0,0) (0,1) (0, 2)
m=4 (1,–2) (1,–1) (1,0) (1,1) (1, 2)
2 . 2 ∏ ¢ ∂ π ° ª ∞∆ √ § ∏ æ π ∞ ∆ ∏ ™ ∞ ¡ ∞ § √ ° π ∫ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 37
Τα δείγµατα του πίνακα Ε = {s(m,n)}, που ελήφθησαν στο στάδιο της δειγµατολη-
ψίας, µπορούν να πάρουν οποιαδήποτε τιµή, σε ένα συνεχές διάστηµα των µη αρνη-
τικών πραγµατικών αριθµών. Αυτό σηµαίνει ότι προέρχονται από ένα µη πεπερα-
σµένο αλφάβητο και σύµφωνα µε τη Θεωρία Πληροφορίας είναι αδύνατο να κωδι-
κοποιηθούν και να αποθηκευτούν σε ψηφιακό µέσο. Για το λόγο αυτό, τα δείγµατα
κβαντίζονται, δηλαδή αντικαθίστανται από προσεγγίσεις τους µε διακριτό και πεπε-
ρασµένο πεδίο τιµών.
Στο Σχ. 2.4 δίνεται το διάγραµµα και η χαρακτηριστική µεταφοράς µιας βαθµίδας
κβάντισης. Η βαθµίδα αυτή, όπως έχει σχεδιαστεί, µπορεί να κβαντίσει δείγµατα µε
τιµές στο διάστηµα (0,sMAX). Στη χαρακτηριστική µεταφοράς φαίνεται ότι το διά-
στηµα τιµών της εισόδου του κβαντιστή έχει χωριστεί σε Q διαδοχικά, σταθερού
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 39
2 . 3 ∫ µ ∞ ¡ ∆ π ™ ∏ ∫ ∞ π ∫ ø ¢ π ∫ √ ¶ √ π ∏ ™ ∏ ∆ ø ¡ ¢ ∂ π ° ª ∞∆ ø ¡ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 39
εύρους, ∆L, υποδιαστήµατα, τα ∆0, ∆1, ,…,∆Q–1. Το σταθερό εύρος έχει επιλεγεί, ∆L
= sMAX/(Q–1). Για όλες τις τιµές του σήµατος εισόδου, που βρίσκονται στο ίδιο υπο-
διάστηµα, π.χ. στο ∆J, η έξοδος του κβαντιστή είναι η ίδια, και ίση µε qJ = J⋅∆L,
δηλαδή το µέσον του διαστήµατος ∆J. Πιο αναλυτικά, για κάθε δείγµα µε τιµή s, το
κύκλωµα του κβαντιστή δίνει στην έξοδο την τιµή sq = J⋅∆L, όπου J είναι ο ακέραι-
ος για τον οποίο ισχύει
∆L ∆L
− + J∆L ≤ s < − + ( J + 1)∆L
2 2
(Q – 1)∆L
(Q – 2)∆L
3∆L
2∆L
™¯‹Ì· 2.4
∆L
Η Βαθµίδα Κβά-
∆0 ∆1 ∆2 ∆Q– ∆Q–1
ντισης και η 0
0 0.5∆L 1.5∆L 2.5∆L (Q – 2.5)∆L (Q – 1.5)∆L
Χαρακτηριστική sMAX
Μεταφοράς της. Eίσοδος κβαντιστή
2 . 3 ∫ µ ∞ ¡ ∆ π ™ ∏ ∫ ∞ π ∫ ø ¢ π ∫ √ ¶ √ π ∏ ™ ∏ ∆ ø ¡ ¢ ∂ π ° ª ∞∆ ø ¡ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 41
εικόνας. Μετά την κωδικοποίηση στον πίνακα Ε κάθε pixel αντικαθίσταται από τον
κωδικό του, ο οποίος αντιστοιχεί στο µέγεθος της έντασης φωτεινότητας του pixel.
Για παράδειγµα, αν χρησιµοποιήθηκαν 256 στάθµες κβάντισης, δηλαδή Q = 28 =
256, τα pixels µε τη µεγαλύτερη ένταση έχουν τιµή 255 × (1/256) και αυτά µε τη
µικρότερη έχουν τιµή 0 × (1/256). Όταν Q = 210 = 1024, οι πιο πάνω τιµές είναι αντί-
στοιχα 1023 × (1/1024) και 0 × (1/1024). ™¯‹Ì· 2.5
Όταν το πλήθος
των σταθµών κβά-
ντισης γίνει µικρό-
τερο από 64 εµφα-
νίζονται ψευδή
περιγράµµατα
στην εικόνα.
Κατά τη διαδικασία της κβάντισης, όπως έχουµε ήδη παρατηρήσει, υπήρξε µια αντι-
κατάσταση του κάθε δείγµατος s µε ένα κβαντισµένο δείγµα sq, τα οποία όµως δια-
φέρουν µεταξύ τους κατά το σφάλµα κβάντισης. Για το λόγο αυτό, η λειτουργία της
κβάντισης έχει ως αποτέλεσµα την υποβάθµιση της ποιότητας της εικόνας, δηλαδή
τη δηµιουργία θορύβου, που συνοδεύει πλέον τη νέα εικόνα για πάντα. Η υποβάθ-
µιση όµως αυτή µειώνεται όσο αυξάνει το πλήθος σταθµών κβάντισης Q, ενέργεια
όµως που θα επιφέρει την αύξηση του µήκους των κωδικών των pixels και εποµέ-
νως της µνήµης που απαιτεί η εικόνα για να αποθηκευτεί σε ψηφιακό µέσο.
Στις ασπρόµαυρες εικόνες η ελάττωση του πλήθους των σταθµών κβάντισης εκτός
από το θόρυβο, έχει και άλλο επακόλουθο. Οταν το Q γίνει µικρότερο από 32 ή 64,
κατά την ανακατασκευή της εικόνας, το ανθρώπινο µάτι αντιλαµβάνεται ότι υπάρ-
χουν ενοχλητικά περιγράµµατα (contours) σ’ αυτή. Αυτά δηµιουργούνται από οµά-
δες γειτονικών pixels που έχουν κβαντιστεί στην ίδια τιµή, δηµιουργώντας έτσι µια
περιοχή σταθερής έντασης, της οποίας το περίγραµµα είναι το όριο.
Το φαινόµενο αυτό εµφανίζεται στην εικόνα λόγω της υψηλής συσχέτισης που υπάρ-
χει µεταξύ των γειτονικών της pixels. Στο Σχ. 2.5 δίνονται δύο εικόνες του ίδιου αντι-
κειµένου. Η πρώτη έχει κβαντιστεί µε 256 στάθµες, (ν = 8), ενώ η δεύτερη, στην
οποία εµφανίζεται έντονο το φαινόµενο των περιγραµµάτων, έχει κβαντιστεί µε 32
στάθµες (ν = 5). Η κβάντιση που χρησιµοποιείται για της ασπρόµαυρες εικόνες γίνε-
ται συνήθως µε ν = 8 bits. Στην περίπτωση όµως ιατρικών εικόνων, όπου απαιτείται
καλύτερη ποιότητα, χρησιµοποιείται κβάντιση µε 10 ή 12 bits.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 42
Στις έγχρωµες εικόνες, όπως είδαµε στην ενότητα 2.2, έχουµε τρεις πίνακες δειγ-
µάτων, τους ER, EG, EB. Ένας απλός τρόπος κβάντισης είναι να κβαντιστούν τα δείγ-
µατα κάθε πίνακα µε τον ίδιο αριθµό bits, σαν να επρόκειτο για τρεις διαφορετικές
ασπρόµαυρες εικόνες. Έτσι τα δείγµατα της καθεµιάς κβαντίζονται µε ν = 8 bits και
τελικά χρησιµοποιούνται συνολικά 24 bits για κάθε pixel της έγχρωµης εικόνας.
™¯‹Ì· 2.6
Η αριστερή εικόνα
είναι µια ασπρό-
µαυρη δορυφορι-
κή φωτογραφία
νησιών του Αιγαί-
ου µε 8 bits. ∆εξιά
η αντίστοιχη
µονόχρωµη εικό-
να εικόνα (1
bit/pixel)
2 . 3 ∫ µ ∞ ¡ ∆ π ™ ∏ ∫ ∞ π ∫ ø ¢ π ∫ √ ¶ √ π ∏ ™ ∏ ∆ ø ¡ ¢ ∂ π ° ª ∞∆ ø ¡ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 43
¶·Ú¿‰ÂÈÁÌ· 2.2
Nα σχεδιάσετε έναν κβαντιστή, όπως αυτόν του Σχ. 2.4, µε 16 στάθµες κβάντισης,
ικανό να κβαντίσει τα δεδοµένα του 5 × 5 πίνακα δειγµάτων Ε, που υπολογίσαµε
στο παράδειγµα 2.1. Στη συνέχεια, να κβαντίσετε τα δείγµατα και να τα κωδικοποι-
ήσετε σύµφωνα µε όσα αναπτύξαµε στην ενότητα 2.3.
Λύση
Ο πίνακας δειγµάτων, του οποίου τα στοιχεία θέλουµε να κβαντίσουµε, είναι η:
Από αυτόν προκύπτει ότι sMAX = 1. Εποµένως, το εύρος βαθµίδας κβάντισης είναι
∆L = sMAX/(Q–1) = 1/15.
Ακολουθώντας το Σχ. 2.4, βρίσκουµε ότι το πρώτο υποδιάστηµα τελειώνει στο 1/30.
Εύκολα υπολογίζονται και τα υπόλοιπα υποδιαστήµατα. Τα σηµεία διαχωρισµού των
υποδιαστηµάτων δίνονται από τα στοιχεία του διανύσµατος δ.
T
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
δ= , , , , , , , , , , , , , , .
30 30 30 30 30 30 30 30 30 30 30 30 30 30 30
Οι έξοδοι του κβαντιστή θα είναι 0, ∆L, 2∆L,...,(Q–1)∆L, δηλαδή,
T
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
δq = , , , , , , , , , , , , , , , .
15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15
µ. ∫µ∞¡∆π™∏ ∫∞π ∫ø¢π∫√¶√π∏™∏ ∆ø¡ ¢∂π°ª∞∆ø¡.
Η διαδικασία κβάντισης του κάθε δείγµατος s(m,n) γίνεται µε τη βοήθεια της σχέ-
σης (2.2). ∆ηλαδή:
• Υπολογίζεται ο πλησιέστερος ακέραιος J προς τον λόγο s(m,n) / ∆L.
• Τίθεται sq(m,n) = δq(J) = J⋅∆L και c(m,n) = J, όπου c(m,n) ο κωδικός αριθµός του
κβαντισµένου δείγµατος sq(m,n).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 44
1 1 3 1 1
15 15 15 15 15
1 1 4 1 1 1 1 3 1 1
15 15 1
15 15 15
1 4 1 1
3 4 15 4 3
E= κ αι E = 3 4 15 4 3 .
15 15 1 1 4 1 1
15 15 15
1 1 4 1 1
1 1 3 1 1
15 15 15 15 15
1 1 3 1 1
15 15 15 15 15
Μέχρι τώρα είδαµε πώς από µια αναλογική εικόνα προκύπτει η ψηφιακή. Στη συνέ-
χεια θα δούµε πώς γίνεται στην πράξη η ανακατασκευή της εικόνας. Το πλέον πρό-
σφορο µέσο ανακατασκευής της ψηφιακής εικόνας είναι η ψηφιακή οθόνη του υπο-
λογιστή µας, εφόσον βέβαια αυτή διαθέτει τις αναγκαίες προδιαγραφές. Η οθόνη
αυτή φωτίζεται από ένα πίνακα στοιχειωδών φωτεινών σηµείων για καθένα από τα
οποία η ένταση ελέγχεται ανεξάρτητα από τα υπόλοιπα. Τα φωτεινά αυτά στοιχεία
είναι γνωστά και ως pixels της οθόνης και είναι διατεταγµένα κατά γραµµές και στή-
λες όπως στο σχήµα 2.7. Για κάθε pixel της οθόνης υπάρχει ένας δυαδικός καταχω-
ρητής (register) και η ένταση του pixel της οθόνης είναι ανάλογη του περιεχοµένου
του καταχωρητή αυτού.
Ας δούµε το πρακτικό παράδειγµα του Σχ. 2.7. Στο σχήµα αυτό παρουσιάζονται δυο
εικόνες. Η πρώτη είναι ένα τµήµα από την οθόνη του υπολογιστή, πάνω στο οποίο
υπάρχει γραµµένος ένας γνωστός µας τίτλος. Η δεύτερη εικόνα περιέχει ένα τµήµα
του ίδιου τίτλου σε µεγέθυνση. Σ’ αυτήν έχει προστεθεί ένα πλέγµα µε τέτοιο τρόπο
ώστε να γίνεται φανερή η θέση των pixels της οθόνης. Από τα pixels που φαίνονται
στο σχήµα, µερικά έχουν ένταση φωτεινότητας µηδέν (µαύρα). Στα υπόλοιπα, η έντα-
ση έχει τη µέγιστη τιµή (λευκά). Στο παράδειγµα που είδαµε για να γραφεί ο τίτλος
στην οθόνη αρκεί η ένταση του κάθε pixel να µπορεί να πάρει δυο διαφορετικές τιµές.
Αν όµως θέλουµε, µε τον ίδιο τρόπο, να εµφανιστεί µια ψηφιοποιηµένη ασπρόµαυ-
ρη εικόνα, τότε οι διαφορετικές τιµές της έντασης του κάθε pixel της οθόνης, πρέπει
να είναι όσες και οι στάθµες κβάντισης των pixels της ψηφιακής εικόνας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 45
2 . 4 H ∞ ¡ ∞ ∫ ∞∆∞ ™ ∫ ∂ À ∏ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 45
Στο Σχ. 2.8 δίνεται η ανακατασκευή µιας ασπρόµαυρης ψηφιακής εικόνας στην
ψηφιακή οθόνη του υπολογιστή. Στη µεγέθυνση του τµήµατος φαίνονται τα pixels
της οθόνης, των οποίων οι εντάσεις εµφανίζουν περισσότερες από δύο διαφορετικές
τιµές. Όπως και πριν, στο σχήµα αυτό, το πλέγµα έχει χαραχθεί πάνω από την εικό-
να της µεγέθυνσης, για να αποδώσει τις θέσεις των pixels.
™¯‹Ì· 2.7
Αριστερά, τµήµα του
περιεχοµένου της
οθόνης του υπολογι-
στή. ∆εξιά, ένα
µικρό τµήµα από τη
µεγέθυνση. Σ’ αυτό
έχει προστεθεί ένα
πλέγµα µε τέτοιο
τρόπο ώστε να
ξεχωρίζουν τα
φωτεινά σηµεία
(pixels) της οθόνης.
Όταν πρόκειται να αναπαραχθούν έγχρωµες ψηφιακές εικόνες, το κάθε pixel της οθό-
νης πρέπει να έχει δυνατότητα εκποµπής έγχρωµου φωτός. Για το λόγο αυτό, η κατα-
σκευή της έγχρωµης οθόνης είναι πιο σύνθετη από αυτή της ασπρόµαυρης. Στο κάθε
pixel οθόνης αντιστοιχούν τρεις καταχωρητές, ένας για το κάθε βασικό χρώµα. Όταν
οι καταχωρητές έχουν αρκετό µήκος, ελέγχεται µε µεγάλη ακρίβεια το χρώµα του
pixel της οθόνης. Για παράδειγµα, αν καθένας από τους καταχωρητές αυτούς έχει
µήκος 8 bits, δηλαδή συνολικά 24 bits, τότε κάθε pixel µπορεί να εκπέµψει 224 ή περί-
που 16 εκατοµµύρια διαφορετικά χρώµατα. Όλοι οι καταχωρητές, καθένας από τους
οποίους καθορίζει το ίδιο βασικό χρώµα σε ένα pixel της οθόνης, µπορεί να θεωρη-
θούν ότι αποτελούν έναν πίνακα καταχωρητών. Έτσι δηµιουργούνται τρεις πίνακες
καταχωρητών, οι RR, RG και RΒ. Για την ανακατασκευή της έγχρωµης εικόνας, στους
πίνακες αυτούς οδηγούνται τα περιεχόµενα των πινάκων ΕR, ΕG και ΕB της εικόνας.
Η πυκνότητα µε την οποία είναι τοποθετηµένα τα pixels πάνω στην οθόνη µετριέ-
ται µε τη διακριτική ικανότητα της οθόνης (display resolution). Αυτή ορίζεται ως
το πλήθος των pixels, που περιέχει η οθόνη, ανά µονάδα µήκους και συνήθως υπο-
λογίζεται σε pixels/ίντσα. Το πλήθος των bits ανά pixel που ελέγχουν την ένταση και
το χρώµα των pixels µιας οθόνης καλείται διακριτική ικανότητα βάθους της οθό-
νης (depth resolution). Για µια έγχρωµη οθόνη η διακριτική ικανότητα βάθους είναι
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 46
24 bit/pixel. Μια µονόχρωµη οθόνη, της οποίας τα pixels είναι άσπρα ή µαύρα,
παρουσιάζει διακριτική ικανότητα βάθους 1 bit/pixel.
™¯‹Ì· 2.8
Ανακατασκευή
ασπρόµαυρης
ψηφιακής εικόνας
στην ψηφιακή
οθόνη του υπολογι-
στή. Στη δεξιά εικό-
να επανάληψη τµή-
µατος σε µεγέθυνση
τέτοια ώστε να δια-
κρίνονται τα pixel
της οθόνης. Το
πλέγµα έχει χαρα-
χθεί για να γίνεται
σαφής η θέση του
κάθε pixel
Για την απεικόνιση στην οθόνη µιας ψηφιακής εικόνας ακολουθούνται συνήθως δύο
τεχνικές. Στην πρώτη από αυτές, η ανακατασκευή γίνεται οδηγώντας στους πίνακες
καταχωρητών της οθόνης τις τιµές των pixels της ψηφιακής εικόνας. Στην περίπτω-
ση αυτή χρησιµοποιείται ένα pixel οθόνης για κάθε pixel εικόνας, και το µέγεθος της
εικόνας που δηµιουργείται εξαρτάται από τη διακριτική ικανότητα της οθόνης. Για
παράδειγµα, µια εικόνα µε 512 × 512 pixels, όταν απεικονιστεί σε οθόνη µε 200
pixels/ίντσα θα έχει µέγεθος 2,56 ίντσες × 2,56 ίντσες, ή περίπου 7,3 cm × 7,3 cm.
Στη δεύτερη τεχνική, η εικόνα στην οθόνη πρέπει να έχει συγκεκριµένο µέγεθος.
Αυτό συµβαίνει, για παράδειγµα, όταν η εικόνα συνοδεύει κείµενο σε κειµενογρά-
φους. Τότε από το επιθυµητό µέγεθος και τη διαχωριστική ικανότητα της οθόνης,
υπολογίζεται αυτόµατα ο αριθµός των pixels οθόνης που πρέπει να καλύψει η εικό-
να. Στη συνέχεια, χρησιµοποιώντας τα pixels της εικόνας και τύπους παρεµβολής,
υπολογίζονται οι τιµές που πρέπει να οδηγηθούν στους καταχωρητές των pixels της
οθόνης. Ο αναγνώστης µπορεί να βρει περισσότερες πληροφορίες για θέµατα σχε-
τικά µε τις τεχνικές διαχείρισης της ψηφιακής εικόνας στα [3 και 5].
¶·Ú¿‰ÂÈÁÌ· 2.3
Για την αριστερή εικόνα του Σχ. 2.3 δόθηκε στον κειµενογράφο ένα αρχείο µε 160 ×
160 pixels εικόνας, ενώ για τη δεξιά το αρχείο περιείχε µια εικόνα 40 × 40 pixels. Ο
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 47
2 . 4 H ∞ ¡ ∞ ∫ ∞∆∞ ™ ∫ ∂ À ∏ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 47
κειµενογράφος εµφανίζει και τις δύο εικόνες στην οθόνη µε διαστάσεις 6.37 cm × 6.37
cm. Αν η οθόνη σας έχει διαχωριστική ικανότητα 33,7 pixels/cm να υπολογίσετε:
α) Πόσα pixels οθόνης χρησιµοποιεί καθεµιά από τις εικόνες.
β) Πόσες φορές αυξάνει ο κειµενογράφος τα pixels οθόνης σε σχέση µε τα pixels της
καθεµιάς από τις εικόνες, όταν τις ανακατασκευάζει στην οθόνη σας;
Λύση
α) Αν µε S συµβολίσουµε το εµβαδόν της επιφάνειας της οθόνης, που καλύπτει η
µια εικόνα και µε r τη διαχωριστική ικανότητα της οθόνης, τότε το πλήθος Ν των
pixels οθόνης που δηµιουργούν την κάθε εικόνα είναι Ν = S⋅r2 = 6,37 × 6,37 × 33,7
× 33,7 δηλαδή Ν = 46083 pixels οθόνης.
β) Για την πρώτη εικόνα ο κειµενογράφος χρησιµοποιεί 46083/160 × 160 = 1,8 φορές
περισσότερα pixels οθόνης περισσότερα απ’ όσα pixels διαθέτει η εικόνα. Ο λόγος
αυτός για τη δεύτερη γίνεται 46083/40 × 40 = 28,9. Τις τιµές των επιπλέον αυτών
pixels, ο κειµενογράφος τις υπολογίζει µε µεθόδους παρεµβολής.
Κατά τη δειγµατοληψία µιας αναλογικής εικόνας, στο πεδίο τιµών της ορίστηκε ένα
πλέγµα µε πλάτος τέτοιο, ώστε δηµιουργήθηκαν 500 × 300 κόµβοι. Στα σηµεία αυτά
ελήφθησαν δείγµατα της εικόνας και στη συνέχεια αυτά κβαντίστηκαν και αποθη-
κεύτηκαν στη µονάδα µαγνητικού δίσκου του υπολογιστή, µε τη µορφή ενός πίνακα.
α) Πόσα bytes της µονάδας αυτής θα χρειαστούν για να αποθηκευτεί η εικόνα στο
δίσκο αν είναι έγχρωµη και χρησιµοποιήθηκαν 256 στάθµες για την κβάντιση
κάθε χρώµατος;
β) Επαναλάβετε το ερώτηµα (α) για την περίπτωση που η εικόνα είναι ασπρόµαυρη
και κβαντίστηκε µε 256 στάθµες, καθώς και για την περίπτωση που είναι µονό-
χρωµη.
γ) Όταν η εικόνα µεγεθυνθεί έτσι ώστε να καλύπτει το µεγαλύτερο δυνατό τµήµα
της οθόνης, η οποία υποθέστε ότι έχει µέγεθος 1280 × 1024 pixels, πόσα pixels
οθόνης θα καλυφθούν;
δ) Πόσα Bytes καταχωρητών της οθόνης θα περιέχουν τα δεδοµένα της µεγέθυν-
σης, όπως αναφέρεται στο ερώτηµα γ, πόσα για την περίπτωση της ερώτησης
α και πόσα για καθεµιά από τις περιπτώσεις της β;
™‡ÓÔ„Ë
Στο Κεφάλαιο αυτό παρουσιάστηκαν τα πλεονεκτήµατα της ψηφιακής εικόνας, έγινε
περιγραφή της διαδικασίας δηµιουργίας της και του τρόπου διαχείρισής της από τον
υπολογιστή. Συγκεκριµένα:
• Έγινε περιγραφή της δειγµατοληψίας της αναλογικής εικόνας και αναφέρθηκαν οι
περιορισµοί και οι κανόνες που τη διέπουν.
• Αναλύθηκε η διαδικασία της κβάντισης, έγινε αναφορά στην υποβάθµιση που επέρ-
χεται στην εικόνα από τη διαδικασία αυτή και δόθηκαν οι σχέσεις που επιτρέπουν
να γίνει κβάντιση µιας πραγµατικής ακολουθίας αριθµών.
• Εξηγήθηκε η µέθοδος κωδικοποίησης των κβαντισµένων δειγµάτων, ώστε να γίνει
δυνατή η αποθήκευσή τους στη µνήµη ή σε µαγνητικό µέσο.
• Έγινε περιγραφή της τεχνικής ανακατασκευής της εικόνας και της παρουσίασής
της στην οθόνη του υπολογιστή.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 49
B I B § I O ° PA º I A 49
µÈ‚ÏÈÔÁÚ·Ê›·
™ÎÔfi˜
∫ ∂
Σκοπός του κεφαλαίου αυτού είναι να γίνει περιγραφή µερικών από τις πιο απλές,
αλλά συγχρόνως πολύ χρήσιµες ψηφιακές µεθόδους βελτίωσης της ποιότητας της
εικόνας.
3
º ∞ § ∞ π √
¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Aναφέρετε τουλάχιστον τέσσερις λόγους, εξαιτίας των οποίων ελαττώνεται η ποι-
ότητα µιας εικόνας.
• Yπολογίζετε και να σχεδιάζετε το ιστόγραµµα µιας ψηφιακής εικόνας.
• Xρησιµοποιείτε το ιστόγραµµα για να βελτιώσετε µια εικόνα που έχει ληφθεί µε
ακατάλληλο φωτισµό της σκηνής.
• Aναφέρετε τουλάχιστον δύο από τους τύπους του θορύβου που προσβάλλουν την
εικόνα.
• Γράφετε πρόγραµµα για τη µείωση του θορύβου µιας ψηφιακής εικόνας .
• Kάνετε περισσότερο έντονες τις ακµές µιας εικόνας.
ŒÓÓÔȘ ÎÏÂȉȿ
• Αποκατάσταση της Εικόνας
• Βελτίωση της Εικόνας
• ∆ιάταση του Ιστογράµµατος
• Θόλωµα της Εικόνας
• Ισοστάθµιση του Ιστογράµµατος
• Ιστόγραµµα Τιµών των pixels
• Κρουστικός Θόρυβος
• Λευκός Προσθετικός Θόρυβος
• Ολίσθηση του Ιστογράµµατος
• Τόνωση της Εικόνας
• Τόνωση της Αντίθεσης
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 52
EÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Μια εικόνα αποθηκευµένη µε ψηφιακό τρόπο, διατηρεί την ποιότητά της αµετάβλη-
τη. Μέχρι να βρεθεί όµως αποθηκευµένη στο ψηφιακό µέσο υφίσταται διαρκώς
φθορά, δηλαδή υποβάθµιση (degradation) της ποιότητάς της. Στη βιβλιογραφία έχει
αναπτυχθεί ένα µεγάλο πλήθος αλγορίθµων και τεχνικών, που έχουν για στόχο την
ολική ή µερική επανόρθωση της υποβάθµισης αυτής. Στο κεφάλαιο αυτό παρουσιά-
ζουµε µερικούς απλούς αλλά αποτελεσµατικούς τρόπους βελτίωσης της ποιότητας της
ψηφιακής εικόνας. Στην πρώτη ενότητα (Ενότητα 3.1), παρουσιάζονται οι πιο συνη-
θισµένες αιτίες υποβάθµισης και αναφέρονται επιγραµµατικά οι µέθοδοι βελτίωσης
της εικόνας. Στη δεύτερη ενότητα (Ενότητα 3.2), παρουσιάζεται το Ιστόγραµµα Τιµών
Έντασης και αναφέρονται οι πιο γνωστές µέθοδοι Τόνωσης της Αντίθεσης. Η τρίτη
ενότητα (Ενότητα 3.3), ασχολείται µε την αντιµετώπιση του θορύβου, που έχει προ-
σβάλει µια ψηφιακή εικόνα και παρουσιάζονται τα φίλτρα Μέσου και Μεσαίου. Τέλος
στην τέταρτη ενότητα (Ενότητα 3.4), περιγράφεται η τεχνική Τόνωσης των Ακµών
µιας εικόνας που έχει υποστεί θόλωµα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 53
β δ
™¯‹Ì· 3.1
Παραδείγµατα υποβάθµισης της ποιότητας της εικόνας.
Μετά την ψηφιοποίηση µιας εικόνας, γίνεται πλέον δυνατή η επεξεργασία της µε
ψηφιακές µεθόδους. Με τις τεχνικές αυτές επιτυγχάνεται βελτίωση (improvement) της
ποιότητάς της, δηλαδή µερική ή ολική επανόρθωση όλων των τύπων υποβάθµισης που
αναφέραµε πιο πάνω. Οι τεχνικές βελτίωσης χωρίζονται σε δυο µεγάλες κατηγορίες:
• Τις τεχνικές τόνωσης (enhancement) της εικόνας.
• Τις τεχνικές αποκατάστασης (restoration) της εικόνας.
Οι τεχνικές τόνωσης στοχεύουν στη µείωση του θορύβου και την ενδυνάµωση εκεί-
νων των χαρακτηριστικών, που βελτιώνουν την υποκειµενική αντίληψη της εικόνας
από τον άνθρωπο. Για παράδειγµα, η τόνωση των ακµών µιας εικόνας µε θόλωµα
δηµιουργεί την εντύπωση µιας εικόνας µε αυξηµένη ποιότητα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 55
Οι τεχνικές αποκατάστασης έχουν ως κύριο στόχο την απαλλαγή της εικόνας από
παραµορφώσεις, που έχει υποστεί κατά τη λήψη της και την ψηφιοποίησή της. Για την
επιτυχία των µεθόδων αυτών απαιτείται η ακριβής γνώση της αιτίας, που προκάλεσε
τη συγκεκριµένη παραµόρφωση. Το θόλωµα, για παράδειγµα, µπορεί να εξαλειφθεί
σχεδόν εντελώς, όταν είναι γνωστή η αιτία που το έχει δηµιουργήσει. Το ίδιο ισχύει
και για τις γεωµετρικές παραµορφώσεις. Στο κεφάλαιο αυτό θα γνωρίσουµε µερικές
κλασικές µεθόδους τόνωσης της εικόνας. Ο αναγνώστης που ενδιαφέρεται µπορεί να
βρει στα [1,2] µερικές από τις πιο γνωστές τεχνικές αποκατάστασης της εικόνας.
Ένα διάγραµµα πολύ χρήσιµο στην επεξεργασία και την ανάλυση της εικόνας είναι
το ιστόγραµµα (histogram) των τιµών των pixels. Στo διάγραµµα αυτό παριστάνε-
ται η συχνότητα µε την οποία επαναλαµβάνεται κάθε τιµή φωτεινότητας στα pixels
της εικόνας. Αν υποθέσουµε ότι έχουν χρησιµοποιηθεί Q στάθµες για την κβάντιση
του σήµατος µιας εικόνας Ε, η οποία έχει διαστάσεις Μ × Ν = L pixels, τότε η τιµή
του κάθε pixel θα είναι ένας αριθµός, που ανήκει στο σύνολο ακεραίων ΣQ =
{0,1,2,...,Q–1}. Υποθέστε ότι για κάθε στοιχείο i του ΣQ εξετάζουµε διαδοχικά τα L
pixels της εικόνας και καταµετρούµε σε πόσα από αυτά, το στοιχείο i επαναλαµβά-
νεται ως τιµή. Με τον τρόπο αυτό κατασκευάζεται η ακολουθία επανάληψης των
τιµών, r(i), i = 0,1,...,Q–1. Το ιστόγραµµα της εικόνας Ε είναι η γραφική παράστα-
ση της r(i), στην οποία όµως, αντί να χαραχθεί ένα σηµείο για κάθε ζεύγος (r(i),i)
χρησιµοποιείται ένας ιστός, δηλαδή ένα ευθύγραµµο τµήµα, το οποίο χαράσσεται
στο διάγραµµα στη θέση µε τετµηµένη i, µε µήκος ανάλογο της τιµής του όρου r(i).
™¯‹Ì· 3.2
Ασπρόµαυρη εικό-
να και το αντίστοι-
χο ιστόγραµµα
των τιµών φωτει-
νότητας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 56
Στο Σχ. 3.2 δίνεται µια ασπρόµαυρη εικόνα και το αντίστοιχο ιστόγραµµα τιµών
έντασης. Πρόκειται για µια εικόνα µε 256 στάθµες κβάντισης, εποµένως σ’ αυτή οι
τιµές των pixels κυµαίνονται από 0 έως 255, γι’ αυτό και στο ιστόγραµµα έχουν χρη-
σιµοποιηθεί 256 ιστοί. Κάτω από τον οριζόντιο άξονα του ιστογράµµατος έχει τοπο-
θετηθεί µία ζώνη µε τις διαδοχικές αποχρώσεις του γκρίζου, για την άµεση αίσθηση
της αντιστοιχίας αριθµητικών τιµών και έντασης φωτεινότητας, όπως αυτή γίνεται
αντιληπτή από τον οφθαλµό µας.
Από την ανάλυση της ακολουθίας r(i), ή από την παρατήρηση του ιστογράµµατος
µιας εικόνας, εξάγονται συµπεράσµατα για την τιµή µεγεθών όπως της αντίθεσης
και της µέσης φωτεινότητα της εικόνας, καθώς και για την τροποποίηση που πρέπει
να υποστεί η τιµή των pixels της εικόνας, για να βελτιωθούν τα µεγέθη αυτά. Για
παράδειγµα, στο ιστόγραµµα του Σχ. 3.2 φαίνεται ότι οι τιµές της πλειοψηφίας των
pixels βρίσκονται συγκεντρωµένες στο πιο σκοτεινό τµήµα, στο πρώτο τέταρτο της
κλίµακας. Αντίθετα, το πιο φωτεινό τµήµα, το τελευταίο τέταρτο της κλίµακας, είναι
σχεδόν κενό από ιστούς. Το στοιχείο αυτό δείχνει ότι η µέση φωτεινότητα της αντί-
στοιχης εικόνας είναι µικρή, πράγµα που γίνεται φανερό και µε απλή παρατήρηση
της εικόνας. Επίσης, είναι πιθανόν ο µεγάλος αυτός αριθµός των pixels να ανήκουν
σε απεικονιζόµενες µορφές, οι οποίες όµως δεν είναι δυνατόν να ξεχωρίσουν στην
εικόνα. Αυτό οφείλεται στο γεγονός ότι στις χαµηλές τιµές φωτεινότητας ο οφθαλ-
µός δεν αντιλαµβάνεται τις διαβαθµίσεις του γκρίζου.
Η τροποποίηση του ιστογράµµατος αποτελεί βασική µέθοδο για την τόνωση της
αντίθεσης και τη βελτίωση της µέσης φωτεινότητας µιας εικόνας Ε. Για την εφαρ-
µογή της τεχνικής αυτής ακολουθούνται τα πιο κάτω βήµατα:
• Επιλέγεται η µορφή του ιστογράµµατος που επιθυµούµε να παρουσιάζει η En,
δηλαδή η εικόνα που θα προκύψει µετά την τροποποίηση της E.
• Από τις ακολουθίες επανάληψης r(i) και rn(i) των ιστογραµµάτων των E και En
προσδιορίζεται ο µαθηµατικός τύπος της τροποποίησης gn = f(g). Με βάση τον
τύπο αυτό αλλάζει η τιµή g του κάθε pixel της Ε σε νέα τιµή gn = f(g), και έτσι
προκύπτει η εικόνα En.
Στις υποενότητες 3.2.2α έως και 3.2.2δ, που ακολουθούν, δίνονται µερικά χαρακτη-
ριστικά παραδείγµατα τροποποίησης του ιστογράµµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 57
Από όσα αναφέρθηκαν στην υποενότητα 3.2.1 για το ιστόγραµµα του Σχ. 3.2, συµπε-
ραίνεται ότι αν δοθεί µια σταθερή αύξηση 65 µονάδων περίπου στην τιµή του κάθε
pixel θα τροποποιηθεί η εικόνα ως εξής:
• Θα αυξηθεί η µέση φωτεινότητα της εικόνας.
• Τα πολύ σκοτεινά pixels θα αυξήσουν την τιµή τους σηµαντικά ώστε να γίνονται
πλέον αντιληπτά από τον ανθρώπινο οφθαλµό.
• Θα βελτιωθεί η αντίθεση της εικόνας καθώς, τώρα τα ορατά από τον οφθαλµό
pixels θα καλύπτουν µεγαλύτερο διάστηµα τιµών, δηλαδή θα αυξηθεί η αντίθεση
της εικόνας.
gn=f(g)
300
250
200
150
100
50 ™¯‹Ì· 3.3
0 α) Η γραφική
0 100 200 300
παράσταση του
Aρχική τιµή g
τύπου τροποποίη-
α
σης, «Ολίσθησης
Ιστογράµµατος».
β. Το ιστόγραµµα
της εικόνας En. γ)
Η εικόνα En που
προκύπτει από την
Ε µετά την εφαρ-
µογή της τροπο-
β γ ποίησης.
g + 65 όταν g ≤ 190
gn = f ( g ) = (3.1)
255 όταν g > 190
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 58
Η γραφική παράσταση του τύπου τροποποίησης δίνεται στο διάγραµµα του Σχ.3.3α.
Από το διάγραµµα αυτό ή από τη σχέση (3.1), γίνεται φανερό ότι η αύξηση των 65
µονάδων δίνεται στις τιµές που είναι µικρότερες από 190. Για τις µεγαλύτερες, η αύξη-
ση περιορίζεται, ώστε η τελική τιµή του κάθε pixel να µην υπερβαίνει τις 255 µονάδες.
Στο Σχ. 3.3β δίνεται η µορφή του ιστογράµµατος της νέας εικόνας. Όπως φαίνεται,
η σταθερή αύξηση που δόθηκε στην τιµή των pixels προκάλεσε την ολίσθηση του
συνόλου σχεδόν των ιστών του αρχικού ιστογράµµατος προς τα δεξιά. Για το λόγο
αυτό η τροποποίηση αυτή καλείται «ολίσθηση ιστογράµµατος» (histogram sliding).
Στο Σχ. 3.3γ δίνεται η νέα εικόνα En, της οποίας η µέση φωτεινότητα είναι τώρα
πολύ καλύτερη και στην οποία διακρίνονται τα φύλλα του δένδρου, µορφές που ήταν
αδύνατον να διακριθούν στην αρχική εικόνα Ε.
σ ⋅ g όταν g ≤ 190
gn = f ( g ) = (3.2)
255 όταν g > 190
H σταθερά σ έχει επιλεγεί ίση µε 255/90, ώστε η τιµή 90 στο δεξιό άκρο του δια-
στήµατος ∆ να µετατραπεί σε 255 µονάδες. Η δεύτερη σχέση στο τύπο µετατροπής
(3.2) εξασφαλίζει ότι οι λίγες εκείνες τιµές των pixels της Ε που είναι µεγαλύτερες
από 90 µονάδες θα εξακολουθήσουν και µετά την µετατροπή να είναι οι µεγαλύτε-
ρες του ιστογράµµατος, χωρίς όµως να υπερβούν τις 255 µονάδες. Στο Σχ. 3.4β δίνε-
ται η γραφική παράσταση της σχέσης (3.2). Τέλος στο Σχ. 3.4γ δίνεται η εικόνα Εn
που προέκυψε από την µετατροπή της Ε µε τη διάταση του ιστογράµµατος, καθώς
επίσης και το νέο ιστόγραµµα.
κουν σ’ αυτό. Μια τέτοια ενέργεια δεν είναι πάντα δυνατή. Στην περίπτωσή µας όµως
παρατηρώντας το ιστόγραµµα της Εn (Σχ. 3.4γ), διαπιστώνουµε ότι σ’ αυτό υπάρ-
χουν δύο λοβοί που διαχωρίζονται ευκρινώς µεταξύ τους. Από τη διαφορά που υπάρ-
χει στη φωτεινότητα και στο µέγεθος µεταξύ του µνηµείου και του απεικονιζόµενου
τµήµατος του ουρανού µπορούµε να υποθέσουµε ότι ο µεγάλος λοβός, αυτός που
βρίσκεται στις µικρότερες τιµές του ιστογράµµατος, περιέχει τις τιµές των pixels του
µνηµείου. Στο Σχ. 3.5α δίνεται το ιστόγραµµα της εικόνας και σ’ αυτό έχει οριστεί
το διάστηµα ∆Μ στο οποίο περιλαµβάνεται ο λοβός µε τα pixels που αντιστοιχούν
στο µνηµείο. Το ∆Μ είναι το διάστηµα [70,180]. Για να γίνει η ολίσθηση του αντί-
στοιχου λοβού προς τις πιο φωτεινές τιµές αρκεί να εκτελεστεί η η τροποποίηση του
ιστογράµµατος σύµφωνα µε τον τύπο:
α
gn
gn=f(g)
255
0 γ
0 255 g
β
™¯‹Ì· 3.4
Τόνωση της αντίθεσης µε διάταση του ιστογράµµατος.
(α)Η Αρχική εικόνα Ε µε περιορισµένη αντίθεση. (β)Το ιστόγραµµα της Ε και η γραφική παράσταση του
τύπου της διάτασης. (γ) Η εικόνα Εn που προκύπτει από την Ε µε διάταση του ιστογράµµατος και το νέο
ιστόγραµµα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 60
g όταν g < 70
g n = f ( g ) = g + 75 όταν 70 ≤ g ≤ 180. (3.3)
g όταν g > 180
Η γραφική παράσταση της (3.3) έχει σχεδιαστεί µαζί µε το ιστόγραµµα του Σχ. 3.5α.
Στο Σχ. 3.5β δίνεται η εικόνα Εn΄ που προκύπτει από την τροποποίηση της Εn. Στο
ίδιο σχήµα δίνεται επίσης το ιστόγραµµα της Εn΄.
gn
gn=f(g)
255
0
0 255 g
∆M
™¯‹Ì· 3.5
Ολίσθηση τµήµατος ιστογράµµατος. (α)Το ιστόγραµµα
της εικόνας Εn (Σχ. 3.4γ) και η γραφική παράσταση του
τύπου µετατροπής. Το διάστηµα ∆Μ περιέχει τις τιµές
των pixels που αντιστοιχούν στο µνηµείο. (β)Η εικόνα
Εn’ που προέκυψε από την Εn µετά την ολίσθηση του
τµήµατος ∆Μ και το νέο ιστόγραµµα. β
Στις τεχνικές τροποποίησης του ιστογράµµατος που γνωρίσαµε µέχρι τώρα, η βελ-
τίωση γίνεται µε την αλληλεπίδραση ανθρώπου και υπολογιστή. Ο καθορισµός δηλα-
δή του αναγκαίου τύπου τροποποίησης αποφασίστηκε από εµάς, αφού προηγουµέ-
νως παρατηρήσαµε το ιστόγραµµα και την αντίστοιχη εικόνα. Σε εφαρµογές που επι-
θυµούµε όλη η διαδικασία να γίνει αποκλειστικά από τον υπολογιστή, χρησιµοποι-
είται ένας προκαθορισµένος τύπος τροποποίησης του ιστογράµµατος. Για παρά-
δειγµα, στον τύπο αυτό τίθεται ως στόχος το νέο ιστόγραµµα να είναι οµοιόµορφα
κατανεµηµένο σε όλη την κλίµακα της φωτεινότητας. Η τεχνική αυτή καλείται ισο-
στάθµιση του ιστογράµµατος (histogram equalization). Μια προσέγγιση του τύπου
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 61
τροποποίησης gn = f(g) που απαιτείται για την ισοστάθµιση του ιστογράµµατος, απο-
δεικνύεται ότι είναι:
∑ r(i ),
Q
gn = f ( g ) = g = 0,1,K, Q − 1 (3.4)
L i =0
όπου r(i), i = 0,1,...,Q–1, η ακολουθία επανάληψης των τιµών της αρχικής εικόνας,
Q είναι το πλήθος των σταθµών κβάντισης και L είναι το πλήθος των pixels της εικό-
νας. Όποιος αναγνώστης ενδιαφέρεται για την απόδειξη του πιο πάνω τύπου, µπο-
ρεί να διαβάσει την ανάλυση που γίνεται στο [2]. Στο Σχ. 3.6 δίνονται οι εικόνες και
τα αντίστοιχα ιστογράµµατα που προκύπτουν µετά την εφαρµογή της ισοστάθµισης
του ιστογράµµατος στις εικόνες των σχηµάτων 3.2 και 3.4α.
™¯‹Ì· 3.6
Εικόνες και ιστογράµµατα µετά την εφαρµο-
γή ισοστάθµισης ιστογράµµατος. Οι αρχικές
εικόνες ήταν αυτές των σχηµάτων 3.2 και
3.4α
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 62
¶·Ú¿‰ÂÈÁÌ· 3.1
Στον Πίνακα 3.1 δίνονται οι τιµές των pixels της εικόνας v µε διαστάσεις 6 × 12. Η
κβάντιση των pixels έχει γίνει µε 16 στάθµες και έτσι η τιµή του κάθε pixel είναι ένας
ακέραιος από 0 ως 15. Ζητείται: (α) Να κατασκευαστεί το ιστόγραµµα της εικόνας.
(β) Να πραγµατοποιηθεί ολίσθηση του ιστογράµµατος της v, έτσι ώστε η τιµή 6 να
µετασχηµατιστεί σε 15. (γ) Να γίνει διάταση του ιστογράµµατος της v, έτσι ώστε η
τιµή 6 να µετασχηµατιστεί σε 15. (δ) Να γίνει ισοστάθµιση του ιστογράµµατος.
¶›Ó·Î·˜ 3.1
Παράσταση της εικόνας των 4 bits του προβλήµατος 3.1
0 5 6 0 6 0 6 1 0 1 3 2
4 1 0 2 0 4 3 6 2 3 0 6
2 6 3 1 2 3 1 2 2 0 2 5
v=
8 4 4 2 2 3 4 2 0 1 0 0
2 0 1 2 0 4 1 0 2 2 5 0
1 5 2 1 0 2 0 1 0 5 0 6
Λύση
α) Για την κατασκευή του ιστογράµµατος της εικόνας v θεωρούµε µια ακολουθία
από 16 καταχωρητές, την r(i), i = 0,1,...,15, µε αρχικό περιεχόµενο ίσο µε µηδέν. Στη
συνέχεια σαρώνουµε τον πίνακα της εικόνας και για κάθε pixel µε τιµή j αυξάνου-
µε κατά 1 τον καταχωρητή r(j). Στο τέλος το περιεχόµενο των 16 καταχωρητών από
τα αριστερά προς τα δεξιά είναι:
19 11 17 6 6 5 7 0 1 0 0 0 0 0 0 0
Στο Σχ. 3.7α δίνεται το αντίστοιχο ιστόγραµµα.
β) Αν µε την µεταβλητή g παραστήσουµε την τιµή ενός pixel της εικόνας v και µε
gn την τιµή του ίδιου pixel στην εικόνα vn, που προκύπτει από την ολίσθηση του ιστο-
γράµµατος, ισχύει
g +9 0≤ g ≤ 6
gn = f ( g ) =
15 7 ≤ g ≤ 15
Εφαρµόζοντας την τελευταία σχέση για όλα τα pixels της εικόνας v προκύπτει η εικό-
να vn, o πίνακας της οποίας δίνεται στο Σχ. 3.7γ. Το ιστόγραµµα της vn δίνεται στο
Σχ. 3.7β.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 63
20 9 14 15 9 15 9 15 10 9 10 12 11
13 10 9 11 9 13 12 15 11 12 9 15
15
11 15 12 10 11 12 10 11 11 9 11 14
vn=
10 15 13 13 11 11 12 13 11 9 10 9 9
11 9 10 11 9 13 10 9 11 11 14 9
5 10 14 11 10 9 11 9 10 9 14 9 15
0
γ
0 5 10 15
0 13 15 0 15 0 15 3 0 3 8 5
α
10 3 0 5 0 10 8 15 5 8 0 15
20
5 15 8 3 5 8 3 5 5 0 5 13
vn2=
15 15 10 10 5 5 8 10 5 0 3 0 0
5 0 3 5 0 10 3 0 5 5 13 0
10 3 13 5 3 0 5 0 3 0 13 0 15
ε
5
4 13 15 4 15 4 15 6 4 6 11 10
0
0 5 10 15 12 6 4 10 4 12 11 15 10 11 4 15
β 10 15 11 6 10 11 6 10 10 4 10 13
vn3=
20
15 12 12 10 10 11 12 10 4 6 4 4
10 4 6 10 4 12 6 4 10 10 13 4
15 6 13 10 6 4 10 4 6 4 13 4 15
10
ζ
0
0 5 10 15
δ
20
15
Σχήµα. 3.7 α) Ιστόγραµµα αρχικής εικόνας. β,γ) Ιστό-
10 γραµµα και πίνακας τιµών της εικόνας, όπως προκύπτουν
µετά την ολίσθηση. δ–ε) Ιστόγραµµα και πίνακας τιµών
5
της εικόνας όπως προκύπτουν µετά την διάταση. στ–ζ)
0
0 5 10 15 Ιστόγραµµα και πίνακας τιµών της εικόνας όπως προκύ-
στ πτουν µετά την ισοστάθµιση
σg 0 ≤ g ≤ 6
gn = f ( g ) =
15 7 ≤ g ≤ 15
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 64
∑ r(i ), g = 0,1,K,15
16
gn = f ( g ) =
72 i =0
Όπως και στο (γ) ερώτηµα, οι τιµές gn πρέπει να στρογγυλοποιηθούν προς τον πλη-
σιέστερο ακέραιο. Η εφαρµογή της τελευταίας σχέσης δηµιουργεί την εικόνα vn3
(Σχ.3.7ζ) µε ιστόγραµµα αυτό του Σχ. 3.7στ.
Ο θόρυβος που συναντάµε στην ψηφιακή εικόνα παρουσιάζει µεγάλη ποικιλία µορ-
φών και στη βιβλιογραφία έχει αναπτυχθεί µια πληθώρα από µοντέλα για τη µαθη-
µατική περιγραφή τους. Παράλληλα, για καθεµιά από τις µορφές του θορύβου προ-
τείνεται ένα πλήθος τεχνικών, για την όσο το δυνατόν αποτελεσµατικότερη µείω-
σή του και την καλύτερη τόνωση της εικόνας. Στην ενότητα αυτή θα γνωρίσουµε
δύο από τους τύπους του θορύβου, τον λευκό προσθετικό (white additive) θόρυ-
βο και τον κρουστικό (impulse) θόρυβο. Επίσης, θα περιγράψουµε δύο απλές µορ-
φές φίλτρων για την αντιµετώπιση των θορύβων αυτών. Πρόκειται για το φίλτρο
κινούµενου µέσου (moving average filter) και τo φίλτρο µεσαίου (median filter).
Aν ο αναγνώστης ενδιαφέρεται για περισσότερες λεπτοµέρειες σχετικά µε τους
τύπους θορύβου των εικόνων και τις τεχνικές αντιµετώπισής τους, µπορεί να µελε-
τήσει τα [1–3].
v ( k , m ) = w( k , m ) + η ( k , m ) (3.5)
{
όπου w: w( k , m ), k , m ∈ Z , 0 ≤ k ≤ M − 1, 0 ≤ m ≤ N − 1 , }
είναι η αρχική εικόνα και η(k,m) είναι µια ακολουθία τυχαίων αριθµών µε µέση τιµή
0, διακύµανση σ2 και όρους στατιστικά ανεξάρτητους. Η συνάρτηση πυκνότητας
πιθανότητας της τυχαίας αυτής ακολουθίας, συνήθως, είναι Gaussian. Στο Σχ. 3.8β
δίνεται ένα παράδειγµα µιας εικόνας v, η οποία έχει προέλθει από την εικόνα w του
Σχ. 3.8α µετά την πρόσθεση λευκού Gaussian θορύβου.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 66
α β
γ δ
™¯‹Ì· 3.8
Παράδειγµα προσβολής εικόνας από λευκό
θόρυβο και αντιµετώπισής του µε φίλτρο κινού-
µενου µέσου. (α) Η αρχική εικόνα. (β) Προσβο-
λή της αρχικής εικόνας από λευκό Gaussian
θόρυβο. (γ, δ) Αποτελέσµατα της εφαρµογής του
φίλτρου κινούµενου µέσου µε µέγεθος 3 ¥ 3 και
5 ¥ 5 αντίστοιχα. (ε) Αποτέλεσµα της εφαρµογής
του φίλτρου µεσαίου 5 ¥ 5. ε
™¯‹Ì· 3.9
Στην τεχνική
κινούµενου µέσου,
η φωτεινότητα του (k,m) (k,m)
(k,m) pixel της
εικόνας w’ υπολο-
γίζεται ως η µέση
τιµή των φωτεινο-
τήτων µιας περιο-
χής γύρω από το v w'
(k,m) pixel της ν.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 67
∑∑
1
w' ( k , m ) = v ( k − i, m − j ) για k , m ∈ Z, 0 ≤ k ≤ M − 1, 0 ≤ m ≤ N − 1 (3.6)
9 i = −1 j = −1
Στη σχέση (3.6) δεχόµαστε ότι ισχύει ν(k,m) = 0 όταν k = –1,Μ ή m = –1,Ν. Με τον
τρόπο αυτό υπολογίζονται τιµές και για τα οριακά pixels της w΄ . Στο Σχ. 3.9 έχει
οριστεί µια 3 × 3 περιοχή µε κέντρο το pixel (k,m) της v. H περιοχή αυτή περιέχει 9
pixels, το (k,m) και τα 8 γειτονικά του. Σύµφωνα µε τη σχέση (3.6) η µέση τιµή των
τιµών των pixels της περιοχής αυτής δίνει την τιµή του (k,m) pixel της w΄.
Από τις σχέσεις (3.5) και (3.6) προκύπτει:
1 1 1 1
∑∑ ∑∑
1 1
w'( k , m ) = w( k − i , m − j ) + η( k − i , m − j )
9 i = −1 j = −1 9 i = −1 j = −1
ή w' ( k , m ) = u' ( k , m ) + η' ( k , m )
1 1 1 1
∑∑ ∑∑
1 1
όπου u' ( k , m ) = w( k − i, m − j ) κ αι η' ( k , m ) = η( k − i , m − j )
9 i = −1 j = −1 9 i = −1 j = −1
Αν η τιµή w(k,m) στην περιοχή γύρω από το (k,m) pixel δεν µεταβάλλεται πολύ, ισχύει:
u'( k , m ) ≈ w( k , m ). (3.7)
H συνιστώσα του νέου θορύβου η΄(k,m), επειδή δηµιουργείται ως η µέση τιµή 9 στατι-
στικά ανεξάρτητων δειγµάτων της ακολουθίας η(k,m), είναι επίσης Gaussian θόρυβος
και έχει διακύµανση σ΄2 = σ2/81. ∆ηλαδή ο θόρυβος που παρέµεινε στη w΄ έχει ισχύ 81
φορές µικρότερη από την αρχική. ΄Ετσι η νέα εικόνα w΄ πλησιάζει σηµαντικά τη w. Στο
Σχ. 3.8γ δίνεται το αποτέλεσµα της εφαρµογής του φίλτρου κινούµενου µέσου για την
περίπτωση της εικόνας 3.8β. Στη νέα εικόνα, που προκύπτει, παρατηρείται ότι:
α) Ο θόρυβος έχει µειωθεί σηµαντικά και
β) έχει επέλθει παραµόρφωση στις ακµές. Η παραµόρφωση αυτή οφείλεται στο ότι η
φωτεινότητα στις περιοχές των ακµών µεταβάλλεται γρήγορα και η σχέση (3.7) δεν
ισχύει πλέον.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 68
Η περιοχή που χρησιµοποιείται για τον υπολογισµό της µέσης τιµής µπορεί να λάβει
οποιοδήποτε σχήµα, αλλά υπολογιστικά διευκολύνει αυτή να είναι ένα τετράγωνο.
Στο Σχ. 3.8δ δίνεται το αποτέλεσµα της εφαρµογής της τεχνικής του κινούµενου
µέσου, χρησιµοποιώντας περιοχή µε 25 pixels. O θόρυβος έχει µειωθεί περισσότε-
ρο, σε σχέση µε την περίπτωση της 3.8δ, αλλά ταυτόχρονα έχει γίνει περισσότερο
έντονη η λείανση των ακµών. Παρατηρούµε, δηλαδή, ότι στη µέθοδο που περιγρά-
ψαµε όσο πιο ικανοποιητική είναι η αποµάκρυνση του θορύβου τόσο µεγαλύτερη η
παραµόρφωση της w΄ που δηµιουργείται.
Η χρήση του φίλτρου µεσαίου είναι µια άλλη τεχνική που εφαρµόζεται για τη µεί-
ωση του θορύβου σε µια εικόνα. Όπως εργαστήκαµε στην υποενότητα 3.3.1, έτσι
και στην τεχνική αυτή κατασκευάζεται µια νέα εικόνα w΄, κάθε pixel, w΄(k,m), της
οποίας υπολογίζεται από µια περιοχή του v(k,m) pixel της ν. Ο καθορισµός όµως της
τιµής του w΄(k,m) γίνεται µε διαφορετικό τρόπο από εκείνον της τεχνικής του κινού-
µενου µέσου. Αν υποθέσουµε ότι η περιοχή έχει επιλεγεί µε 9 σηµεία, όπως στο Σχ.
3.9, η τιµή της w΄(k,m) υπολογίζεται ως εξής:
Οι 9 τιµές v(k–i,m–j) –1 ≤ i,j ≤ 1 διατάσσονται κατά σειρά µεγέθους, κατασκευάζο-
ντας έτσι µια µονότονη ακολουθία 9 όρων, την s(l), l = 1,2,...,9.
α β
™¯‹Ì· 3.10
(α) Παράδειγµα Η τιµή w΄(k,m) τίθεται ίση µε s(5), δηλαδή ίση µε το µεσαίο στοιχείο της πιο πάνω
εικόνας που έχει ακολουθίας.
προσβληθεί από
κρουστικό θόρυ- Όπως είναι φανερό, µε τον τρόπο αυτό αποµακρύνονται από κάθε περιοχή της v οι
βο. (β) Αντιµετώ- ακραίες τιµές, που µε µεγάλη πιθανότητα είναι αυτές που έχουν προσβληθεί από τις
πιση του θορύβου µεγαλύτερες τιµές του θορύβου. Το αποτέλεσµα της τεχνικής του φίλτρου µεσαίου
αυτού µε φίλτρο στην αντιµετώπιση λευκού προσθετικού θορύβου φαίνεται στο Σχ. 3.8ε.
µεσαίου 3 × 3.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 69
Εκεί που το φίλτρο µεσαίου υπερέχει αισθητά του φίλτρου κινούµενου µέσου είναι
στην περίπτωση του κρουστικού (impulse) θορύβου. Ο θόρυβος αυτός εµφανίζεται
σε µια ψηφιακή εικόνα όταν για κάποια αιτία συµβούν καταστροφές σε οµάδες από
διαδοχικά bits στο αρχείο που αυτή είναι αποθηκευµένη. Για παράδειγµα, αυτό συµ-
βαίνει όταν το αρχείο της εικόνας διαβιβαστεί µέσα από ένα κανάλι πού έχει προ-
σβληθεί από εκλάµψεις (bursts) θορύβου. Οι εκλάµψεις είναι θόρυβος µε µεγάλη ισχύ,
διάρκεια πολλαπλάσια του χρόνου διαβίβασης ενός bit και εµφανίζεται στο κανάλι
κατά τυχαία χρονικά διαστήµατα. Κατά την εµφάνιση των εκλάµψεων, η πιθανότητα
σφάλµατος του καναλιού αυξάνει και συµβαίνουν πολλά σφάλµατα στις οµάδες των
διαδοχικών bits που διαβιβάζονται κατά τα αντίστοιχα χρονικά διαστήµατα. Τα εσφαλ-
µένα bits των οµάδων αυτών έχουν ως αποτέλεσµα, κατά την ανακατασκευή της
ψηφιακής εικόνας, ένα µεγάλο ποσοστό από τα pixels της να έχουν τιµή εντελώς δια-
φορετική από την αρχική. Με τον τρόπο αυτό παρουσιάζονται πολλά pixels φωτεινά
σε θέσεις όπου στην αρχική εικόνα υπήρχαν σκοτεινά και αντίστροφα, εµφανίζοντας
σκοτεινές και φωτεινές τελείες διασκορπισµένες σε όλη την επιφάνειά της εικόνας (Σχ.
3.10α). Λόγω της ιδιάζουσας αυτής µορφής που δίνει στην εικόνα ο παλµικός θόρυ-
βος καλείται από πολλούς συγγραφείς θόρυβος αλατοπίπερο (salt and pepper).
Στο Σχ. 3.10α δίνεται ένα παράδειγµα εικόνας µε παλµικό θόρυβο που έχει προσβάλει
µέχρι περίπου το 30% των pixels της εικόνας. Αν στην εικόνα αυτή εφαρµόσουµε τη
τεχνική του φίλτρου µεσαίου καταλήγουµε στην εικόνα 3.10β. Το αποτέλεσµα είναι
εντυπωσιακό. Πράγµατι, το φίλτρο µεσαίου αντιµετωπίζει πολύ ικανοποιητικά τον
παλµικό θόρυβο ακόµη και αν αυτός έχει προσβάλει σηµαντικό ποσοστό των pixels
της εικόνας, ποσοστό που µπορεί να φθάνει και το 30%. Αντίθετα από το φίλτρο µεσαί-
ου, το φίλτρο κινούµενου µέσου είναι εντελώς αναποτελεσµατικό στην αντιµετώπιση
του παλµικού θορύβου, επειδή µε τη χρήση της µέσης τιµής η µεγάλη απόκλιση που
υπάρχει στην τιµή κάποιου pixel διαχέεται σε ολόκληρη την περιοχή του pixel.
Οι ακµές µιας εικόνας δίνουν τα όρια των αντικειµένων που απεικονίζονται σ’ αυτήν.
Με τον όρο τόνωση των ακµών (edge enhancement) εννοούµε την επεξεργασία που
υφίσταται µια εικόνα µε στόχο να τονωθούν οι λεπτοµέρειες που απεικονίζονται κατά
µήκος των ακµών της. Η τόνωση των ακµών βελτιώνει σηµαντικά την υποκειµενι-
κή αντίληψη µιας εικόνας, ιδίως όταν αυτή έχει υποστεί θόλωµα ή έχει προσβληθεί
από θόρυβο.
Στις ακµές το σήµα µεταβάλλεται µε ρυθµό ταχύτερο από εκείνον των υπολοίπων
σηµείων της εικόνας. Αυτό σηµαίνει ότι σε αυτές θα συναντήσουµε τις υψηλότερες
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 70
συχνότητες του σήµατος ή τις µεγαλύτερες τιµές παραγώγου της εικόνας. Για την
τόνωση λοιπόν των ακµών χρησιµοποιείται φίλτρο διέλευσης υψηλών συχνοτήτων
[4] ή υπολογίζεται η παράγωγος της εικόνας.
3.4.1 ªÂ›ÍË Ù˘ ÂÈÎfiÓ·˜ Ì ÙËÓ ·Ú¿ÁˆÁfi Ù˘ ÁÈ· ÙËÓ ÙfiÓˆÛË ÙˆÓ
·ÎÌÒÓ
Θα περιγράψουµε την τεχνική της τόνωσης των ακµών µιας εικόνας µε τη χρήση της
παραγώγου της δίνοντας ένα παράδειγµα. Η εικόνα στο Σχ. 3.11α, που θα συµβολί-
ζουµε ως n, έχει προκύψει από αυτή του Σχ. 3.8β έπειτα από την εφαρµογή του φίλ-
τρου κινούµενου µέσου 7 × 7. Λόγω της µεγάλης έκτασης του φίλτρου, το θόλωµα
που παρατηρείται είναι σηµαντικό. Η εικόνα του Σχ. 3.11β, εικόνα d, έχει προκύψει
µε παραγώγιση της n. Η τεχνική της παραγώγισης περιγράφεται αναλυτικά στο κεφά-
λαιο 4. Όπως αναµενόταν στη d φαίνονται έντονες οι ακµές της n σε αντίθεση µε τις
υπόλοιπες λεπτοµέρειες που έχουν εξαφανιστεί. Η εικόνα r, στο Σχ. 3.11γ, έχει προ-
κύψει από το άθροισµα των δύο εικόνων n και d. Ο τρόπος δηµιουργίας της r περι-
γράφεται αµέσως πιο κάτω. Θέλουµε όµως προηγουµένως να παρατηρήσουµε ότι σ’
αυτήν απεικονίζονται όλες οι λεπτοµέρειες της n και συγχρόνως φαίνονται καθαρά οι
ακµές της, δίνοντας έτσι την αίσθηση ότι έχει γίνει βελτίωση της αρχικής εικόνας n.
α β
™¯‹Ì· 3.11
Τόνωση των ακµών εικόνας. (α) Η εικόνα
παρουσιάζει σηµαντικό θόλωµα. (β) Η
εικόνα έχει προκύψει από την παραγώγιση
της προηγούµενης. (γ) Η εικόνα δηµιουρ-
γείται από το άθροισµα των δύο προηγού-
µενων. γ
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 71
209 208 207 207 207 209 211 177 220 122 122 122 122 122
214 213 212 212 213 215 216 130 169 122 122 122 122 122
220 219 219 219 220 222 223 134 169 211 122 122 122 122
α= 227 226 225 226 227 229 230 β= 145 130 166 122 122 122 208
234 233 232 233 234 234 235 146 140 177 150 122 122 148
239 239 238 238 237 237 237 146 143 130 158 143 139 141
243 242 242 241 240 239 238 137 141 134 122 122 122 122
386 428 329 329 329 331 333 193 214 165 165 165 166 167
344 382 334 334 335 337 338 172 191 167 167 168 169 169
354 388 430 341 342 344 345 177 194 215 171 171 172 173
γ= 372 356 391 348 349 351 438 δ= 186 178 196 174 175 176 219
380 373 409 383 356 356 383 190 187 205 192 178 178 192
385 382 368 396 380 376 378 193 191 184 198 190 188 189
380 383 376 363 362 361 360 190 192 188 182 181 181 180 ™¯‹Ì· 3.12
Για τον υπολογισµό του αθροίσµατος των εικόνων n και d και τη δηµιουργία της
εικόνας r εργαζόµαστε ως εξής:
Αν Μ × N είναι οι δύο διαστάσεις των εικόνων n και d, κατασκευάζουµε έναν πίνα-
κα s Μ × N, θέτοντας την τιµή κάθε στοιχείου του ίση µε το άθροισµα των αντι-
στοίχων pixels των n και d.
s(i,j) = n(i,j)+d(i,j)
Στη συνέχεια βρίσκουµε τη µεγαλύτερη τιµή του πίνακα s, την smax και µε βάση αυτή
κβαντίζουµε όλα τα στοιχεία του s χρησιµοποιώντας το ίδιο πλήθος σταθµών Q µε
το οποίο έχουν κβαντιστεί οι εικόνες n και d. Τις κβαντισµένες αυτές τιµές θέτουµε
ως τιµές των pixels της εικόνας r. Η διαδικασία της κβάντισης γίνεται όπως έχει περι-
γραφεί στην υποενότητα 2.3.1. Για να γίνει πιο κατανοητή η διαδικασία της, του
αθροίσµατος των δύο εικόνων, δίνεται το παράδειγµα 2.
¶·Ú¿‰ÂÈÁÌ· 3.2
Στους πίνακες α και β του Σχ. 3.12 δίνονται οι τιµές των pixels από δύο αντίστοιχα
τµήµατα µεγέθους 7 × 7 των εικόνων n και d του Σχ. 3.11. ∆ίνεται επίσης ότι το πλή-
θος Q των σταθµών κβάντισης των εικόνων n και d είναι ίσο µε 256, καθώς και ότι
το στοιχείο smax του πίνακα s ισούται µε 510. Επιθυµούµε να υπολογίσουµε τις τιµές
των pixels του αντίστοιχου τµήµατος της εικόνας r του ίδιου σχήµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 72
Λύση
Κατασκευάζουµε τον πίνακα γ του Σχ. 3.12 υπολογίζοντας τα στοιχεία του µε τη
σχέση γ(i,j) = α(i,j) + β(i,j) για 1 ≤ i,j ≤ 7. Στη συνέχεια τα στοιχεία του γ κβαντίζο-
νται µε 256 στάθµες, µε τον τρόπο που έχουµε περιγράψει στην υποενότητα 2.3.1.
Πιο συγκεκριµένα, υπολογίζουµε το εύρος της βαθµίδας κβάντισης ∆L = smax/(Q–1)
= 510/255 = 2. Για κάθε στοιχείο γ(i,j) υπολογίζουµε το λόγο γ(i,j)/∆L και βρίσκουµε
τον πλησιέστερο προς αυτόν ακέραιο, την τιµή του οποίου θέτουµε στο δ(i,j). Με
τον τρόπο αυτό έχουν υπολογιστεί όλα τα στοιχεία του πίνακα δ. Ο τελευταίος αυτός
πίνακας περιέχει τις τιµές των pixels του ζητούµενου τµήµατος της εικόνας r.
™YNOæH 73
™‡ÓÔ„Ë
Στο κεφάλαιο αυτό έγινε η αναφορά των πλέον γνωστών αιτιών, από τις οποίες δηµι-
ουργείται η υποβάθµιση της ποιότητας µιας εικόνας και παρουσιάστηκαν µερικές από
τις πιο απλές µεθόδους αποκατάστασης της ποιότητας αυτής. Συγκεκριµένα:
• Εξετάστηκαν τεχνικές τροποποίησης του ιστογράµµατος, µε τις οποίες επιτυγχά-
νεται η τόνωση της φωτεινότητας µιας εικόνας µε περιορισµένη αντίθεση.
• Παρουσιάστηκαν δύο από τους τύπους θορύβου που συναντάµε σε µια ψηφιακή
εικόνα, ο λευκός Gaussian θόρυβος και ο κρουστικός θόρυβο.
• Παρουσιάστηκαν το φίλτρο κινούµενου µέσου και το φίλτρο µεσαίου και εξετά-
στηκε η αποτελεσµατικότητα αυτών στην αντιµετώπιση του θορύβου.
• Τέλος παρουσιάστηκε µια τεχνική τόνωσης των ακµών µιας εικόνας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 74
µÈ‚ÏÈÔÁÚ·Ê›·
™ÎÔfi˜
∫ ∂
Σκοπός του κεφαλαίου αυτού είναι να γίνει η παρουσίαση των µεθόδων κατάτµησης
4º
της εικόνας, δηλαδή του διαχωρισµού της σε περιοχές, κaθεµιά από τις οποίες περιέ-
χει ξεχωριστά αντικείµενα της απεικονιζόµενης σκηνής.
∞ § ∞ π √
¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Eξετάσετε το ιστόγραµµα µιας εικόνας και να συµπεράνετε αν είναι δυνατή η κατά-
τµηση αυτής µε σταθερό κατώφλιο.
• Περιγράψετε µια µέθοδο κατωφλίωσης µε µεταβλητό κατώφλιο.
• Γράψετε τη σχέση που συνδέει τη φωτεινότητα µιας εικόνας µε το φωτισµό της
σκηνής που παριστάνει και την ανακλαστικότητα των αντικειµένων που περιλαµ-
βάνει.
• Πετύχετε την αποκατάσταση της φωτεινότητας µιας εικόνας, που έχει προκύψει
από ανοµοιόµορφο φωτισµό.
• ∆ώσετε τον ορισµό της κατά κατεύθυνση παραγώγου για µια συνάρτηση µε δύο
µεταβλητές.
• Aναφέρετε δύο τουλάχιστον λόγους, για τους οποίους παρουσιάζει δυσχέρειες ο
προσδιορισµός της τιµής της παραγώγου σε µια εικόνα.
• Aναφέρετε δύο τουλάχιστον τύπους τελεστών κλίσης και ένα τύπο τελεστή προσα-
νατολισµού.
• Προγραµµατίσετε και να εφαρµόσετε µια τουλάχιστον από τις τεχνικές ανίχνευσης
ακµών σε µια εικόνα.
• Γράψετε τον ορισµό του περιγράµµατος περιοχής.
• Προγραµµατίσετε την ανίχνευση περιγράµµατος περιοχής σε µονόχρωµη εικόνα.
ŒÓÓÔȘ ÎÏÂȉȿ
• Ανακλαστικότητα Επιφάνειας
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 76
76 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Στην ενότητα 1.2, έχουµε δει ότι µια από τις βασικές βαθµίδες ενός Σ.Ο.Α. είναι αυτή
της κατάτµησης της εικόνας,. Στο κεφάλαιο αυτό παρουσιάζονται µερικές από τις πιο
γνωστές µεθόδους µε τις οποίες επιτυγχάνεται η κατάτµηση της εικόνας. Πιο συγκε-
κριµένα, στην πρώτη ενότητα (Ενότητα 4.1) δίνεται η περιγραφή τεχνικών κατω-
φλίωσης, µε καθολικό, ή µε προσαρµοζόµενο κατώφλιο. Στη δεύτερη ενότητα (Ενό-
τητα 4.2), γίνεται µια σύντοµη εισαγωγή στo πρόβληµα της διαφόρισης συνάρτησης
δύο µεταβλητών και στη συνέχεια, περιγράφονται τρεις τύποι ανίχνευσης ακµών.
Τέλος, στη τρίτη ενότητα (Ενότητα 4.3) δίνεται µια µέθοδος για την ανίχνευση του
περιγράµµατος περιοχής σε µονόχρωµη εικόνα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 77
4 . 1 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆ ø º § π ø ™ ∏ ™ 77
Μια απλή µέθοδος κατάτµησης εικόνας είναι η τεχνική της κατωφλίωσης. Η τεχνι-
κή αυτή εφαρµόζεται όταν οι τιµές των pixels του αντικειµένου, το οποίο επιθυµούµε
να αποχωρίσουµε, είναι διαφορετικές από εκείνες των pixels των γειτονικών περιο-
χών. Κατά την κατωφλίωση, από την αρχική ασπρόµαυρη εικόνα δηµιουργείται µια
µονόχρωµη εικόνα, στην οποία όλα τα pixels του αντικειµένου που µας ενδιαφέρει
είναι µαύρα και τα pixels της υπόλοιπης εικόνας λευκά ή το αντίστροφο.
Όταν το διάστηµα τιµών της φωτεινότητας ενός αντικειµένου είναι εντελώς διαφορε-
τικό από το αντίστοιχο διάστηµα της υπόλοιπης εικόνας, τότε για την κατωφλίωση
αρκεί η κατάλληλη τροποποίηση του ιστογράµµατος. Στην εικόνα του Σχ. 4.1α το διά-
στηµα τιµών φωτεινότητας των γραµµάτων και αυτό του υπόβαθρου είναι τελείως δια-
φορετικά. Αυτό έχει ως αποτέλεσµα το ιστόγραµµα τιµών της εικόνας, που δίνεται στο
Σχ. 4.1β, να αποτελείται από δύο λοβούς εντελώς διαχωρισµένους µεταξύ τους. Για τη
δηµιουργία της µονόχρωµης εικόνας του Σχ. 4.1γ, ορίζεται στο ιστόγραµµα του 4.1β
το κατώφλι Τ0 στο µέσον του κενού διαστήµατος, που διαχωρίζει τους δύο λοβούς.
Αυτός ο ορισµός του Τ0 εξασφαλίζει ότι η τιµή του είναι µεγαλύτερη από όλες τις τιµές
τιµές των pixels των γραµµάτων και συγχρόνως µικρότερη από εκείνες των pixels
της υπόλοιπης εικόνας. Στη συνέχεια εφαρµόζουµε στην αρχική εικόνα την τροπο-
ποίηση του ιστογράµµατος, gn = f(g), το διάγραµµα της οποίας δίνεται στο Σχ. 4.1δ.
Με την τροποποίηση αυτή, όλα τα pixels που στην αρχική εικόνα έχουν τιµή µικρό-
τερη από το κατώφλιο Τ0, στη νέα εικόνα γίνονται µαύρα. Αντίθετα, όσα pixels έχουν ™¯‹Ì· 4.1
τιµή µεγαλύτερη από Τ0, στη νέα εικόνα γίνονται λευκά. Το σχήµα παρουσιά-
ζει την τεχνική της
κατωφλίωσης. (α)
T0 Αρχική εικόνα. (β)
Το ιστόγραµµα της
εικόνας. (γ) Με την
κατωφλίωση η αρχι-
κή εικόνα µετατρέ-
α β
πεται σε µια µονό-
gn χρωµη εικόνα. (δ)
gn=f(g)
Για τη µετατροπή
255
αυτή αρκεί να εφαρ-
µοστεί η τροποποίη-
ση του ιστογράµµα-
T0 g τος που απεικονίζε-
γ δ ται στο διάγραµµα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 78
78 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
Ένα δεύτερο παράδειγµα, στο οποίο η κατωφλίωση γίνεται άµεσα, µε τη χρήση ενός
µοναδικού κατωφλίου, είναι αυτό που δώσαµε στο Σχ. 2.6 της υποενότητας 2.3.4.
Το ιστόγραµµα της αρχικής εικόνας δίνεται στο Σχ. 4.2. Όπως και παραπάνω στο
ιστόγραµµα αυτό διακρίνονται δύο σαφώς διαχωριζόµενοι µεταξύ τους λοβοί. Στο
ενδιάµεσο διάστηµα µεταξύ των λοβών αυτών έχει οριστεί το κατώφλιο Τ0 µε τιµή
ίση µε 70. Μια τροποποίηση του ιστογράµµατος, παρόµοια µε αυτή του Σχ. 4.1δ,
δηµιουργεί τη µονόχρωµη εικόνα του Σχ. 2.6.
Στα παραδείγµατα που αναφέραµε στην υποενότητα αυτή χρησιµοποιήθηκε µια
µοναδική τιµή κατωφλίου, µε βάση την οποία έγινε η σύγκριση των τιµών της φωτει-
νότητας όλων των pixels της εικόνας. Η τεχνική αυτή καλείται κατωφλίωση µε
καθολικό (global) κατώφλιο.
Μια βασική προϋπόθεση που πρέπει να ισχύει κατά τη φωτογράφιση µιας σκηνής,
ώστε στην εικόνα που θα προκύψει να είναι δυνατή η κατωφλίωση µε καθολικό
κατώφλιο, είναι ολόκληρη η σκηνή να φωτίζεται οµοιόµορφα. Οµοιόµορφες συν-
θήκες φωτισµού µπορούµε να δηµιουργήσουµε µέσα σε ένα φωτογραφικό εργα-
™¯‹Ì· 4.2 στήριο. Αντίθετα, αυτό είναι δύσκολο στις φωτογραφήσεις σε εξωτερικούς χώρους
Το ιστόγραµµα της ή όταν ο φωτισµός προέρχεται από ακτινοβολίες, όπως συµβαίνει µε τις λήψεις ακτι-
εικόνας του σχή- νογραφιών ή άλλων ιατρικών εικόνων.
µατος 2.6. Το
κατώφλιο έχει επι-
λεγεί στην τιµή
φωτεινότητας 70.
Το µέγιστο της
κλίµακας είναι
255 µονάδες.
Στην εικόνα που δίνεται στο Σχ. 4.3α φαίνεται τι συµβαίνει όταν ο φωτισµός της σκη-
νής δεν είναι οµοιόµορφος. Παρά το ότι τα γεωµετρικά σχήµατα που απεικονίζονται
στην εικόνα γίνονται αντιληπτά, το ιστόγραµµα δεν διαχωρίζεται σε δυο διακριτούς
λοβούς και εποµένως δεν µπορεί να εφαρµοστεί άµεσα η τεχνική του µοναδικού κατω-
φλίου. Για να γίνει δυνατή η κατωφλίωση της εικόνας αυτής, µια µέθοδος είναι να διορ-
θώσουµε τη φωτεινότητά της. Η διόρθωση αυτή είναι δυνατή όταν η πηγή φωτισµού
της αντίστοιχης φωτογράφησης είναι προσπελάσιµη. Για να γίνει αντιληπτός ο τρόπος
διόρθωσης της φωτεινότητας, πρέπει να δούµε πώς προσδιορίζεται η τιµή της σε κάθε
σηµείο της λαµβανόµενης εικόνας κατά τη φωτογράφηση µιας σκηνής.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 79
4 . 1 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆ ø º § π ø ™ ∏ ™ 79
α β γ
™¯‹Ì· 4.3
Ανοµοιόµορφα φωτιζόµενη σκηνή
α) Αρχική εικόνα και το αντίστοιχο ιστόγραµµα.
β) Η κατατοµή του φωτισµού της σκηνής.
γ) ∆ιόρθωση της αρχικής εικόνας. Το ιστόγραµµα παρουσιάζει πλέον δύο
σαφώς διαχωρισµένους λοβούς.
80 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
τας των pixels που αντιστοιχούν στο αντικείµενο βρίσκονται σε διαφορετικό διά-
στηµα από τις τιµές φωτεινότητας των υπολοίπων pixels της εικόνας. Αυτή η δια-
φοροποίηση γίνεται φανερή και από το ιστόγραµµα της εικόνας, όπως, για παρά-
δειγµα, στο Σχ. 4.1. Στην περίπτωση αυτή, η εικόνα του αντικειµένου διαχωρίζεται
εύκολα µε τη χρήση καθολικού κατωφλίου.
Όταν όµως ο φωτισµός δεν είναι οµοιόµορφος, η s(x,y) δεν είναι σταθερή, και η
φωτεινότητα της εικόνας f(x,y) δεν είναι ανάλογη πλέον της κατατοµής της r(x,y).
Οι τιµές φωτεινότητας των pixels που αντιστοιχούν στο αντικείµενο και αυτές της
υπόλοιπης εικόνας µοιράζονται σε κοινά διαστήµατα και ο διαχωρισµός τους µε την
άµεση χρήση της κατωφλίωσης είναι αδύνατος. Αυτό ακριβώς συµβαίνει µε την
περίπτωση της εικόνας του Σχ. 4.3α.
Με την ίδια πηγή φωτισµού, µε την οποία ελήφθη η εικόνα του Σχ. 4.3α, φωτίζου-
µε µια λευκή σταθερής ανακλαστικότητας επιφάνεια και λαµβάνεται η εικόνα του
Σχ. 4.3β. Σε κάθε σηµείο (x,y) της εικόνας αυτής, η φωτεινότητα f1(x,y) δίνεται από
τη σχέση f1(x,y) = c1s(x,y), όπου η σταθερά c1 έχει προκύψει από τη σταθερή τιµή
της ανακλαστικότητας της φωτογραφιζόµενης επιφάνειας. Από τη σχέση αυτή υπο-
λογίζεται ο παράγοντας φωτισµού s(x,y) και διορθώνεται η τιµή της φωτεινότητας
f(x,y) της αρχικής εικόνας. Υπολογίζοντας, για παράδειγµα, το λόγο των δύο φωτει-
νοτήτων f(x,y)/f1(x,y) προκύπτει µια συνάρτηση ανάλογη της r(x,y) και το ιστόγραµµά
της παρουσιάζει δύο ξεχωριστούς λοβούς. Η εικόνα του Σχ. 4.2γ έχει κατασκευα-
στεί υπολογίζοντας το λόγο των φωτεινοτήτων και στη συνέχεια κβαντίζοντας το
αποτέλεσµα σε 256 στάθµες. Στο ίδιο σχήµα δίνεται και το ιστόγραµµα φωτεινότη-
τας της εικόνας. Εφαρµόζοντας τελικά την κατωφλίωση µε κατώφλιο Τ0 = 128 µονά-
δες, προκύπτει η επιθυµητή µονόχρωµη εικόνα του Σχ. 4.3δ.
Στη βιβλιογραφία έχει αναπτυχθεί ένας µεγάλος αριθµός τεχνικών µε τις οποίες αντι-
µετωπίζεται η κατωφλίωση εικόνων, που έχουν ληφθεί µε διαφορετικές συνθήκες
φωτισµού ή στις οποίες η ανακλαστικότητα του αντικειµένου, που επιθυµούµε να
διαχωρίσουµε, και της υπόλοιπης σκηνής δεν διαφέρουν σηµαντικά. Για παράδειγ-
µα, στην περίπτωση που η σκηνή δεν φωτίζεται οµοιόµορφα και δεν είναι δυνατή η
προσπέλαση της πηγής φωτισµού, χρησιµοποιείται, πολλές φορές µε επιτυχία, η
τεχνική της χρήσης προσαρµοζόµενου κατωφλίου (adaptive thresholding). Σύµ-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 81
4 . 1 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆ ø º § π ø ™ ∏ ™ 81
φωνα µε τη µέθοδο αυτή, η τιµή του κατωφλίου επιλέγεται διαφορετική για κάθε
pixel της εικόνας.
Στο Σχ. 4.4 δίνεται ένα παράδειγµα κατωφλίωσης µε προσαρµοζόµενο κατώφλιο. Η
εικόνα w του Σχ. 4.4α έχει διαστάσεις M × N και κατά µήκος αυτής η φωτεινότητα
ελαττώνεται προοδευτικά. Επειδή στην περίπτωση αυτή δεν είναι δυνατή η διόρθω-
ση της φωτεινότητας και, εποµένως, η χρήση καθολικού κατωφλίου δεν ενδείκνυ-
ται, φροντίζουµε ώστε η τιµή αυτού να προσαρµόζεται στη φωτεινότητα της περιο-
χής γύρω από κάθε pixel χωριστά. Προς την κατεύθυνση αυτή είναι λογικό να υιο-
θετήσουµε για το pixel (k,m) ως τιµή κατωφλίου Τ(k,m) τη µέση τιµή της φωτεινό-
τητας των pixels µιας περιοχής L × L της w γύρω από το (k,m). Μετά από µερικές
δοκιµές προέκυψε ότι το κατώφλιο πρέπει να επιλέγεται από τη σχέση:
3 3
∑∑
1
T ( k , m) = w( k − i , m − j ) − C (4.1)
49 i = −3 j = −3
όπου C µια σταθερά. Από τη σχέση (4.1) φαίνεται ότι τελικά επιλέχθηκε περιοχή µε
µέγεθος 7 × 7 και ότι το κατώφλιο επιλέγεται ίσο µε τη µέση τιµή φωτεινότητας της
περιοχής αυτής µειωµένο κατά τη σταθερά C. Η µείωση αυτή εξασφαλίζει ότι στο
περιθώριο του εντύπου, όπου δεν υπάρχουν καθόλου γράµµατα, το κατώφλιο θα έχει
τιµή µικρότερη από όλα τα pixels της περιοχής και έτσι αυτά µετά την κατωφλίωση
θα βρεθούν στο υπόβαθρο. Η τιµή της C εξαρτάται από το πλήθος Q των σταθµών
κβάντισης και από το θόρυβο που υπάρχει στο έντυπο. Στο δικό µας παράδειγµα
είχαµε πολύ καλά αποτελέσµατα µε C = 5. Στο Σχ. 4.4β δίνεται η µονόχρωµη εικό-
να που προκύπτει µετά την εφαρµογή της κατωφλίωσης.
Οι τεχνικές κατωφλίωσης που γνωρίσαµε στην ενότητα αυτή είναι µόνο ένα µικρό
δείγµα από τις µεθόδους που έχουν προταθεί στη βιβλιογραφία. Ο αναγνώστης που
ενδιαφέρεται να γνωρίσει περισσότερα πάνω στο θέµα της κατωφλίωσης, µπορεί να
µελετήσει το [1].
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 82
82 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
™¯‹Ì· 4.4
α) Ο ανοµοιόµορφος
φωτισµός κατά τη
φωτογράφηση έχει
ως αποτέλεσµα την
προοδευτική ελάττω-
ση της φωτεινότητας
κατά µήκος της εικό-
νας. β) Η εικόνα
αυτή είναι µονόχρω-
µη και προέρχεται
από την (α) µε την
εφαµογή κατωφλίω-
σης µε προσαρµοζό-
µενο κατώφλιο. α β
∆ίνεται ότι ο πίνακας a περιέχει τις τιµές των pixels µιας εικόνας που έχει προκύ-
ψει από τη φωτογράφηση σκηνής ανοµοιόµορφα φωτισµένης. Ο πίνακας b περιέ-
χει τις τιµές των pixels µιας δεύτερης εικόνας που έχει ληφθεί από τη φωτογρά-
φηση ενός λευκού χαρτιού µε σταθερή ανακλαστικότητα και τον ίδιο φωτισµό µε
αυτό της πρώτης. Να προσπαθήσετε να διορθώσετε τη φωτεινότητα της πρώτης
εικόνας, να χαράξετε το ιστόγραµµα της διορθωµένης και να βρείτε ένα κατάλλη-
λο καθολικό κατώφλιο για να κάνετε κατωφλίωση της εικόνας.
69 82 90 91 95 92 83 88 86 75 73
54 58 66 74 29 30 93 102 107 104 110
67 74 83 22 29 35 33 125 135 141 143
85 91 21 21 30 25 26 41 161 160 173
85 104 32 38 40 32 39 44 55 191 188
85 97 113 46 46 49 47 167 187 201 209
67 76 80 81 85 85 81 86 85 81 79
58 63 71 75 78 80 90 97 103 104 106
64 73 87 93 94 104 106 117 125 133 141
81 94 104 111 125 132 141 146 155 157 162
80 90 99 108 119 131 142 153 167 178 183
78 90 103 110 121 131 144 154 172 187 201
Ακµές είναι εκείνες οι περιοχές της εικόνας στις οποίες εµφανίζονται µεγάλες µετα-
βολές της φωτεινότητας. Αυτές δηµιουργούνται στα σηµεία που αντιστοιχούν στις
οριακές επιφάνειες των αντικειµένων της απεικονιζόµενης σκηνής και γι’ αυτό η ανί-
χνευσή τους αποτελεί σηµαντικό εργαλείο για την κατάτµηση της εικόνας. Όπως επί-
σης είδαµε στην υποενότητα 3.4 ο εντοπισµός των ακµών και η τόνωσή τους απο-
τελούν µια από τις τεχνικές βελτίωσης της εικόνας.
Παρά τη θεµελιώδη σηµασία των ακµών στην ψηφιακή επεξεργασία και την ανάλυ-
ση της εικόνας, δεν µπορεί να δοθεί ακριβής µαθηµατικός ορισµός για αυτές. Τις δεχό-
µαστε ως περιοχές, στις οποίες η µεταβολή της φωτεινότητας είναι πολύ πιο έντονη
από ό,τι στην υπόλοιπη εικόνα. Αυτό σηµαίνει ότι στα σηµεία των ακµών, η παρά-
γωγος της φωτεινότητας, είναι σηµαντικά αυξηµένη. Η θέση τους, λοιπόν, εντοπίζε-
ται υπολογίζοντας την παράγωγο σε όλα τα σηµεία της εικόνας και ξεχωρίζοντας εκεί-
να, στα οποία αυτή έχει τις πιο µεγάλες τιµές. Είναι ανάγκη, εποµένως, να γνωρί-
σουµε µερικές βασικές αρχές για την παραγώγιση µιας δισδιάστατης συνεχούς συνάρ-
τησης και στη συνέχεια ενός δισδιάστατου ψηφιακού σήµατος, όπως είναι η εικόνα.
84 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
£∂øƒ∏ª∞ 4.1
Όταν στο σηµείο Α(xA,yA) η συνάρτηση f(x,y) είναι παραγωγίσιµη, τότε το διάνυσµα
grad f(x,y)|A έχει την κατεύθυνση προς την οποία ο ρυθµός µεταβολής της f(x,y) είναι
µέγιστος, και το µέτρο της grad f(x,y)|A δίνει την τιµή του µέγιστου ρυθµού µεταβολής
της f(x,y) στο Α.
rθ
j ∆y
A θ ∆x
™¯‹Ì· 4.5
Ορισµός της
παραγώγου κατά
0
κατεύθυνση. i x
d f ( xA + t ∆x, yA + t ∆ y ) − f ( xA , yA )
f ( x A + t ∆ x , y A + t ∆ y ) = lim (4.3)
dt t = 0 t → 0 t
Αποδεικνύεται ότι, όταν η f(x,y) είναι παραγωγίσιµη στο Α, τότε το όριο της σχέσης
(4.3), και εποµένως και η παράγωγος κατά κατεύθυνση, υπάρχει και είναι συνεχής,
οποιαδήποτε τιµή και αν έχει η γωνία θ. Επιπλέον, αποδεικνύεται ότι η παράγωγος
αυτή κατά αντίθετες κατευθύνσεις έχει αντίθετες τιµές.
Από τη σχέση (4.3), µε την οποία ορίστηκε η παράγωγος κατά κατεύθυνση, συνε-
πάγεται ότι αυτή ισούται µε το ρυθµό µεταβολής της f(x,y) στο Α κατά την κατεύ-
θυνση του rθ. Εποµένως, υπολογίζοντας την παράγωγο αυτή κατά τις κατευθύνσεις
που σχηµατίζουν γωνίες θ, µε 0 ≤ θ < 2π, και λαµβάνοντας το µέγιστο αυτών των
τιµών, έχουµε το µέγιστο ρυθµό µεταβολής της f(x,y) στο Α. Επειδή όµως σε αντί-
θετες κατευθύνσεις η παράγωγος αυτή λαµβάνει αντίθετες τιµές, ο µέγιστος ρυθµός
µεταβολής της f(x,y) µπορεί να υπολογιστεί περιορίζοντας τη µεταβολή της θ µόνο
από 0° έως 180° και όχι έως 360°. ∆ηλαδή ισχύει:
£∂øƒ∏ª∞ 4.2
Όταν στο σηµείο Α(xA,yA) η συνάρτηση f(x,y) είναι παραγωγίσιµη, τότε το µέγιστο της
απόλυτης τιµής της παραγώγου της f(x,y) στο Α κατά το διάνυσµα rθ, για 0 ≤ θ < π,
ισούται µε το µέγιστο του ρυθµού µεταβολής της f(x,y) στο ίδιο σηµείο Α.
Από τα Θεωρήµατα 4.1 και 4.2 προκύπτουν δύο µέθοδοι για τον προσδιορισµό του
µέγιστου ρυθµού µεταβολής της f(x,y) σε ένα σηµείο Α. Η πρώτη υπολογίζει τις µερι-
κές παραγώγους ως προς x και y της συνάρτησης αυτής και προσδιορίζει το µέτρο
της κλίσης στο Α. Η δεύτερη υπολογίζει την απόλυτη τιµή της κατά κατεύθυνση
παραγώγου για µια σειρά διαδοχικών κατευθύνσεων και το µέγιστο των τιµών, που
θα προκύψουν, δίνει το µέγιστο ρυθµό µεταβολής της f(x,y).
86 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
Το πρώτο εµπόδιο µας απαγορεύει να υπολογίσουµε άµεσα τις τιµές των παραγώγων
µε τη χρήση ορίων, όπως είναι αυτό της (4.3). Έτσι, αναγκαζόµαστε να εκτιµήσουµε
την τιµή των µερικών παραγώγων ή της παραγώγου ως προς κατεύθυνση σε ένα
σηµείο Α, χρησιµοποιώντας τις πεπερασµένες διαφορές των γειτονικών pixelς του Α.
Για παράδειγµα, θεωρήστε την ψηφιακή εικόνα v µε τιµές στα pixels της v(k,m), όπου
0 ≤ k ≤ K – 1 και ο ≤ m ≤ M – 1 (4.4)
και ένα σηµείο Α, που συµπίπτει µε τη θέση του (k,m) pixel της. Η µερική παράγωγος
ως προς x στο A µπορεί να προσεγγιστεί από τη vx΄(k,m), που υπολογίζεται από τη σχέση:
v ( k , m + 1) − v ( k , m )
v x′ ( k , m ) = (4.5)
d
όπου d η απόσταση των pixels. Η vx΄(k,m) ισούται ακριβώς µε την παράγωγο, αν η
φωτεινότητα µεταβάλλεται γραµµικά µε την αποµάκρυνση x στο σηµείο Α, αλλά
αποκλίνει από αυτή σε κάθε άλλη περίπτωση.
Η απόκλιση της vx΄(k,m) από την τιµή της παραγώγου γίνεται ακόµη πιο µεγάλη αν
λάβουµε υπόψη µας το δεύτερο από τα εµπόδια που αναφέραµε στην αρχή της υπο-
ενότητας 4.2.2, το θόρυβο. Αν µάλιστα η ισχύς του θορύβου είναι σηµαντική, η
vx΄(k,m) κατά τον υπολογισµό της στα διάφορα σηµεία γίνεται ασταθής και αποκλί-
νει αισθητά από τον πραγµατικό ρυθµό µεταβολής της φωτεινότητας. Αυτό γίνεται
φανερό αν θεωρήσουµε την τιµή των pixels της εικόνας ως το άθροισµα της φωτει-
νότητας φ(k,m) και του θορύβου η(k,m), δηλαδή v(k,m) = φ(k,m) + η(k,m). Τότε η
διαφορά τιµών των δύο γειτονικών pixels, που εµφανίζεται στην (4.5), ισούται µε:
v(k,m+1)–v(k,m) = [φ(k,m+1)–φ(k,m)]+[η(k,m+1) –η(k,m)].
Καθώς υπάρχει υψηλός βαθµός συσχέτισης µεταξύ των γειτονικών pixels της εικό-
νας, η διαφορά φ(k,m+1)–φ(k,m) είναι µικρή, αλλά δεν συµβαίνει το ίδιο και µε τη
διαφορά των τιµών των δειγµάτων του θορύβου, η(k,m+1)–η(k,m), τα οποία είναι
συνήθως στατιστικώς ανεξάρτητα. Το χειρότερο είναι ότι το σφάλµα που προκύπτει
διαιρείται µε τη µικρή απόσταση d κάνοντας την απόκλιση ακόµη πιο σηµαντική.
Για να αντιµετωπισθεί η επίδραση του θορύβου στην εκτίµηση της παραγώγου,
συνήθως, προηγείται της παραγώγισης φιλτράρισµα του θορύβου. Αποδεικνύεται
ότι οι δύο αυτές λειτουργίες µπορούν να συνδυαστούν σε ένα βήµα [2], και να γρά-
ψουµε ισοδύναµα:
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 87
L L
vθ' ( k , m) = ∑ ∑ v(k + i, m + j )µ(i, j )
i=−L j=−L
(4.6)
Στη σχέση αυτή, µε το vθ' ( k , m ) συµβολίζεται η εκτίµηση της παραγώγου κατά την
κατεύθυνση rθ στο σηµείο Α, δηλαδή στη θέση του pixel (k,m). Για την εκτίµηση
της τιµής της vθ' ( k , m ) χρησιµοποιούνται όλα τα pixels µιας περιοχής µε µέγεθος
(2L+1) × (2L+1) γύρω από το (k,m), οι τιµές των οποίων πολλαπλασιάζονται µε τους
συντελεστές µ(i,j). Τα µ(i,j) είναι στοιχεία ενός (2L+1) × (2L+1) πίνακα Μ, ο οποί-
ος καλείται µάσκα διαφόρισης, και οι τιµές τους εξαρτώνται από τη διεύθυνση θ
καθώς και από τη στάθµη που εκτιµάται ότι έχει ο θόρυβος στην εικόνα.
Η (4.6) παριστάνει τη συσχέτιση (correlation) της εικόνας v µε τη µάσκα Μ στο pixel
(k,m). Αυτή µπορεί να εφαρµοστεί για όλα τα pixels της εικόνας v εκτιµώντας την
τιµή της παραγώγου κατά την κατεύθυνση rθ. Όταν επιχειρήσουµε να εφαρµόσουµε
την (4.6) σε ένα από τα ακραία σηµεία της εικόνας, εµφανίζονται στους προσθετέους
του αθροίσµατος στοιχεία της ακολουθίας ν µε δείκτες έξω από τα διαστήµατα, που
καθορίζονται από τις σχέσεις (4.4). Τα στοιχεία αυτά δεχόµαστε ότι έχουν τιµή µηδέν.
¶·Ú¿‰ÂÈÁÌ· 4.1
Στο Σχ. 4.6α δίνεται ο πίνακας e των τιµών των pixels µιας εικόνας, µε διαστάσεις
5 × 5. Στο 4.6β δίνεται µια µάσκα Μ µε διαστάσεις 3 × 3. Αν C είναι η συσχέτιση
των e και M, να υπολογιστούν τα C(2,4) και C(1,3).
Απάντηση
88 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
Για τον υπολογισµό του στοιχείου C(1,3) εντοπίσαµε, µε τον ίδιο τρόπο όπως και πιο
πάνω, τις τιµές της περιοχής γύρω από το pixel (1,3) της e. Επειδή αυτό είναι ακραίο
pixel της εικόνας, η περιοχή του συµπληρώνεται µε µηδενικά. Αντίγραφο της περιοχής
αυτής δίνεται στο Σχ. 4.6δ. Στη συνέχεια εφαρµόζεται η σχέση (4.7) και προκύπτει:
Με τον ίδιο τρόπο υπολογίστηκαν όλα τα στοιχεία του πίνακα C και δίδονται στο
Σχ. 4.6ε.
Από το παράδειγµα 1 προκύπτει ότι οι πιο πολλές από τις τιµές των στοιχείων του
πίνακα C βρίσκονται εκτός του διαστήµατος 0 έως 255, και εποµένως δεν µπορούν
να υιοθετηθούν ως τιµές για τα pixels µιας εικόνας. Εντούτοις, πολλές φορές, µετά
τον υπολογισµό της συσχέτισης επιθυµούµε να παραστήσουµε το αποτέλεσµα ως
εικόνα. Στην περίπτωση αυτή πρέπει να γίνει κβάντιση και στη συνέχεια κωδικο-
ποίηση των τιµών του πίνακα. Την πρακτική αυτή, της κβάντισης και της κωδικο-
ποίησης, τη συναντήσαµε στην ενότητα 2.3. Στο επόµενο παράδειγµα 2 γίνεται η
κβάντιση και η κωδικοποίηση των τιµών του πίνακα C.
¶·Ú¿‰ÂÈÁÌ· 4.2
Να κβαντιστoύν µε Q = 256 στάθµες τα στοιχεία του πίνακα C και να κωδικοποιη-
θούν, ώστε να µπορούν να τεθούν ως τιµές στα pixels µιας εικόνας c.
Απάντηση
Μεταξύ των στοιχείων του πίνακα C παρατηρούµε ότι υπάρχουν και αρνητικοί ακέ-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 89
ραιοι ενώ στον κβαντιστή που περιγράφουµε στην υποενότητα 2.3 έχει θεωρηθεί ότι
το µηδέν είναι η µικρότερη τιµή των αριθµών που κβαντίζονται. Για το λόγο αυτό ™¯‹Ì· 4.7
προσθέτουµε σε όλα τα στοιχεία του C µια σταθερή τιµή, σ, τέτοια ώστε, το ελάχι- α) Ο πίνακας C1
στο στοιχείο του να γίνει µηδέν. Η τιµή σ είναι ίση µε προκύπτει από τoν C
του προηγούµενου
σ = − min[C ( k , m )] = 1540 παραδείγµατος µετά
1≤ k ≤ 5
1≤ m ≤ 5 την αύξηση των
στοιχείων αυτού,
2900 3209 3290 3371 2420 219 243 249 255 183 ώστε να γίνουν όλα
µη αρνητικά. β) Ο
2680 2482 2473 1464 790 203 188 187 111 60
πίνακας c2 προκύ-
C1 = 1080 2830 250 0 140 c2 = 82 214 19 0 11
πτει από τo C1 µετά
980 250 250 750 990 74 19 19 57 75
την κβάντιση και την
1500 1310 1220 1130 1060 113 99 92 85 80 κωδικοποίηση των
α β στοιχείων τoυ.
Στη βιβλιογραφία συναντάµε ένα µεγάλο πλήθος από τεχνικές ανίχνευσης των
ακµών. Καθεµιά από αυτές είναι κατάλληλη για διαφορετικές εικόνες ανάλογα µε
το επίπεδο θορύβου και το ρυθµό µεταβολής της φωτεινότητας. Επίσης, διαφέρουν
µεταξύ τους και στην ακρίβεια εντοπισµού της θέσης µιας ακµής στην εικόνα. Όλες
τους χρησιµοποιούν µάσκες διαφόρισης, για να υπολογίζουν την παράγωγο κατά
κατεύθυνση ή τις µερικές παραγώγους της εικόνας.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 90
90 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
¶›Ó·Î·˜ 4.1
Ο Αλγόριθµος εντοπισµού των ακµών στην K × M εικόνα v. Χρησιµοποιούνται oi τελε-
στές κλίσης HX, HY µεγέθους 3 × 3.
• Για 0 ≤ k ≤ K – 1
• Για 0 ≤ m ≤ M – 1
1 1
• v'x ( k , m) = ∑ ∑ v(k + i, m + j )H (i, j )
i = −1 j = −1
x
1 1
• v'y ( k , m) = ∑ ∑ v(k + i, m + j )H (i, j )
i = −1 j = −1
y
• end
• end
• Εντοπισµός του 5% των µεγαλύτερων τιµών της g(k,m).
Στην υποενότητα αυτή, θα περιγράψουµε µερικές από τις πιο γνωστές στη βιβλιο-
γραφία τεχνικές. ∆εν θα ασχοληθούµε όµως µε τον υπολογισµό των συντελεστών
στις µάσκες διαφόρισης των τεχνικών αυτών [2].
Οι τεχνικές ανίχνευσης ακµών µπορούν να χωριστούν σε δύο οµάδες. Η πρώτη βασί-
ζεται στην εκτίµηση της κλίσης. Οι µάσκες διαφόρισης που χρησιµοποιούνται
καλούνται τελεστές κλίσης (gradient operators). H δεύτερη οµάδα υπολογίζει τις
παραγώγους κατά κατεύθυνση. Οι µάσκες διαφόρισης της οµάδας αυτής είναι γνω-
στές ως τελεστές προσανατολισµού (compass operators).
τελεστής εκτιµά τη µερική παράγωγο ως προς x, την v'x (k,m), και ο δεύτερος τη
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 91
'
µερική παράγωγο ως προς y, την vy (k,m). Για να µειώσουµε το κόστος υπολογισµού
για το g(k,m), χρησιµοποιείται η σχέση g(k,m) = v'x (k,m) + v'y (k,m) αντί της ορθής
Μετά τον υπολογισµό της ακολουθίας g(k,m), εντοπίζεται το 5%, περίπου, των όρων
της ακολουθίας µε τις µεγαλύτερες τιµές. Οι δείκτες των όρων αυτών προσδιορίζουν
τη θέση των ακµών της εικόνας. Στον Πίνακα 4.1 δίνεται η όλη διαδικασία εντοπι-
σµού των ακµών σε µια εικόνα µεγέθους K × M µε τη χρήση τελεστών κλίσης µεγέ-
θους 3 × 3.
¶›Ó·Î·˜ 4.2
∆ύο από τα πιο γνωστά στη βιβλιογραφία ζεύγη τελεστών κλίσης
0 1 1 0
HX = HY =
–1 0 0 –1
–1 0 1 –1 –2 –1
HX = –2 0 2 HY = 0 0 0
–1 0 1 1 2 1
™¯‹Ì· 4.8
Τρεις εικόνες για
τη δοκιµή των
αλγορίθµων ανί-
χνευσης ακµών. Η
τρίτη έχει προ-
σβληθεί από θόρυ-
βο σηµαντικής
ισχύος
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 92
92 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
∆ύο από τους πιο γνωστούς στη βιβλιογραφία τελεστές κλίσης δίνονται στον Πίνα-
κα 4.2, όπου η θέση του στοιχείου µε τις συντεταγµένες (0,0) για κάθε τελεστή, έχει
σκούρο χρώµα. Πρόκειται για τους τελεστές του Robert και τους τελεστές του Sobel.
Οι τελεστές του Robert έχουν πολύ µικρό µέγεθος, (2 × 2), και ελαττώνουν πολύ τις
πράξεις κατά τον υπολογισµό της συσχέτισης. Για τους τελεστές αυτούς η σχέση
(4.6) απλουστεύεται στις σχέσεις:
'
v'x (k,m) = v(k,m+1)–v(k+1,m) και v y (k,m) = v(k,m)–v(k+1,m+1)
Οι σχέσεις αυτές είναι παρόµοιες µε τη σχέση (4.5) για την οποία είχαµε αναφέρει
ότι το αποτέλεσµα είναι πολύ ευαίσθητο στο θόρυβο. Πράγµατι, οι τελεστές Robert
δεν δίνουν αξιόπιστα αποτελέσµατα όταν στην εικόνα υπάρχει σηµαντικός θόρυβος.
Οι τελεστές του Sobel συµπεριφέρονται καλύτερα από εκείνους του Robert σε εικό-
νες µε θόρυβο, επειδή στη µάσκα παραγώγισης έχει συµπεριληφθεί και το φιλτρά-
ρισµα του θορύβου. Βέβαια, το φιλτράρισµα έχει ως αποτέλεσµα τη σχετική θόλω-
ση της εικόνας, που οδηγεί σε διαπλάτυνση των ακµών, και έτσι ο εντοπισµός τους
γίνεται µε µικρότερη ακρίβεια από εκείνη που πετυχαίνουν οι τελεστές του Robert.
Στο Σχ. 4.8 δίνονται τρεις εικόνες που θα χρησιµοποιήσουµε στη δοκιµή της λει-
τουργίας των τελεστών κλίσης. Στην τρίτη εικόνα έχουµε προσθέσει θόρυβο σηµα-
ντικής ισχύος. Καθεµιά από τις µεθόδους έχει δοκιµαστεί και µε τις τρεις εικόνες του
Σχ. 4.8 και τα αποτελέσµατα δίνονται στο Σχ. 4.9. Για κάθε δοκιµή το αποτέλεσµα
αποδίδεται µε δύο εικόνες. Η πρώτη είναι ασπρόµαυρη εικόνα και τα pixels έχουν
τιµή ανάλογη του µέτρου της κλίσης, όπως αυτή προκύπτει από την εφαρµογή των
αντιστοίχων τελεστών. Για να δηµιουργηθεί αυτή η εικόνα, σε κάθε δοκιµή γίνεται
κβάντιση και κωδικοποίηση του σήµατος της παραγώγου που έχει ληφθεί µετά την
εκτέλεση του αλγορίθµου του Πίνακα 4.1. Η δεύτερη εικόνα είναι µονόχρωµη και
µε λευκό αποδίδεται η θέση του 5% των pixel της αρχικής εικόνας µε τη µεγαλύτε-
ρη τιµή της παραγώγου. Η µονόχρωµη αυτή εικόνα προκύπτει από την ασπρόµαυ-
ρη µε κατωφλίωση, αφού προηγουµένως υπολογιστεί το κατώφλιο που ξεχωρίζει το
5% των πιο φωτεινών pixel.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 93
™¯‹Ì· 4.9
Στα αποτελέσµατα αυτά µπορούµε να διακρίνουµε τις διαφορές στην λειτουργία των Αποτελέσµατα της
δύο τελεστών, που έχουµε περιγράψει πιο πάνω. Οι τελεστές του Robert δηµιουρ- εφαρµογής των
γούν περισσότερο λεπτές γραµµές στη θέση των ακµών από ό,τι οι τελεστές του τελεστών κλίσης
Sobel. Στην ενθόρυβη όµως εικόνα, οι τελεστές του Robert δηµιουργούν αστάθεια, του Robert και
εκείνων του Sobel.
δηλαδή αναδεικνύουν πάρα πολλά σηµεία µε µεγάλες τιµές κλίσης, τα οποία όµως
Οι πρωτότυπες
δεν έχουν καµιά σχέση µε τις ακµές της εικόνας. Αντίθετα, οι τελεστές Sobel ανι-
εικόνες είναι αυτές
χνεύουν τις ακµές της ενθόρυβης εικόνας µε µεγαλύτερη επιτυχία. του προηγούµενου
σχήµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 94
94 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
¶›Ó·Î·˜ 4.3
Ο συµβολισµός των οχτώ κατευθύνσεων και οι τέσσερις από τους οχτώ τελεστές προσανατολισµού. Οι
υπόλοιποι δεν χρειάζονται, αν δεχθούµε ότι η παράγωγος κατά αντίθετες κατευθύνσεις έχει αντίθετες τιµές.
N 5 5 5 5 5 –3 5 –3 –3 –3 –3 –3
NW NE
–3 0 –3 5 0 –3 5 0 –3 5 0 –3
W E –3 –3 –3 –3 –3 –3 5 –3 –3 5 5 –3
N NW W SW
SW SE
S M1 M2 M3 M4
Στην τεχνική αυτή χρησιµοποιείται ένας αριθµός από µάσκες διαφόρισης, µε τις
οποίες σε κάθε σηµείο της εικόνας γίνεται η εκτίµηση της παραγώγου σε ισάριθµο
πλήθος κατευθύνσεων. Για µάσκες µε µέγεθος 3 × 3 η παραγώγιση µπορεί να γίνει
κατά οχτώ διαφορετικές κατευθύνσεις, οι οποίες διαφέρουν µεταξύ τους κατά 45°.
Για µεγαλύτερες µάσκες η µεταβολή της γωνίας µπορεί να γίνει µικρότερη.
Σύµφωνα µε την τεχνική αυτή, για τον υπολογισµό της µέγιστης κλίσης g(k,m) στη
θέση του pixel v(k,m), χρησιµοποιούνται διαδοχικά οι µάσκες διαφόρισης και υπο-
λογίζονται οι τιµές της παραγώγου κατά την αντίστοιχη κατεύθυνση. Η g(k,m) τίθε-
ται ίση µε τη µεγαλύτερη από αυτές.
Στον Πίνακα 4.3 δίνονται οι τέσσερις µάσκες διαφόρισης του Kirsh και ένα διά-
γραµµα µε τα σύµβολα των οχτώ κατευθύνσεων, τα Ε,NE,...,S και SE οι οποίες αντι-
στοιχούν σε γωνίες κλίσης θ = 0°, 45°,…,270 και 315° αντίστοιχα. Είναι φανερό ότι
καθεµιά από τις µάσκες του πίνακα προκύπτει από την προηγούµενή της µε περι-
στροφή προς τα αριστερά κατά µία θέση. Ολόκληρη η σειρά αποτελείται από οχτώ
µάσκες οι οποίες υπολογίζουν τις παραγώγους κατά τις ισάριθµες κατευθύνσεις του
διαγράµµατος. Αν δεχτούµε όµως ότι η συνάρτηση της φωτεινότητας είναι παρα-
γωγίσιµη, σύµφωνα µε το θεώρηµα 4.2 της υποενότητας 4.2.1β, ο υπολογισµός της
παραγώγου σε ένα σηµείο κατά αντίθετες κατευθύνσεις δίνει αντίθετες τιµές. Για
τον προσδιορισµό λοιπόν της µέγιστης κλίσης σε ένα σηµείο, αρκεί ο υπολογισµός
της απόλυτης τιµής της παραγώγου στις πρώτες τέσσερις κατευθύνσεις. Στον πίνα-
κα 4.1 δίνονται οι τελεστές για τον υπολογισµό της παραγώγου κατά τις κατευθύν-
σεις N, NW, W και SW.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 95
¶›Ó·Î·˜ 4.4
Ο Αλγόριθµος εντοπισµού των ακµών στην K × M εικόνα v. Χρησιµοποιούνται τελε-
στές προσανατολισµού µεγέθους 3 × 3
• Για 0 ≤ k ≤ K – 1
• Για 0 ≤ m ≤ M – 1
• Για 1 ≤ n ≤ 4
1 1
'
• vn ( k , m) = ∑ ∑ v(k + i, m + j )M (i, j )
i = −1 j = −1
n
end
• g(k,m) = max { vn' (k,m) }
1≤ n ≤ 4
• end
• end
• Εντοπισµός του 5% των µεγαλύτερων τιµών της g(k,m).
Στον Πίνακα 4.4 δίνεται ο αλγόριθµος υπολογισµού του µέγιστου της κλίσης σε κάθε
σηµείο της εικόνας και του προσδιορισµού των σηµείων µε το µέγιστο ρυθµό µετα-
βολής της φωτεινότητας. Στο τελευταίο τµήµα του αλγορίθµου αυτού γίνεται ο προσ-
διορισµός του 5% των σηµείων της εικόνας µε τη µεγαλύτερη κλίση. Η διαδικασία
αυτή είναι ακριβώς ίδια µε το τελευταίο βήµα της τεχνικής των τελεστών κλίσης.
™¯‹Ì· 4.10
Στο Σχ. 4.10 δίνονται τα αποτελέσµατα της εφαρµογής των τελεστών προσανατολι-
Αποτελέσµατα της
σµού του Kirsch και του εντοπισµού των ακµών για τις δύο από τις τρεις πρωτότυ-
εφαρµογής της
πες εικόνες του Σχ. 4.7. Τα αποτελέσµατα, όπως και στην περίπτωση της εφαρµο-
µεθόδου ανίχνευ-
γής των τελεστών κλίσης, δίνονται µε δύο εικόνες. Η πρώτη είναι ασπρόµαυρη και σης ακµών µε τους
δείχνει την τιµή της µέγιστης κλίσης σε κάθε σηµείο της εικόνας, ενώ η δεύτερη είναι τελεστές προσανα-
µονόχρωµη και δείχνει τη θέση των ακµών της εικόνας. τολισµού Kirsch.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 96
96 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
Σωστό Λάθος
1. Η τεχνική της κατωφλίωσης δεν είναι δυνατόν
να εφαρµοστεί σε οποιαδήποτε εικόνα. ❏ ❏
2. Στο διαδίκτυο βρήκαµε µια εικόνα παρόµοια µε αυτή
του Σχ. 4.3α. Οι φοιτητές µας θα µπορέσουν να διορθώσουν
τη φωτεινότητα της και να επιτύχουν την κατωφλίωσή της
µε χρήση καθολικού κατωφλίου. ❏ ❏
3. ∆εν είναι δυνατή η κατωφλίωση της εικόνας του Σχ. 4.3α µε
προσαρµοζόµενο κατώφλιο χρησιµοποιώντας τη σχέση (4.1). ❏ ❏
4. Η σταθερά που αφαιρείται από τη σχέση (4.1) δεν µπορεί
να λάβει πολύ µεγάλη τιµή. ❏ ❏
5. Το ιστόγραµµα της παραγώγου χωρίζεται σε δύο λοβούς
και έτσι γίνεται δυνατή η κατωφλίωση της εικόνας. ❏ ❏
6. Τα αποτελέσµατα της εφαρµογής των τελεστών κλίσης
του Sobel είναι από κάθε άποψη καλύτερα από εκείνα
των τελεστών του Robert. ❏ ❏
Μετά την ανίχνευση των ακµών σε µια εικόνα είναι ανάγκη να εντοπιστούν τα περι-
γράµµατα των περιοχών της. Αν η περιοχή που µας ενδιαφέρει µπορεί να διαχωρι-
στεί µε κατωφλίωση από την υπόλοιπη εικόνα, ο εντοπισµός του περιγράµµατος επι-
τυγχάνεται σχετικά εύκολα. Σε αντίθετη περίπτωση η διαδικασία εντοπισµού του
περιγράµµατος είναι πιο δύσκολη. Στη δεύτερη αυτή περίπτωση, το περίγραµµα της
περιοχής υπολογίζεται συνδέοντας τις σηµαντικές ακµές της εικόνας. Ο θόρυβος
όµως της εικόνας και ο ανοµοιόµορφος φωτισµός διασπούν τη συνέχεια των ακµών
και συγχρόνως δηµιουργούν ψευδείς ακµές. Στην υποενότητα αυτή θα µελετήσου-
µε µόνο την τεχνική εύρεσης του περιγράµµατος όταν η κατωφλίωση είναι δυνατή.
Αν ο αναγνώστης ενδιαφέρεται για τη δεύτερη περίπτωση µπορεί να εµβαθύνει σχε-
τικά στα [1,2,6].
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 97
4 . 3 ∂ ¡ ∆ √ ¶ π ™ ª √ ™ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™ 97
Μετά την κατωφλίωση η περιοχή R που µας ενδιαφέρει έχει χρώµα διαφορετικό από
την υπόλοιπη εικόνα όπως συµβαίνει µε τις εικόνες των σχηµάτων 2.6β, 4.1γ, 4.3δ,
και 4.4β. Στην περίπτωση αυτή το περίγραµµα της R είναι το σύνολο των pixels της
εικόνας που ανήκουν στην περιοχή και ταυτόχρονα γειτνιάζουν µε ένα ή περισσό-
τερα pixels εκτός της R. Στο Σχ. 4.11α δίνεται η σχηµατική παράσταση µιας µονό-
χρωµης εικόνας, όπου φαίνεται το πλέγµα δειγµατοληψίας και σε κάθε κόµβο υπάρ-
χει ένα pixel µε χρώµα λευκό ή µαύρο. Η περιοχή που µας ενδιαφέρει συνίσταται
από τα µαύρα pixels. Στο Σχ. 4.11β έχουν σχεδιαστεί µε µαύρο τα pixels του περι-
γράµµατος της περιοχής.
™¯‹Ì· 4.11
Στον Πίνακα 4.5 δίνονται τα βήµατα ενός αλγορίθµου αυτόµατου εντοπισµού του (α)Σχηµατική παρά-
περιγράµµατος µιας περιοχής µονόχρωµης εικόνας. Έχει θεωρηθεί ότι η εικόνα έχει σταση µονόχρωµης
εικόνας. Η περιοχή
διαστάσεις Κ × Ν και ότι µαύρο χρώµα (τιµή 0) έχουν τα pixels της περιοχής R, της
R αποτελείται από
οποίας αναζητούµε το περίγραµµα, ενώ η υπόλοιπη εικόνα έχει λευκά pixels (τιµή
µαύρα pixels. (β) Το
255). Κατά την εκτέλεση του αλγορίθµου όλα τα pixels της εικόνας σαρώνονται δύο περίγραµµα της
φορές. Στην πρώτη σάρωση, σε κάθε pixel που ανήκει στην περιοχή R αλλά δεν ανή- περιοχής R. (γ) Οι
κει στο περίγραµµα της, δηλαδή είναι εσωτερικό σηµείο της περιοχής, δίνεται τιµή φωτεινότητες των
διαφορετική από το 0 ή το 255, ας πούµε το 125. Τα εσωτερικά αυτά pixels εντοπί- pixels µετά το
ζονται στην εικόνα, καθώς κανένα από τα γειτονικά τους δεν έχει τιµή 255. Στο δεύ- πρώτο σάρωµα της
εικόνας σύµφωνα µε
τερο σάρωµα εντοπίζονται τα εσωτερικά σηµεία της R, από την τιµή 125 που έχουν
τον αλγόριθµο του
λάβει κατά την πρώτη σάρωση, αντικαθίσταται η τιµή αυτή µε 255 και έτσι τα µόνα
Πίνακα 4.5.
pixels που παραµένουν µε τιµή 0 είναι εκείνα του περιγράµµατος της R.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 98
98 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
¶›Ó·Î·˜ 4.5
Ο αλγόριθµος εντοπισµού του περιγράµµατος περιοχής R της οποίας όλα τα pixels
έχουν τιµή µηδέν, αντίθετα µε τα pixels της υπόλοιπης εικόνας που έχουν τιµή 255.
• Για 0 ≤ k ≤ K – 1
• Για 0 ≤ m ≤ M – 1
• Aν Αληθεύει ότι ν(k,m) = 0:
• Αν Αληθεύει ότι κανένα από τα 8 γειτονικά pixels του
v(k,m) δεν έχει τιµή 255: Θέσε ν(k,m) = 125.
• end
• end
• end
™¯‹Ì· 4.12 • Για 0 ≤ k ≤ K – 1
Η εφαρµογή του
αλγορίθµου του • Για 0 ≤ m ≤ N – 1
πίνακα 4.5 σε µονό- • Aν Αληθεύει ότι ν(k,m) = 125: Θέσε ν(k,m) = 255
χρωµη εικόνα. (α)
Η αρχική εικόνα. • end
(β) Ενδιάµεσο στά- • end
διο, µετά το πρώτο
σάρωµα. (γ) Στην
εικόνα έχει µείνει
Το Σχ. 4.11γ προέκυψε µετά την εφαρµογή του αλγορίθµου του Πίνακα 4.5 και απο-
µόνο το περίγραµµα τυπώνει τη µορφή που έχει η εικόνα µετά το πρώτο σάρωµα. Ένα άλλο παράδειγµα
σηµειωµένο µε εφαρµογής του πιο πάνω αλγορίθµου δίνεται στο Σχ. 4.12
µαύρα pixels.
Για την εικόνα που παρίσταται στο σχήµα 4.13, να εφαρµόσετε τον αλγόριθµο του
Πίνακα 4.5 και να εντοπίσετε το περίγραµµα της περιοχής µε τα µηδενικά pixels.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 99
™YNOæH 99
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 0 0 255 255 255 255 255
255 255 255 0 0 0 0 255 255 255 255
255 255 0 0 0 0 0 0 255 255 255
255 255 0 0 0 0 0 0 0 255 255
255 255 0 0 0 0 0 0 0 255 255
255 255 255 0 0 0 0 0 0 255 255
255 255 255 255 0 0 0 0 255 255 255
255 255 255 255 255 0 0 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255 ™¯‹Ì· 4.13
™‡ÓÔ„Ë
Στο κεφάλαιο αυτό έγινε η παρουσίαση βασικών µεθόδων κατάτµησης της εικόνας.
Συγκεκριµένα, περιγράφηκαν η τεχνική της κατωφλίωσης µε καθολικό και µε µετα-
βλητό κατώφλιο. Επίσης έγινε περιγραφή τεχνικών ανίχνευσης των ακµών µιας εικό-
νας καθώς και τεχνικών ανίχνευσης του περιγράµµατος περιοχής σε µονόχρωµη εικό-
να. Παράλληλα παρουσιάσαµε µε συντοµία την απαραίτητη µαθηµατική γνώση που
απαιτείται για να γίνουν κατανοητές οι τεχνικές της ανίχνευσης ακµών.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 100
100 ∆ ∂ Ã ¡ π ∫ ∂ ™ ∫ ∞∆∞∆ ª ∏ ™ ∏ ™ ∆ ∏ ™ ∂ π ∫ √ ¡ ∞ ™
µÈ‚ÏÈÔÁÚ·Ê›·
™ÎÔfi˜
∫ ∂
5º
Σκοπός του κεφαλαίου αυτού είναι να γίνει η ανάλυση µερικών από τις τεχνικές κωδι-
κοποίησης του περιγράµµατος περιοχής, οι οποίες χρησιµοποιούνται µε στόχο την
αποθήκευση και την εξαγωγή ουσιωδών χαρακτηριστικών για ταξινόµηση.
∞ § ∞ π √
¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Γράψετε τρία τουλάχιστον σχήµατα αναπαράστασης του περιγράµµατος.
• Kωδικοποιήσετε µε κάθε λεπτοµέρεια το περίγραµµα δηµιουργώντας τον κώδικα
αλύσου
• Γράψετε δύο τουλάχιστον αλγόριθµους προσέγγισης του περιγράµµατος από πολύ-
γωνο µε µικρό αριθµό πλευρών.
• Mετατρέπετε το περίγραµµα σε µια συνάρτηση µιας µεταβλητής.
• Mετασχηµατίζετε το περίγραµµα κατά Fourier και να επιλέγετε συντελεστές
Fourier ως ουσιώδη χαρακτηριστικά του περιγράµµατος.
ŒÓÓÔȘ ÎÏÂȉȿ
• ∆ιακριτός Μετασχηµατισµός Fourier
• ∆ιαφορικός Κώδικας Αλύσου
• Ιστόγραµµα Κλίσεων
• Κατεύθυνση Γειτνίασης
• Κώδικας Αλύσου
• Στοιχείο Περιγραφής
• Σχήµα Αναπαράστασης
• Ταχύς Μετασχηµατισµός Fourier
• Υπογραφή Περιγράµµατος
∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Το περίγραµµα αποτελεί σηµαντικό στοιχείο χαρακτηρισµού και περιγραφής µιας περιο-
χής και από αυτό είναι δυνατόν να υπολογιστούν γεωµετρικά στοιχεία της ή να ανα-
δειχτούν ουσιώδη χαρακτηριστικά της. Το περίγραµµα χρησιµοποιείται πολύ συχνά σε
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 102
102 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™
αλγόριθµους ταξινόµησης, αλλά επίσης και για την καταµέτρηση γεωµετρικών µεγεθών
της περιοχής που περιβάλλει. Η περιγραφή του περιγράµµατος στις διάφορες εφαρµο-
γές επιτυγχάνεται µε τα Σχήµατα Αναπαράστασης (Representation Schemes) ή µε τα
Στοιχεία Περιγραφής (Description Elements). Τα πρώτα είναι σχήµατα λεπτοµερούς
κωδικοποίησης και από αυτά είναι δυνατή η ανακατασκευή του περιγράµµατος (έστω
και προσεγγιστικά), όποτε χρειαστεί. Αντίθετα, τα στοιχεία περιγραφής είναι ένα σύνο-
λο ποσοτήτων που παρέχουν χρήσιµη πληροφορία σχετική µε το περίγραµµα, π.χ, µήκος,
πλάτος, ύψος και άλλα, που θα ορίσουµε στη συνέχεια του κεφαλαίου αυτού, αλλά η
γνώση των στοιχείων αυτών δεν αρκεί για την ανακατασκευή του περιγράµµατος.
Ένα ιδιαίτερα επιθυµητό χαρακτηριστικό των σχηµάτων περιγραφής και στοιχεί-
ων αναπαράσταση, είναι να παραµένουν αναλλοίωτα σε δράσεις µετασχηµατισµών:
(α) παράλληλης µετατόπισης, (β) περιστροφής και (γ) αλλαγής κλίµακας της εικό-
νας. Για παράδειγµα, ένα σύστηµα ταξινόµησης, θα πρέπει να αναγνωρίζει και να
ταξινοµεί σωστά ένα αντικείµενο, ανεξάρτητα από τη θέση, τον προσανατολισµό
και το µέγεθός του στην εικόνα.
Στο κεφάλαιο αυτό παρουσιάζονται µερικά από τα σχήµατα αναπαράστασης και µερι-
κές τεχνικές εξαγωγής στοιχείων περιγραφής του περιγράµµατος. Στην πρώτη ενότη-
τα, (Ενότητα 5.1) παρουσιάζεται ο κώδικας αλύσου, ένα σχήµα αναπαράστασης, που
κωδικοποιεί σχεδόν όλες τις λεπτοµέρειες ενός περιγράµµατος. Στη δεύτερη ενότητα
(Ενότητα 5.2), παρουσιάζεται ένα σχήµα αναπαράστασης, που στηρίζεται στην προ-
σέγγιση ενός περιγράµµατος από πολύγωνο µε µικρό αριθµό πλευρών. Στην τρίτη ενό-
τητα (Ενότητα 5.3), παρουσιάζονται σχήµατα αναπαράστασης που βασίζονται στον
προσδιορισµό µιας συνάρτησης µιας µεταβλητής µε βάση το δισδιάστατο περίγραµµα.
Τέλος, η τέταρτη ενότητα (Ενότητα 5.4) διαπραγµατεύεται την αναπαράσταση του περι-
γράµµατος µε τη βοήθεια του αναπτύγµατος Fourier και υποδεικνύεται ο τρόπος της
δηµιουργίας στοιχείων περιγραφής από τους αντίστοιχους συντελεστές Fourier.
APXH 0
7
3 2 1 2 6
NW N NE
7
W P E 4 P 0 2 6
3 6
SW S SE
5 6 7 3 5 3 5
076766535332121
α β γ δ
™¯‹Ì· 5.1
α) Οι οχτώ κατευθύνσεις γειτονίας ενός pixel P. β) Οι αριθµοί 0–7 κωδικοποιούν τις οκτώ
διευθύνσεις γειτονίας. γ) Περίγραµµα περιοχής δ) Υπολογισµός του κώδικα αλύσου για το
περίγραµµα του (γ).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 103
Ο Κώδικας Αλύσου (Κ.Α.) (chain code) είναι ένα αποτελεσµατικό σχήµα αναπαρά-
στασης, µε το οποίο το περίγραµµα κωδικοποιείται µε λεπτοµέρεια. Το σχήµα αυτό
κωδικοποιεί και φυλάσσει την κατεύθυνση γειτνίασης των διαδοχικών pixels του
περιγράµµατος.
¶›Ó·Î·˜ 5.1
Ο αλγόριθµος υπολογισµού του Κ.Α. του περιγράµµατος.
Βήµα 1: Εξετάζονται διαδοχικά τα σηµεία της εικόνας µε στόχο τον εντοπισµό ενός
σηµείου του περιγράµµατος, έστω του S0.
Βήµα 2: Χαρακτηρίζεται «ΠΡΩΗΝ» το σηµείο που είχε εξεταστεί στο βήµα 1 ακρι-
βώς πριν να ανιχνευθεί το S0 και «ΤΡΕΧΟΝ» το σηµείο S0. Η κατεύθυνση από το
«ΤΡΕΧΟΝ» στο «ΠΡΩΗΝ» χαρακτηρίζεται «ΚΑΤΕΥΘ».
Βήµα 3: Ξεκινώντας από την επόµενη κατεύθυνση της «ΚΑΤΕΥΘ», µε δεξιόστροφη
κίνηση, εξετάζονται διαδοχικά οι γείτονες του «ΤΡΕΧΟΝ» µέχρις ότου ανιχνευτεί
γείτονας που να ανήκει στο περίγραµµα. Ο γείτονας αυτός χαρακτηρίζεται «ΕΠΟ-
ΜΕΝΟ».
Βήµα 4: Καταγράφεται ο κωδικός αριθµός της κατεύθυνσης «ΤΡΕΧΟΝ»– «ΕΠΟ-
ΜΕΝΟ», χαρακτηρίζεται «ΠΡΩΗΝ» το «ΤΡΕΧΟΝ», χαρακτηρίζεται «ΤΡΕΧΟΝ»
το «ΕΠΟΜΕΝΟ», χαρακτηρίζεται «ΚΑΤΕΥΘ» η διεύθυνση «ΤΡΕΧΟΝ» –
«ΠΡΩΗΝ».
Βήµα 5: Αν το «ΤΡΕΧΟΝ» είναι διαφορετικό από το S0 συνεχίζεται ο αλγόριθµος
µε το Βήµα 3.
Βήµα 6: Τέλος.
Σε µια εικόνα κάθε pixel P διαθέτει οκτώ γειτονικά pixels. Τέσσερα από αυτά απέ-
χουν από το P απόσταση d, ίση µε την πλευρά του πλέγµατος δειγµατοληψίας. Τα
pixels αυτά χαρακτηρίζονται κατά σειρά ως ο ανατολικός (Ε), ο βόρειος (Ν), ο δυτι-
κός (W) και ο νότιος (S) γείτονας του P (Σχ. 5.1α). Τα υπόλοιπα τέσσερα γειτονικά
pixels, απέχουν από το P απόσταση d 2. Καθεένα από αυτά χαρακτηρίζεται µε τα
σύµβολα ΝΕ, NW, SW και SΕ, όπως στο Σχ. 5.1α. Στον Κ.Α. χρησιµοποιούνται οι
φυσικοί αριθµοί 0–7 για να κωδικοποιηθούν οι οχτώ κατευθύνσεις γειτνίασης ενός
pixel. Η αντιστοιχία κατευθύνσεων και αριθµών δίνεται στο Σχ. 5.1β. Την αντιστοι-
χία αυτή µπορούµε να τη θυµηθούµε εύκολα αν ξεκινήσουµε από τον γείτονα Ε,
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 104
104 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™
δηλαδή από κατεύθυνση που έχει κλίση 0°, και κινηθούµε αριστερόστροφα αριθ-
µώντας διαδοχικά και τους οκτώ γείτονες, προσέχοντας να αρχίσουµε την αρίθµη-
ση µε τον ακέραιο 0.
Στο Σχ. 5.1γ δίνεται η σχηµατική παράσταση εικόνας που περιέχει το περίγραµµα
µιας περιοχής. Για να κωδικοποιηθεί το περίγραµµα αυτό ακολουθείται ο αλγόριθ-
µος του Πίνακα 5.1. Κατά την εκτέλεση του αλγορίθµου εξετάζονται τα διαδοχικά
pixels του περιγράµµατος και κωδικοποιείται η κατεύθυνση γειτνίασής τους. Στο Σχ.
5.1δ δίνεται το περίγραµµα και οι κατευθύνσεις γειτνίασης, όπως αυτές έχουν προσ-
διοριστεί και κωδικοποιηθεί από τον αλγόριθµο. Στο Σχ. 5.1δ δίνεται επίσης η κωδι-
κή λέξη που προκύπτει από την εκτέλεση του αλγρίθµου.
Καθένας από τους αριθµούς που κωδικοποιούν τη διεύθυνση γειτνίασης απαιτεί τρία
δυαδικά bits για την καταχώρησή του στον υπολογιστή. Συνολικά, λοιπόν, ένα περί-
γραµµα που κωδικοποιείται µε Ν αριθµούς απαιτεί 3Ν bits για την αποθήκευσή του.
Ο αριθµός αυτός µπορεί να ελαττωθεί, µειώνοντας όµως παράλληλα και την ακρίβεια
αναπαράστασης του περιγράµµατος. Στο Σχ. 5.2α δίνεται ένα περίγραµµα µε έναν
µεγάλο αριθµό pixels. Αντί του πλέγµατος της αρχικής δειγµατοληψίας χρησιµοποι-
είται ένα νέο πλέγµα µε πλευρά πολλαπλάσιου µήκους. Καθένα από τα pixels του περι-
γράµµατος αντικαθίσταται από ένα pixel, που τοποθετείται στον πλησιέστερο κόµβο
του νέου πλέγµατος. Έτσι προκύπτει το περίγραµµα του Σχ. 5.2β που αποτελείται από
λιγότερα pixels. Στη συνέχεια, το περίγραµµα αυτό κωδικοποιείται και υπολογίζεται
η λέξη που αναγράφεται στο σχήµα. Πολλές φορές η µεθοδολογία αυτή χρησιµοποι-
είται και για να µειώσει την επίδραση του θορύβου πάνω στο περίγραµµα.
™¯‹Ì· 5.2
(α) ∆ειγµατολήψία
του περιγράµµα-
τος µε ευρύτερο
πλέγµα. (β)Τα
pixels του περι-
γράµµατος αντικα-
θίστανται από τα
πλησιέστερα του
νέου πλέγµατος.
Στο ίδιο σχήµα
δίνεται και ο αντί- 0706665544322121
στοιχος Κ.Α. α β
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 105
Όπως είναι φανερό, η κωδική λέξη εξαρτάται από το αρχικό σηµείο του περιγράµ-
µατος, από όπου άρχισε η κωδικοποίηση. Η εξάρτηση αυτή αντιµετωπίζεται αν η
κωδική λέξη περιστραφεί, µέχρις ότου δηµιουργηθεί ο µικρότερος δυνατός αριθµός,
ο οποίος και αντικαθιστά την αρχική λέξη. Για παράδειγµα, αντί της κωδικής λέξης
407300 χρησιµοποιείται η κωδική λέξη 004073. Ο Κ.Α. παραµένει αναλλοίωτος
κατά την παράλληλη µεταφορά του σχήµατος, αλλά όχι και στην περιστροφή της
εικόνας ή στην αλλαγή της κλίµακας των αξόνων.
Μια τροποποίηση του κωδικού αλύσου είναι ο ∆ιαφορικός Κώδικας Αλύσου
(∆.Κ.Α), που προκύπτει ως εξής: Αν D1 ,D2 ,...,DN είναι o αρχικός Κ.Α., ο ∆.Κ.Α ορί-
ζεται ως d1 ,d2 ,...,dN, µε di = mod8(Di+1 –Di ), i = 1,2,...,N–1, και dN = mod8(D1 –DN),
όπου mod8(Α) είναι το υπόλοιπο της Ευκλείδειας διαίρεσης του ακεραίου Α διά του
οχτώ. Για παράδειγµα, ο Κ.Α. 76546312302 δίνει ως ∆.Κ.Α. τη λέξη 77725611525.
Με τον ∆.Κ.Α. η λέξη της κωδικοποίησης παραµένει αναλλοίωτη κατά την περι-
στροφή των αξόνων κατά γωνίες που είναι πολλαπλάσια του π/2.
™¯‹Ì· 5.3
Ορισµός του πλάτους w και του ύψους h του περι-
γράµµατος.
Από τον Κ.Α µπορεί στη συνέχεια να υπολογιστούν διάφορα στοιχεία περιγραφής
όπως το µήκος, το πλάτος, το ύψος, το εµβαδόν της επιφάνειας που περικλείει, αλλά
και άλλα γεωµετρικά στοιχεία του περιγράµµατος, ως συνάρτηση της πλευράς του
πλέγµατος δειγµατοληψίας d. Πιο συγκεκριµένα: Το µήκος του περιγράµµατος είναι
δυνατόν να υπολογιστεί από την κωδική λέξη µετρώντας το πλήθος nA των αρτίων
και nΠ των περιττών ψηφίων της κωδικής λέξης. Από το Σχ. 5.1β εύκολα προκύπτει
ότι κάθε άρτιο ψηφίο αντιστοιχεί σε µήκος του περιγράµµατος ίσο µε d, ενώ κάθε
περιττό σε µήκος d 2 . Έτσι το µήκος L του περιγράµµατος ισούται µε:
L = (nA+ 2 nΠ)d (5.1)
Στο Σχ. 5.3 δίνεται ο ορισµός του πλάτους w, και του ύψους h του περιγράµµατος
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 106
106 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™
και της περιοχής που περικλείεται από αυτό. Αν D1, D2,…,DN είναι o κώδικας αλύ-
σου ενός περιγράµµατος, τότε τα w και h υπολογίζονται από τις πιο κάτω σχέσεις:
j j
w = max
1≤ j ≤ N
∑
i =1
yi − min
1≤ j ≤ N
∑ y d
i =1
i (5.2)
j j
h = max
1≤ j ≤ N
∑
i =1
zi − min
1≤ j ≤ N
∑
i =1
zi d
(5.3)
¶›Ó·Î·˜ 5.2
Di 0 7 6 7 6 6 5 3 5 3 3 2 1 2 1
yi 1 1 0 1 0 0 –1 –1 –1 –1 –1 0 1 0 1
∑
j
yi 1 2 2 3 3 3 2 1 0 –1 –2 –2 –1 –1 0
1
zi 0 –1 –1 –1 –1 –1 –1 1 –1 1 1 1 1 1 1
∑
j
zi 0 –1 –2 –3 –4 –5 –6 –5 –6 –5 –4 –3 –2 –1 0
1
¶·Ú¿‰ÂÈÁÌ· 5.1
∆ίνεται ο Κ.Α. 076766535332121. Να υπολογιστεί το µήκος, το πλάτος και το ύψος
του αντίστοιχου περιγράµµατος ως συνάρτηση της πλευράς του πλέγµατος.
Λύση
Υπολογισµός µήκους: Τα άρτια ψηφία του κώδικα είναι τα 0,6,6,6,2,2 και το πλή-
θος τους nA = 6. Τα περιττά ψηφία του κώδικα είναι τα: 7,7,5,3,5,3,3,1,1 και το πλή-
θος τους nΠ = 9. Το µήκος L του περιγράµµατος, σύµφωνα µε τη σχέση (5.1), είναι
L = ( 6+9 2 )d, δηλαδή L = 18,69d.
Υπολογισµός πλάτους και ύψους: Κατασκευάζουµε τον Πίνακα 5.2 στον οποίο ανα-
∑ ∑
j j
γράφονται οι τιµές των yi, zι και υπολογίζονται οι τιµές των yi και zi .
1 1
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 107
5 . 2 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∆ √ À ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ ª ∂ ¶ √ § À ° ø ¡ π ∫ ∏ ° ƒ∞ ª ª ∏ 107
∑ ∑ ∑ ∑
j j j j
max yi = 3 , min yi = −2 , max zi = 0 , min zi = −6
1≤ j ≤ N 1 1≤ j ≤ N 1 1≤ j ≤ N 1 1≤ j ≤ N 1
οπότε εφαρµόζοντας τις σχέσεις 5.2 και 5.3, υπολογίζουµε w = 4d και h = 5d, αντίστοιχα.
Το δυαδικό περίγραµµα αποτελεί από µόνο του ένα κλειστό πολύγωνο και ο Κ.Α.
πραγµατοποιεί την κωδικοποίηση των πλευρών αυτού του πολυγώνου. Πολλές
φορές, όµως, στην πράξη, είναι επιθυµητό να υπολογιστεί ένα πολύγωνο µε µικρό
αριθµό πλευρών, το οποίο µε µικρό σφάλµα να προσεγγίζει το δοθέν περίγραµµα.
Στο Σχ. 5.4 δίνεται η παράσταση ενός περιγράµµατος µε Ν pixels, τα Pi, i = 1,2,...,N.
Στο ίδιο σχήµα έχει σχεδιαστεί ένα πολύγωνο µε m πλευρές, τις πj, j = 1,2,...,m, µε το
οποίο επιχειρείται η προσέγγιση του δοθέντος περιγράµµατος. Το σφάλµα που δηµι-
ουργείται µε την αντικατάσταση του περιγράµµατος από το πολύπλευρο, ορίζεται ως
εξής: Θεωρούµε ότι κάθε pixel Pi αντικαθίσταται από το πλησιέστερο προς αυτό
σηµείο του πολυγώνου, το Pi΄. Το σφάλµα di, από την αντικατάσταση αυτή του Pi,
δίνεται από τη µικρότερη απόσταση του Pi από τις πλευρές του πολυγώνου, δηλαδή:
di = min{distance ( Pi , π j )}
j
Pi
di
P'i
™¯‹Ì· 5.4
Προσέγγιση του
περιγράµµατος µε
πολύγωνο.
Κατά τον προσδιορισµό του πολυγώνου προσέγγισης ζητείται, για δεδοµένη τιµή
του σφάλµατος ε, ο αριθµός πλευρών m του πολυγώνου να είναι όσο γίνεται µικρό-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 108
108 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™
τερος. Στη βιβλιογραφία [1,2] προτείνονται µέθοδοι µε τις οποίες λύνεται το πρό-
βληµα αυτό µε τον βέλτιστο τρόπο, δηλαδή, για ένα περίγραµµα και για δεδοµέ-
νο ε προσδιορίζεται το πολύγωνο µε το ελάχιστο δυνατό m. Αυτές οι µέθοδοι,
όµως, στηρίζονται σε επαναληπτικούς αλγρίθµους, και η εκτέλεσή τους απαιτεί
υψηλό υπολογιστικό κόστος. Στην ενότητα αυτή θα παρουσιάσουµε ένα αλγόριθ-
µο, που αν και δεν υπολογίζει τη βέλτιστη λύση, είναι λιγότερο απαιτητικός σε
υπολογισµούς.
B1 C1 B1
C2
A1 A1
C4
A2 A2
B2 B2 C3
α β
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 109
5 . 2 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∆ √ À ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ ª ∂ ¶ √ § À ° ø ¡ π ∫ ∏ ° ƒ∞ ª ª ∏ 109
™¯‹Ì· 5.5
Προσδιορισµός του
C1 C1
B1 B1 πολυγώνου µε διαδοχι-
D1 D3 κές υποδιαιρέσεις του
C2 περιγράµµατος. (α) Το
C2
D2 D2 περίγραµµα διαχωρί-
A1 D4 A1
D8 ζεται σε δύο τµήµατα
από τη µεγαλύτερη
C4 C3 διάµετρό του. (β, γ, δ)
∆ιαδοχικές προσεγγί-
A2 A2
D5 σεις µέχρις ότου για
D7 D6 D7 D6
όλα τα τµήµατα το
µέγιστο των αποστάσε-
B2 C3 B2 C3 ων να γίνει µικρότερο,
γ δ ή ίσο του ε0
110 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™
5.3.1 ™¯¤ÛË Ì‹ÎÔ˘˜ Î·È ÁˆÓ›·˜ ÂÈ‚·ÙÈ΋˜ ·ÎÙ›Ó·˜ ÙˆÓ ÛËÌ›ˆÓ ÙÔ˘
ÂÚÈÁÚ¿ÌÌ·ÙÔ˜
Στο Σχ. 5.6α δίνεται το περίγραµµα Π της περιοχής ενός τετραγώνου. Θεωρούµε το
κέντρο Κ και τη µία από τις διαγωνίους του τετραγώνου, την Ι. Έστω O η αρχή των
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 111
5 . 3 ∏ À ¶ √ ° ƒ∞ º ∏ ∆ √ À ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ 111
αξόνων, rK το διάνυσµα θέσεως του K, και έστω ένα τυχαίο σηµείο P του περι-
γράµµατος µε διάνυσµα θέσεως rP. Τέλος, έστω θP η γωνία µεταξύ του διανύσµατος
rP–rK (KP) και του άξονα Ι. Το µήκος της επιβατικής ακτίνας R = | rP–r K| και η γωνία
θP συνδέονται µε τη συνάρτηση R(θP), η οποία έχει σχεδιαστεί στο Σχ. 5.6β. Τη
συνάρτηση αυτή R(θP) καλούµε Υπογραφή του Περιγράµµατος Π. Στην περίπτω-
ση του περιγράµµατοος ενός τετραγώνου η συνάρτηση της υπογραφής δίνεται και
µε αναλυτικό τρόπο από τη σχέση:
R(θP) = (a/2)/sin(π/4+θ0) , θ0 = modπ/2(θP) , 0 ≤ θP < 2π (5.4)
όπου a είναι το µήκος της πλευράς του τετραγώνου και modπ/2(θP) ισούται µε το ελά-
χιστο θετικό τόξο που προκύπτει αν αφαιρέσουµε τον µεγαλύτερο δυνατό αριθµό
τεταρτηµορίων από τη θP.
2
R=|rK–rp| I
1.5
rK
θp P 1
K
R(θp)/a
0.5
rP ™¯‹Ì· 5.6
0 Η υπογραφή του
0 0.5π π 1.5π 2π
περιγράµµατος
θp
O ενός τετραγώνου
(α) (β)
R(θp)
Π.A.
θp
ξθ
C
P
™¯‹Ì· 5.7
R(θp) π/2 π 3π/2 2π (α) Περίγραµµα
περιοχής. (β) Η
θp
δειγµατοληππτηµέ-
α β νη υπογραφή του.
112 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™
Στη µέθοδο αυτή προσεγγίζεται η τιµή της γωνίας θj που σχηµατίζει µε τον οριζόντιο
άξονα η εφαπτοµένη σε καθένα pixel Pj του περιγράµµατος. Η τιµή της κλίσης θj υπο-
λογίζεται µε αριθµητικές µεθόδους. Μια τεχνική (Σχ.5.8) είναι ο καθορισµός της εξί-
σωσης της ευθείας ε, η οποία απέχει ελάχιστη συνολική απόσταση από το pixel Pj και
από τους τέσσερις πλησιέστερους γείτονές του στο περίγραµµα, αυτούς που βρίσκο-
νται ανά δύο εκατέρωθεν του Pj [4]. Μετά τον προσδιορισµό των συντελεστών της ε
υπολογίζεται η κλίση και η γωνία θj που σχηµατίζει η ευθεία αυτή µε την οριζόντιο.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 113
5 . 3 ∏ À ¶ √ ° ƒ∞ º ∏ ∆ √ À ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ 113
θj
™¯‹Ì· 5.8
Pj--2
Pj Η κλίση θj της εφαπτοµένης του
περιγράµµατος στο pixel Pj ισούται
Pj--2
µε την κλίση της ευθείας ε, της
Pj+1 οποίας το άθροισµα των αποστά-
σεων από τα διαδοχικά pixels Pj–2,
Pj+2 ε Pj–1, Pj, Pj+1, Pj+2 είναι ελάχιστο.
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
00 500 1000 1500 2000 00 500 1000 1500 2000
α β
90
120 60
150 30
Για την ακολουθία θj, που προκύπτει µε τον πιο πάνω τρόπο, χαράσσεται το ιστό-
γραµµα κλίσεων του περιγράµµατος, δηλαδή το ιστόγραµµα της συχνότητας εµφάνι-
σης των τιµών της θj. Στο Σχ. 5.9α δίνεται, για παράδειγµα, το ιστόγραµµα που αντι-
στοιχεί στο περίγραµµα του Σχ. 5.7α. Το ιστόγραµµα κλίσεων παραµένει αναλλοίωτο
στη δράση παράλληλης µεταφοράς της εικόνας. Όταν διαιρεθεί το ύψος κάθε ιστού µε
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 114
114 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™
το πλήθος των pixels του περιγράµµατος και γίνει περιστροφή των ιστών, έτσι ώστε ο
ιστός µε το µεγαλύτερο ύψος να εµφανίζεται πρώτος, το ιστόγραµµα που προκύπτει
(Σχ 5.9β) και, εποµένως, η αντίστοιχη υπογραφή παραµένει αναλλοίωτη επιπρόσθετα
σε περιστροφές της εικόνας και σε αλλαγές της κλίµακας των αξόνων. Για την παρά-
σταση της υπογραφής του ιστογράµµατος των κλίσεων µερικές φορές χρησιµοποιού-
µε το διάγραµµα των πολικών συντεταγµένων (Σχ. 5.9γ). Στο διάγραµµα αυτό έχουµε
απευθείας αναπαράσταση της γωνίας από το µέτρο των τόξων, ενώ το ύψος των ιστών
αποδίδεται µε την απόσταση των κορυφών τους από το κέντρο του διαγράµµατος.
Η υπογραφή του περιγράµµατος «κωδικοποιεί» πληροφορία σχετική µε τη µορφή του
περιγράµµατος. Για παράδειγµα, όταν το περίγραµµα είναι κύκλος το r(θ) θα είναι στα-
θερό. Επίσης, εκεί που το ιστόγραµµα κλίσεων παρουσιάζει µεγάλες τιµές είναι ένδει-
ξη ύπαρξης ευθύγραµµου τµήµατος, δεδοµένου ότι κατά µήκος του τµήµατος η κλίση
παραµένει σταθερή, µε αποτέλεσµα η αντίστοιχη κλίση να εµφανίζεται πολλές φορές.
N −1
∑ s exp[ − j 2πki / N ],
1
fk = i k = 0,1,..., N − 1 (5.5)
N k =0
Όπως είναι γνωστό από τους όρους της ακολουθία fk, που καλούνται και συντελεστές
Fourier, είναι δυνατό να υπολογιστεί εκ νέου η ακολουθία si, εφαρµόζοντας τη σχέση:
N −1
si = ∑f
u=0
k exp[ j 2πki / N ] i = 0,1,..., N − 1. (5.6)
Αξίζει να θυµηθούµε ότι τα αθροίσµατα των σχέσεων (5.5) και (5.6), για κατάλλη-
λες τιµές του Ν, υπολογίζονται στην πράξη από τον ταχύ µετασχηµατισµό Fourier
(FFT) και τον αντίστροφό του [9].
Επειδή οι όροι της ακολουθίας si προέρχονται από τις συντεταγµένες των pixels ενός
περιγράµµατος, υπάρχει σηµαντική συσχέτιση µεταξύ τους. Αυτό έχει ως συνέπεια
ότι το µεγαλύτερο µέρος της ενέργειας συγκεντρώνεται σε λίγους από τους ακραί-
ους όρους της ακολουθίας fk. H ιδιότητα αυτή φαίνεται καθαρά στο Σχ. 5.10. Στο
σχήµα αυτό δίνεται το περίγραµµα δύο διαφορετικών γραµµάτων, των Γ και C. Το
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 115
5 . 4 √ ¢ π ∞ ∫ ƒ π ∆ √ ™ ª ∂ ∆∞ ™ à ∏ ª ∞∆ π ™ ª √ ™ F O U R I E R ∆ √ À ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™ 115
M=2+2 M=6+6
16 4 10
14 3 8
6
12
2
4
10
1 2
8 0
0
6 -2
-1 -4
4
-2 -6
2
-8
-3
0 -10
0 5 10 15 20 25 -5 0 5 10 15 20
-4
-5 0 5 10 15
α β γ
M=10+10 KAI OI 63 ΣYNTEΛEΣTEΣ
10 10
8 8
6 6
4 4
2 2
0 0
™¯‹Ì· 5.10
-2 -2
-4 -4
α) Τα αρχικά περιγράµµατα. β–ε) Ανακατα-
-6 -6 σκευή του περιγράµµατος χρησιµοποιώντας
-8
-8
-10
-5 0 5 10 15 20 -10
-5 0 5 10 15 20
σε κάθε περίπτωση διαφορετικό αριθµό από
δ ε τους συντελεστές Fourier.
116 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™
¶›Ó·Î·˜ 5.2
Οι µεταβολές στην µορφή της ακολουθίας fk, που προκύπτουν από γεωµετρικούς µετα-
σχηµατισµούς της ακολουθίας si, καθώς επίσης και από την αλλαγή του σηµείου έναρ-
ξης της ψηφιοποίησης.
sir = si e jθ f kr = f k e jθ f kr = f k
Περιστροφή κατά γωνία θ
Από τη θεωρία είναι γνωστό ότι η µεταφορά, η περιστροφή, η αλλαγή στην κλίµα-
κα των αξόνων, καθώς επίσης και η αλλαγή στην επιλογή της αρχής της δειγµατο-
ληψίας του περιγράµµατος, επιφέρει µεταβολές στην ακολουθία fk. Οι µεταβολές
αυτές συνοψίζονται στον Πίνακα 5.2. Σ’ αυτόν φαίνεται ότι η µεταφορά της ακο-
λουθίας si κατά ∆xy = ∆x + j∆y επιδρά µόνο στον µηδενικό όρο της fk, στον οποίο προ-
σθέτει το µιγαδικό αριθµό ∆xy . ∆ιευκρινίζεται ότι µε δ(k) συµβολίζουµε την ακο-
λουθία για την οποία ισχύει δ(0) = 1 και δ(k) = 0 για κάθε k µη µηδενικό ακέραιο.
Από τον ίδιο Πίνακα γίνεται φανερό ότι κατά την περιστροφή των αξόνων ή κατά
την αλλαγή του αρχικού σηµείου δειγµατοληψίας του περιγράµµατος οι µεταβολές
που επέρχονται δεν επιδρούν στο µέτρο των συντελεστών Fourier. Λαµβάνοντας
υπόψιν τις ιδιότητες του πίνακα 5.2, µπορεί εύκολα να αποδειχθεί ότι όταν οι συντε-
fk
λεστές Fourier κανονικοποιηθούν κατάλληλα, π.χ. fk' = , οι συντελεστές που
f1
προκύπτουν είναι αναλλοίωτοι σε διάφορους µετασχηµατισµούς.
Εφαρµόζοντας, λοιπόν, την πιο πάνω τακτική και χρησιµοποιώντας µερικούς από
τους ακραίους και ισχυρούς συντελεστές της σειράς, ορίζονται διανύσµατα ουσιω-
δών χαρακτηριστικών του περιγράµµατος αναλλοίωτα στη µεταφορά, στη στροφή
και στην αλλαγή κλίµακας, καθώς επίσης και στην αλλαγή του αρχικού σηµείου δειγ-
µατοληψίας. Για περισσότερες λεπτοµέρειες ο αναγνώστης παραπέµπεται στο [10].
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 117
™YNOæH 117
™‡ÓÔ„Ë
Στο κεφάλαιο αυτό γνωρίσαµε µερικά από τα πιο βασικά σχήµατα αναπαράστασης
και στοιχεία περιγραφής του περιγράµµατος. Παρουσιάστηκε ο κώδικας αλύσου, ένας
τρόπος λεπτοµερούς κωδικοποίησης του περιγράµµατος. Επίσης παρουσιάστηκαν
αλγόριθµοι για τον προσδιορισµό πολυγώνου, που µε µικρό πλήθος πλευρών προ-
σεγγίζει τη µορφή δοθέντος περιγράµµατος. Εξετάστηκαν, επίσης, δύο τεχνικές για
τη δηµιουργία της υπογραφής του περιγράµµατος, δηλαδή µιας συνάρτησης µε µια
µεταβλητή που µπορεί να αντικαταστήσει το δισδιάστατο περίγραµµα σε εφαρµογές
ταξινόµησης. Τέλος, γνωρίσαµε µια µέθοδο µετασχηµατισµού κατά Fourier και της
εξαγωγής, από τους συντελεστές Fourier, ουσιωδών χαρακτηριστικών ανεξάρτητων
από τον προσανατολισµό και το µέγεθος του περιγράµµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 118
118 ∞ ¡ ∞ ¶ ∞ ƒ∞ ™ ∆∞ ™ ∏ ∫ ∞ π ¶ ∂ ƒ π ° ƒ∞ º ∏ ¶ ∂ ƒ π ° ƒ∞ ª ª ∞∆ √ ™
µÈ‚ÏÈÔÁÚ·Ê›·
™ÎÔfi˜
∫ ∂
Σκοπός του κεφαλαίου αυτού είναι η παρουσίαση και ανάπτυξη µερικών από τα πιο
6
º
ευρέως διαδεδοµένα στην πράξη περιγράφοντα στοιχεία περιοχής, η οποία έχει δια-
∞ § ∞ π √
¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Aναφέρετε δύο οµάδες ιδιοτήτων µιας περιοχής, των οποίων η κατάλληλη µέτρη-
ση δηµιουργεί περιγράφοντα στοιχεία της περιοχής.
• Aναφέρετε δύο τουλάχιστον τρόπους ποσοτικής περιγραφής της υφής.
• Yπολογίσετε την ακολουθία συχνότητας τιµών και να χαράξετε το αντίστοιχο ιστό-
γραµµα.
• Yπολογίσετε τις ροπές ενός ιστογράµµατος και να δώσετε τη φυσική σηµασία για
µερικές από αυτές.
• Yπολογίσετε το δισδιάστατο φάσµα Fourier µιας περιοχής και από αυτό να υπο-
λογίσετε µονοδιάστατες συναρτήσεις της γωνίας ή της απόστασης.
• Oρίσετε τις δισδιάστατες ροπές καθώς και ροπές, οι οποίες παραµένουν αναλλοί-
ωτες σε µετασχηµατισµούς περιστροφής, µεταφοράς και αλλαγής κλίµακας.
• Aναγνωρίσετε αν µια µορφή είναι έκκεντρος ή όχι.
• Yπολογίσετε την εκκεντρότητα µιας περιοχής.
• Σχεδιάσετε, κατά προσέγγιση, τους κύριους άξονες µιας έκκεντρης περιοχής και
να χαράξετε το περιγεγραµµένο ορθογώνιο, που έχει πλευρές παράλληλες προς του
κύριους άξονες.
ŒÓÓÔȘ ÎÏÂȉȿ
• Αναλλοίωτες Ροπές.
• ∆ευτερεύων Άξονας
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 120
120 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™
• ∆οµική Προσέγγιση
• Εντροπία των Τιµών ενός Πίνακα.
• Ιστόγραµµα Συχνότητας Τιµών.
• Κατοπτρικός Μετασχηµατισµός.
• Κεντρικές Ροπές .
• Κεντροειδές.
• Κύριοι Άξονες.
• Μορφή.
• Πίνακας Συνεµφάνισης Τιµών.
• Πρωτεύων Άξονας.
• Ροπές Ιστογράµµατος.
• Ροπή Αδράνειας Πίνακα ως προς µια ∆ιαγώνιο του.
• Στροφορµή Μορφής ως προς Άξονα.
• Υφή Περιεχοµένου Περιοχής.
• Φάσµα Fourier.
∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Μετά από την παράθεση των σχηµάτων αναπαράστασης και των στοιχείων περι-
γραφής του περιγράµµατος µιας περιοχής, η οποία έχει ήδη διαχωριστεί από µια εικό-
να, στο κεφάλαιο αυτό παρουσιάζουµε δύο βασικές οµάδες στοιχείων περιγραφής του
εσωτερικού της περιοχής. Η πρώτη οµάδα περιλαµβάνει στοιχεία που προκύπτουν
από την «ποσοτικοποίηση» της υφής, µε βάση στατιστικές κατανοµές των τιµών των
pixels της περιοχής. Αυτά περιγράφονται στην πρώτη ενότητα (Ενότητα 6.1) και ανα-
φέρονται µόνο για περιοχές ασπρόµαυρες και όχι για µονόχρωµες. Η δεύτερη οµάδα
στοιχείων περιγραφής προκύπτει από τον γεωµετρικό τρόπο κατανοµής των τιµών
των pixels στην περιοχή και σχετίζεται µε τις δισδιάστατες ροπές της περιοχής. Αυτά
τα στοιχεία θα αναπτυχθούν στη δεύτερη ενότητα (Ενότητα 6.2) και βρίσκουν εφαρ-
µογή τόσο για περιοχές µονόχρωµης όσο και ασπρόµαυρης εικόνας. Ειδικά µια µονό-
χρωµη περιοχή καλείται µορφή (shape).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 121
α β γ δ ε
0 .0 2 0.02 0 .0 1 5 .0 1 5 0 .0 3
.0 1 5 .0 1 5
0.01 0 .0 2
0 .0 1
0 .0 1 0.01
0 .0 0 5 0 .0 1
.0 0 5
.0 0 5 .0 0 5
0 0
0 0 100 200 300 0 0
0 100 200 300 0 10 0 20 0 30 0 0 10 0 20 0 30 0 0 100 200 300
Στη µέθοδο αυτή οι ιδιότητες της υφής µετρούνται από το ιστόγραµµα των τιµών
των pixels της περιοχής και από τους Πίνακες Συνεµφάνισης. Χρησιµοποιούνται
διάφοροι τύποι ροπών και άλλες στατιστικές παράµετροι για την περιγραφή των
στοιχείων αυτών.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 122
122 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™
Από το τρίτο κεφάλαιο µας είναι γνωστή η ακολουθία επανάληψης r(i) και το ιστό-
γραµµα των τιµών των pixels µιας εικόνας. Αν Ν είναι το πλήθος των pixels µιας
περιοχής και r(i) η ακολουθία επανάληψης τιµών, καλούµε ακολουθία συχνότητας
τιµών την p(i) = r(i)/N, i = 0,1,...,Q–1, και ιστόγραµµα συχνότητας τιµών το ιστό-
γραµµα της p(i). Το ιστόγραµµα αυτό είναι γνωστό και ως ιστόγραµµα 1ης τάξης.
Υπενθυµίζεται ότι Q είναι το πλήθος των σταθµών κβάντισης του σήµατος της εικό-
νας. Επειδή το άθροισµα των όρων της ακολουθίας, r(i), ισούται µε τον ολικό αριθ-
µό Ν των pixels της περιοχής, το άθροισµα των όρων της p(i) ισούται µε µονάδα.
Ένας τρόπος µέτρησης των ιδιοτήτων της υφής του εσωτερικού µιας περιοχής είναι
ο υπολογισµός της p(i) και η παράστασή της µε το αντίστοιχο ιστόγραµµα.
Ως περιγράφοντα στοιχεία του ιστογράµµατος συχνότητας τιµών και εποµένως της
αντίστοιχης υφής, χρησιµοποιούνται οι µονοδιάστατες κεντρικές ροπές (moments).
Αυτές ορίζονται µε βάση την ακολουθία συχνότητας τιµών της περιοχής p(i), i =
™¯‹Ì· 6.2
0,1,...,Q–1. Κατ’ αρχήν υπολογίζουµε τη µέση τιµή m της περιοχής από τη σχέση:
(α) Ιστόγραµµα µε
Q −1
θετική ασυµµετρία
(µ3>0 ). (β) Ιστό- m= ∑ i ⋅ p(i ) .
i =0
(6.1)
γραµµα µε αρνητι-
κή ασυµµετρία Στη συνέχεια, για κάθε k φυσικό αριθµό, ορίζεται η k τάξεως κεντρική ροπή, µk,
(µ3<0 ). (γ) Πλα- του ιστογράµµατος ως:
τύκυρτο ιστόγραµ-
Q −1
µα µε µ4>3σ4. (δ)
∑ (i − m)
k
Λεπτόκυρτο ιστό- µk = ⋅ p(i ) . (6.2)
i =0
γραµµα µε µ4<3σ4.
α β γ δ
Με βάση τον πιο πάνω ορισµό εύκολα αποδεικνύεται (βλέπετε και παράδειγµα 1)
ότι για κάθε ιστόγραµµα ισχύει: µ0 = 1 και µ1 = 0 και εποµένως oι δύο αυτές ροπές
δεν µπορούν να χρησιµοποιηθούν σαν περιγράφοντα στοιχεία του ιστογράµµατος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 123
Αντίθετα, για τις κεντρικές ροπές µε τάξη µεγαλύτερη ή ίση του 2 η τιµή εξαρτάται
άµεσα από τη µορφή του ιστογράµµατος και κατ’ επέκταση της υφής.
Οι κεντρικές ροπές δεύτερης, τρίτης και τέταρτης τάξης έχουν άµεση φυσική σηµα-
σία. Η ροπή µ2 = σ2 είναι γνωστή σαν διακύµανση και είναι µέτρο της διασποράς των
τιµών στο ιστόγραµµα γύρω από τη µέση τιµή m. Η ροπή αυτή, δίνει επίσης, το
µέτρο της αντίθεσης στη φωτεινότητα της εικόνας. Η µ3 είναι γνωστή ως ασυµµε-
τρία (skewness) [4] και δίνει ένα µέτρο της ασυµµετρίας του ιστογράµµατος γύρω
από τη µέση τιµή. Η τιµή της µ3 για συµµετρικά ιστογράµµατα, όπως αυτό της
Gaussian κατανοµής, είναι µηδενική. Για µη συµµετρικά ιστογράµµατα, η µ3 γίνεται
θετική ή αρνητική (Σχ. 6.2α και 6.2β). Η µ4 είναι γνωστή ως κύρτωση (kurtosis). Η
τιµή της µ4 για ένα Gaussian ιστόγραµµα µε διακύµανση σ2 είναι ίση µε 3σ4 [5]. Ιστό-
γραµµα µε διακύµανση σ2, το οποίο είναι περισσότερο πεπλατυσµένο από αυτό της
Gaussian µε την ίδια διακύµανση, καλείται πλατύκυρτο και η αντίστοιχη τιµή της
µ4 είναι µεγαλύτερη από 3σ4 (Σχ. 6.2γ). Αντίθετα, όταν το ιστόγραµµα είναι πιο λεπτό
από τo αντίστοιχο της Gaussian, καλείται λεπτόκυρτο και η µ4 είναι µικρότερη από
3σ4 (Σχ. 6.2δ). Οι τιµές των µ3 και µ4 πολλές φορές κανονικοποιούνται πριν χρησι-
µοποιηθούν διαιρούµενες µε την σ3 αντίστοιχα σ4.
¶·Ú¿‰ÂÈÁÌ· 6.1
(α) Να αποδείξετε ότι για οποιοδήποτε ιστόγραµµα ισχύει: µ0 = 1 και µ1 = 0. (β) Τα pixels µιας περιοχής
έχουν κβαντιστεί µε Q = 256 στάθµες. Οι τιµές των ιστών του ιστογράµµατος δίνονται από την ακολουθία
p(i) = c⋅i, i = 0,1,...,Q–1. Να υπολογίσετε την τιµή της παραµέτρου c, τη µέση τιµή m, καθώς και τη µ2. ∆ίνο-
νται οι σχέσεις 1+2+…+Ν = Ν(Ν+1)/2, 12+22+…+Ν2 = Ν(Ν+1)(2Ν+1)/6, 13+23+… +Ν3 = Ν2(Ν+1)2/4.
Λύση
(α) Για τις ροπές µηδενικής και πρώτης τάξης, ανεξάρτητα από το τιµή του Q και των όρων της ακο-
λουθίας p(i), ισχύει
∑ ∑
Q −1 Q −1
µ0 = (i − m )0 ⋅ p(i ) = p(i ) = 1, δηλαδή µ0 = 1.
i =0 i =0
∑ ∑ (i ⋅ p(i ) − m ⋅ p(i )) = ∑ ∑
Q −1 Q −1 Q −1 Q −1
µ1 = (i − m )1 ⋅ p(i ) = i ⋅ p(i ) − m ⋅ p(i ) =
i =0 i =0 i =0 i =0
= m–m⋅1 = 0, δηλαδή µ1 = 0.
∑ ∑
Q −1 Q −1
(β) Για τον προσδιορισµό της παραµέτρου c ξεκινάµε µε τη σχέση p(i ) = 1 , ή c ⋅ i =1 , ή
i =0 i =0
c⋅(Q–1)Q/2 = 1, ή c = 2/[(Q–1)Q] = 2/255/256, ή c = 3.1⋅10–5.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 124
124 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™
255 2
∑ ∑
Q −1
Ισχύει επίσης m = i ⋅ p(i ) = c ⋅ i = 3,1⋅10–5⋅255⋅256⋅(2⋅255+1)/6, ή m = 172,4.
i =0 i =0
Τέλος
∑ ∑ ∑
Q −1 Q −1 Q −1
µ2 = (i − m )2 ⋅ p(i ) = c ⋅ (i 2 + 2 ⋅ i ⋅ m + m2 ) ⋅ i =… = c ⋅ ( i 3 + 2 ⋅ i 2 ⋅ m + m2 ⋅ i ) =
i =0 i =0 i =0
∑ ∑ ∑
Q −1 Q −1 Q −1
c⋅ i3 + 2 ⋅m ⋅ i 2 + m2 ⋅ i
= i =0 i =0 i =0 =
δηλαδή µ2 = 5.76⋅104.
Από την περιγραφή που δώσαµε µέχρι εδώ εύκολα αντιλαµβανόµαστε ότι περιγρά-
φοντας ένα τµήµα υφής µε ροπές του ιστογράµµατος δεν χρησιµοποιούµε τη βασι-
κή πληροφορία που χαρακτηρίζει την υφή. Το πώς, δηλαδή, οι τιµές των pixels δια-
δέχονται η µια την άλλη µέσα στην περιοχή. Για παράδειγµα, αν υπάρχει περιοδική
µεταβολή των τιµών αυτών προς µια διεύθυνση της περιοχής, ή αν οι τιµές αυτές
παραµένουν σταθερές προς άλλη διεύθυνση, ή, τέλος, αν καµία κανονικότητα δεν
παρατηρείται στην περιοχή. Το χαρακτηριστικό αυτό, που ποσοτικοποιεί τη χωρική
οργάνωση της φωτεινότητας στην εικόνα, µπορούµε να το αναδείξουµε χρησιµο-
ποιώντας τον Πίνακα Συνεµφάνισης (Coocurance Matrix) (Π.Σ).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 125
Θα δώσουµε τον ορισµό των Π.Σ. µε ένα παράδειγµα. ∆ίνεται η ε, µια ψηφιακή εικό-
να µεγέθους 8 × 8 µε τιµές που έχουν προκύψει από Q = 4 στάθµες κβάντισης (Σχ.
6.3). Ορίζουµε τη διεύθυνση γειτνίασης των pixels, D = SE (µια γραµµή κάτω ένα pixel
δεξιά). Υπάρχουν συνολικά Ν = (8–1) × (8–1) = 49 ζεύγη από pixels της ε, τα οποία
γειτνιάζουν κατά την διεύθυνση D. Για παράδειγµα, ο γείτονας του ε(1,1), προς την
κατεύθυνση αυτή, είναι το ε(2,2) και γενικά του ε(k,k) το ε(k+1,k+1). Καλούµε n(i,j)
το πλήθος από αυτά τα ζεύγη, στα οποία το πρώτο pixel έχει τιµή i και το δεύτερο j,
µε i,j = 0,1,2,3. Με τα n(i,j) δηµιουργούµε τον πίνακα επαναλήψεων ΑD (Σχ. 6.3).
∆ιαιρώντας τα στοιχεία του ΑD µε το πλήθος των ζευγών Ν = 49, προκύπτει ο πίνα-
κας CD (Σχ.6.3). Ο CD καλείται Πίνακας Συνεµφάνισης και κάθε στοιχείο του
CD(k,m) k,m = 1,2,3,4 αποτελεί εκτίµηση της συνδυασµένης πιθανότητας του ενδε-
χοµένου «ένα ζεύγος από διαδοχικά pixels της ε, τα οποία γειτνιάζουν κατά την διεύ-
θυνση D, έχουν τιµές το πρώτο k–1 και το δεύτερο m–1'. Στην ουσία τα CD(k,m) δεν
είναι τίποτε άλλο από τις τιµές ενός ιστογράµµατος δεύτερης τάξης, όπου η κατά
προσέγγιση πιθανότητες αντιστοιχούν σε συνδυασµούς τιµών pixels ανά δύο. Από
τον τρόπο δηµιουργίας του CD προκύπτει εύκολα, πως το άθροισµα των στοιχείων
του ισούται µε µονάδα. Τα στοιχεία αυτά συνήθως δεν είναι όλα ίσα µεταξύ τους και
οι θέσεις, στις οποίες ο Π.Σ. εµφανίζει µεγάλες, ή µικρές τιµές, είναι χαρακτηριστι-
κές της υφής από την οποία δηµιουργήθηκε. ∆ύο δείγµατα διαφορετικής υφής συνή-
θως παρουσιάζουν διαφορετικούς Π.Σ. και διαχωρίζοντας τους πίνακες αυτούς γίνε-
ται δυνατός ο διαχωρισµός των δειγµάτων.
Για να δηµιουργήσουµε έναν µικρής διάστασης και εύκολου στο χειρισµό Π.Σ., πρέ-
πει το πλήθος των σταθµών κβάντισης Q της αντίστοιχης εικόνας να είναι σχετικά
µικρό. Για τον υπολογισµό λοιπόν του Π.Σ. µιας περιοχής εικόνας πρέπει προηγου-
µένως να κβαντίσουµε τα pixels της µε ένα σχετικά µικρό αριθµό σταθµών.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 126
126 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™
Προφανώς η κατεύθυνση D είναι µια µόνο από τις δυνατές επιλογές. Αν είχαµε επι-
λέξει µια άλλη κατεύθυνση, π.χ. την D = Ε (ένα pixel δεξιά) ο πίνακας συνεµφάνισης
θα ήταν άλλος, δεδοµένου ότι τα ζεύγη που θα εξετάζαµε θα ήταν διαφορετικά. Για
παράδειγµα στην περίπτωση αυτή ο γείτονας του ε(1,1) είναι ο ε(1,2) και γενικά του
ε(k,m) είναι ο ε(k,m+1). Για τη νέα κατεύθυνση, D, οι ΑD και CD παίρνουν τη µορφή:
Επίσης µια άλλη δυνατότητα είναι να µην εξετάσουµε διαδοχικά pixels, αλλά pixels
που απέχουν συγκεκριµένη απόσταση. Γίνεται αµέσως αντιληπτό ότι στην πράξη
έχουµε στη διάθεσή µας ένα αριθµό διπλών συνδυασµών από αποστάσεις και κατευ-
θύνσεις. Για περισσότερες λεπτοµέρειες ο αναγνώστης µπορεί να µελετήσει το [4].
Στη συνέχεια δίνουµε µερικές βασικές ποσότητες που υπολογίζονται από τους Π.Σ.
και χρησιµοποιούνται στην πράξη για ταξινόµηση περιοχών µε διαφορετική υφή.
{
{ C D (i , j )
max }
i, j
δηλαδή είναι η πιθανότητα του πιο συχνά εµφανιζόµενου ζεύγους τιµών της εικόνας.
H =− ∑ ∑C D (i , (
j ) log 2 C D (i, j ) )
i =1 j =1
Αυτή παρουσιάζει τόσο µεγαλύτερη τιµή όσο µεγαλύτερη οµοιοµορφία υπάρχει στις
τιµές του πίνακα CD. Σε ένα πίνακα που όλα τα στοιχεία του είναι ίσα αποδεικνύε-
ται ότι η τιµή της εντροπίας γίνεται η µέγιστη δυνατή, ίση µε Η = log2(Q2).
Q Q 2
E= ∑ ∑ [C
i =1 j =1
D (i , j) ]
και αντίθετα από την εντροπία παρουσιάζει τόσο µικρότερη τιµή όσο µεγαλύτερη
οµοιοµορφία υπάρχει στις τιµές του πίνακα CD. Σε ένα πίνακα που όλα τα στοιχεία
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 127
του είναι ίσα η ενέργεια λαµβάνει την ελάχιστη τιµή της ίση µε 1/(Q2).
Q Q
Rk = ∑ ∑| i − j |
i =1 j =1
k
C D (i , j ) .
Οι ροπές αυτές παρουσιάζουν µικρές τιµές όταν τα στοιχεία του Π.Σ. µε τις µεγάλες
τιµές βρίσκονται στη κύρια διαγώνιο, δηλαδή όταν στην ε εµφανίζονται συχνά ζεύγη
της µορφής (i,i) πράγµα που σηµαίνει όµοια pixels κατά τη διεύθυνση γειτονίας, δηλα-
δή λεπτή υφή. Αντίθετα, σε τραχεία υφή παρουσιάζονται απότοµες µεταβολές στην
τιµή των γειτονικών pixels της ε, εµφανίζουν µεγάλη τιµή τα αποµακρυσµένα από τη
κύρια διαγώνιο σηµεία του CD και η Rκ έχει αυξηµένη σηµαντικά την τιµή της.
Αυτά είναι µερικά από τα περιγράφοντα στοιχεία ενός Π.Σ. και της αντίστοιχής υφής.
Περισσότερα τέτοια στοιχεία µπορεί να βρει ο αναγνώστης στο [4].
Στη µέθοδο αυτή η ποσοτική περιγραφή της υφής γίνεται µε τη βοήθεια του φάσµα-
τος Fourier |F(u,v)| της περιοχής. To φάσµα αυτό για µια ψηφιακή εικόνα προσεγγί-
ζεται από το διακριτό µετασχηµατισµό [3,4], ο οποίος υπολογίζεται µέσω του ταχέ-
ως αλγόριθµου FFT. Στο Σχ. 6.4α και 6.4β δίνεται ένα παράδειγµα µε δύο δείγµατα
υφής και τα αντίστοιχα φάσµατα.
Υπάρχουν πολλοί τρόποι για τη δηµιουργία στοιχείων περιγραφής του |F(u,v)|. Για
παράδειγµα, εξαγωγή στοιχείων περιγραφής µε µια διάσταση από το δισδιάστατο
φάσµα |F(u,v)| γίνεται υπολογίζοντας τη συνάρτηση του φάσµατος σε πολικές συντε-
ταγµένες |F(r,θ)| και στη συνέχεια υπολογίζοντας τις µονοδιάστατες συναρτήσεις :
∞ 2π
Φr (θ ) = ∫
0
| F ( r ,θ ) | dr και Φθ ( r ) = ∫0
| F ( r , θ ) | dθ .
128 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™
α β γ δ
™¯‹Ì· 6.4
Η φασµατική µέθοδος περιγραφής υφής. (α) ∆υο διαφορετικά δείγµατα υφής. (β) Τα φάσµατά τους |F(u,v|. (γ)
Μονοδιάστατη περιγραφή Φθ(r). (δ) Μονοδιάστατη περιγραφή Φr(θ).
Για i, j φυσικούς αριθµούς, η ροπή (moment) mi,jτάξεως i+j ορίζεται, από τη σχέση:
mij = ∑
4∑
1243
i j
x y a( x , y ) (6.3)
ℜ
Οι ροπές µηδενικής και πρώτης τάξεως έχουν ένα ιδιαίτερο φυσικό περιεχόµενο.
Η m00 = ∑ ℜ
a( x , y ) ισούται µε τη «µάζα» της περιοχής, ή Ν φορές τη µέση
φωτεινότητα, όπου Ν είναι ο αριθµός των pixels της ℜ. Το σηµείο (xC,yC) µε συντε-
ταγµένες :
m10 m01
xC = κ αι yC = (6.4)
m00 m00
καλείται κεντροειδές (centroid) της περιοχής. Το σηµείο αυτό είναι χαρακτηριστι-
κό της περιοχής και χρησιµοποιείται για την κατασκευή της υπογραφής του περι-
γράµµατος (βλέπε κεφάλαιο 5), καθώς επίσης και τον ορισµό των κεντρικών ροπών
της περιοχής. Από τον τρόπο ορισµού των ροπών προκύπτει εύκολα ότι οι τιµές τους,
όλες εκτός από εκείνες της µηδενικής τάξεως, εξαρτώνται από την επιλογή του
συστήµατος των συντεταγµένων και αλλάζουν σε κάθε µετασχηµατισµό µεταφοράς,
περιστροφής ή αλλαγής κλίµακας.
Οι Κεντρικές Ροπές συµβολίζονται µε µij και ορίζονται µε βάση τη σχετική από-
σταση των pixels της περιοχής από το κεντροειδές C.
µij = ∑
1
42∑43( x − x C )i ( y − yC ) j a( x , y ) (6.5)
ℜ
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 130
130 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™
Είναι εύκολο να δούµε ότι κατά την παράλληλη µεταφορά του συστήµατος συντε-
ταγµένων οι αποστάσεις των σηµείων από το κεντροειδές παραµένουν σταθερές και
οι κεντρικές ροπές παραµένουν αναλλοίωτες σε τέτοιους µετασχηµατισµούς. Οι τιµές
τους όµως µεταβάλλονται µετά από αλλαγή κλίµακας, ή την περιστροφή των αξόνων.
Οι κεντρικές κανονικοποιηµένες ροπές, συµβολίζονται µε nij, και ορίζονται ως:
µij i+ j
nij = λ
,λ= +1 (6.6)
m00 2
Αποδεικνύεται ότι οι τιµές των ροπών αυτών παραµένουν αναλλοίωτες σε παράλ-
ληλη µεταφορά και σε αλλαγή κλίµακας [4].
ϕ1 = n20 + n02
( )
2
ϕ 2 = n20 − n02 + 4n11
2
= (n ) + (3n − n )
2 2
ϕ3 30 − 3n12 21 03
= (n + n ) + (n + n )
2 2
ϕ4 30 12 21 03
= (n − 3n )(n + n )(n + n ) (
− 3 n21 + n03 + )
2 2
ϕ5
30 12 30 12 30 12
( )(
+ 3n21 − n03 n21 + n03 3 n30 + n12 ) ( ) − (n )
+ n03
2 2
21
( )(
ϕ 6 = n20 − n02 n30 + n12 ) − (n
+ n03 + 4n11 n30 + n12 n21 + n03) ( )( )
2 2
21 (6.7)
( )( )(
n30 + n12 n30 + n12 − 3 n21 + n03 + ) ( )
2 2
ϕ 7 = 3n21 − n03
( )( ) (
n21 + n03 3 n30 + n12 − n21 + n03 ) ( )
2 2
+ 3n12 − n30
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 131
¶›Ó·Î·˜ 6.1
Οι τιµές των ροπών του Hu, όπως υπολογίστηκαν για τις 4 περιοχές του Σχ. 6.5.
Στο Σχ. 6.5α δίνεται µια αεροφωτογραφία ενώ στα 6.5β, 6.5γ, και 6.5δ τρεις εικόνες,
που έχουν προκύψει από την αρχική µετά από περιστροφή, αλλαγή κλίµακας, και κατο-
πτρικό µετασχηµατισµό (Βλέπε υπότιτλο σχήµατος). Για τις τέσσερις εικόνες του Σχ,
6.5 έχουν υπολογιστεί οι επτά ροπές του Hu και τα αποτελέσµατα δίνονται στον Πίνα-
κα 6.1. Όπως φαίνεται οι τιµές των φ1 έως φ6 παραµένουν σχεδόν σταθερές και για τις
τέσσερις αεροφωτογραφίες. Η φ7 έχει την ίδια περίπου τιµή για τις πρώτες τρεις εικό-
νες ενώ αλλάζει πρόσηµο για την τέταρτη, που περιέχει κατοπτρικό µετασχηµατισµό.
Οι µικρές µεταβολές που εµφανίζονται οφείλονται κατά κύριο λόγο στο θόρυβο, που
εισέρχεται στις εικόνες κατά τη δηµιουργία των περιστραµµένων ή αναδειγµατολη-
πτηµένων αντιγράφων, καθώς και στα σφάλµατα των πράξεων που προκύπτουν κατά
τον υπολογισµό της αριθµητικής τιµής των ροπών, ιδιαίτερα αυτών των υψηλής τάξης.
α β ™¯‹Ì· 6.5
(α) Η αρχική
αεροφωτογραφία.
(β) Μετά από
στροφή. (γ) Μετά
από στροφή και
σµίκρυνση. (δ)
∆ηµιουργία κατο-
πτρικής και στη
συνέχεια στροφή
γ δ και σµίκρυνση.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 132
132 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™
Στην πράξη, η χρήση των ροπών του Hu στις ασπρόµαυρες εικόνες είναι πιο δύσκο-
λη από ότι στη θεωρία, επειδή φωτογραφίες της ίδιας περιοχής που έχουν ληφθεί σε
διαφορετικές χρονικές στιγµές, µε διαφορετικές κάµερες και φωτισµό, διαφέρουν
σηµαντικά στις τιµές των pixels και η τιµή των ροπών εξαρτάται έντονα από τις τελευ-
ταίες. Πρέπει λοιπόν να γίνει προεπεξεργασία των νέων λήψεων ώστε να αποκτήσουν
ιστόγραµµα παρόµοιο µε αυτό του πρωτότυπου πριν από τον υπολογισµό των ροπών.
¶›Ó·Î·˜ 6.2
Η τιµή των 6 πρώτων ροπών του Hu για τις 12 µορφές του Σχ. 6.6.
™¯‹Ì· 6.6
Τρεις οµάδες µορ-
φών που έχουν
προκύψει από
περιστροφές και
αλλαγές µεγέθους
τριών διαφορετι-
κών µορφών.
Μερικοί ερευνητές έχουν προτείνει και ροπές που παραµένουν αναλλοίωτες σε σχε-
τικές µικρές µεταβολές της τιµής της φωτεινότητας της εικόνας [6].
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 133
∑
N
από την ε. Ορίζουµε ως στροφορµή Ιε της s ως προς την ε το άθροισµα d k2 .
k =1
Ας θεωρήσουµε µια δέσµη ευθειών που διέρχονται από το κεντροειδές C της s και
ας υπολογίσουµε την στροφορµή της s ως προς µερικές από τις ευθείες αυτές. Μια
µορφή για την οποία οι στροφορµές αυτές έχουν διαφορετικές τιµές καλείται έκκε-
ντρος (eccentric). Στην αντίθετη περίπτωση, όταν οι στροφορµές έχουν την ίδια τιµή
για οποιαδήποτε ευθεία της συγκεκριµένης δέσµης η µορφή καλείται µη έκκεντρος.
Για παράδειγµα, µια µορφή µε σχήµα κυκλικού δίσκου, ή τετραγώνου, ή ισόπλευ-
ρου τριγώνου είναι µη έκκεντρος.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 134
134 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™
£∂øƒ∏ª∞ 6.1
Από τις ευθείες που διέρχονται από το κεντροειδές µιας έκκεντρης µορφής, s, υπάρχει
µια µόνο ευθεία, η εΠ, ως προς την οποία η ροπή αδράνειας της s, ΙΠ, λαµβάνει τη µικρό-
τερη τιµή και µία µόνο, η ε∆, ως προς την οποία η ροπή αδράνειας της s, Ι∆, λαµβάνει τη
µεγαλύτερη τιµή. ∆ηλαδή, για κάθε ευθεία ε της δέσµης, διαφορετική από την εΠ και την
ε∆, ισχύει: lΠ < Ιε< Ι∆. Επίσης ισχύει, ότι η εΠ και η ε∆ είναι κάθετες µεταξύ τους.
∆εν θα δώσουµε την απόδειξη του πιο πάνω θεωρήµατος, µπορείτε όµως να τη βρεί-
τε στο [2]. Τις ευθείες εΠ και ε∆ καλούµε κύριους (prιncipal) άξονες της s. Ειδικά τον
πρώτο από αυτούς καλούµε πρωτεύοντα (major), και το δεύτερο δευτερεύοντα
(minor). Αυτοί χρησιµοποιούνται για τη δηµιουργία υπογραφών περιγράµµατος,
(βλέπε υποενότητα 5.3), για την δηµιουργία αναλλοίωτων ροπών, αλλά και για τον
ορισµό ενός συστήµατος συντεταγµένων που εξαρτάται αποκλειστικά από την
µορφή. Στο Σχ. 6.8 δίνεται το διάγραµµα µιας µορφής στην οποία έχει συνσχεδια-
στεί το κεντροειδές και οι κύριοι άξονες.
ας
™¯‹Ì· 6.8 ύω ν άξον
C Πρωτε
Το κεντροειδές, C,
και οι κύριοι άξο-
νες, Πρωτεύων ας
εύω ν άξον
και ∆ευτερεύων ∆ευτερ
µιας µορφής.
Με βάση τους κύριους άξονες ορίζονται περιγράφοντα στοιχεία της µορφής όπως:
Η εκκεντρότητα e της µορφής που ορίζεται µε βάση τις τιµές των στροφορµών της
µορφής ως προς τους κύριους άξονες από τη σχέση:
I ∆ − IΠ
e= (6.8)
I ∆ + IΠ
Ο λόγος λC = wC/hC των διαστάσεων του περιγεγραµµένου στη µορφή ορθογώνιου,
του οποίου οι πλευρές είναι παράλληλες προς τους κύριους άξονες αυτής (Σχ. 6.9).
Και τα δύο πιο πάνω περιγράφοντα στοιχεία είναι αναλλοίωτα σε µετασχηµατισµούς
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 135
™YNOæH 135
™‡ÓÔ„Ë
Στο κεφάλαιο αυτό µελετήσαµε µερικά από τα πιο γνωστά περιγράφοντα στοιχεία
του εσωτερικού της περιοχής µιας εικόνας. Τα στοιχεία αυτά προέκυψαν είτε από την
επεξεργασία στατιστικών κατανοµών, είτε από τις δισδιάστατες ροπές της περιοχής.
Στην πρώτη περίπτωση χρησιµοποιήσαµε τη στατιστική προσέγγιση µε το ιστόγραµ-
µα της εικόνας, ή τους Πίνακες Συνεµφάνισης, καθώς και µεθόδους βασισµένες στο
φάσµα Fourier. Στη δεύτερη περίπτωση γνωρίσαµε µεταξύ των άλλων τις αναλλοί-
ωτες ροπές του Hu καθώς και τις στροφορµές µιας µορφής µε βάση τις οποίες ορί-
ζεται ο συντελεστής εκκεντρότητας της µορφής και προσδιορίζονται οι κύριοι άξο-
νες, όταν αυτή είναι έκκεντρη.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 136
136 ¶ ∂ ƒ π ° ƒ∞ º √ ¡ ∆∞ ™ ∆ √ π à ∂ π ∞ ∆ √ À ∂ ™ ø ∆ ∂ ƒ π ∫ √ À ¶ ∂ ƒ π √ à ∏ ™ ∂ π ∫ √ ¡ ∞ ™
B I B § I O ° PA º I A 137
µÈ‚ÏÈÔÁÚ·Ê›·
Bayesian TaÍÈÓÔÌËÙ¤˜
™ÎÔfi˜
∫
Σκοπός του κεφαλαίου αυτού είναι να εισαγάγει τον αναγνώστη στις βασικές αρχές
∂
σχεδιασµού ενός ταξινοµητή και στη συνέχεια να εστιάσει σε µία κατηγορία ταξινο-
µητών, που βασίζονται στο βασικό θεώρηµα του Bayes.
7
º ∞ § ∞ π √
¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Γνωρίζετε ποιος είναι ο ρόλος του ταξινοµητή σ’ ένα σύστηµα ταξινόµησης.
• Tαξινοµείτε πρότυπα σύµφωνα µε τον Bayesian ταξινοµητή.
• Γνωρίζετε τι είναι ο ταξινοµητής ελάχιστης απόστασης.
• Γνωρίζετε τι είναι τα παράθυρα Parzen.
• Γνωρίζετε τι είναι ο ταξινοµητής Πλησιέστερου Γείτονα.
ŒÓÓÔȘÎÏÂȉȿ
• ∆ιακλασική Απόσταση
• Επιφάνεια Απόφασης
• Παράθυρο Parzen
• Συνάρτηση ∆ιάκρισης
• Ταξινοµητής Bayes
• Ταξινοµητής Ελάχιστης Απόστασης
• Ταξινοµητής Πλησιέστερου Γείτονα.
∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
140 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
νοµητή και x το διάνυσµα των τιµών των ουσιωδών χαρακτηριστικών ενός δείγµα-
τος. Οι συναρτήσεις αυτές µπορούν να προσεγγιστούν όταν διατίθεται ένας ικανο-
ποιητικός αριθµός από αναγνωρισµένα δείγµατα, δηλαδή δείγµατα για καθένα από
τα οποία είναι γνωστή η κλάση στην οποία ανήκει.
Στην αρχή του κεφαλαίου αυτού, στην Ενότητα 7.1, περιγράφονται τα βασικά στοι-
χεία ενός ταξινοµητή. Στη συνέχεια, Ενότητα 7.2, περιγράφονται οι κατά Bayes ταξι-
(
νοµητές, η λειτουργία των οποίων στηρίζεται στην ακριβή γνώση των p x | ω i και )
µε τους οποίους επιτυγχάνεται η ελάχιστη πιθανότητα του σφάλµατος ταξινόµησης.
Στην Ενότητα 7.3, εισάγονται οι έννοιες της συνάρτησης διάκρισης και της επιφά-
( )
νειας απόφασης. Εάν δεν είναι γνωστές οι p x | ω i , η χρήση Bayessian ταξινοµη-
τών προϋποθέτει την εκτίµηση των πυκνοτήτων πιθανότητας µε βάση τα δείγµατα
εκπαίδευσης (αναγνωρισµένα δείγµατα). Για το σκοπό αυτό, στην Ενότητα 7.4 χρη-
σιµοποιούνται τα παράθυρα Parzen και στην Ενότητα 7.5 χρησιµοποιείται ένας αριθ-
µός από k γείτονες. Τέλος, στην Ενότητα 7.6 παρουσιάζεται ο ταξινοµητής του πλη-
σιέστερου γείτονα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 141
7 . 1 µ ∞ ™ π ∫ ∞ ™ ∆∞ ¢ π ∞ ™ Ã ∂ ¢ π ∞ ™ ª √ À ™ À ™ ∆ ∏ ª ∞∆ √ ™ ∆∞ • π ¡ √ ª ∏ ™ ∏ ™ 141
Ο ταξινοµητής, θα µπορούσε να πει κανείς, ότι αποτελεί την καρδιά του συστήµα-
τος ταξινόµησης. Όπως έχουµε ήδη αναφέρει στο πρώτο κεφάλαιο, ο σχεδιασµός
ενός συστήµατος ταξινόµησης θα µπορούσε να διαιρεθεί σε δύο µεγάλα στάδια, το
στάδιο της δηµιουργίας και της επιλογής των ουσιωδών χαρακτηριστικών και αυτό
της σχεδίασης του ταξινοµητή.
Στο πρώτο στάδιο παράγονται και στη συνέχεια επιλέγονται τα ουσιώδη χαρακτη-
ριστικά, µε τα οποία περιγράφουµε τα πρότυπα. Τέτοια χαρακτηριστικά µπορεί να
είναι, για παράδειγµα, οι διάφορες ροπές περιοχής, διάφορα χαρακτηριστικά ιστο-
γράµµατος, χαρακτηριστικά περιγράµµατος. Από την πληθώρα, στην κυριολεξία,
των χαρακτηριστικών, που είναι δυνατόν να παραχθούν, δεν είναι όλα πλούσια σε
πληροφορία. Ας πούµε, για παράδειγµα, ότι η διασπορά της έντασης γύρω από τη
µέση τιµή σε µια εικόνα, που πρέπει να ταξινοµήσουµε σε µία από δύο κλάσεις, παίρ-
νει περίπου την ίδια τιµή για όλες τις εικόνες, ανεξάρτητα από ποια κλάση ανήκουν.
Ένα τέτοια χαρακτηριστικό είναι φτωχό σε πληροφορία ταξινόµησης. Εµείς απ’ όλα
τα ουσιώδη χαρακτηριστικά, που είναι δυνατόν να παραχθούν, θα θέλαµε να επιλέ-
ξουµε εκείνα, των οποίων οι τιµές, για πρότυπα που ανήκουν σε διαφορετικές κλά-
σεις, διαφέρουν όσο γίνεται περισσότερο. Όπως συνήθως λέγεται, στην κατάλληλη
ορολογία, τα ουσιώδη χαρακτηριστικά θα πρέπει να επιλέγονται έτσι ώστε οι τιµές
που λαµβάνουν για τα διάφορα πρότυπα να έχουν µεγάλη δια–κλασική (between
class) απόσταση και µικρή ενδο–κλασική (within–class) απόσταση. Στο Σχ. 7.1 δίνο-
νται δύο απλοποιηµένα παραδείγµατα για δύο χαρακτηριστικά x1, x2. Με αστερίσκο
™¯‹Ì· 7.1
συµβολίζονται οι τιµές που λαµβάνουν για τη µία κλάση, και µε τελεία για τη δεύ-
Τιµές χαρακτηρι-
τερη κλάση. Από τα παραπάνω συνάγεται ότι το x1 είναι ένα πλούσιο σε πληροφο-
στικών µε
ρία ταξινόµησης χαρακτηριστικό ενώ το x2 είναι φτωχό, διότι οι τιµές που λαµβάνει
(a) µεγάλη διακλα-
για τις δύο κλάσεις επικαλύπτονται. σική και (β) µικρή
διακλασική από-
x1 x2 σταση.
Η επιλογή χαρακτηριστικών δεν είναι µία απλή διαδικασία, αλλά συνήθως, το απο-
τέλεσµα εφαρµογής µιας σειράς µεθοδολογιών επιλογής χαρακτηριστικών. Στο βιβλίο
αυτό δεν θα ασχοληθούµε µε τέτοιες µεθοδολογίες. Ο ενδιαφερόµενος αναγνώστης
µπορεί να αναφερθεί, για παράδειγµα, στο [1].
Στη συνέχεια θα υποθέσουµε ότι έχουµε επιλέξει l ουσιώδη χαρακτηριστικά, x1, x2,
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 142
142 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
Στόχος µας στην ενότητα αυτή είναι να σχεδιάσουµε τον ταξινοµητή, αντλώντας έννοι-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 143
7 . 2 ∆ ∞ • π ¡ √ ª ∏ ∆ ∂ ™ B AY E S 143
ες και γνώσεις από τη θεωρία πιθανοτήτων. Θα ξεκινήσουµε, για χάρη της απλότητας,
από το πρόβληµα δύο κλάσεων, που θα συµβολίσουµε ω1 και ω2 αντίστοιχα. Υποθέ-
τουµε ότι έχουµε στη διάθεσή µας ένα σύνολο Ν διανυσµάτων εκπαίδευσης, δηλαδή,
{ }
X = x1 , x2 ,..., x N , xi ∈ Rl , i = 1, 2, 3,..., N
Για καθένα από τα διανύσµατα εκπαίδευσης γνωρίζουµε την κλάση από την οποία
προέρχεται. Η διαθεσιµότητα αυτής της πληροφορίας θα θεωρείται δεδοµένη για το
σχεδιασµό οποιουδήποτε ταξινοµητή στα πλαίσια του βιβλίου αυτού, όπου δια-
πραγµατευόµαστε το πρόβληµα της ταξινόµησης µε εκπαίδευση.
Στη συνέχεια, υποθέτουµε ότι γνωρίζουµε τις πιθανότητες Ρ(ω1) και Ρ(ω2), τις πιθανό-
τητες δηλαδή κάποιο χαρακτηριστικό διάνυσµα να ανήκει σε µία από τις δύο κλάσεις.
Μία τέτοια πληροφορία είναι εύκολα υπολογίσιµη. Για παράδειγµα, εάν Ν1 από τα δια-
νύσµατα εκπαίδευσης ανήκουν στην κλάση ω1 και Ν2 στην κλάση ω2 (Ν = Ν1+Ν2), τότε
N1 N2
P (ω 1) ≈ , P (ω 2 ) ≈
N N
Μία άλλη πληροφορία που µπορεί επίσης να ποσοτικοποιηθεί, και γι’ αυτό θα υπο-
θέσουµε ότι είναι γνωστή, είναι η υπό συνθήκη πυκνότητες πιθανότητας p(x|ω1) και
p(x|ω2). Οι πυκνότητες πιθανότητας (pdf) µπορούν, για παράδειγµα, να προσεγγι-
στούν από τα αντίστοιχα ιστογράµµατα. Χρησιµοποιώντας τα Ν1 διανύσµατα της
κλάσης ω1 µπορούµε να προσεγγίσουµε την p(x|ω1) και µε τα Ν2 διανύσµατα της ω2
την p(x|ω2). Έχουµε τώρα στη διάθεσή µας όλα τα απαραίτητα υλικά για να σχε-
διάσουµε τον ταξινοµητή µας. Πίσω από τον σχεδιασµό αυτό υπάρχει ένα πολύ απλό
και λογικό σκεπτικό. Όταν µας δοθεί ένα άγνωστο χαρακτηριστικό διάνυσµα x (που
δεν ανήκει προφανώς στο σύνολο των γνωστών διανυσµάτων εκπαίδευσης, Χ) ο
ταξινοµητής θα πρέπει να το ταξινοµεί στην πιο πιθανή κλάση. ∆εδοµένης, δηλαδή,
µιας µέτρησης του x, που αντιστοιχεί στο άγνωστο πρότυπο, το παραπάνω σκεπτι-
κό µας παραπέµπει στο να υπολογίσουµε τις πιθανότητες P(ω1|x) και P(ω2|x) και να
ταξινοµήσουµε το x στην κλάση που αντιστοιχεί στη µεγαλύτερη τιµή από τις δύο
πιθανότητες.[1] Οι P(ωi|x), i = 1,2, είναι οι πιθανότητες το πρότυπο να είναι σε µια
από τις δύο κλάσεις, όταν γνωρίζουµε την τιµή του x και είναι γνωστές ως
a–posteriori πιθανότητες, σε αντιδιαστολή µε τις Ρ(ωi), i = 1, 2, που είναι γνωστές
και ως a–priori πιθανότητες. Τις πιθανότητες όµως P(ωi|x), i = 1,2, δεν τις γνωρί-
ζουµε. Αυτό δεν είναι πρόβληµα, καθώς από τη θεωρία πιθανοτήτων γνωρίζουµε το
θεώρηµα Bayes που µας λέει ότι:
144 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
( )( )
P ω i p x | ω i = p( x )P ω i | x( )
ή
(
P (ω i ) p x | ω i )
(
P ωi | x =) p( x )
(7.1)
¶›Ó·Î·˜ 7.1
Tαξινοµητής Bayes για 2 και για m κλάσεις
Στο Σχ. 7.2 δίνονται οι πυκνότητες πιθανότητας p(x|ω1) και p(x|ω2) για ένα παρά-
δειγµα ταξινόµησης, µε δύο ισοπίθανες κλάσεις P(ω1) = P(ω2) = 1/2. Στο παράδειγ-
µα αυτό έχει επιλεγεί να χρησιµοποιηθούν διανύσµατα χαρακτηριστικών µε µία µόνο
συνιστώσα. Γι αυτό αντί του διανύσµατος x χρησιµοποιείται η βαθµωτή µεταβλητή
x και o χαρακτηριστικός χώρος είναι µονοδιάστατος (l = 1). Με τα πιο πάνω δεδο-
µένα ο ταξινοµητής Bayes ορίζει το σηµείο x0 µε το οποίο χωρίζεται ο χώρος στην
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 145
7 . 2 ∆ ∞ • π ¡ √ ª ∏ ∆ ∂ ™ B AY E S 145
περιοχή R1 για κάθε σηµείο της οποίας ισχύει p(x| ω1)> p(x| ω2) και στην R2 για την
οποία ισχύει αντίστοιχα p(x| ω2)> p(x| ω1). Είναι ενδιαφέρον να υπολογίσουµε την
πιθανότητα Pe µε την οποία ένα δείγµα x ταξινοµείται σε λάθος κλάση. Ισχύει:
Pe = P({x ανήκει στην ω1 και x>x0} ή{x ανήκει στην ω2 και x<x0}) =
= P({x ανήκει στην ω1 και x>x0} +P{x ανήκει στην ω2 και x<x0}) =
= P(x ανήκει στην ω1)P(x>x0| x ανήκει στην ω1)+
+ P(x ανήκει στην ω2)P(x<x0| x ανήκει στην ω2) =
= (½)P(x>x0| x ανήκει στην ω1)+ (½)P(x<x0| x ανήκει στην ω2), ή
Pe = (½)(P1+P2) (7.2)
όπου
+∞
P1 = P(x>x0| x ανήκει στην ω1) = ∫x p( x | ω )dx
1 (7.3)
0
και
x
0
P2 = P(x<x0| s ανήκει στην ω2) = ∫−∞ p( x | ω )dx
2 (7.4)
p(x|ω)
p(x|ω1)
p(x|ω2)
™¯‹Ì· 7.2
Περιοχές
ταξινόµησης που
προκύπτουν από
x1 x τον Bayesian
R1 R2 ταξινοµητή.
Από τις (7.2), (7.3) και (7.4) φαίνεται ότι η πιθανότητα σφάλµατος Pe είναι ίση µε
το µισό του ολικού εµβαδού των γραµµοσκιασµένων περιοχών του σχήµατος 7.1.
Από το παραπάνω παράδειγµα γίνεται σαφές ότι ο Bayesian ταξινοµητής διαιρεί τον
χώρο σε περιοχές, έτσι ώστε η περιοχή Ri, όπου αποφασίζεται η κλάση ωi, είναι εκεί-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 146
146 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
p(x|ω)
p(x|ω1)
p(x|ω2)
™¯‹Ì· 7.3
Όταν το κατώφλι
δεν είναι το βέλτι-
στο, το ολικό
εµβαδόν που αντι-
στοιχεί στην πιθα-
νότητα λανθασµέ-
νης ταξινόµησης, x1 x
αυξάνει. R1 R2
¶·Ú¿‰ÂÈÁÌ· 7.1
P(ωi) p(x|ωi)
1 x2
ω1 1/2 exp( − )
2π 2
1 ( x − 1)2
ω2 1/3 exp( − )
2π 2
1 ( x − 2 )2
ω3 1/6 exp( − )
2π 2
Σε ένα πρόβληµα τριών κλάσεων χρησιµοποιείται ένα µόνο χαρακτηριστικό για την
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 147
7 . 3 ™ À ¡ ∞ ƒ ∆ ∏ ™ ∂ π ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ∞ ¶ √ º ∞ ™ ∏ ™ – T∞ • π ¡ √ ª ∏ ∆ ∏ ™ ∂ § ∞ Ã π ™ ∆ ∏ ™ ∞ ¶ √ ™ ∆∞ ™ ∏ ™ 147
Στην προηγούµενη ενότητα γνωρίσαµε τον κατά Bayes ταξινοµητή. Είδαµε ότι η
φιλοσοφία διαίρεσης του l–διάστατου χώρου των χαρακτηριστικών στις περιοχές
ταξινόµησης Ri, i = 1,2,3,…m, βασίστηκε σε ένα συγκεκριµένο σύνολο συναρτήσε-
ων, δηλαδή στις συναρτήσεις
hi(x)≡ P(ωi)p(x| ωi), i = 1,2,..,m (7.5)
και η διαίρεση του χώρου έγινε σύµφωνα µε το πού η καθεµιά από τις παραπάνω m
συναρτήσεις παίρνει τιµή µεγαλύτερη από όλες τις άλλες συναρτήσεις. Σε πολλές
περιπτώσεις είναι απλούστερο από άποψη µαθηµατικού φορµαλισµού και µαθηµα-
τικών υπολογισµών να χρησιµοποιούµε συναρτήσεις όπως οι παραπάνω. Με άλλα
λόγια, εάν g(x) είναι µια µονότονη συνάρτηση, τότε µπορούµε να ορίσουµε τις
fi ( x ) ≡ g (hi ( x )), i = 1, 2,..., m (7.6)
και στη θέση των hi(x) µπορούµε να χρησιµοποιούµε τις fi(x). To γεγονός ότι η g(x)
είναι µονότονη έχει ως αποτέλεσµα να µην αλλοιώνει τις σχετικές θέσεις των µεγί-
στων και εποµένως η διαίρεση του χώρου είτε µε βάση τις hi ή τις fi θα είναι ακριβώς
η ίδια. Οι συναρτήσεις που προκύπτουν είναι γνωστές και ως συναρτήσεις διάκρι-
σης. Ο ένας λόγος που µας οδηγεί στη χρήση συναρτήσεων διάκρισης είναι η απλού-
στευση των υπολογισµών. Για παράδειγµα, εάν g(x) = ln(x) (που είναι µονότονη
συνάρτηση) και η p(x| ωi) είναι εκθετικής µορφής, όπως στο παράδειγµα 1 του κεφα-
λαίου 7, η δράση του λογαρίθµου θα έχει ως αποτέλεσµα οι υπολογισµοί να περιορί-
ζονται µόνο στους εκθέτες. Υπάρχει όµως και ένας άλλος ουσιαστικός λόγος. Οι
συναρτήσεις διάκρισης γίνονται η αφετηρία «απογαλακτισµού» µας από τον Bayesian
ταξινοµητή. Ο ταξινοµητής αυτός, αν και βέλτιστος, δεν είναι ελεύθερος µειονεκτη-
µάτων. Ο υπολογισµός των p(x| ωi) δεν είναι πάντα µια εύκολη υπόθεση, ιδίως όταν
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 148
148 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
x2
ω1
f1(x) < f2(x)
™¯‹Ì· 7.4
Παράδειγµα επι-
φάνειας απόφασης ω2
στον δισδιάστατο
χώρο (x1,x2). x1
Μια άλλη έννοια µε «έντονη παρουσία» στην αναγνώριση προτύπων είναι αυτή της
επιφάνειας απόφασης. Ας πάρουµε την περίπτωση δύο κλάσεων. Για το απλό αυτό
πρόβληµα θα έχουµε δύο συναρτήσεις διάκρισης, ας πούµε την f1(x) και f2(x). Στην
περίπτωση του Bayesian ταξινοµητή αυτές είναι οι P(ωi)p(x|ωi) = fi(x), i = 1,2. Σύµ-
φωνα µε τα όσα έχουµε πει, δεν είναι δύσκολο να δούµε ότι αποφασίζουµε ω1 εάν
f1(x)–f2(x)>0 και ω2 εάν f1(x)–f2(x)<0. Ας ορίσουµε τη συνάρτηση
f1,2 ( x ) ≡ f1 ( x ) − f 2 ( x ) (7.7)
7 . 3 ™ À ¡ ∞ ƒ ∆ ∏ ™ ∂ π ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ∞ ¶ √ º ∞ ™ ∏ ™ – T∞ • π ¡ √ ª ∏ ∆ ∏ ™ ∂ § ∞ Ã π ™ ∆ ∏ ™ ∞ ¶ √ ™ ∆∞ ™ ∏ ™ 149
R2. Στην περίπτωση πολλών κλάσεων, επιφάνειες απόφασης έχουν νόηµα και ορί-
ζονται από συναρτήσεις διάκρισης µόνο γειτονικών περιοχών.
Στη συνέχεια, θα εφαρµόσουµε τα παραπάνω σε µία ειδική κατηγορία προβληµάτων
στα οποία οι πυκνότητες πιθανότητας ακολουθούν Gaussian κατανοµές. Από τη θεω-
ρία πιθανοτήτων και στατιστικής γνωρίζουµε ότι η πυκνότητα πιθανότητας µιας βαθ-
µωτής τυχαίας µεταβλητής x που ακολουθεί Gaussian κατανοµή δίνεται από τη σχέση
1 ( x − µ )2
p( x ) = exp( − ) (7.10)
2 µσ 2 2σ 2
[]
όπου µ = Ε x , η µέση τιµή δηλαδή της x και σ 2 = Ε ( x − µ )2 , η διασπορά της. [ ]
Η (7.10) γενικεύεται για περισσότερες διαστάσεις. Ας το δούµε αυτό λίγο σταδιακά.
Εάν x1, x2 είναι δύο στοχαστικά ανεξάρτητες Gaussian µεταβλητές, µε την ίδια δια-
σπορά σ2 και µέσες τιµές µ1, µ2 αντίστοιχα, τότε (λόγω ανεξαρτησίας) η από κοινού
πυκνότητα πιθανότητας (joint probability density) θα είναι
1 ( x1 − µ1 )2 ( x2 − µ2 )2
p( x ) ≡ p( x1 , x2 ) = p( x1 ) p( x2 ) = exp( − )exp( − ), ή
2πσ 2 2σ 2 2σ 2
1 ( x1 − µ1 )2 + ( x2 − µ2 )2
p( x ) = exp( − ) (7.11)
2πσ 2 2σ 2
Στην περίπτωση που οι µεταβλητές δεν είναι ανεξάρτητες και η διάσταση του προ-
βλήµατος είναι l, η (7.11) γενικεύεται στην
1 1
p( x ) = exp − ( x − µ )T Σ −1 ( x − µ ) (7.12)
( 2π )l 2 Σ
12
2
(
Σ≡ E x − µ x − µ )( )
T
(7.13)
σ2 L 0 L 0
M M M
Σ= σ I = 02
L σ2 L 0
M M M (7.14)
0 L 0 L σ2
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 150
150 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
∆εν είναι δύσκολο να δει κανείς, ότι για την περίπτωση αυτή και για διάσταση l = 2,
η (7.12) καταλήγει στην (7.11).
Μετά την µικρή αυτή αναδροµή, ας επιστρέψουµε στο πρόβληµα της ταξινόµησης.
Για λόγους απλότητας θα σταθούµε στο πρόβληµα δύο κλάσεων µε δισδιάστατο
χώρο χαρακτηριστικών. Τα αποτελέσµατα γενικεύονται άµεσα σε πολλές διαστάσεις
και πολλές κλάσεις. Υιοθετούµε τις ακόλουθες υποθέσεις:
• Κλάσεις ισοπίθανες, P(ω1) = P(ω2).
• Τα χαρακτηριστικά είναι στοχαστικά ανεξάρτητες τυχαίες µεταβλητές µε την ίδια
διασπορά, σ2.
• Σε κάθε κλάση τα χαρακτηριστικά ακολουθούν Gaussian κατανοµή.
• Η διασπορά είναι ίδια για όλες τις κλάσεις.
Γράφοντας λίγο διαφορετικά την (7.11), οι παραπάνω υποθέσεις κωδικοποιούνται ως
2
1 x − ξi
p( x | ω i ) = exp − , i = 1, 2 (7.15)
2πσ 2 2σ 2
όπου . η Ευκλείδεια απόσταση µεταξύ του x και µi και µi η µέση τιµή της κλά-
2
σης ωi, δηλαδή x − µi = ( x1 − µi1 )2 + ( x2 − µi 2 )2 .
Υιοθετώντας στην θέση της g(x) την λογαριθµική συνάρτηση, οι αντίστοιχες συναρ-
τήσεις διάκρισης για την περίπτωση του Bayesian ταξινοµητή γίνονται
2
x − µi
((
f i ( x ) = ln p x | ω i )) = −ln(2πσ ) −2
2σ 2
και επειδή το σ είναι σταθερά, για τον υπολογισµό της µέγιστης τιµής µεταξύ f1(x)
και f2(x) αρκεί να υπολογίσουµε την ελάχιστη (λόγω του αρνητικού προσήµου)
Ευκλείδεια απόσταση του x από τις δύο µέσες τιµής µ1 και µ2 δηλαδή την ελάχιστη
των τιµών ||x–µ1|| και ||x–µ2||. Τελικά το δείγµα ταξινοµείται στην κλάση της οποίας
η µέση τιµή βρίσκεται πλησιέστερα στο x. Ο ταξινοµητής αυτός είναι γνωστός και
ως ταξινοµητής ελάχιστης Ευκλείδειας απόστασης.
Μερικές φορές ο ταξινοµητής αυτός χρησιµοποιείται έστω και εάν οι υποθέσεις που
διατυπώθηκαν παραπάνω δεν ισχύουν. Βέβαια, στις περιπτώσεις αυτές ο ταξινοµητής
δεν είναι Bayesian και, εποµένως, δεν είναι βέλτιστος ως προς την πιθανότητα λάθους.
Ας µείνουµε λίγο ακόµα στον απλό αυτό ταξινοµητή. Από τον ορισµό του ταξινο-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 151
7 . 3 ™ À ¡ ∞ ƒ ∆ ∏ ™ ∂ π ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ¢ π ∞ ∫ ƒ π ™ ∏ ™ – E ¶ π º ∞ ¡ ∂ π ∂ ™ ∞ ¶ √ º ∞ ™ ∏ ™ – T∞ • π ¡ √ ª ∏ ∆ ∏ ™ ∂ § ∞ Ã π ™ ∆ ∏ ™ ∞ ¶ √ ™ ∆∞ ™ ∏ ™ 151
µητή ελάχιστης απόστασης και από τις (7.8) και (7.9), έπεται ότι η επιφάνεια από-
φασης περιγράφεται από την
f1,2(x) = ||x–µ1||2–||x–µ2||2 (7.17)
ή f1,2 ( x ) = ( x − µ2 )T ( x − µ2 ) − ( x − µ1 )T ( x − µ1 ) = 0 (7.16)
και µετά από λίγες πράξεις καταλήγουµε στη σχέση
f1,2 ( x ) = w T ( x − x0 ) = 0 (7.18)
όπου
1
w = µ1 − µ2 κ αι x0 = (µ1 + µ2 )
2
Η 7.18 είναι η εξίσωση µιας ευθείας. Από το σχήµα 7.5 φαίνεται ότι η ευθεία αυτή
είναι η µεσοκάθετος του ευθύγραµµου τµήµατος που συνδέει τα σηµεία που αντι-
στοιχούν στις µέσες τιµές. Πράγµατι, όλα τα σηµεία πάνω στη γραµµή αυτή απέ-
χουν ίση απόσταση από τις µέσες τιµές. Τα σηµεία στην αριστερή πλευρά είναι πλη-
σιέστερα στην µ1 (ω1) και αυτά στη δεξιά πλευρά πλησιέστερα στην µ2 (ω2). Με
άλλα λόγια, η επιφάνεια απόφασης είναι ευθεία (επίπεδο / υπερεπίπεδο, για µεγα-
λύτερη του l = 2 διάσταση). Ο ταξινοµητής, δηλαδή, είναι γραµµικός. Αυτό συµβαί-
νει γιατί υποθέσαµε ότι για όλες τις κλάσεις οι διασπορές είναι ίδιες ∆εν είναι δύσκο-
λο να διαπιστώσετε ότι, εάν οι διασπορές δεν είναι ίδιες σε όλες τις κλάσεις, τότε οι
επιφάνειες απόφασης που προκύπτουν δεν είναι υπερεπίπεδα αλλά τετραγωνικής
µορφής, π.χ., (υπερ)παραβολοειδή, (υπερ)ελλειψοειδή. Για περισσότερες λεπτοµέ-
ρειες ο ενδιαφερόµενος αναγνώστης παραπέµπεται στο [1].
x2
µ2 µ1 – µ2
™¯‹Ì· 7.5
Η επιφάνεια από-
µ1 φασης που αντι-
x0
στοιχεί στον ταξι-
νοµητή ελάχιστης
Ευκλείδειας από-
στασης είναι υπε-
x1 ρεπίπεδο.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 152
152 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
¶·Ú¿‰ÂÈÁÌ· 7.2
Σε ένα πρόβληµα χρησιµοποιείται ένα µόνο χαρακτηριστικό για την ταξινόµηση των
δειγµάτων σε δύο κλάσεις ω1 και ω2 µε a–priori πιθανότητες P(ω1) και P(ω2). Οι
υπό συνθήκη πιθανότητες ακολουθούν Gaussian κατανοµές µε µέσες τιµές 0 και 1
αντίστοιχα για κάθε κλάση. Η διασπορά είναι σ2 και για τις δύο κλάσεις. Να υπολο-
γιστεί η τιµή κατωφλίου x0 που διαχωρίζει τις περιοχές R1 και R2, όπου αποφασίζουµε
ω1 και ω2 αντίστοιχα.
Απάντηση
Σύµφωνα µε τον κατά Bayes ταξινοµητή οι περιοχές καθορίζονται από:
R1: P(ω1)p(x|ω1)>P(ω2)p(x|ω2) και R2: P(ω1)p(x|ω1)<P(ω2)p(x|ω2)
Στην τιµή κατωφλίου οι δύο ποσότητες είναι ίσες και οι αντίστοιχες καµπύλες τέµνο-
νται (Σχ. 7.2). Άρα η τιµή κατωφλίου x0 προκύπτει ως λύση της εξίσωσης
P (ω1 ) x 2 P (ω 2 ) ( x − 1)2
exp − 0 2 = exp − 0 2 .
2πσ 2σ 2πσ 2σ
x02 ( x0 − 1)2 P (ω 2 )
−
2σ 2
+ ln (
P (ω 1 ) )
= −
2σ 2 ( ) 1
+ ln P (ω 2 ) , ή x0 = − σ 2 ln
2 P (ω1 )
Στην περίπτωση που το πρόβληµα ήταν τέτοιο ώστε οι καµπύλες να είχαν περισσό-
τερα από ένα σηµείο τοµής, η εξίσωση θα είχε πολλαπλή λύση.
¶·Ú¿‰ÂÈÁÌ· 7.3
Σε ένα πρόβληµα µε δύο ισοπίθανες κλάσεις ω1 και ω2 και δύο ουσιώδη χαρακτη-
ριστικά x1, x2, στο δισδιάστατο χώρο, τα χαρακτηριστικά διανύσµατα σε κάθε κλάση
ακολουθούν τις κατανοµές
1 x2 +x 2 1 ( x − 1)2 + ( x2 − 1)2
p( x | ω1 ) = exp − 1 2
και p( x | ω 2 ) = exp − 1
2π 2 2π 2
7 . 4 ¶ ∞ ƒ∞ £ À ƒ∞ PA R Z E N 153
τα ακολουθούν Gaussian κατανοµή και στις δύο κλάσεις. Επίσης, όπως προκύπτει
άµεσα από τη σύγκριση των πυκνοτήτων πιθανότητας του παραδείγµατος µε την
(7.11), το µητρώο συνδιασποράς Σ είναι το ίδιο και στις δύο κλάσεις και µάλιστα
ισχύει:
1 0
Σ=
0 1
Άρα o Bayesian ταξινοµητής ισοδυναµεί µε τον ταξινοµητή ελάχιστης Ευκλείδειας
απόστασης, όπως ήδη εξηγήσαµε στην ενότητα 7.3. Σύµφωνα µε τις κατανοµές του
παραδείγµατος έχουµε:
Άρα το δείγµα ταξινοµείται στην κλάση ω1, η µέση τιµή της οποίας ευρίσκεται πλη-
σιέστρα στο x.
x x2
2 exp( − ), x > 0
p( x | ω i ) = σ i 2σ i
2
0, x < 0
Να υπολογιστεί το σηµείο x0 του κατωφλίου που διαχωρίζει τις δύο περιοχές R1 και R2.
154 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
p(x)
™¯‹Ì· 7.6
Προσσέγγιση
πυκνότητας
πιθανότητας µε
x
ιστόγραµµα. (α)
Εάν k είναι ο αριθµός δειγµάτων που βρίσκονται σε κάποιο διάστηµα, τότε η πιθα-
νότητα να προκύψει τιµή του x στο συγκεκριµένο αυτό διάστηµα θα είναι, κατά προ-
σέγγιση, ίση µε
P≈k/N (7.19)
Στη συνέχεια, θεωρούµε ότι η πυκνότητα πιθανότητας στο διάστηµα είναι σταθερή
για όλα τα σηµεία που ανήκουν στο ίδιο διάστηµα. Άρα, η πυκνότητα πιθανότητας
για το παραπάνω διάστηµα προσεγγίζεται από
1 k h h
p( x ) ≈ pˆ ( x ) = pˆ ( xˆ ) = , xˆ − ≤ x ≤ xˆ +
hN 2 2 (7.20)
όπου x̂ το µέσον του διαστήµατος. Η παραπάνω διαδικασία επαναλαµβάνεται για
όλα τα διαστήµατα. Αποδεικνύεται ότι, εάν: α) η p(x) είναι συνεχής συνάρτηση, β)
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 155
7 . 4 ¶ ∞ ƒ∞ £ À ƒ∞ PA R Z E N 155
το εύρος h τείνει στο µηδέν, γ) τα Ν και k τείνoυν στο ∞ µε τρόπο ώστε ο λόγος k/N
)
να τείνει στο µηδέν, τότε η προσέγγιση p( x ) τείνει στην p(x), ∀ x ∈ R.
Οι παραπάνω υποθέσεις είναι πολύ λογικές. Μας λένε ότι το εύρος του διαστήµα-
τος πρέπει να τείνει στο µηδέν (ώστε να έχει νόηµα η υπόθεση σταθερής τιµής σε
όλο το διάστηµα για συνεχή p(x)), ο αριθµός των δειγµάτων Ν να είναι πολύ µεγά-
λος και ταυτόχρονα ο αριθµός των δειγµάτων k σε κάθε διάστηµα να είναι επίσης
µεγάλος, ώστε η εκτίµηση των πιθανοτήτων να είναι καλή. ∆εδοµένου βέβαια ότι ο
αριθµός των διαστηµάτων είναι πολύ µεγάλος (h → 0), ο αριθµός των δειγµάτων
που αντιστοιχεί σε κάθε διάστηµα είναι ένα µικρό ποσοστό του Ν (k/N → 0).
Ένας άλλος τρόπος για να γράψουµε την 7.20, που θα µας διευκολύνει στη συνέχεια
για γενικεύσεις, είναι ο εξής. Ορίζουµε τη συνάρτηση φ(x)
1, x ≤ 1
ϕ( x) = 2 (7.21)
0, αλλού
Τότε η προσέγγιση στην 7.20 γράφεται
1 1 xi − x
N
p( x ) ≈
h N ∑ Ê
i =1
h
(7.22)
h h
x − xi 1, για x − ≤ xi ≤ x +
φ =
2 2
h
0, αλλού
Με άλλα λόγια, αντικαθιστούµε στην (7.22) την τιµή του x, όπου θέλουµε να εκτι-
µήσουµε την p(x). Τότε το άθροισµα ισούται µε τον αριθµό των δειγµάτων του Χ
που βρίσκονται στο διάστηµα εύρους h, το οποίο έχει ως µέσον το συγκεκριµένο x.
Η 7.22 γενικεύεται άµεσα για την περίπτωση των πολλών διαστάσεων, δηλαδή
11 xi − x
N
p( x ) ≈
hl N
∑ φ
i =1
h
(7.23)
1
1 για x j ≤ , j = 1, 2,..., l
όπου όπου φ( x) = 2 (7.24)
0 αλλού
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 156
156 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
και xj η j–διάσταση του x. H (7.23) και η (7.24) είναι απόρροια του τρόπου που κατα-
σκευάζουµε ιστογράµµατα στον πολυδιάστατο χώρο. Τη θέση διαστηµάτων εύρους
h την παίρνουν υπερκύβοι ακµής h και όγκου hl. Κατ’ αναλογία µε όσα είπαµε παρα-
πάνω, οι (7.23) και (7.24) µας λένε ότι, για να προσεγγίσουµε την p(x), καθιστούµε
το x κέντρο ενός υπερκύβου ακµής h, µετρούµε πόσα από τα σηµεία του συνόλου
εκπαίδευσης βρίσκονται εντός του κύβου αυτού και η p(x) δίνεται από το πηλίκο του
αριθµού αυτού µε το γινόµενο Νhl.
Μπορεί να αποδειχθεί ότι η προσέγγιση (7.22) γενικεύεται αν στη θέση της φ(.) στην
(7.21) χρησιµοποιηθούν και άλλες συναρτήσεις, υπό την προϋπόθεση ότι πληρούν
ορισµένες συνθήκες. Οι συναρτήσεις αυτές είναι γνωστές και ως παράθυρα Parzen.
Η Gaussian συνάρτηση µε µέση τιµή 0 και διασπορά 1 είναι µια τέτοια συνάρτηση.
Για περισσότερες λεπτοµέρειες ο αναγνώστης παραπέµπεται στο [1].
Για να δούµε τώρα πώς όλα τα παραπάνω ενσωµατώνονται στο πρόβληµα της ταξι-
νόµησης. Στον πίνακα 7.2 δίνεται ο αλγόριθµος ταξινόµησης ενός προτύπου, µε διά-
νυσµα χαρακτηριστικών x, µε τη µέθοδο των παραθύρων Parzen. Το πρόβληµα περι-
λαµβάνει δύο κλάσεις, τις ω1 και ω2 µε Ν1 και Ν2 αντίστοιχα διανύσµατα εκπαίδευσης.
¶›Ó·Î·˜ 7.2
Αλγόριθµος Ταξινόµησης µε τη µέθοδο των παραθύρων Parzen. Πρόβληµα µε δύο
κλάσεις.
• Επιλέγουµε κατάλληλα το h
Η επιλογή του h αποτελεί ένα κρίσιµο βήµα του αλγορίθµου. Όπως γνωρίζουµε ήδη
η τιµή του πρέπει να τείνει στο µηδέν, αλλά τότε ο αριθµός των δειγµάτων εκπαί-
δευσης που περιλαµβάνονται στον αντίστοιχο υπερκύβο θα είναι µηδενικός (δεδο-
µένου ότι στην πράξη το Ν είναι πάντα πεπερασµένο). Το h λοιπόν επιλέγεται όσο
γίνεται πιο µικρό αλλά αρκετά µεγάλο ώστε τα k1, k2 να έχουν ικανοποιητική τιµή.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 157
7 . 5 Y ¶ √ § √ ° π ™ ª √ ™ ¶ À ∫ ¡ √ ∆ ∏ ∆∞ ™ ¶ π £ ∞ ¡ √ ∆ ∏ ∆∞ ™ ∞ ¶ √ ∆ √ À ™ K ¶ § ∏ ™ π ∂ ™ ∆ ∂ ƒ √ À ™ ° ∂ π ∆ √ ¡ ∂ ™ 157
k
p( x ) ≈
NV ( x )
όπου Ν ο αριθµός των δειγµάτων εκπαίδευσης για την κατανοµή p(x) και V(x) ο αντί-
στοιχος όγκος, που δίνεται ως συνάρτηση του x για να δηλώσει ότι ο όγκος αυτός
εξαρτάται από την εκάστοτε θέση. Αποδεικνύεται ότι όταν το k → ∞ και
(k / N ) → 0 , η προσέγγιση αυτή συγκλίνει στην τιµή p(x) ([1]).
Εξειδικεύοντας τα παραπάνω στο πρόβληµα της ταξινόµησης, και για την περίπτω-
ση δύο κλάσεων (η γενίκευση για περισσότερες κλάσεις είναι προφανής) προκύπτει
ο αλγόριθµος του Πίνακα 7.3. Για την εφαρµογή του αλγορίθµου διαθέτουµε Ν1 και
Ν2 δείγµατα εκπαίδευσης από τις κλάσεις ω1, ω2 αντίστοιχα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 158
158 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
¶›Ó·Î·˜ 7.3
Αλγόριθµος Ταξινόµησης, βασισµένος στην εκτίµηση των πυκνοτήτων πιθανότητας
µε τη µέθοδο των k πλησιέστερων γειτόνων.
• Μας δίδονται Ν1 διανύσµατα εκπαίδευσης από την ω1 και Ν2 από την ω2.
• Επιλέγουµε το k
• Με κέντρο το x αυξάνουµε σταδιακά τον όγκο της περιοχής ώστε να συµπερι-
ληφθούν k δείγµατα από την κλάση ω1 και k δείγµατα από την κλάση ω2. Οι
αντίστοιχοι όγκοι θα είναι V1 και V2.
• Εάν ταξινοµούµε το x στην ω1, διαφορετικά στην ω2.
Παρατήρηση
1. Μπορούµε να επιλέξουµε διαφορετικές τιµές του k για τις δύο κλάσεις.
2. Η περιοχή που επιλέγεται δεν είναι ανάγκη να είναι υπερκύβος. Μπορεί να έχει
και άλλες µορφές, όπως για παράδειγµα υπερσφαίρα. Αυτό διευκολύνει στην υλο-
ποίηση του αλγορίθµου. Υπολογίζουµε τις Ευκλείδειες αποστάσεις του x απ’ όλα
τα διανύσµατα κάθε κλάσης, κατατάσσουµε τα τελευταία κατά αύξουσα σειρά
απόστασης, και υπολογίζουµε τους αντίστοιχους όγκους της υπερσφαίρας που
περιλαµβάνουν k διανύσµατα για καθεµιά από τις κλάσεις.
¶·Ú¿‰ÂÈÁÌ· 7.4
Στο Σχ. 7.7 δίνεται η γεωµετρία κατανοµής των χαρακτηριστικών διανυσµάτων από
δυο κλάσεις. Τα διανύσµατα της ω1 συµβολίζονται µε «∗»και της ω2 µε «•».Το πλέγ-
µα έχει πλευρά 0.1. Να ταξινοµηθεί το διάνυσµα (0.7,0.6)Τ, σύµφωνα µε τη µέθοδο
εκτίµησης των πυκνοτήτων πιθανότητας µε βάση τους 5 πλησιέστερους γείτονες.
∆ίνεται P(ω1) = P(ω2) = 1/2.
1.3
0.9
0.6
0.3
0
™¯‹Ì· 7.7 0 0.4 0.7 1 1.4
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 159
7 . 6 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ ¶ § ∏ ™ π ∂ ™ ∆ ∂ ƒ ∏ ™ ° ∂ π ∆ ¡ π ∞ ™ ∏ ™ 159
Απάντηση
1 5 1 5 1 5 1 5
= ⋅ = 0. 63 και = ⋅ = 0.17.
( ) 2 59 ⋅ π ⋅ 4 ⋅ 2 ⋅ 0.01
2
2 Ν 1πρ 2 2 63 ⋅ π ⋅ 2 ⋅ 0.01 2 Ν π 2ρ
2
Μια παραλλαγή της προηγούµενης µεθόδου µας οδηγεί σ’ ένα νέο ταξινοµητή. Στις
προηγούµενες µεθόδους, το σηµείο αφετηρίας ήταν πάντα ο Bayesian ταξινοµητής
και οι διάφορες τεχνικές ήταν διαφορετικές απόπειρες εκτίµησης των εµπλεκοµέ-
νων pdf’s. Στην ενότητα αυτή θα «απελευθερωθούµε», για πρώτη φορά, από το βέλ-
τιστο ταξινοµητή.
Το σκεπτικό που δεσπόζει στο νέο ταξινοµητή είναι απλό. Για την ταξινόµηση του
άγνωστου προτύπου ακολουθούµε τα βήµατα:
• Επιλέγουµε ένα k, περιττό για την περίπτωση των δύο κλάσεων.
• Με κέντρο το x αυξάνουµε τον όγκο της περιοχής έως ότου περιλάβει συνολικά
k διανύσµατα εκπαίδευσης. Μετρούµε πόσα από αυτά ανήκουν στην κλάση ω1,
ας πούµε k1 και πόσα στην κλάση ω2, έστω k2.
• Ταξινοµούµε το x στην κλάση ω1 εάν k1>k2 και διαφορετικά στην κλάση ω2. Για
περισσότερες κλάσεις, ταξινοµούµε το x στην κλάση που εκπροσωπείται µε το
µεγαλύτερο αριθµό διανυσµάτων από τα k συνολικά.
Η απλούστερη εκδοχή της µεθόδου αυτής είναι όταν k = 1. Με άλλα λόγια, όταν µας
δίνεται το x, υπολογίζουµε την απόστασή του απ’ όλα τα διανύσµατα εκπαίδευσης
του Χ, και το ταξινοµούµε στην κλάση, στην οποία ανήκει το πλησιέστερο στο x από
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 160
160 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
PB ≤ PkNN ≤ PB + 2 PNN / k
¶·Ú¿‰ÂÈÁÌ· 7.5
Τα διανύσµατα εκπαίδευσης για δύο κλάσεις ω1, ω2 είναι:
Για την ω1:
x1 = (3.1, 2.5)T, x2 = (5.6, 7.1)T, x3 = (8.2, 2.4)T, x4 = (3.4, 3)T, x5 = (4.3, 8)T, x6 = (10,
11.1)T
x7 = (5.5, 3.5)T, x8 = (5.7, 2.5)T, x9 = (5,3)T.
Για την ω2:
x10 = (3.1, 3.9)T, x11 = (4,1)T, x12 = (7,2)T, x13 = (3.5, 3.5)T, x14 = (4.5, 3.8)T, x15 = (5.2,
2.6)T
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 161
7 . 6 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ ¶ § ∏ ™ π ∂ ™ ∆ ∂ ƒ ∏ ™ ° ∂ π ∆ ¡ π ∞ ™ ∏ ™ 161
Σωστό Λάθος
1. Η επιλογή των ουσιωδών χαρακτηριστικών πρέπει να
γίνεται µε τέτοιο τρόπο ώστε αυτά να έχουν την ίδια
τιµή για όλα τα στοιχεία µιας κλάσης. ❏ ❏
2. Για να λυθεί το πρόβληµα ταξινόµησης δύο κλάσεων
χωρίζουµε πάντα τον δισδιάστατο χώρο, το επίπεδο,
σε περιοχές καθεµιά από τις οποίες θα αντιστοιχεί
σε µία κλάση. ❏ ❏
3. Ένας κατά Bayes ταξινοµητής στη λειτουργία του
παρουσιάζει σφάλµατα, όπως συµβαίνει και µε
οποιοδήποτε άλλο ταξινοµητή. Η πιθανότητα όµως
να συµβεί ένα σφάλµα είναι η ελάχιστη δυνατή. ❏ ❏
4. Ο ταξινοµητής ελάχιστης Ευκλείδειας απόστασης
είναι µια παραλλαγή του Bayessian ταξινοµητή,
γι’ αυτό επιτυγχάνει πάντα πιθανότητα σφάλµατος
PED ελάχιστη, ίση µε του ταξινοµητή Bayes, PB. ❏ ❏
5. Η ταξινόµηση µε την τεχνική των παραθύρων Parzen
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 162
162 B AY E S I A N TA • π ¡ √ ª ∏ ∆ ∂ ™
™‡ÓÔ„Ë
Στο κεφάλαιο αυτό έγινε µια συνοπτική περιγραφή του τρόπου επιλογής των ουσιω-
δών χαρακτηριστικών µε τα οποία περιγράφονται τα πρότυπα ενός συστήµατος ταξι-
νόµησης. Στη συνέχεια παρουσιάστηκε η κατηγορία των τεχνικών ταξινόµησης που
στηρίζονται σε στατιστικές µεθόδους. Στα πλαίσια των τεχνικών αυτών γνωρίσαµε
τον ταξινοµητή Bayes, καθώς και τους ταξινοµητές ελάχιστης απόστασης. Επίσης
γνωρίσαµε τεχνικές προσέγγισης των συναρτήσεων πυκνότητας πιθανότητας οι οποί-
ες οδηγούν σε µεθόδους ταξινόµησης, όπως τη χρήση των k πλησιέστερων γειτόνων
ή του ενός πλησιέστερου γείτονα.
µÈ‚ÏÈÔÁÚ·Ê›·
™ÎÔfi˜
∫ ∂
8
º
Σκοπός του παρόντος κεφαλαίου είναι να εισαγάγει τον αναγνώστη σε µία σχετικά
νέα κατηγορία ταξινοµητών, γνωστών ως νευρωνικά δίκτυα. Τα δίκτυα αυτά αποτε-
λούν σήµερα ένα από τα βασικά εργαλεία σχεδιασµού ταξινοµητών.
∞ § ∞ π √
¶ÚÔÛ‰ÔÎÒÌÂÓ· ∞ÔÙÂϤÛÌ·Ù·
Όταν θα έχετε τελειώσει τη µελέτη του κεφαλαίου αυτού θα µπορείτε να:
• Eπιλύσετε ένα πρόβληµα ταξινόµησης µε τον Αλγόριθµο Perceptron, όταν οι κλά-
σεις είναι γραµµικά διαχωρίσιµες.
• Σχεδιάζετε το κύκλωµα ενός νευρώνα ή την Αρχιτεκτονική Perceptron, που µπο-
ρεί να υλοποιήσει τον οµώνυµο αλγόριθµο.
• Σχεδιάζετε Perceptrons δύο ή τριών στρωµάτων για την επίλυση προβληµάτων
ταξινόµησης µε δύο ή περισσότερες κλάσεις.
• Περιγράψετε τη βασική µορφή του αλγορίθµου Οπισθοδροµικής ∆ιάδοσης, που
χρησιµοποιείται στην εκπαίδευση πολυστρωµατικών Perceptrons,
ŒÓÓÔȘ ÎÏÂȉȿ
• Αλγόριθµος Απότοµης Κατάδυσης
• Αλγόριθµος Εκµάθηνσης
• Αλγόριθµος Οπισθοδροµικής ∆ιάδοσης.
• Αλγόριθµος Perceptron
• Γραµµικά ∆ιαχωρίσιµες κλάσεις
• Εκπαίδευση του Perceptron
• Κρυφό Στρώµα Νευρώνων
• Λογιστική Συνάρτηση.
• Μηχανή που Μαθαίνει.
• Νευρώνας
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 164
164 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡
∂ÈÛ·ÁˆÁÈΤ˜ ¶·Ú·ÙËÚ‹ÛÂȘ
Όπως έχουµε ήδη αναφέρει στο προηγούµενο κεφάλαιο, ο σκοπός ενός ταξινοµητή
είναι να χωρίσει το χώρο σε περιοχές και να τις «ονοµατίσει» σύµφωνα µε τις υπάρ-
χουσες κλάσεις. Ο βέλτιστος τρόπος για να επιτευχθεί αυτό είναι µε την εφαρµογή
του Bayesian ταξινοµητή. Είδαµε, όµως, ότι η εφαρµογή του βέλτιστου ταξινοµητή
δεν είναι πάντα εύκολη, λόγω έλλειψης πληροφορίας σχετικά µε τις αναγκαίες για
τους υπολογισµούς pdf’s.
Στο κεφάλαιο αυτό θα «ξεχάσουµε» τον κατά Bayes ταξινοµητή και θα προσπαθή-
σουµε να διαιρέσουµε το χώρο µε άλλους τρόπους. Οι τρόποι αυτοί θα είναι βέλτι-
στοι ως προς κάποιο κριτήριο, το οποίο όµως δεν είναι κατ’ ανάγκη η πιθανότητα
λάθους. Οι ταξινοµητές που θα εστιάσουµε έχουν τις ρίζες τους στην έρευνα που άρχι-
σε το τέλος της δεκαετίας του ’50 µε στόχο να κατασκευαστούν «µηχανές που µαθαί-
νουν». Στην κατεύθυνση αυτή έγινε προσπάθεια να µοντελοποιηθεί ο τρόπος µε τον
οποίο λειτουργούν τα βασικά στοιχεία του ανθρώπινου εγκεφάλου, οι νευρώνες.
Αυτός είναι και ο λόγος που οι ταξινοµητές που θα εξετάσουµε στο κεφάλαιο αυτό
είναι γνωστοί και ως νευρωνικά δίκτυα.
Στην αρχή του κεφαλαίου, στην Ενότητα 8.1, θα εστιάσουµε στο βασικό δοµικό στοι-
χείο τέτοιων ταξινοµητών, που είναι γνωστό ως Perceptron ή νευρώνας. Ο απλός
αυτός ταξινοµητής διαχωρίζει το χώρο γραµµικά µε ένα υπερεπίπεδο. Στη συνέχεια,
Ενότητα 8.2, το βασικό αυτό δοµικό στοιχείο χρησιµοποιείται για την ανάπτυξη πιο
πολύπλοκων αρχιτεκτονικών, µε δυνατότητες µη γραµµικής διαίρεσης του χώρου.
Στην ίδια ενότητα γίνεται η περιγραφή της µεθοδολογίας εκπαίδευσης πολυστρωµα-
τικών Perceptrons.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 165
x
w0
– wT = [w1,w2]
w2 z
™¯‹Ì· 8.1
w Γεωµετρική ερµη-
νεία των παραµέ-
τρων που περιγρά-
φουν µία ευθεία,
d
wTx+w0 = 0, για
w0 x1 w1>0, w2>0,
–
w1 – + w0<0 .
Στο Σχ. 8.1 φαίνεται η γεωµετρική ερµηνεία (για την περίπτωση δύο διαστάσεων)
των παραµέτρων που υπεισέρχονται στη γενική εξίσωση:
g(x) = wTx+w0 = 0 (8.1)
Για l διαστάσεις αυτή είναι η εξίσωση ενός υπερεπιπέδου, στον l–διάστατο χώρο,
των χαρακτηριστικών διανυσµάτων. Από τη µια πλευρά (+) του υπερεπιπέδου έχου-
µε g(x)>0 και από την άλλη πλευρά (–) g(x)<0. Το διάνυσµα παραµέτρων w είναι
κάθετο στο υπερεπίπεδο g(x) = 0. Οι αποστάσεις d και z του σχήµατος αποδεικνύε-
ται ότι δίνονται από τις σχέσεις:
w0 g ( x)
d= και z =
w12 + w22 w12 + w22
Όταν w0 = 0, το υπερεπίπεδο διέρχεται από την αρχή των αξόνων. Για τους σκοπούς
του κεφαλαίου µπορούµε να γράψουµε την (8.1) ισοδύναµα ως
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 166
166 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡
ˆ =0
xˆ T w (8.2)
όπου x̂ T = (xΤ,1) και ŵ T = (wT, w0). Με άλλα λόγια, η (8.2) µας λέει ότι µπορού-
µε να εργαζόµαστε ισοδύναµα στον (l+1)–διάστατο χώρο και µε υπερεπίπεδα που
διέρχονται από την αρχή των αξόνων. Στη συνέχεια θα εργαζόµαστε µε υπερεπίπε-
δα της µορφής wTx = 0 χωρίς, εποµένως, βλάβη της γενικότητας.
Το ζητούµενο τώρα είναι, εάν µας δοθούν τα Ν διανύσµατα εκπαίδευσης του Χ, πώς
µπορούµε να προσδιορίσουµε ένα υπερεπίπεδο που να διαχωρίζει τις κλάσεις. Τη
λύση την έδωσε πρώτος ο Rosenblatt [1]. Η πορεία που θα ακολουθήσουµε είναι
αυτή της ελαχιστοποίησης ενός κατάλληλα επιλεγµένου κόστους µε τη βοήθεια ενός
αναδροµικού αλγορίθµου. Η συνάρτηση κόστους, που υιοθετείται για το παρόν πρό-
βληµα, έχει ενδιαφέρον. Εάν w είναι το διάνυσµα των συντελεστών ενός υπερεπι-
πέδου, ορίζουµε τη Perceptron συνάρτηση κόστους ως
J (w) = ∑ (x w)δ
x ∈Y
T
x (8.3)
−1, x ∈ω1
δx = (8.4)
+1, x ∈ω 2
w(t + 1) = w(t ) − ρt ∑δ x
x ∈Y
x (8.5)
Για αρχικό όρο w(0) της ακολουθίας των διανυσµάτων–συντελεστών, που υπολογί-
ζεται µέσω της (8.5) χρησιµοποιείται ένα τυχαίο µη µηδενικό διάνυσµα, και για ρt
µια κατάλληλα επιλεγµένη ακολουθία, π.χ., ρt = σταθερά<2, ή ρt = σταθερά/t. Απο-
δεικνύεται ότι, κάτω από αυτές τις προϋποθέσεις ο αλγόριθµος Perceptron συγκλί-
νει σε µια λύση µετά από πεπερασµένο αριθµό βηµάτων αναδροµής. Το πόσα
βήµατα απαιτούνται εξαρτάται από την αρχική τιµή w(0) και την επιλογή της ρt. Για
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 167
168 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡
x2
x(t)
™¯‹Ì· 8.2
w(t+1)
Η ευθεία w(t)(δια-
κεκοµένη) ταξινο-
µεί λάθος το x(t). w* x(t)
Ο αλγόριθµος
Perceptron στρέ- x1
φει το επίπεδο
(w(t+1)) ώστε να
ω1
περιλάβει το x(t)
στη σωστή κλάση. ω2
¶·Ú¿‰ÂÈÁÌ· 8.1
Σε ένα πρόβληµα ταξινόµησης δύο κλάσεων χρησιµοποιούνται διανύσµατα χαρα-
κτηριστικών µε δύο συνιστώσες. Στο Σχ. 8.3 έχουν σχεδιαστεί µε «+» και «ο» τα
αναγνωρισµένα διανύσµατα καθώς και η ευθεία µε εξίσωση x1+x2–0.5 (αυτή µε τη
διακεκοµµένη γραµµή), η οποία έχει προκύψει κατά την εκτέλεση του t βήµατος της
(8.5). Όπως φαίνεται από το σχήµα, η ευθεία αυτή χωρίζει το χώρο των χαρακτηρι-
στικών αφήνοντας όµως τα διανύσµατα (0.4, 0.05)Τ και (–0.2, 0.75)Τ σε λάθος περιο-
χή. Να εκτελεστεί η επόµενη επανάληψη του αλγορίθµου της (8.5), να υπολογιστεί
η νέα εξίσωση της ευθείας, να σχεδιαστεί η ευθεία στο διάγραµµα και να εξεταστεί
αν διαχωρίζει σωστά όλα τα δείγµατα. ∆ίνεται ρt = ρ = 0.7.
Απάντηση
Από τα δεδοµένα προκύπτουν: w(t) = (1,1,–0.5)T, x1 = (0.4,0.05,1)T, x2 =
(–0.2,0.75,1)T, δx1 = –1, και δx2 = 1.
Η επόµενη επανάληψη, σύµφωνα µε την (8.5) δίνει:
w(t+1) = w(t)–ρ(δx1x1+ δx2x2), ή
w(t+1) = (1,1,–0.5)T–0.7[(–1) (0.4,0.05,1)T+(+1) (–0.2,0.75,1)T], ή
w(t+1) = (1.42,0.51,–0.5)T.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 169
x2 1
0.5
™¯‹Ì· 8.3
Ένα παράδειγµα
–0.5
–0.5 0 0.5 1 του αλγόριθµου
x1 Perceptron.
Στο Σχ. 8.4 φαίνεται η αρχιτεκτονική Perceptron ή όπως επίσης λέγεται ενός νευ-
ρώνα. Τα ουσιώδη χαρακτηριστικά x1,…, xl διεγείρουν τα στοιχεία (nodes) της εισό-
δου. Καθένα από αυτά πολλαπλασιάζεται µε το αντίστοιχο βάρος wi. Τα wi είναι γνω-
στά ως συνάψεις. Τα επιµέρους γινόµενα αθροίζονται µαζί µε το w0, γνωστό ως
κατώφλιο (threshold). Ο υπολογισµός των συνάψεων και του κατωφλίου γίνεται µε
τη βοήθεια του αλγoρίθµου Perceptron. Στη συνέχεια η έξοδος του αθροιστή περνά
από µία µη γραµµική συνάρτηση f(.), που στην προκειµένη περίπτωση είναι η µονα-
διαία βηµατική συνάρτηση.
1, z > 0
f (z) =
0, z < 0
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 170
170 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡
Το βασικό αυτό στοιχείο χρησιµοποιήθηκε από τον Rosenblat στα τέλη της δεκαε-
τίας του 50 για να µοντελοποιήσει τους βασικούς νευρώνες του εγκεφάλου. Είναι
ένα απλό παράδειγµα µιας µηχανής που µαθαίνει (learning mahine). Με άλλα
λόγια, ενός στοιχείου του οποίου οι ελεύθερες παράµετροι (π.χ. συνάψεις κατώφλι)
υπολογίζονται µε τη βοήθεια ενός αλγορίθµου εκµάθηνσης (π.χ., αλγόριθµος
Perceptron) που ενεργεί πάνω στο σύνολο των διανυσµάτων εκπαίδευσης.
8 . 2 ª ∏ ° ƒ∞ ª ª π ∫ ∞ ¢ π ∞ à ø ƒ π ™ π ª ∞ ¶ ƒ √ µ § ∏ ª ∞∆∞ 171
x2 x2
XOR OR
ω1 ω2 ω1 ω1
1 1
™¯‹Ì· 8.5
ω2 ω1 ω2 ω2 Γεωµετρία του
0 1 x1 0 1 x1 προβλήµατος (a)
(α) (β) XOR και (b) OR.
¶›Ó·Î·˜ 8.1
Οι Αληθοπίνακες των πυλών ΧΟR και ΟR.
x1 x2 XOR Κλάση x1 x2 OR Κλάση
0 0 0 ω2 0 0 0 ω2
0 1 1 ω1 0 1 1 ω1
1 0 1 ω1 1 0 1 ω1
1 1 0 ω2 1 1 1 ω1
Για την αντιµετώπιση του προβλήµατος XOR θα ακολουθήσουµε την εξής πορεία.
Θα σχηµατίσουµε δύο αντί µιας ευθείας (υπερεπίπεδα), όπως φαίνεται στο Σχ. 8.6.
Η κλάση ω1 βρίσκεται µεταξύ των ευθειών και η ω2 εκτός των ευθειών. Ας δούµε
τώρα αυτή τη διαδικασία λίγο διαφορετικά, που θα µας οδηγήσει αργότερα σε γενι-
κεύσεις. Στην ουσία χωρίζουµε τους υπολογισµούς µας σε δύο φάσεις. Στην πρώτη
φάση δηµιουργούµε δύο υπερεπίπεδα g1(x) = 0 και g2(x) = 0, χρησιµοποιώντας δύο
Perceptrons. Η έξοδος των Perceptrons αυτών είναι y1 και y2 αντίστοιχα, όπως φαί-
νεται και στον Πίνακα 8.2.
Πράγµατι, σε σχέση µε το πρώτο υπερεπίπεδο (ευθεία) g1(x) του Σχ. 8.6 (έξοδος y1
στον στον Πίνακα) µόνο το (0,0) σηµείο βρίσκεται στη (–) πλευρά και όλα τα άλλα
στην (+). Το τοπίο αλλάζει για το υπερεπίπεδο (ευθεία) g2(x) (έξοδος y2). Συνδυά-
ζοντας τώρα τα y1, y2, Σχ.8.7, παρατηρούµε ότι τα σηµεία της κλάσης ω2 (µεταξύ
των ευθειών στο Σχ. 8.6) αντιστοιχούν σε ένα σηµείο (1, 0) και τα εκτός των ευθει-
ών (Σχ. 8.6) στα σηµεία (0, 0) και (1, 1). Τα τρία όµως αυτά σηµεία είναι γραµµικά
διαχωρίσιµα!
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 172
172 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡
x2
ω1 ω2
(0,1)
(1,1)
™¯‹Ì· 8.6
ω2 ω1
Ταξινόµηση του
(0,0) (1,0) x1
XOR µε δύο
ευθείες. g1(x) g2(x)
¶›Ó·Î·˜ 8.2
Αληθοπίνακας για τις δύο φάσεις υπολογισµού του XOR προβλήµατος.
1η φάση 2η φάση
x1 x2 y1 y2
0 0 0(–) 0(–) ω2 (0)
1 0 1(+) 0(–) ω1 (1)
0 1 1(+) 0(–) ω1 (1)
1 1 1(+) 1(+) ω2 (0)
y2
ω2
(1,1)
™¯‹Ì· 8.7
Τα σηµεία του
XOR προβλήµα-
τος είναι γραµµικά ω2 ω1
διαχωρίσιµα στον
(0,0) (1,0) y1
νέο χώρο (y1,y2).
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 173
8 . 2 ª ∏ ° ƒ∞ ª ª π ∫ ∞ ¢ π ∞ à ø ƒ π ™ π ª ∞ ¶ ƒ √ µ § ∏ ª ∞∆∞ 173
x1 1
1
1 ™¯‹Ì· 8.8
–1
1
2 –1 Perceptron
2
–1
2 στρωµάτων για
1
x2 την επίλυση
του XOR
–3
2 προβλήµατος.
x1 y1
y2
x2
™¯‹Ì· 8.9
yp Αρχιτεκτονική
xl Perceptron 2
στρωµάτων
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 174
174 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡
Στο Σχ. 8.9, καθένας από τους p νευρώνες του κρυφού στρώµατος υλοποιεί ένα υπε-
ρεπίπεδο, στον l–διάστατο χώρο των χαρακτηριστικών. Η έξοδος του κάθε νευρώ-
να είναι 1 ή 0 ανάλογα µε τη θέση του διανύσµατος εισόδου ως προς το αντίστοιχο
υπερεπίπεδο. Το Σχ. 8.10 αντιστοιχεί σε ένα Perceptron στο δισδιάστατο (l = 2) χώρο
µε τρεις νευρώνες στο κρυφό στρώµα (ένας για κάθε ευθεία). Οι τρεις ευθείες g1, g2,
g3 χωρίζουν το επίπεδο των χαρακτηριστικών σε επτά περιοχές (πολύεδρα στη γενι-
κή περίπτωση). Σε καθεµιά από αυτές τις περιοχές αντιστοιχεί και µια τριάδα αριθ-
µών (y1, y2, y3) που δείχνει τη σχετική θέση (1(+) και 0(–)) της περιοχής ως προς τις
ευθείες g1, g2, g3, αντίστοιχα. Στο σχήµα επίσης οι δύο περιοχές έχουν αντιστοιχη-
θεί, στις δύο κλάσεις.
+ g3
ω2x
– 111
ω2x
ω1x 110
™¯‹Ì· 8.10
011
Περιοχές που ω2x
+ 010
χωρίζουν τον δισ- – ω1x ω1x ω2x g2
διάστατο χώρο 001 000 100
τρεις ευθείες. + – g1
Με άλλα λόγια, ο «κωδικός» κάθε περιοχής είναι το σηµείο (y1, y2, y3) στο χώρο που
µετασχηµατίζουν την 2–διάστατη είσοδο οι τρεις νευρώνες του κρυφού στρώµατος.
Ουσιαστικά, αυτός είναι ένας µετασχηµατισµός της εισόδου στις κορυφές ενός µονα-
διαίου κύβου (υπερκύβου στην περίπτωση p>3 νευρώνων). Το κρίσιµο ζήτηµα εδώ
είναι το πώς κατανέµονται οι περιοχές αυτές στις δύο κλάσεις ω1, ω2. Για το παρά-
δειγµα του σχήµατος 8.10, οι κλάσεις είναι έτσι κατανεµηµένες, ώστε οι κορυφές
του κύβου που αντιστοιχούν στην κλάση ω1 να είναι γραµµικά διαχωρίσιµες από τις
κορυφές που αντιστοιχούν στην κλάση ω2. (Παρατηρήστε ότι µία κορυφή, η 101 γι’
αυτή την περίπτωση δεν αντιστοιχεί σε περιοχή. Αυτό συµβαίνει πάντα και η κορυ-
φή αυτή δεν επηρεάζει το πρόβληµα.). Έτσι, η υλοποίηση ενός επιπέδου από το νευ-
ρώνα εξόδου διαχωρίζει τις κλάσεις, Σχ. 8.11. Εάν όµως οι περιοχές κατανέµονται
στις κλάσεις έτσι ώστε οι κορυφές του κύβου που αντιστοιχούν στην κλάση ω1 να
µην είναι γραµµικά διαχωρίσιµες από εκείνες που αντιστοιχούν στην ω2, τότε δεν
είναι δυνατόν το επίπεδο που υλοποιεί ο νευρώνας εξόδου να διαχωρίσει τις δύο κλά-
σεις. Για παράδειγµα, εάν η ω1 αποτελείται από τις περιοχές 000 και 111 και η ω2
από τις υπόλοιπες, δεν θα ήταν δυνατόν να σχεδιάσουµε ένα επίπεδο που να έχει στη
µια του πλευρά τις κορυφές της ω1 και στην άλλη πλευρά τις υπόλοιπες.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 175
8 . 2 ª ∏ ° ƒ∞ ª ª π ∫ ∞ ¢ π ∞ à ø ƒ π ™ π ª ∞ ¶ ƒ √ µ § ∏ ª ∞∆∞ 175
011 111
™¯‹Ì· 8.11
Οι κωδικοί των περιο-
χών του σχήµατος
010
8.10 αντιστοιχούν στις
κορυφές ενός κύβου.
101
y2 y3 Το επίπεδο, που υλο-
ποιεί ο νευρώνας εξό-
δου, διαχωρίζει τις
000 100 y1 κλάσεις.
176 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡
είσοδο σε ένα άλλο νευρώνα που υλοποιεί µια OR πύλη, η έξοδος του νευρώνα
αυτού θα είναι πάντα 1 για την ω1 και 0 για την ω2.
x1
x2
™¯‹Ì· 8.12
Αρχιτεκτονική
Perceptron 3 xl
στρωµάτων.
8 . 2 ª ∏ ° ƒ∞ ª ª π ∫ ∞ ¢ π ∞ à ø ƒ π ™ π ª ∞ ¶ ƒ √ µ § ∏ ª ∞∆∞ 177
¶·Ú¿‰ÂÈÁÌ· 8.2
∆ίνονται τα παρακάτω διανύσµατα και οι κλάσεις στις οποίες ανήκουν:
ω1: (0.1, – 0.2)Τ, (0.2, 0.1)Τ, (–0.15, 0.2)Τ, (1.1, 0.8)Τ, (1.2, 1.1)Τ
ω2: (1.1, – 0.1)Τ, (1.25, 0.15)Τ, (0.9, 0.1)Τ, (0.1, 1.2)Τ, (0.2, 0.9)Τ
Να ελεγχθεί εάν αυτά είναι γραµµικά διαχωρίσιµα, και να σχεδιαστεί µια κατάλλη-
λη αρχιτεκτονική Perceptron που να τα διαχωρίζει.
Απάντηση
Από το Σχ. 8.13 φαίνεται πως τα διανύσµατα αυτά δεν είναι γραµµικά διαχωρίσιµα. ∆ύο
ευθείες γραµµές που διαχωρίζουν τις δύο κλάσεις είναι οι 2x1+2x2–1 = 0 και 2x1+2x2–3
= 0. Εποµένως, το Perceptron δύο στρωµάτων του σχήµατος 8.13 ταξινοµεί τις κλάσεις.
Ο νευρώνας εξόδου υλοποιεί την ευθεία y1 − y2 − 1 / 2 = 0 στον (y1, y2) χώρο.
x2
1.5 x1 2
1
2
–1
2 –1 ™¯‹Ì· 8.13
–1
0.5 x2 2
2 Γεωµετρία του
–3 παραδείγµατος 8.2
0.5 1.5 x1 και το Perceptron
g1 g2 που επιλύει το
(α) (β) πρόβληµα.
Σχεδιάστε τις ακόλουθες τρεις ευθείες στο χώρο των δύο διαστάσεων: x1+x2 = 0,
x2 = 1/4, –x1+x2 = 0.
Για καθεµιά από τις περιοχές που δηµιουργούνται από τις τοµές τους, προσδιορίστε
τις κορυφές του κύβου στις οποίες αντιστοιχούν, µετά το µετασχηµατισµό που υλο-
ποιούν οι νευρώνες του πρώτου στρώµατος ενός πολυστρωµατικού Perceptron. Συν-
δυάστε τις περιοχές που δηµιουργούνται έτσι ώστε α) το πρόβληµα να είναι διαχωρί-
σιµο από Perceptron 2 στρωµάτων και β) από Perceptron 3 στρωµάτων. Για καθεµιά
από τις περιπτώσεις προσδιορίστε αναλυτικά συνάψεις και παραµέτρους κατωφλίου.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 178
178 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡
• Θεωρούµε ότι έχουµε l στοιχεία εισόδου ( x ∈Rl ) , και m νευρώνες εξόδου, ένα
για κάθε κλάση. Η έξοδος κάθε νευρώνα, όταν στην είσοδο εµφανίζεται το x(i),
είναι yˆ p (i ), p = 1, 2,..., m . Οι έξοδοι αυτοί αποτελούν τα στοιχεία ενός διανύσµα-
)
τος y(i ) , το οποίο θα θέλαµε, ιδανικά, να ισούται µε y(i ) . Στην πραγµατικότη-
)
τα όµως διαφέρουν. Αυτός είναι ο λόγος που το y(i ) είναι γνωστό ως το πραγ-
µατικό διάνυσµα εξόδου και το y(i ) ως το επιθυµητό.
N
J= ∑ Ε (i )
i =1
όπου
m
∑ ( yˆ (i) − y (i))
1
Ε (i ) = p p
2
2 p =1
1
f (x) =
1 + exp( − ax )
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 179
8 . 2 ª ∏ ° ƒ∞ ª ª π ∫ ∞ ¢ π ∞ à ø ƒ π ™ π ª ∞ ¶ ƒ √ µ § ∏ ª ∞∆∞ 179
όπου η παράµετρος α καλείται κλίση της συνάρτησης. Όσο πιο µεγάλη η τιµή της τόσο
πιο πολύ πλησιάζει η f(x) τη µοναδιαία βηµατική, Σχ. 8.14. Η προσέγγιση της βηµα-
τικής από τη λογιστική συνάρτηση είναι µία από πολλές άλλες δυνατές επιλογές [2].
f(x)
1
α3 > α2 > α1
™¯‹Ì· 8.14
Η λογιστική
συνάρτηση για διά-
0 x φορες τιµές του α.
όπου w qj είναι το διάνυσµα των παραµέτρων (συνάψεις και κατώφλι) του j–νευ-
ρώνα στο q στρώµα και t το παρόν βήµα αναδροµής του αλγορίθµου. Η διόρθωση
∆ είναι ανάλογη του gradient του κόστους J ως προς w qj (t). Λόγω της πολυπλο-
κότητος ενός πολυστρωµατικού Perceptron ο υπολογισµός του gradient δεν είναι
απλός. Ο βασικός λόγος είναι ότι οι τιµές των παραµέτρων των νευρώνων ενός
στρώµατος επηρεάζονται από τις τιµές των παραµέτρων των νευρώνων των προη-
γούµενων στρωµάτων. Ο υπολογισµός των gradients επιτυγχάνεται υπολογίζοντας
πρώτα τα gradients ως προς τους νευρώνες του τελευταίου στρώµατος, στη συνέ-
χεια του προτελευταίου, κ.ο.κ. Αυτός είναι ο λόγος που ο αλγόριθµος είναι γνω-
στός ως «Αλγόριθµος Οπισθοδροµικής ∆ιάδοσης». Οι λεπτοµέρειες είναι αρκετά
τεχνικές και παραλείπονται. Ο ενδιαφερόµενες αναγνώστης παραπέµπεται στο [2].
Παρατηρήσεις
1. Η συνάρτηση κόστους J είναι µία µη γραµµική συνάρτηση ως προς τις αγνώστους
παραµέτρους. Εποµένως η συνάρτηση αυτή αποτελείται, γενικά, από ένα αριθµό
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 180
180 T∞ • π ¡ √ ª ∏ ∆ ∂ ™ N ∂ À ƒ ø ¡ π ∫ ø ¡ ¢ π ∫ ∆ À ø ¡
™YNOæH 181
™‡ÓÔ„Ë
Στο κεφάλαιο αυτό παρουσιάσαµε το βασικό δοµικό στοιχείο των νευρωνικών
δικτύων, τον νευρώνα ή Perceptron. ∆ιαπιστώσαµε ότι µε τη χρήση ενός Perceptron
µπορεί να διαχωριστούν δύο κλάσεις εφόσον το πρόβληµα επιδέχεται γραµµική λύση.
Στη συνέχεια παρουσιάστηκε ο τρόπος ενσωµάτωσης του Perceptron σε αρχιτεκτο-
νικές δύο και τριών στρωµάτων για την επίλυση προβληµάτων ταξινόµησης, που
απαιτούν µη γραµµικές λύσεις. Τέλος παρουσιάσαµε την φιλοσοφία του αλγορίθµου
οπισθοδροµικής διάδοσης, µια από τις γνωστές διαδικασίες που χρησιµοποιούνται
για τον καθορισµό της τιµής των παραµέτρων των Perceptrons στις αρχιτεκτονικές
των στρωµάτων.
µÈ‚ÏÈÔÁÚ·Ê›·
1.1
Η σωστή αντιστοίχιση είναι η ακόλουθη:
Κατωφλίωση Βελτίωση Εικόνας
Εξαγωγή Χαρακτηριστικών
Ανίχνευση Ακµών
Εξάλειψη
των παραµορφώσεων εικόνας Αναγνώριση Μορφών και Σκηνής
1.2
Σωστό Λάθος
1. Ο υπολογιστής, όπως υπερέχει του ανθρώπου στην
εκτέλεση των αριθµητικών πράξεων, έτσι υπερτερεί
αυτού και στην ικανότητα αναγνώρισης της εικόνας. ❏ ✓
❏
Ο άνθρωπος µπορεί να αναγνωρίσει αντικείµενα και
µορφές από µια εικόνα µε πολλές αλλοιώσεις και µε
µικρό φωτισµό, κάτι που ο υπολογιστής δεν µπορεί να
πραγµατοποιήσει.
2. Για την τόνωση των ακµών µιας εικόνας
χρησιµοποιείται παραγώγιση της εικόνας. ✓
❏ ❏
Μια εικόνα παραγωγίζεται µε αριθµητική µέθοδο και
ανιχνεύεται η κατεύθυνση της κλίσης.
3. Τα συστήµατα λήψης εικόνας στα ΣΟΑ παράγουν
τέλειες εικόνες, έτοιµες για ανάλυση. ❏ ✓
❏
Πολλές φορές πρόκειται για συστήµατα φορητά και σχετι-
κώς φθηνά, γι’ αυτό παρουσιάζουν ατέλειες στους φακούς
τους και µη γραµµικότητες στα συστήµατα ψηφιοποίησης.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 184
2.1
Σωστό Λάθος
1. Ένα σήµα, το οποίο σε κάποια σηµεία του πεδίου
ορισµού του λαµβάνει αρνητικές τιµές δεν µπορεί
να παρασταθεί ως εικόνα. ❏ ✓
❏
∆εν είναι αλήθεια. Μπορούµε να προσθέσουµε σε όλα τα
δείγµατα µια σταθερή ποσότητα, έτσι ώστε να γίνουν όλα
µη αρνητικά. Η πρόσθεση της ίδιας ποσότητας, ή ακόµη και
ο πολλαπλασιασµός όλων των δειγµάτων µε τον ίδιο αριθ-
µό δεν αλλάζει τη µορφή της παράστασης ενός σήµατος.
2. ∆εν είναι δυνατόν να διαβιβαστεί µια εικόνα µε
τηλεπικοινωνιακό τρόπο παρά µόνο αν γίνει ψηφιακή. ❏ ✓
❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 185
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 185
Όποιος απάντησε σωστά και στις έξι ερωτήσεις αξίζει συγχαρητήρια. Το ίδιο λέµε
και σ’ εκείνους που απάντησαν σωστά σε όλες εκτός από τις 2 και 3. Όποιος απά-
ντησε σε λιγότερες από τρεις ερωτήσεις δεν πρέπει να απογοητευτεί αλλά θα πρέπει
να διαβάσει ξανά τις ενότητες 2.1 και 2.2, οπότε και θα είναι καλύτερα προετοιµα-
σµένος για τη συνέχεια.
2.2
Σωστές απαντήσεις είναι η Γ και η ∆.
Α. Η ποιότητα µιας φωτογραφίας εξαρτάται από την ποιότητα της φωτογραφικής
µηχανής. Καλή ποιότητα µπορεί να υπάρξει και στην αναλογική και στη ψηφια-
κή φωτογραφία.
B. Είναι εύκολη η εκτύπωση σε απλό χαρτί της ψηφιακής φωτογραφίας. Ακόµη µπο-
ρεί να εκτυπωθεί και σε φωτογραφικό χαρτί αν δοθεί στο φωτογραφείο.
Γ, ∆. Αν επιλέξατε Γ και ∆ συγχαρητήρια! Μερικά από τα πλεονεκτήµατα της ψηφια-
κής εικόνας είναι η εύκολη διαβίβασή της µέσα από το δίκτυο, αλλά και η επε-
ξεργασία της µε τον υπολογιστή. Με την επεξεργασία αυτή, εκτός των άλλων,
µπορούν να πραγµατοποιηθούν αλλαγές στα πρόσωπα και στη σκηνή της αρχικής
εικόνας, το γνωστό µας montage. Αν δεν επιλέξατε ούτε τη Γ ούτε τη ∆ µην απο-
γοητεύεστε, µελετήστε πιο προσεκτικά την ενότητα 2.1 και θα είστε καλύτερα
προετοιµασµένοι για να συνεχίσετε στις επόµενες ενότητες.
Ε. Η µεγάλης κλίµακας µεγέθυνση της εικόνας απαιτεί τον υπολογισµό της τιµής
του σήµατος σε πολλά σηµεία µεταξύ των δειγµάτων. Επίσης, πρέπει να αναδει-
χτούν λεπτοµέρειες που βρίσκονται σε απόσταση µικρότερη από το µήκος της
πλευράς του πλέγµατος δειγµατοληψίας, κάτι που και η θεωρία το αποκλείει. Η
επιλογή της Ε ως σωστής απάντησης φανερώνει ότι δεν έχετε κατανοήσει πλή-
ρως τις παρατηρήσεις της ενότητας 2.2. Μελετήστε την ενότητα ξανά και την επό-
µενη φορά θα αντιµετωπίζετε µε επιτυχία παρόµοιες ερωτήσεις.
2.3
Σωστό Λάθος
1. Το σφάλµα κβάντισης µειώνεται όσο το πλήθος
σταθµών κβάντισης αυξάνει. ✓
❏ ❏
Ακριβώς! Επιλέγοντας λοιπόν αρκετά µεγάλο Q ο θόρυ-
βος της ψηφιακής εικόνας µειώνεται στα επίπεδα του
θορύβου της αναλογικής.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 187
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 187
2.4
α) Τα αρχικά δείγµατα της έγχρωµης εικόνας αποτελούνται από τρεις πίνακες, τους
ΕR, ΕG, ΕB, καθενας από τους οποίους έχει µέγεθος Ν = 500 × 300 = 15 × 104
δείγµατα.
Επειδή το πλήθος των σταθµών κβάντισης Q και το πλήθος των bits της κωδικο-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 188
3.1
Σωστό Λάθος
1. Η ποιότητα µιας ψηφιακής εικόνας διατηρείται
αναλλοίωτη για πάντα. ❏ ✓
❏
Το σωστό είναι ότι η ποιότητα της εικόνας διατηρείται
αναλλοίωτη εφόσον το αποθηκευτικό µέσο παραµένει
ανέπαφο. Για παράδειγµα, η ποιότητα ψηφιακής εικό-
νας, που έχει αποθηκευτεί σε µαγνητική ταινία, παρα-
µένει σταθερή εφόσον φροντίζουµε να γίνεται ανανέω-
ση της εγγραφής σε τακτά χρονικά διαστήµατα
2. Ο θόρυβος που έχει προσβάλει µια εικόνα είναι δυνατόν
µε κατάλληλα φίλτρα να εξουδετερωθεί πλήρως
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 189
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 189
3.2
Σωστό Λάθος
1. Μια εικόνα κατά τη διαβίβασή της µέσα από ψηφιακό
κανάλι είναι δυνατόν να προσβληθεί από θόρυβο. ✓
❏ ❏
Άλλωστε ο κρουστικός θόρυβος δηµιουργείται συνήθως
κατά τη διαβίβαση ψηφιακής εικόνας µέσα από κανάλι µε
σχετικά µεγάλη πιθανότητα σφάλµατος. Κατά τη διαβίβαση
όµως µέσα από αξιόπιστα κανάλια, όπως είναι τα δίκτυα
επικοινωνίας, η ψηφιακή εικόνα παραµένει ανέπαφη
2. Κατά την εφαρµογή του φίλτρου κινούµενου µέσου
ή του φίλτρου µεσαίου σε µια εικόνα µε βάθος 8 bits/pixel,
τα pixels της εικόνας που προκύπτει έχουν τιµή
από 0 µέχρι 255. ✓
❏ ❏
Πράγµατι στο φίλτρο µεσαίου η τιµή των pixels της νέας
εικόνας είναι τιµή κάποιου pixel της αρχικής, εποµένως
ανήκει πάντα στην ίδια περιοχή τιµών. Το ίδιο συµβαίνει
και µε το φίλτρο κινούµενου µέσου στο οποίο οι νέες τιµές
υπολογίζονται ως ο µέσος όρος ενός αριθµού από τις
αρχικές. Στην τελευταία αυτή περίπτωση, καθώς ο µέσος
όρος δεν είναι πάντα ακέραιος, πρέπει να γίνει στρογγυλο-
ποίηση της τιµής που υπολογίζεται από τη σχέση (3.6)
3. Το φίλτρο κινούµενου µέσου δηµιουργεί θόλωµα
στην εικόνα όπου εφαρµόζεται. ✓
❏ ❏
Πράγµατι η εντύπωση του θολώµατος δίνεται από τις
ακµές της εικόνας, οι οποίες µε την εφαρµογή του
µέσου όρου της περιοχής γίνονται πιο λείες.
4. Το φίλτρο κινούµενου µέσου δεν είναι το ίδιο
αποτελεσµατικό όπως το φίλτρο µεσαίου,
στην αντιµετώπιση του κρουστικού θορύβου. ✓
❏ ❏
Αυτό συµβαίνει επειδή ο µέσος όρος διαχέει την τιµή
του θορύβου από κάποιο pixel, στο οποίο βρίσκεται
αποµονωµένος, σε όλα τα pixels της γειτονικής περιο-
χής. (Εν. 3.3)
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 191
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 191
4.1
1. ∆ιαιρούµε το κάθε pixel της εικόνας του πίνακα a µε το αντίστοιχο του b. Τα απο-
τελέσµατα τοποθετούνται στον πίνακα C.
×0.01
103 108 113 112 112 108 102 105 101 93 92 25
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 0 0 255 255 255 255 255
255 255 255 0 0 0 0 255 255 255 255
255 255 0 0 0 0 0 0 255 255 255
255 255 0 0 0 0 0 0 0 255 255
255 255 255 0 0 0 0 255 255 255 255
255 255 255 255 0 0 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 192
Συγχαρητήρια αξίζουν σε όποιον έφθασε στη τελική µορφή του πίνακα d. Σίγουρα
χρειάστηκαν αρκετές πράξεις µέχρι την κατασκευή του ιστογράµµατος και όποιος
έκανε λάθη στις πράξεις πρέπει να ξαναπροσπαθήσει. Ίσως κάποιο πρόγραµµα σε
µια γνωστή σας προγραµµατιστική γλώσσα να σας διευκολύνει σηµαντικά. Όποιος
δεν µπόρεσε να προτείνει διαδικασία για την επίλυση, πρέπει οπωσδήποτε να µελε-
τήσει ξανά µε προσαοχή την ενότητα 4.1, και είµαστε σίγουροι ότι θα έχει καλύτε-
ρα αποτελέσµατα στην προσπάθειά σας.
4.2
Σωστό Λάθος
1. Η τεχνική της κατωφλίωσης δεν είναι δυνατόν
να εφαρµοστεί σε οποιαδήποτε εικόνα. ✓
❏ ❏
Πράγµατι, η τεχνική αυτή µπορεί να εφαρµοστεί µε
βεβαιότητα µόνο αν η περιοχή, που επιθυµούµε να δια-
χωρίσουµε από την υπόλοιπη εικόνα, έχει διαφορετική
ανακλαστικότητα από την υπόλοιπη σκηνή και ο φωτι-
σµός είναι οµοιόµορφος. Σε αντίθετη περίπτωση δεν
είναι σίγουρο ότι θα γίνει δυνατή η κατωφλίωση παρ’
ότι έχει αναπτυχθεί µια µεγάλη ποικιλία τεχνικών µε
προσαρµοζόµενο κατώφλιο.
2. Στο διαδίκτυο βρήκαµε µια εικόνα παρόµοια µε αυτή
του Σχ. 4.3α. Οι φοιτητές µας θα µπορέσουν να διορθώσουν
τη φωτεινότητα της και να επιτύχουν την κατωφλίωσή της
µε χρήση καθολικού κατωφλίου. ❏ ✓
❏
∆εν είναι δυνατόν να συµβεί κάτι τέτοιο εφόσον δεν
έχουµε προσπέλαση στο χώρο και τη φωτογραφική
µηχανή που δηµιούργησε την εικόνα.
3. ∆εν είναι δυνατή η κατωφλίωση της εικόνας του Σχ. 4.3α µε
προσαρµοζόµενο κατώφλιο χρησιµοποιώντας τη σχέση (4.1). ✓
❏ ❏
Η εφαρµογή της σχέσης (4.1) σε εσωτερικά σηµεία των
δύο γεωµετρικών σχηµάτων θα δώσει για αποτέλεσµα
τιµή κατωφλίου µικρότερη από τις τιµές των pixels της
περιοχής και έτσι τα σηµεία αυτά θα λάβουν τη φωτει-
νότητα του φόντου. Η κατωφλίωση ίσως να είναι επιτυ-
χής αν η περιοχή άθροισης µεγαλώσει υπερκαλύπτοντας
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 193
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 193
4.3
Η απάντηση δίνεται από τους πίνακες a και b. Όποιος τους έχει κατασκευάσει σωστά
µπορεί να συνεχίσει µε το κεφάλαιο 5. Αν δεν τα καταφέρατε µη στενοχωριέστε!
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 194
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 0 0 255 255 255 255 255
255 255 255 0 0 0 0 255 255 255 255
255 255 0 0 125 125 0 0 225 255 255
255 255 0 125 125 125 125 0 0 255 255
255 255 0 0 125 125 125 125 0 255 255
255 255 255 0 0 125 125 0 0 255 255
255 255 255 255 0 0 0 0 255 255 255
255 255 255 255 255 0 0 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
α
Tέλος πρώτου σταδίου
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 0 0 255 255 255 255 255
255 255 255 0 0 0 0 255 255 255 255
255 255 0 0 255 255 0 0 225 255 255
255 255 0 255 255 255 255 0 0 255 255
255 255 0 0 255 255 255 255 0 255 255
255 255 255 0 0 255 255 0 0 255 255
255 255 255 255 0 0 0 0 255 255 255
255 255 255 255 255 0 0 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
255 255 255 255 255 255 255 255 255 255 255
α
Tέλος πρώτου σταδίου
Μελετήστε ξανά την ενότητα 4.3, και θα είστε έτοιµοι για να αντιµετωπίσετε τις
δυσκολίες του επόµενου κεφαλαίου.
5.1
Σωστό Λάθος
1. Αν διαθέτουµε τον κώδικα αλύσου µπορούµε να υπολογί-
σουµε την περίµετρο του αντίστοιχου περιγράµµατος,
χωρίς προηγουµένως να το ανακατασκευάσουµε. ✓
❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 195
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 195
5.2
Σωστό Λάθος
1. Η υπογραφή παραµένει αναλλοίωτη στη µεταφορά,
στη στροφή και στην αλλαγή της κλίµακας των αξόνων. ✓
❏ ❏
Πράγµατι, η υπογραφή είναι κατεξοχήν ένα περιγράφον
στοιχείο, που παραµένει αναλλοίωτο στις µεταβολές
αυτές.
2. Περίγραµµα µε ένα, ή περισσότερα ευθύγραµµα τµήµατα
αντιστοιχεί σε ιστόγραµµα κλίσεων µε ισχυρούς ιστούς
σε ισάριθµες θέσεις. ✓
❏ ❏
Προφανώς, αφού οι εφαπτόµενες σε όλα τα σηµεία του
ίδιου ευθύγραµµου τµήµατος παρουσιάζουν την ίδια
κλίση. Αντίστροφα, ένα οµοιόµορφο ιστόγραµµα σηµαί-
νει ένα καµπύλο, µάλλον, κυκλικό περίγραµµα.
3. Για τον υπολογισµό της υπογραφής ενός περιγράµµατος,
πρέπει αυτό πρώτα να προσεγγιστεί µε µια συνεχή γραµµή,
ώστε να είναι δυνατή η ανίχνευση της τοµής επιβατικής
ακτίνας και περιγράµµατος, ή η χάραξη της εφαπτοµένης
στο περίγραµµα και ο υπολογισµός της κλίσης της. ❏ ✓
❏
Οι προσδιορισµοί αυτοί γίνονται µε τη βοήθεια αριθµη-
τικών µεθόδων.
4. Οι συντελεστές Fourier, που υπολογίζονται από τον DFT
µετασχηµατισµό ενός περιγράµµατος, δεν µεταβάλλονται
στην περίπτωση που γίνει περιστροφή των αξόνων. ❏ ✓
❏
Οι ίδιοι οι συντελεστές Fourier µεταβάλλονται µε την
περιστροφή. Αντίθετα, αν επιλεγούν ως στοιχεία περι-
γραφής το πηλίκο |fk|/|f1| k = 1,2,3... Αυτά τα στοιχεία
παραµένουν αναλλοίωτα σε µεταφορά, στροφή και
αλλαγή της κλίµακας των αξόνων.
5. Τα µέτρα των συντελεστών Fourier του περιγράµµατος
είναι περίπου όλα της ίδιας τάξης µεγέθους ώστε
µπορούµε να επιλέξουµε οποιουσδήποτε από αυτούς
για περιγράφοντα στοιχεία. ❏ ✓
❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 197
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 197
6.1
Για τον προσδιορισµό της παραµέτρου c ξεκινάµε µε τη σχέση
∑ ∑ ∑ ∑
Q −1 Q −1 32 63
p(i ) = 1 , ή c ⋅ | i − 32 | = 1 , ή c ⋅ (32 − i ) + (i − 32 ) = 1 , ή ,
i =0 i =0 0 33
[
c ⋅ 32 ⋅ 33 − (1 + 2 + L + 32 ) + (33 + 34 + L + 63 ) − 32 ⋅ (63 − 33 + 1) = 1 ]
[
c ⋅ 32 ⋅ 33 − 2 ⋅ (1 + 2 + L + 32 ) + (1 + L + 32 + 33 + 34 + L + 63 ) − 32 ⋅ 31 = 1]
c ⋅ [32 ⋅ 33 − 2 ⋅ 32 ⋅ 33 / 2 + 63 ⋅ 64 / 2 − 32 ⋅ 31] = 1 , ή 1024·c = 1, ή c = 9,8⋅10 –4
.
Ισχύει επίσης
∑ ∑ ∑ ∑
Q −1 63 32 63
m= i ⋅ p(i ) = c ⋅ i⋅ | i − 32 | = c ⋅ i ⋅ (32 − i ) + i ⋅ (i − 32 ) , ή
i =0 i =0 0 33
∑ ∑ ∑ ∑
32 32 63 63
m = c ⋅ 32 ⋅ i− i2 + i 2 − 32 ⋅ i , ή
0 0 33 33
∑ ∑ ∑ ∑ ∑ ∑
32 32 63 32 63 32
m = c ⋅ 32 ⋅ i− i2 + i2 − i 2 − 32 ⋅ i− i ,ή
0 0 0 0 0 0
∑ ∑ ∑ ∑
32 32 63 63
m = c ⋅ 64 ⋅ i − 2⋅ i2 + i 2 − 32 ⋅ i
0 0 0 0
[
m = c ⋅ 64 ⋅ 32 ⋅ 33 / 2 − 2 ⋅ 32 ⋅ 33 ⋅ 65 / 6 + 63 ⋅ 64 ⋅127 / 6 − 32 ⋅ 63 ⋅ 64 / 2 , ]
ή m = 31744⋅c και τελικά m = 31.1.
Συγχαρητήρια αξίζει όποιος προσδιόρισε µε ακρίβεια τις τιµές των c και m. Όποιος
είχε αριθµητικά λάθη πρέπει να προσπαθήσει ξανά υποµονετικά αφού προηγούµε-
να επαναλάβει την υποενότητα 6.1.1α. Θα νιώσετε πολύ πιο έτοιµος να προχωρή-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:42 ™ÂÏ›‰· 198
σετε στη µελέτη της επόµενης υποενότητας, όταν υπολογίσετε επιτυχώς τα c και m.
6.2
Σωστό Λάθος
1. Η υφή αποτελεί ιδιότητα του εσωτερικού µιας περιοχής
και δεν υπάρχει µέθοδος µέτρησής της. ❏ ✓
❏
Υπάρχουν τρεις µέθοδοι ποσοτικής περιγραφής της
υφής. Είναι η Στατιστική, η Φασµατική και η ∆οµική.
2. Η µ3 λαµβάνει πάντα τιµές θετικές. ❏ ✓
❏
Η µ3 λαµβάνει µηδενικές τιµές για συµµετρικά ιστο-
γράµµατα. Για ασύµµετρα ιστογράµµατα η µ3 γίνεται
αρνητική ή θετική, δίνοντας στο αντίστοιχο ιστόγραµ-
µα τον χαρακτηρισµό της αρνητικής, ή της θετικής
ασυµµετρίας.
3. Η µ4 λαµβάνει αρνητικές τιµές για πλατύκυρτα
ιστογράµµατα και θετικές για λεπτόκυρτα. ❏ ✓
❏
Η µ4 λαµβάνει πάντα θετικές τιµές. Στα πλατύκυρτα
ιστογράµµατα ισχύει µ4 > 3σ4 ενώ στα λεπτόκυρτα
ισχύει µ4 < 3σ4.
4. Το µέγεθος του Π.Σ. εξαρτάται από το πλήθος
των σταθµών κβάντισης της εικόνας. ✓
❏ ❏
Πράγµατι! Το µέγεθος είναι Q × Q.
5. Για κάθε περιοχή εικόνας κατασκευάζεται µόνο ένας Π.Σ. ❏ ✓
❏
Είναι δυνατόν να κατασκευαστούν 8 Π.Σ, ένα για
κάθε κατεύθυνση γειτνίασης. Επίσης για κάθε µια
κατεύθυνση είναι δυνατός ο ορισµός πολλαπλών Π.Σ.
αν θεωρηθούν ζεύγη από pixels που απέχουν απόστα-
ση µεγαλύτερη από µια θέση.
6. Το άθροισµα όλων των στοιχεία ενός Π.Σ ισούται µε 1. ✓
❏ ❏
Για τον υπολογισµό των στοιχείων του αρχικού πίνα-
κα ΑD καταµετρούνται όλα τα δυνατά ζεύγη τιµών της
περιοχής. Το άθροισµα λοιπόν των στοιχείων του ΑD
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 199
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 199
6.3
Σωστό Λάθος
1. Οι κεντρικές ροπές µιας περιοχής παραµένουν αναλλοίωτες
σε µετασχηµατισµούς παράλληλης µεταφοράς. ✓
❏ ❏
Πράγµατι! Έτσι περιοχές που έχουν µεταφερθεί
παράλληλα διατηρούν τις ίδιες τιµές για τις κεντρικές
τους ροπές.
2. Οι κανονικοποιηµένες ροπές παραµένουν αναλλοίωτες
σε κάθε γραµµικό και γεωµετρικό µετασχηµατισµό. ❏ ✓
❏
Αυτές παραµένουν αναλλοίωτες µόνο σε µετασχηµατι-
σµούς παράλληλης µεταφοράς και αλλαγής κλίµακας.
3. Το Κεντροειδές και οι Κύριοι Άξονες µιας περιοχής δίνουν
τη δυνατότητα να οριστούν περιγράφοντα στοιχεία
αναλλοίωτα σε µετασχηµατισµούς περιστροφής
µεταφοράς και αλλαγής κλίµακας. ✓
❏ ❏
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 200
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 201
7.1
Σύµφωνα µε τoν Bayesian ταξινοµητή οι δύο περιοχές R1, R2 καθορίζονται ανάλο-
γα µε το ποια από τις ποσότητες P(ω1)p(x|ω1) και P(ω2)p(x|ω2) είναι µεγαλύτερη.
Στην τιµή κατωφλίου, x0, οι δυο ποσότητες είναι ίσες και οι αντίστοιχες καµπύλες
τέµνονται. Η τιµή κατωφλίου προκύπτει εποµένως από τη λύση της εξίσωσης:
x0 − x02 x0 − x02
exp 2 = exp 2
σ 12 2σ 1 σ 22 2σ 2
1 x2 1 x2
( ) ( )
ln x0 + ln 2 − 0 2 = ln x0 + ln 2 − 0 2 ,
σ 1 2σ 1 σ 2 2σ 2
1 1 1 1
x02 2 − 2 = ln 2 − ln 2
2σ 2 2σ 1 σ2 σ1
2σ 12σ 22 σ 12
και τελικά x0 = ln
σ 12 − σ 22 σ 22
Συγχαρητήρια σε όποιον έχει λύσει µε επιτυχία την άσκηση. Αν λύσατε την άσκηση,
αλλά υπήρξαν λογιστικά λάθη να είστε προσεκτικοί στις επόµενες ασκήσεις και όλα
θα πάνε καλά. Όποιος δεν κατάφερε να προχωρήσει καθόλου στην άσκηση ας µην
απελπίζεται. Να διαβάσει προσεκτικά την Ενότητα 7.3 και να λύσει τα παραδείγµα-
τα 7.1 και 7.2. Τότε σίγουρα θα είναι σε θέση να αντιµετωπίζει τέτοιες ασκήσεις.
7.2
|xi1–x1| |xi2–x2| |xi1–x1|<h/2 και |xi2–x2|<h/2
x1 0.1 0.1 Αληθής
x2 0.2 0.3 Ψευδής
x3 0.4 0.0 Ψευδής
x4 0.3 0.5 Ψευδής
Για να βρίσκεται ένα διάνυσµα xi εντός του τετραγώνου µε κέντρο το x και ακµή h
= 0.4, πρέπει και οι δύο συνιστώσες του, xi1 και xi2 να πληρούν τη σχέση |xij–xj|<h/2,
j = 1,2 όπου x1, x2 οι συνιστώσες του x. Εκτελώντας τους υπολογισµούς για τα τέσ-
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 202
σερα διανύσµατα της άσκησης, όπως φαίνεται και στον πίνακα, διαπιστώνουµε ότι
µόνο ένα από αυτά, το x1, βρίσκεται εντός του τετραγώνου.
Όποιος έλυσε σωστά την άσκηση σίγουρα έχει καταλάβει την ταξινόµηση µε τη
µέθοδο των παραθύρων Parzen. Αν έγινε λάθος που δεν οφείλεται σε πράξεις µελε-
τήστε ξανά προσεκτικά την ενότητα 7.4, πριν συνεχίσετε τη µελέτη του υπόλοιπου
κεφαλαίου.
7.3
Σύµφωνα µε τις αποστάσεις, όπως υπολογίστηκαν και στο παράδειγµα 7.5, το πλη-
σιέστερο διάνυσµα στο x είναι το x18 που ανήκει στην κλάση ω2. Σύµφωνα, εποµέ-
νως, µε τον ταξινοµητή πλησιέστερου γείτονα, ταξινοµούµε το x στην κλάση ω2.
Αν δεν βρήκατε σωστά τη λύση µελετήστε ξανά την ενότητα 7.6 και σίγουρα δεν θα
επαναλάβετε το λάθος.
7.4
Σωστό Λάθος
1. Η επιλογή των ουσιωδών χαρακτηριστικών πρέπει
να γίνεται µε τέτοιο τρόπο ώστε αυτά να έχουν την ίδια
τιµή για όλα τα στοιχεία µιας κλάσης.
Οι τιµές των ουσιωδών χαρακτηριστικών µεταβάλλονται
από πρότυπο σε πρότυπο λόγω των σφαλµάτων που
δηµιουργούνται κατά τη µέτρησή τους και διαφοροποιήσεις
των ίδιων των προτύπων (Υποενότητα 7.1.1). ❏ ✓
❏
2. Για να λυθεί το πρόβληµα ταξινόµησης δύο κλάσεων
χωρίζουµε πάντα τον δισδιάστατο χώρο, το επίπεδο,
σε περιοχές καθεµιά από τις οποίες θα αντιστοιχεί σε
µία κλάση.
Πρέπει να χωριστεί ο χώρος των ουσιωδών
χαρακτηριστικών σε περιοχές που να αντιστοιχούν
στις κλάσεις. Η διάσταση αυτού είναι l και όχι
απαραίτητα 2 ώστε να είναι επίπεδο. (Υποενότητα 7.1.2) ❏ ✓
❏
3. Ένας κατά Bayes ταξινοµητής στη λειτουργία του
παρουσιάζει σφάλµατα, όπως συµβαίνει και µε οποιοδήποτε
άλλο ταξινοµητή. Η πιθανότητα όµως να συµβεί ένα
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 203
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 203
8.1
Τα διανύσµατα εκπαίδευσης παρουσιάζονται στον αλγόριθµο µε την ακόλουθη σειρά:
(0, 0)T, (0, 1)T, (1, 0)T, (1, 1)T. Τα διανύσµατα επεκτείνονται, σύµφωνα µε τα όσα
είπαµε στη θεωρία, προσθέτοντας τo 1 ως τρίτο στοιχείο, ώστε να γίνουν οι υπολο-
γισµοί στον 3–διάστατο χώρο για επίπεδα που διέρχονται από την αρχή των αξόνων.
Τα διαδοχικά βήµατα των αναδροµών είναι:
w(0) = (0, 1, 0)T
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 205
Άρα έχει επιτευχθεί σύγκλιση και η ευθεία µε παραµέτρους w = (–3, 0, 1)T, δηλαδή
η ευθεία –3x1+1 = 0 ταξινοµεί τα διανύσµατα.
Όποιος εκτέλεσε σωστά τα βήµατα του αλγορίθµου αξίζει συγχαρητήρια! Αν δεν τα
καταφέρατε, αλλά νοµίζετε ότι θυµάστε πλήρως τον αλγόριθµο, προσπαθήστε ξανά
µε περισσότερη προσοχή και χωρίς να βλέπετε τη λύση. Αν δεν συµβαίνει αυτό το
τελευταίο µη στενοχωριέστε, διαβάσετε το παράδειγµα 8.1 και τη σχέση (8.6) και
δοκιµάστε ξανά.
8.2
Οι τρεις ευθείες φαίνονται στο Σχ. 8.15a. Οι περιοχές που δηµιουργούν έχουν ονοµα-
τιστεί σύµφωνα µε τη θέση κάθε περιοχής ως προς καθεµιά από τις ευθείες. Στο Σχ.
8.15b φαίνονται οι κορυφές του κύβου στις οποίες µετασχηµατίζονται οι περιοχές.
Για να είναι το πρόβληµα διαχωρίσιµο από ένα Perceptron 2–στρωµάτων, θα πρέπει
οι περιοχές να συνδυαστούν έτσι ώστε οι αντίστοιχες κορυφές του κύβου να είναι
γραµµικά διαχωρίσιµες. Ένας τέτοιος συνδυασµός, προφανώς όχι ο µόνος, είναι:
ω1:(000 ) ∪ (001)
ω2: Οι υπόλοιπες
x2
g3(x) = 0
111
011 111
0.5
011 110
0.25 g2(x) = 0
101 010
110
0.5
100 x1 001 101
001
000
000 100
™¯‹Ì· 8.15
g1(x) = 0 Γεωµετρία της
(α) (β) ασκήσεως 8.2.
1
y2 + y 3 − =0
2
που φαίνεται στο σχήµα 8.16b. Το Perceptron του σχήµατος 8.16a, υλοποιεί τις ευθεί-
ες του 8.15a και το παραπάνω επίπεδο και, εποµένως, επιλύει το πρόβληµα.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 206
™¯‹Ì· 8.16
Perceptron 2
στρωµάτων για
την άσκηση Αυτο-
αξιολόγησης 8.2. (α) (β)
ω1:(000 ) ∪ (111)
ω2: Οι υπόλοιπες
™¯‹Ì· 8.17
Perceptron 3
στρωµάτων για
την άσκηση Αυτο-
αξιολόγησης 8.2. (α) (β)
A ¶ ∞ ¡ ∆ ∏ ™ ∂ π ™ A ™ ∫ ∏ ™ ∂ ø ¡ AÀ ∆ √ ∞ • π √ § √ ° ∏ ™ ∏ ™ 207
8.3
Σωστό Λάθος
1. Με τον αλγόριθµο Perceptron είναι δυνατή πάντα η λύση
ενός προβλήµατος ταξινόµησης µε δύο κλάσεις. ❏ ✓
❏
Η λύση είναι δυνατή µόνο όταν οι κλάσεις είναι γραµµικά
διαχωρίσιµες. (Υποενότητα 8.1) ❏ ✓
❏
2. Η συνάρτηση ενεργοποίησης του Perceptron δέχεται για είσοδο
το διάνυσµα των χαρακτηριστικών και δίνει έξοδο 1, ή 0. ✓
❏ ❏
Οι τιµές των ουσιωδών χαρακτηριστικών πολλαπλασιάζονται
επί τις συνάψεις, τα επιµέρους γινόµενα αθροίζονται µε
το κατώφλι και το αποτέλεσµα της άθροισης οδηγείται
ως είσοδος στην f(.). (Υποενότ. 8.1.2) ✓
❏ ❏
3. Είναι δυνατή η ταξινόµηση του XOR αν χρησιµοποιηθούν
δύο ευθείες. (Ενότητα. 8.2) ✓
❏ ❏
4. Ένα Perceptron τριών στρωµάτων είναι δυνατόν να διαχωρίσει
σε δύο κλάσεις οποιαδήποτε ένωση πολυεδρικών περιοχών
στο χώρο των χαρακτηριστικών διανυσµάτων.
Πράγµατι! Με το πρώτο στρώµα ο χώρος µετασχηµατίζεται
στις κορυφές υπερκύβου, το δεύτερο στρώµα περιέχει νευρώνες
για την µία µόνο κλάση και το τρίτο αποτελείται από
ένα νευρώνα που υλοποιεί µια OR πύλη. (Υποενότ. 8.2.3) ✓
❏ ❏
5. Η Εκπαίδευση ενός πολυστρωµατικού δικτύου σηµαίνει
τον καθορισµό της τιµής των συνάψεων και κατωφλίου
για κάθε Perceptron που περιλαµβάνεται σε αυτό.
Πράγµατι! Ο καθορισµός αυτός γίνεται µε τη χρήση
γνωστών εκ των προτέρων προτύπων για κάθε κλάση
και την εκτέλεση κατάλληλου αλγορίθµου ταξινόµησης.
(Υποενότ. 8.2.4) ✓
❏ ❏
Συγχαρητήρια στον αναγνώστη που έχει απαντήσει σωστά και στις πέντε ερωτήσεις.
Καλή επίδοση είναι και οι τέσσερις σωστές απαντήσεις. Όσοι έκαναν περισσότερα
από δύο λάθη να µήν απογοητευτούν! Να προσπαθήσουν ξανά διαβάζοντας τις αντί-
στοιχες ενότητες. Είναι σίγουρο ότι η επανάληψη αυτή θα τους επιτρέψει να κατα-
νοήσουν πλήρως και το κεφάλαιο αυτό.
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 208
°ÏˆÛÛ¿ÚÈ
°§ø™™∞ƒπ 209
°§ø™™∞ƒπ 211
Κύριοι Άξονες Μορφής: Οι δύο άξονες, ο Πρωτεύων και ο ∆ευτερεύων µιας µορ-
φής, οι οποίοι, όπως αποδεικνύεται, είναι κάθετοι µεταξύ τους.
Κώδικας Αλύσου: Σχήµα Αναπαράστασης µε το οποίο κωδικοποιείται η σχετική
θέση των pixels ενός περιγράµµατος και γενικότερα µιας γραµµής. Στη-
ρίζεται στην καταγραφή των κατευθύνσεων γειτνίασης των διαδοχικών
pixels της γραµµής.
Λευκός Προσθετικός Θόρυβος: Τυχαίο σήµα µε στατιστικά ανεξάρτητα διαδοχικά
δείγµατα.
Λογιστική Συνάρτηση: Τύπος συνάρτησης που προσεγγίζει τη µοναδιαία βηµατι-
κή συνάρτηση.
Μάσκα ∆ιαφόρισης: Πίνακας, τα στοιχεία του οποίου χρησιµοποιούνται ως συντε-
λεστές για τον υπολογισµό µιας από τις µερικές παραγώγους, ή της
παραγώγου κατά κάποια κατεύθυνση της εικόνας.
Μηχανή που Μαθαίνει: Ένα σύστηµα µε αγνώστους παραµέτρους, οι τιµές των
οποίων είναι δυνατόν να προσδιοριστούν χρησιµοποιώντας ένα σύνο-
λο από διανύσµατα εκπαίδευσης και έναν αλγόριθµο εκµάθηνσης.
Μονόχρωµη Εικόνα: βλέπε ∆υαδική Εικόνα
Μορφή ή Πρότυπο: Αντικείµενο, ή άλλη οντότητα, την οποία ενδιαφερόµαστε να
εντοπίσουµε σε µια εξεταζόµενη εικόνα.
Νευρώνας: Μια στοιχειώδης µηχανή που µαθαίνει, κατάλληλος για προβλήµατα
ταξινόµησης µε δύο γραµµικά διαχωρίσιµες κλάσεις.
Ολίσθηση του Ιστογράµµατος: Τροποποίηση ιστογράµµατος,κατά την η ένταση
όλων των pixels µε τιµή µικρότερη από ένα µέγιστο, αυξάνεται κατά
µία σταθερά.
Ουσιώδη Χαρακτηριστικά: Είναι µια κατάλληλα επιλεγµένη κωδικοποίηση της
πληροφορίας που εµπεριέχεται σε κάθε πρότυπο.
Παράθυρο Parzen: Παραλλαγή του ταξινοµητή Bayes, στην οποία εκτιµάται η τιµή
της πυκνότητα πιθανότητας για κάθε κλάση στο σηµείο του άγνωστου
διανύσµατος από το χώρο που καταλαµβάνει ένας δεδοµένος αριθµός
διανυσµάτων εκπαίδευσης, k, αυτής.
Πίνακας Συνεµφάνισης Τιµών: Πίνακας που προσεγγίζει τις τιµές της συνδυασµέ-
νης πυκνότητας πιθανότητας των τιµών ζευγών από pixels της περιοχής.
Πλήθος Σταθµών Κβάντισης: Το πλήθος των διαφορετικών τιµών, που µπορούν
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 213
°§ø™™∞ƒπ 213
Συνάψεις: Οι παράµετροι ενός νευρώνα, οι τιµές των οποίων καθορίζονται από ένα
αλγόριθµο εκµάθυνσης.
Σχήµα Αναπαράστασης: Είδος λεπτοµερούς κωδικοποίησης περιγράµµατος, ή εσω-
τερικού περιοχής, ικανό να χρησιµοποιηθεί ακόµη και για την ανακα-
τασκευή (έστω και προσεγγιστικά) αυτών.
Ταξινόµηση µε Επίβλεψη: Σύστηµα ταξινόµησης στο οποίο ο αριθµός των κλάσε-
ων είναι εκ των προτέρων γνωστός και χρησιµοποιούνται γνωστά πρό-
τυπα εκπαίδευσης από κάθε κλάση.
Ταξινόµηση Χωρίς Επίβλεψη: Σύστηµα ταξινόµησης στο οποίο δεν διατίθενται
γνωστά πρότυπα των κλάσεων και δεν είναι γνωστός ο αριθµός των
υπαρχόντων κλάσεων.
Ταξινοµητής Bayes: Τύπος ταξινοµητή που στηρίζεται στο θεώρηµα Bayes. Για την
εφαρµογή του θεωρείται γνωστή η υπό συνθήκη πυκνότητα πιθανότη-
τας για κάθε γνωστή κλάση και το άγνωστο διάνυσµα ταξινοµείται στην
κλάση για την οποία η πιθανότητα λάθους υπολογίζεται µικρότερη από
όλες τις υπόλοιπες.
Ταξινοµητής Ελάχιστης Απόστασης: Τύπος ταξινοµητή, στον οποίο η ταξινόµη-
ση γίνεται µε βάση την ελάχιστη απόσταση του άγνωστου διανύσµα-
τος από τη µέση τιµή των διανυσµάτων εκπαίδευσης κάθε κλάσης.
Ταξινοµητής Πλησιέστερου Γείτονα: Τύπος ταξινοµητή, στον οποίο το άγνωστο
διάνυσµα ταξινοµείται στην ίδια κλάση µε αυτή του πλησιέστερου µε
αυτό διανύσµατος εκπαίδευσης.
Ταξινοµητής: Η βαθµίδα ενός συστήµατος ταξινόµησης, όπου αποφασίζεται (µε
βάση τα ουσιώδη χαρακτηριστικά) σε ποια, από ένα σύνολο γνωστών
κλάσεων, ένα άγνωστο πρότυπο ανήκει.
Ταχύς Μετασχηµατισµός Fourier: Αλγόριθµος µε τον οποίο υπολογίζονται οι
συντελεστές του ∆ιακριτού Μετασχηµατισµού Fourier σε χρόνο πολύ
µικρότερο από εκείνο που απαιτεί η ο υπολογισµός µε βάση τις σχέσεις
ορισµού του τελευταίου.
Τελεστές Kirsch: Τύπος τελεστών προσανατολισµού.
Τελεστές Robert: Τύπος τελεστών κλίσης
Τελεστές Sobel: Τύπος τελεστών κλίσης
Τελεστές Κλίσης: ∆ύο µάσκες παραγώγισης µε τις οποίες προσεγγίζονται οι τιµές
£ÂÔ‰ˆÚ›‰Ë˜ ™ÂÏȉ. (ÛÂÏ.216) 12/6/2003 09:43 ™ÂÏ›‰· 215
°§ø™™∞ƒπ 215
E›ÏÔÁÔ˜