Professional Documents
Culture Documents
Lectures 1 2
Lectures 1 2
Κωνσταντίνος Κουτρούμπας
1
Version 2
ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ
(PATTERN RECOGNITION)
Τυπικές περιοχές εφαρμογής
Μηχανική όραση (Machine vision)
Αναγνώριση χαρακτήρων (Character recognition (OCR))
Ιατρική διάγνωση υποβοηθούμενη από Η/Υ( Computer aided medical
diagnosis)
Αναγνώριση ομιλίας (Speech recognition)
Αναγνώριση προσώπου (Face recognition)
Βιομετρία (Biometrics)
Ανάσυρση εικόνων από Βάσεις Δεδομένων (Image Data Base retrieval)
Εξόρυξη δεδομένων (Data mining)
Βιοπληροφορική (Bionformatics)
Με επίβλεψη:
• Γνωστός αριθμός κλάσεων (κατηγοριών)
• Διαθέσιμα αντικείμενα για τα οποία είναι γνωστή η κλάση
στην οποία ανήκουν.
Χωρίς επίβλεψη:
• Άγνωστος αριθμός κλάσεων (γενικά).
• Διαθέσιμα αντικείμενα για τα οποία δεν είναι γνωστή
οποιαδήποτε πληροφορία σχετική με κλάση.
3
Παραδείγματα:
Εφαρμογή στην κυτταρολογία.
Αντικείμενα: πυρήνες κυττάρων
Κατηγορίες: καλοήθη, κακοήθη
Εφαρμογή σε αλυσίδα παραγωγής στη βιομηχανία.
Αντικείμενα: Π.χ. βίδες
Κατηγορίες: Ελαττωματική, μη ελαττωματική
Εφαρμογή στην αναγνώριση χαρακτήρων κειμένου
Αντικείμενα: Αλφαριθμητικοί χαρακτήρες, σημεία στίξης
Κατηγορίες: 26 κατηγορίες πεζών+26 κατ. κεφαλαίων+10 κατ. ψηφίων
+κατηγορίες σημείων στίξης.
Χαρακτηριστικά (Features): Πρόκειται για μετρήσιμες
ποσότητες που λαμβάνονται από τα προς ταξινόμηση
αντικείμενα. Η διαδικασία της ταξινόμησης βασίζεται στις
αντίστοιχες τιμές τους.
x x1 ,..., xl Rl
T
Πώς δουλεύει
χαρακτ. 1 χαρακτ. 1
χαρακτ. 2 χαρακτ. 2 Διάνυσμα
αντικείμενο
. . . . . . χαρακτηριστικών
χαρακτ. q χαρακτ. l
Ο ταξινομητής (classifier) αποτελείται από ένα σύνολο
συναρτήσεων, των οποίων οι τιμές, υπολογισμένες στο x ,
καθορίζουν την κλάση στην οποία το αντίστοιχο πρότυπο
θα καταχωρηθεί.
7
Σημαντικές παρατηρήσεις:
Στην πράξη, είναι απαραίτητη η ύπαρξη ενός
αντιπροσωπευτικού δείγματος προτύπων από κάθε
κατηγορία (συνήθως, όσο περισσότερα είναι διαθέσιμα,
τόσο καλύτερη εικόνα έχουμε για τις κλάσεις).
8
Προβλήματα:
(Α) Ποια χαρακτηριστικά θα επιλέξω;
(Β) Πώς ο ταξινομητής διαχωρίζει τις κλάσεις;
Παράδειγμα:
Να δημιουργηθεί ένα σύστημα ταξινόμησης προτύπων που θα
διαχωρίζει καλαθοσφαιριστές (Β) από χορευτές (D).
•Αντικείμενα: Αθλητές (καλαθοσφαιριστές, χορευτές)
•Κατηγορίες: Καλαθοσφαιριστές (Β), χορευτές (D).
Σύστημα ταξινόμησης ?
προτύπων
(Α) Χαρακτηριστικά
ύψος, βάρος.
Περιμένουμε ότι
D B
Βάρος μικρό μεγάλο
Ύψος μικρό μεγάλο
Σύνολο συναρτήσεων/κανόνων
βάσει των οποίων γίνεται η ύψος +
-
ταξινόμηση. D
B
x
(ε)
βάρος
Παράδειγμα 1:
Δοθέντος ενός χαρακτηριστικού διανύσματος, ο ταξινομητής εξετάζει αν αυτό
βρίσκεται
(α) στην αρνητική πλευρά της (ε), οπότε το κατατάσσει στην κατηγορία “D”
(β) στη θετική πλευρά της (ε), οπότε το κατατάσσει στην κατηγορία “Β”
ύψος
βάρος
Παράδειγμα 2:
Δοθέντος ενός χαρακτηριστικού διανύσματος, ο ταξινομητής προσδιορίζει το
πλησιέστερο μέσο διάνυσμα και ταξινομεί το διάνυσμα στην αντίστοιχη κατηγορία.
Χαρακτηριστικά (ξανά)
απόχρωση μαλλιών, απόχρωση ματιών
Απόχρωση
μαλλιών
D
B
Απόχρωση
ματιών
Χαρακτηριστικά (ξανά)
απόχρωση μαλλιών, ύψος
Απόχρωση
μαλλιών
D
B
ύψος
Χαρακτηριστικά (ξανά)
ύψος
Η επιλογή χαρακτηριστικών είναι ζωτικής σημασίας για την απόδοση
του συστήματος.
Γενικά είναι επιθυμητή η χρήση χαρακτηριστικών που διαχωρίζουν
καλά τις κατηγορίες. Αυτό (συνήθως) σημαίνει
•Οι μέσες τιμές του χαρακτηριστικού να διαφέρουν σημαντικά μεταξύ
τους από κατηγορία σε κατηγορία.
•Οι διασπορές γύρω από τις παραπάνω μέσες τιμές να είναι μικρές.
16
Μερικά προκαταρτικά (συν.)
Είναι
Αν
τότε
18
Μερικά προκαταρτικά (συν.)
Αν
19
Μερικά προκαταρτικά (συν.)
Μονοδιάστατη Gaussian/κανονική κατανομή
όπου
20
Σ: διαγώνιος
με ίσα
διαγώνια
στοιχεία
Σ: διαγώνιος
με σ12>>σ22
21
Σ: διαγώνιος
με σ12<<σ22
Σ: μη διαγώνιος
22
σ 12 σ12
Σ=
σ 12 σ22
24
Στη συνέχεια θα μιλήσουμε μόνο για στατιστικές μεθόδους ταξινόμησης προτύπων
(statistical pattern classification).
Υπόθεση: Σε μια μεγάλη αίθουσα γυμναστηρίου βρίσκονται 100 χορευτές και 200
καλαθοσφαιριστές
Ερώτηση 1: «Αν επιλέξουμε κάποιον από την αίθουσα, ποια είναι η πιθανότητα να είναι
χορευτής;»
25
Επιπλέον δεδομένα: Οι κατανομές πυκνότητας πιθανότητας των βαρών των δύο
κατηγοριών:
( x 50) 2 ( x 90) 2
1 1
p ( x / D) e 300 p( x / B) e 300
.
300 300
Ερώτηση 2: «Αν επιλέξουμε κάποιον από την αίθουσα, ποια είναι η πιθανότητα να είναι
χορευτής;»
Ερώτηση 3: «Αν επιλέξουμε κάποιον από την αίθουσα, ποια είναι η πιθανότητα να είναι
χορευτής, δοθέντος ότι το ύψος του είναι 155 εκ;»
26
Ερώτηση 4: «Αν επιλέξουμε κάποιον από την αίθουσα, ποια είναι η πιθανότητα
να είναι χορευτής, δοθέντος ότι το βάρος του είναι 60 κιλά;»
Απάντηση:
p(60 / D) P( D)
P( D / 60) = 0.8780
p(60 / D) P( D) p(60 / B) P( B)
p(60 / ) P( )
P( / 60) . = 0.1220
p(60 / ) P( ) p(60 / ) P( )
27
0.025
0.02 p(x/B)P(B)
0.015
p(x/D)P(D)
0.01
0.005
0
0 20 40 60 80 100 120 140
βάρος
1 1
, x [ 1 , 2 ] , x [ 1 , 2 ]
p( x / D) 2 1 p( x / B) 2 1 .
0 x [ 1 , 2 ] 0 x [ 1 , 2 ]
28
Ερώτηση 5: «Αν επιλέξουμε κάποιον από την αίθουσα, ποια είναι η πιθανότητα να είναι
χορευτής, δοθέντος ότι η απόχρωση των μαλλιών του είναι y[χ1,χ2]».
Απάντηση:
1 1
p( y / D) P( D) 2 1 3 1
P( D / y ) P( D)
p ( y / D) P( D) p ( y / B ) P( B) 1 1
1 2 3
2 1 3 2 1 3
1 2
p( y / B) P( B) 2 1 3 2
P( B / y ) P( B).
p( y / D) P( D) p ( y / B) P( B) 1 1
1 2 3
2 1 3 2 1 3
29
Έστω και πάλι ότι το επιπλέον χαρακτηριστικό είναι το βάρος
Ερώτηση 6: «Αν επιλέξω κάποιον αθλητή από την αίθουσα, τι είδους αθλητής είναι αυτός,
δεδομένου ότι το βάρος του είναι x κιλά;»
Καλύτερη δυνατή απάντηση: Είναι αθλητής από την κατηγορία με τη μεγαλύτερη εκ των
υστέρων (a posteriori) πιθανότητα.
p ( x / D) P( D) p ( x / B) P( B)
P( D / x) P( B / x)
p ( x / D) P ( D) p ( x / B ) P ( B ) p ( x / D) P ( D) p ( x / B ) P ( B )
30
Κανόνας του Bayes (2):
Aν P(D)p(x/D)>P(B)p(x/B) τότε καταχώρησε τον αθλητή στην κατηγορία «χορευτής»
Διαφορετικά καταχώρησε τον αθλητή στην κατηγορία «καλαθοσφαιριστής».
31
Ταξινόμηση κατά Bayes και γεωμετρική ταξινόμηση
• Τα σημεία όπου
p(x/D)P(D) = p(x/B)P(B)
οριοθετούν τις περιοχές του χώρου των χαρακτηριστικών (βάρος) που αντιστοιχούν στις
δύο κατηγορίες
•Ταξινόμηση οντότητας με συγκεκριμένη τιμή βάρους ανάλογα με την περιοχή στην οποία
αυτή ανήκει.
( x 50) 2 ( x 90) 2
1 1 2 1
e 300
e 300
( x 50) 2 ( x 90) 2 300 ln 2 x 67.4 x0
3 300 3 300
32
0.025
0.02 p(x/B)P(B)
p(x/
κ)P(
κ)
0.015
p(x/D)P(D)
p(x/
Χορευτής: RD={x: x<64.7}
α)P(
α) Καλαθοσφ.: RB={x: x>64.7}
0.01
0.005
(Α) (Β)
0
0 20 40 60 80 100 120 140
βάρος
1 2
Για το παράδειγμά μας: P 0.0778 0.0322 0.0474.
3 3
33
Σχεδιασμός ταξινομητή
Συμβολισμός:
• ω1,ω2,…,ωc οι κατηγορίες στις οποίες θα ταξινομηθεί μια οντότητα
• l το πλήθος των χαρακτηριστικών που αναπαριστούν μια οντότητα (διάσταση του
χώρου των χαρακτηριστικών)
• x=[x1,x2,…xl]T Διάνυσμα αναπαράστασης οντότητας (xi η τιμή του i χαρακτηριστικού
γι’ αυτήν την οντότητα)
• P(ωi) η a priori πιθανότητα η υπό εξέταση οντότητα να ανήκει στην i κατηγορία
• P(ωi/x) η a posteriori πιθανότητα η υπό εξέταση οντότητα να ανήκει στην i κατηγορία
δοθέντος του διανύσματος μετρήσεων x
• p(x/ωi) η συνάρτηση πυκνότητας πιθανότητας που περιγράφει την κατανομή των
χαρακτηριστικών διανυσμάτων x για την κατηγορία ωi.
34
Ερώτηση 7: «Δοθέντος ενός διανύσματος μετρήσεων x μιας υπό εξέταση οντότητας να
προσδιοριστεί η κατηγορία ωi στην οποία ανήκει η οντότητα»
Bayes 1: «καταχώρησε την υπό εξέταση οντότητα στην κατηγορία ωi για την οποία
P(ωi/x)= maxj=1,…,c P(ωj/x).»
p( x / i ) P(i )
Δεδομένου ότι: P(i / x) c
p( x /
j 1
j ) P( j )
Bayes 2: «καταχώρησε την υπό εξέταση οντότητα στην κατηγορία ωi για την οποία
p(x/ωi)P(ωi)= maxj=1,…,c p(x/ωj)P(ωj).»
Bayes (ειδ): «Αν οι κατηγορίες είναι ισοπίθανες, καταχώρησε την υπό εξέταση οντότητα
στην κατηγορία ωi για την οποία
p(x/ωi)= maxj=1,…,c p(x/ωj).»
35
Παράδειγμα: Σ’ ένα πρόβλημα τριών κλάσεων, χρησιμοποιείται μόνο ένα
χαρακτηριστικό για την ταξινόμηση των δειγμάτων. Οι αντίστοιχες πυκνότητες
πιθανότητας και οι a priori πιθανότητες για τις κλάσεις είναι:
Είναι:
P(ω1)p(x| ω1)= 0.0555, P(ω2)p(x| ω2)= 0.1111, P(ω3)p(x| ω3)= 0.0614
0.025
0.02
0.015
0.01
0.005
0
0 20 40 60 80 100 120 140
R1 R3 R1 R3 R2 R3 R2
c
c
Πιθανότητα λάθους: P p( x / k ) P( k ) dx
i 1 Ri k 1, k i
37
Ερώτηση: Γιατί τόση επιμονή στον ταξινομητή Bayes;
Απάντηση:
•γιατί η λογική του δεν έρχεται σε αντίθεση με την διαίσθησή μας.
•Ο κανόνας ταξινόμησης κατά Bayes είναι βέλτιστος με την έννοια ότι ελαχιστοποιεί την
πιθανότητα λάθους.
38
Παρατήρηση: οι πυκνότητες πιθανότητας των κατηγοριών μαζί με τις a priori
πιθανότητές τους ορίζουν μονοσήμαντα μια διαμέριση του χώρου του l-διάστατου
χώρου των χαρακτηριστικών, σε (όχι απαραίτητα ενιαίες) περιοχές (Ri) όπου κάθε μια
αντιστοιχεί και σε μια κατηγορία (ωi).
39
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
-8
-6
-4
-2
0
2
4 -8
-4 -6
6 0 -2
4 2
8 6
40
ΣΥΝΑΡΤΉΣΕΙΣ ΔΙΑΚΡΙΣΗΣ (DISCRIMINANT FUNCTIONS )
ΕΠΙΦΆΝΕΙΕΣ ΑΠΟΦΑΣΗΣ (DECISION SURFACES)
+ g ( x) 0
-
R j : P( j x) P(i x)
i E ( x i )( x i )
43
Η ln() είναι μονότονη. Ορίζουμε:
g i ( x) ln( p( x i ) P(i ))
ln p( x i ) ln P(i )
1
g i ( x) ( x i ) i ( x i ) ln P(i ) Ci
T 1
2
1
Ci ( ) ln 2 ( ) ln i
2 2
2 0
Παράδειγμα: i
2
0 44
1 1
gi ( x) (x x )
2 2
( i1 x1 i 2 x2 )
2
2 1 2 2
1
( 2
i 2 ) ln P (i ) Ci
2
2 2 i1
45
46
47
48
Υπερεπίπεδα απόφασης
x x1
T
Τετραγωνικοί όροι: i
wi Σ 1 i
1 Τ 1
wi 0 ln P(i ) i Σ i
2
Οι συναρτήσεις διάκρισης είναι ΓΡΑΜΜΙΚΕΣ 49
Έστω επιπλέον ότι:
• Σ 2 I . Τότε
1
gi ( x) i x wi 0
T
2
• gij ( x) gi ( x) g j ( x) 0
w ( x xo )
T
• w i j ,
1 P(i ) i j
• x o ( i j ) ln
2
2 P( j ) 2
i j
50
Μη διαγώνιος: 2
gij ( x) w ( x x 0 ) 0
T
•
• w ( i j )
1
1 P(i ) i j
• x 0 ( i j ) n ( )
2 P( j ) 2
i j 1
1
( x 1 x)
T 2
x 1
1
P(i ) ισοπίθανες
M
1
g i ( x) ( x i )T 1 ( x i )
2
2 I : Καταχώρησε x i :
Ευκλείδεια απόσταση:d E x i
μικρότερη
2 I : Καταχώρησε x i :
1
Mahalanobis απόσταση: d m (( x i ) ( x i ))
T 1 2
μικρότερη 52
53
Παράδειγμα:
Δοθέντων των 1 , 2 : P(1 ) P(2 ) και p( x 1 ) N ( 1 , Σ ),
0 3 1.1 0.3
p ( x 2 ) N ( 2 , Σ ), 1 , 2 ,
0
3 0.3 1.9
1.0
κατηγοριοποίησε το διάνυσμα x με χρήση Bayesian ταξινομητή:
2.2
0.95 0.15
Σ
-1
0.15 0.55
Υπόλ. Mahalanobis απόστ. d m από 1 , 2 : d 2 m,1 1.0, 2.2
1.0 1 2.0
Σ 2.952, d m,2 2.0, 0.8
1 2
3.672
2.2 0.8
54
ΕΚΤΙΜΗΣΗ ΑΓΝΩΣΤΩΝ ΣΥΝΑΡΤΗΣΕΩΝ
ΠΥΚΝΟΤΗΤΑΣ ΠΙΘΑΝΟΤΗΤΑΣ
Μέγιστη πιθανοφάνεια (Maximum Likelihood)
L ( ) N 1 p ( x )
ˆ ML : 0
k ;
( ) k 1 p( x k ; ) ( )
56
57
Αν, πράγματι, υπάρχει ένα 0 έτσι ώστε
p ( x) p ( x; 0 ), τότε
lim E[ ML ] 0
N
2
lim E ˆ ML 0 0
N
p( ) p( X ) p( X ) p( X ) or
p( ) p( X )
p( X )
p( X )
60
Η μέθοδος:
ˆ MAP arg max p( X ) ή
ˆ MAP : ( p( ) p( X ))
Αν η p( ) είναι ομοιόμορφη ή αρκετά ευρεία:
ˆ
MAP ML
61
62
Παράδειγμα:
p ( x) : N ( , Σ ), ά , X x1 ,...,x N
2
1 0
p( ) exp( )
l
2 2
(2 )
2 l
N N 1 1
MAP : ln( p( x k ) p( )) 0 ή 2 ( x k ˆ ) 2 ( ˆ 0 ) 0
k 1 k 1
2 N
0 2 xk 2
ˆ MAP k 1 For
1, ή για N
2
2
1 2 N
1 N
ˆ MAP ˆ ML x k
N k 1
63