ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ ΣΤΑΥΡΟΣ ΑΔΑΜ ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ
ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

Π.Σ. ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Τ.Ε.
Ζ’ ΕΞΑΜΗΝΟ
ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ
ΣΤΑΥΡΟΣ ΑΔΑΜ
ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ 2020-2021
Ορισμοί και Ιστορικά Στοιχεία

• Τεχνητή Νοημοσύνη: επιστημονική περιοχή που
στοχεύει στην επινόηση και ανάπτυξη
υπολογιστικών συστημάτων με σκοπό την επίλυση
σύνθετων προβλημάτων με χρήση τεχνικών που
προσομοιώνουν τη ανθρώπινη λογική επεξεργασία
της πληροφορίας.
– δυνατότητα αναπαράστασης των δεδομένων ενός
προβλήματος ως μια ακολουθία συμβόλων
– ικανότητα των υπολογιστικών συστημάτων να
επεξεργάζονται εξ ίσου αποτελεσματικά αριθμούς και
σύμβολα
– δυνατότητα λεκτικής περιγραφής της διαδικασίας
επίλυσης σύνθετων προβλημάτων από εμπειρογνωμόνες
ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ
• Εμφάνιση της Τεχνητής Νοημοσύνης:
– General Problem Solver (Newell & Simon)
– A* (Hart, Nilsson, Raphael, Dijkstra)
– Problems with Constraints (Feigenbaum, Hayes-Roth) ...
• Η χρήση της πληροφορίας από εμπειρογνώμονες για την
εξαγωγή συμπερασμάτων και η κατά συνέπεια χρήση
της πληροφορίας με τη μορφή συμβόλων από
υπολογιστικούς μηχανισμούς λογικού συμπερασμού
οδήγησε στο χαρακτηρισμό αυτού του τύπου
πληροφορίας ως γνώση.

• Η πολυπλοκότητα των προβλημάτων και η αδυναμία
απλών μαθηματικών υποδειγμάτων (κατηγορήματα και
διαδικασία επίλυσης) να περιγράψουν σύνθετες δομές
πληροφορίας για χρήση από μηχανισμούς λογικού
συμπερασμού οδήγησε στην προσφυγή επινοήσεων από
την ψυχολογία.
• Εμφάνιση της γνωστικής ψυχολογίας, οι κατασκευές της
οποίας (κανόνες παραγωγής, πλαίσια, σημασιολογικά
δίκτυα, κλπ) χρησιμοποιήθηκαν στην Τεχνητή
Νοημοσύνη.

Brian Smith’s knowledge representation hypothesis:
• Οποιαδήποτε έξυπνη διαδικασία ενσωματωμένη σε
κάποιο μηχανικό σύστημα θα πρέπει να αποτελείται από
δομικά στοιχεία για τα οποία ισχύουν τα εξής:
a) “we as external observers naturally take to represent a
propositional account of the knowledge that the overall
process exhibits,” and
b) “independent of such external semantic attribution, play a
formal but causal and essential role in engendering the
behavior that manifests that knowledge.”
• Αναπαράσταση της γνώσης (knowledge representation)
και γνωστική μοντελοποίηση (cognitive modeling)
• Expert systems, ontologies, modern agent systems, etc.
Βασικές Έννοιες και Ορισμοί

Σε ένα υπολογιστικό σύστημα Τεχνητής Νοημοσύνης δεν
είναι εφικτή η αναπαράσταση και η επεξεργασία:
a) της ρευστότητας της γλώσσας η οποία είναι παρούσα στη
λεκτική περιγραφή τη γνώσης του για ένα πρόβλημα (χρόνος,
εκτίμηση μεγέθους με λεκτικούς όρους, κλπ.), ή
b) της γνώσης η οποία δεν είναι δυνατό να περιγραφεί λεκτικά
και κατά συνέπεια να αναπασταθεί με σύμβολα ή άλλες
πολύπλοκες αναπραστάσεις.
π.χ. αναγνώριση και ταξινόμηση αντικειμένων σε κατηγορίες
με ελλιπείς ή αντιφατικές πληροφορίες, ομαδοποίηση
δεδομένων χωρίς προηγούμενη γνώση της δομής τους, κλπ.

Σαν συνέπεια έχουμε:
την εμφάνιση της Υπολογιστικής
Νοημοσύνης, της επιστημονικής περιοχής
που αναλαμβάνει να αντιμετωπίσει
προβλήματα αυτής της φύσεως κάνοντας
χρήση τεχνικών επεξεργασίας της
πληροφορίας όπως αυτή θεωρείται ότι
εκτελείται απο τον ανθρώπινο εγκέφαλο ή
ότι επιτελείται από οργανισμούς στη φύση.

Υπολογιστική Νοημοσύνη
(σύμφωνα με το IEEE Computational Intelligence Society)
• Η θεωρία, η σχεδίαση και η ανάπτυξη υπολογιστικών
μεθοδολογιών και προσεγγίσεων που εμπνέονται από τη
φύση, με έμφαση στα νευρωνικά δίκτυα, τους γενετικούς
και εξελικτικούς αλγορίθμους, τον εξελικτικό
προγραμματισμό, τα ασαφή συστήματα και υβριδικά
«νοήμονα» συστήματα.
• Η εφαρμογή τους για την αντιμετώπιση σύνθετων
προβλημάτων στα οποία μαθηματική ή παραδοσιακή
μοντελοποίηση δεν αποδίδει.

Μηχανική Μάθηση
(σύμφωνα με τη wikipedia)
• To πεδίο της επιστήμης των υπολογιστών που προέκυψε από
τη μελέτη της αναγνώρισης προτύπων και της υπολογιστικής
θεωρίας μάθησης στην τεχνητή νοημοσύνη. Η μηχανική
μάθηση διερευνά τη μελέτη και την κατασκευή αλγορίθμων
που μπορούν να «μαθαίνουν» από τα δεδομένα και να
κάνουν προβλέψεις σχετικά με αυτά.
• Τέτοιοι αλγόριθμοι λειτουργούν κατασκευάζοντας μοντέλα
από πειραματικά δεδομένα, προκειμένου να κάνουν
προβλέψεις βασιζόμενες στα δεδομένα ή να εξάγουν
αποφάσεις που εκφράζονται ως το αποτέλεσμα.

Υπολογιστική Νοημοσύνη και Μηχανική Μάθηση
• Τα υπολογιστικά συστήματα «εκπαιδεύονται» και η
αποτελεσματική πρόβλεψη για άγνωστα δεδομένα που
χαρακτηρίζει σε μεγάλο βαθμό την επιτυχία της
διαδικασίας εκπαίδευσης ονομάζεται γενίκευση.
• Χαρακτηρισμός των συστημάτων και των διαδικασιών
με βάση την τεχνική «εκπαίδευσης»
• Μάθηση με επίβλεψη
– Ημι-επιβλεπόμενη
– Ενεργός
– Ενισχυτική
• Μάθηση χωρίς επίβλεψη
ΜΑΘΗΜΑ 1Ο
ΕΙΣΑΓΩΓΗ - ΠΡΟΒΛΗΜΑ ΤΑΞΙΝΟΜΗΣΗΣ

Ένα πρόβλημα ταξινόμησης
Δύο κατηγορίες συγγενών ζώων : Άλογο – Γαϊδούρι

Εξέχοντα χαρακτηριστικά που διαφοροποιούν δύο ζώα
Μέγεθος ζώου ( Ύψος) -> x1
Μέγεθος αυτιών -> x2
Δύο ομάδες ζώων μία από κάθε κατηγορία
• Άλογα
• Γαϊδούρια

• Άλογα
Ύψος Μέγεθος αυτιών

Κατηγορία
(140 - 180 cm) (12 – 25 cm)
1 145 12 0
2 150 15 0
3 148 14 0
4 166 17 0
5 170 20 0
6 154 14 0
7 178 15 0

• Γαϊδούρια
Ύψος Μέγεθος αυτιών

Κατηγορία
(79 – 160 cm) (20 – 30 cm)
1 82 20 1
2 87 22 1
3 122 25 1
4 98 28 1
5 130 21 1
6 110 30 1
7 105 26 1

Ένα ζώο με Ύψος = 152cm και Μέγεθος αυτιών = 23cm
Ερώτημα: Σε ποιά κατηγορία ανήκει;

35
30
25
20
Άλογα
15 Γαϊδούρια
10
0
0 50 100 150 200

35
30
25
20 Άλογα
Γαϊδούρια
15
Νέο
10
0
0 50 100 150 200

Οι δύο κατηγορίες μπορούν να χωριστούν από μια ευθεία
35
30
25
20 Άλογα
Γαϊδούρια
15
Line
10 Linear (Line)
0
0 50 100 150 200
-5

Η θέση του νέου στοιχείου σε σχέση με την ευθεία καθορίζει και
την κατηγορία στην οποία ανήκει το νέο ζώο.
35
30
25
Άλογα
20
Γαϊδούρια
15 Νέο
Line
10
Linear (Line)
0
0 50 100 150 200
-5

• Ερώτημα 1: Υπάρχει άλλη επιλογή ευθείας;
• Ερώτημα 2: Ποιά είναι η θέση του σημείου που

αντιστοιχεί στο νέο ζώο για τη νέα αυτή ευθεία;

35
30
25
Άλογα
20 Γαϊδούρια
Νέο
15
Line
10 Linear (Line)
0
0 50 100 150 200

• Η θέση του σημείου που αναπαριστά το νέο ζώο στο

γράφημα σε σχέση με την ευθεία δίνει την απάντηση.
• Δηλαδή, η ευθεία ορίζει ένα σύνορο ανάμεσα στα
στοιχεία των δύο κατηγοριών.
• Μοναδικό σύνορο για τα συγκεκριμένα παραδείγματα;
• Μοναδικό σύνορο για όλα τα ζώα και των δύο
κατηγοριών;

• Έχοντας την ευθεία μπορούμε τοποθετώντας κάθε νέο

σημείο σε σχέση με την ευθεία να αποφασίσουμε σε
ποιά από τις δύο κατηγορίες ανήκει το οποιοδήποτε
νέο σημείο.
• Η εν λόγω ευθεία αποτελεί ένα ΣΥΝΟΡΟ ΑΠΟΦΑΣΗΣ για
το συγκεκριμένο πρόβλημα ταξινόμησης όπως
περιγράφεται από τα συγκεκριμένα παραδείγματα.

Ένας υπολογιστικός μηχανισμός που για το

συγκεκριμένο πρόβλημα ταξινόμησης με κάποιο τρόπο
υπολογίζει ένα σύνορο απόφασης και για κάθε νέο
παράδειγμα δεδομένων αποφασίζει για την κατηγορία
που θα ταξινομηθεί το παράδειγμα αυτό, είναι ένας
μηχανισμός της υπολογιστικής νοημοσύνης.

Τι χρειάζεται ο υπολογιστικός αυτός μηχανισμός για να
λειτουργήσει:
• Τα παραδείγματα ή αλλιώς τα πρότυπα του

προβλήματος
• Τον υπολογισμό μιας ευθείας με βάση τα παραδείγματα
μέσω μιας διαδικασίας που ονομάζεται εκπαίδευση
• Για κάθε νέο παράδειγμα τα δεδομένα του
παραδείγματος για να δώσει μια απάντηση

Ορολογία
• Παράδειγμα = πρότυπο (pattern) κάθε γραμμή του
πίνακα δεδομένων
• Χαρακτηριστικό (feature) κάθε στήλη του πίνακα
δεδομένων
• Κατηγορία ή κλάση (class) στην οποία ανήκει κάθε
πρότυπο ο κωδικός της τελευταίας στήλης
• Όταν δύο κατηγορίες, που περιγράφονται από
συγκεκριμένα παραδείγματα, χωρίζονται από μια
ευθεία ονομάζονται γραμμικά διαχωρίσιμες.
• Το πλήθος των χαρακτηριστικών καθορίζει τη διάσταση
του προβλήματος ταξινόμησης.
Το διαχωριστικό σύνορο για δύο κατηγορίες εξαρτάται από τη
διαχωρισιμότητα των κατηγοριών και από τη διάσταση του
προβλήματος. Στον επόμενο πίνακα δίνεται η μορφή του
συνόρου ανάλογα με τον τύπο της διαχωρισιμότητας και τη
διάσταση του προβλήματος.
Γραμμικά διαχωρίσιμες Μη γραμμικά διαχωρίσιμες

κατηγορίες κατηγορίες
2 -διαστάσεις Ευθεία Καμπύλη ή τεθλασμένη γραμμή
3-διαστάσεις Επίπεδο Επιφάνεια
Ν-διαστάσεις Υπερεπίπεδο Υπερεπιφάνεια

Δύο μη γραμμικά διαχωρίσιμες κατηγορίες , 2-διαστάσεις
35
30
25
20
15
10
0
0 20 40 60 80 100 120 140

Τρείς μη γραμμικά διαχωρίσιμες κατηγορίες, 3-διαστάσεις

Άλλα παραδείγματα ταξινόμησης
Παραδείγματα γραμμικά και μη γραμμικά

διαχωρίσιμων κατηγοριών
https://www.commonlounge.com/discussion/6caf4957
0d9c4d0789afbc544b32cdbf

ΤΕΧΝΗΤΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
• Η επίλυση προβλημάτων όπως αυτά που αναφέρθηκαν

στα πλαίσια της Υπολογιστικής Νοημοσύνης είναι
αντικείμενο των Τεχνητών Νευρωνικών Δικτύων (ΤΝΔ)
• Τα ΤΝΔ είναι υπολογιστικά υποδείγματα που έχουν
προταθεί, με βάση τη δομή και τη λειτουργία του
ανθρώπινου εγκεϕάλου, ως διέξοδος στην αναζήτηση
ενός νέου υπολογιστικού παραδείγματος το οποίο είναι
εναλλακτικό προς την κλασική μηχανή Von Neumann.

Τα χαρακτηριστικά του ανθρώπινου εγκεϕάλου τα οποία είναι
επιθυμητά σε τεχνητά υπολογιστικά συστήματα είναι:
1. Η ευρωστία (robustness) δεδομένου ότι οι νευρώνες
ανανεώνονται χωρίς να επηρεάζεται η λειτουργία του
νευρωνικού συστήματος
2. H πλαστικότητα (plasticity) που επιτρέπει τη μέγιστη
προσαρμοστικότητα (adaptability) σε νέα δεδομένα και σε
νέες συνθήκες που προέρχονται από το περιβάλλον χωρίς
επανα-προγραμματισμό του νευρωνικού συστήματος
3. Η ταχύτητα απόκρισης σε εξωτερικά ερεθίσματα λόγω της
μαζικά παράλληλης και κατανεμημένης επεξεργασίας
4. Η ικανότητα επεξεργασίας δεδομένων που είναι ασαϕή ή
ακόμη και μη συμβατά μεταξύ τους
Τα δομικά στοιχεία του ανθρώπινου εγκεϕάλου είναι τα
νευρικά κύτταρα ή νευρώνες τα οποία οργανώνονται σε
ένα δίκτυο που ονομάζεται νευρωνικό δίκτυο.
Τυπική δομή βιολογικού νευρώνα
Δενδρίτες
Κλάδοι του
άξονα
Συνάψεις
Πυρήνας
Κατεύθυνση μετάδοσης
των παλμών
Σώμα

Χαρακτηριστικά του νευρώνα:
• Δενδρίτες: αποτελούν τις εισόδους του νευρώνα από όπου
εισέρχονται ηλεκτρικά σήματα από άλλους νευρώνες
• Άξονας: αγωγός μεταφοράς σήματος εξόδου του νευρώνα προς
άλλους νευρώνες (μήκος 1 mm έως και > 1 m). Μεταφέρει
παλμούς σταθερού πλάτους αλλά μεταβλητής συχνότητας
• Συνάψεις: αποτελούν τα σημεία στα οποία οι διακλαδώσεις του
άξονα ενός νευρώνα ενώνονται με τους δενδρίτες άλλων
νευρώνων σχηματίζοντας ένα δίκτυο
• Οι νευρώνες αλληλεπιδρούν μέσω των συνάψεων με την
ανταλλαγή σημάτων η οποία είναι μια πολύπλοκη
ηλεκτροχημική διαδικασία.

Χαρακτηριστικά του νευρώνα:
• Τα σήματα αυτά είναι ηλεκτρικοί παλμοί οι οποίοι μεταδίδονται
μέσω του άξονα κάθε νευρώνα εκπομπής και δια μέσου των
συνάψεων στους δενδρίτες των νευρώνων λήψης των σημάτων.
• Η χημική συγκέντρωση από την πλευρά εκπομπής της σύναψης
προκαλεί αύξηση του ηλεκτρικού ϕορτίου από την πλευρά του
δενδρίτη.
• Ο νευρώνας δέκτης συλλέγει το ηλεκτρικό ϕορτίο που δέχεται
στους δενδρίτες του από τις συνάψεις σταθμίζοντας το
εισερχόμενο ϕορτίο με βάση ένα συντελεστή που εξαρτάται
από τη βαρύτητα της συναπτικής ζεύξης.

Στο επόμενο σχήμα φαίνονται τα στοιχεία που υπεισέρχονται στη
διαδικασία ενεργοποίησης του νευρώνα και μετάδοσης του
σήματος μέσω των συνάψεων.
(από το βιβλίο «Τεχνητά Νευρωνικά Δίκτυα», Κ. Διαμαντάρα)

Κατά συνέπεια:
• Στις συνάψεις δημιουργούνται μέσω μιας ακόμη
λεπτομερέστερης διαδικασίας συγκεντρώσεις ιόντων (Na+, K+)
• Χαρακτηριστικά όπως, τo μέγεθος της σύναψης, η απόσταση
από τον δενδρίτη καθώς και η πυκνότητα των συγκεντρώσεων
ιόντων επηρεάζουν την «αγωγιμότητα» του άξονα-συνάψεων
και άρα την ευκολία μετάδοσης ηλεκτρικού φορτίου στους
δενδρίτες.
• Τα ανωτέρω χαρακτηριστικά συνιστούν ένα στοιχείο που
συνολικά ονομάζεται συναπτικό βάρος (συντελεστής μετάδοσης
της ηλεκτρικής δραστηριότητας)
• Δύο είδη συνάψεων:
– Ενισχυτικές (excitatory)
– Ανασταλτικές (inhibitory)

Συμπεράσματα:
• Κατά τη λειτουργία του βιολογικού νευρώνα η συνολική
διέγερση είναι το άθροισμα των διεγέρσεων σε όλους τους
δενδρίτες
• Η συχνότητα των παλμών που δημιουργούνται στην έξοδο του
νευρώνα και άρα μεταφέρνται μέσω του άξονα είναι ανάλογη
της συνολικής διέγερσης
• Στον ανθρώπινο εγκέφαλο υπάρχουν περίπου 100
δισεκατομμύρια νευρώνες
• Κάθε νευρώνας επεξεργάζεται τα σήματα εισόδου και τα
μεταφέρει σε άλλους νευρώνες μέσω περίπου 1000 (περίπου)
συνάψεων
• Οι νευρώνες είναι διασυνδεδεμένοι μεταξύ τους σχηματίζοντας
τον εγκεφαλικό ιστό που αποτελεί ένα δίκτυο νευρώνων

Τεχνητά Νευρωνικά Δίκτυα (ΤΝΔ)
Βιολογικός νευρώνας  τεχνητός νευρώνας
Εγκεφαλικός ιστός  δομή δικτύου
Άρα,
• Ένα ΤΝΔ είναι μια αρχιτεκτονική δομή (δίκτυο) αποτελούμενη
από ένα πλήθος διασυνδεδεμένων μονάδων επεξεργασίας
(τεχνητοί νευρώνες)
• Κάθε μονάδα επεξεργασίας εκτελεί έναν απλό υπολογισμό και
με βάση το αποτέλεσμα μεταδίδει πληροφορία στις
υπολογιστικές μονάδες με τις οποίες είναι συνδεδεμένη
• Οι συνδέσεις μεταξύ των μονάδων επεξεργασίας αντιστοιχούν
στις συνάψεις και κάθε σύναψη χαρακτηρίζεται από ένα
συντελεστή δηλ. το συναπτικό βάρος
Τεχνητά Νευρωνικά Δίκτυα
Παραδοχή:
Οι νοήμονες λειτουργίες δεν είναι αποκλειστικότητα του
ανθρώπινου εγκεφάλου
Δυνατότητες των ΤΝΔ:
• Μάθηση με παραδείγματα (αναγνώριση, ταξινόμηση, κλπ.)
• Ικανότητα γενίκευσης
• Ανοχή σε θόρυβο και βλάβες
• Διαχείριση ελλιπούς πληροφορίας και αβεβαιότητας
• Ικανότητα αποθήκευσης γνώσης
• Αυτοοργάνωση
• Απομνημόνευση «γνώσης»

ΜΑΘΗΜΑ 2Ο
ΑΠΟ ΤΟ ΒΙΟΛΟΓΙΚΟ ΣΤΟΝ ΤΕΧΝΗΤΟ ΝΕΥΡΩΝΑ

Πρόβλημα ταξινόμησης
• Γραμμική διαχωρισιμότητα.
• Ύπαρξη μιας ευθείας που διαχωρίζει δύο κατηγορίες
• Εξίσωση ευθείας,
• π.χ.
• όπου α είναι η κλίση και β η μετατόπιση

• Γράφημα
15
10
0
-5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
-5
-10

• Ευθεία
25
20
15
10
0
-5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
-5
-10
-15

• Γενική μορφή εξίσωσης ευθείας στο επίπεδο

• Δύο βασικές ανισώσεις

• Δύο βασικές ανισώσεις
• Που αληθεύουν αυτές οι ανισώσεις;

• Γράφημα ⇒
15
10
0
-5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
-5
-10

• Γράφημα ⇒
15
10
0
-5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
-5
-10

• Ευθεία ⇒
25
20
15
10
0
-5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
-5
-10
-15

• Ευθεία ⇒
25
20
15
10
0
-5 -4.5 -4 -3.5 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
-5
-10
-15

Υπολογιστική Μονάδα
a b c
x1
x2

Σχόλια
• Τιμές για την έξοδο της υπολογιστικής μονάδας:
 +, , 0 ή 0, 1 ή -1, 1
• Τι χρειάζεται επί πλέον ώστε να δίνει τις τιμές αυτές;
• Σε ποιό βαθμό η υπολογιστική μονάδα που

περιγράψαμε μοιάζει με το βιολογικό νευρώνα;
• Πως υπολογίζονται δηλ. πως ρυθμίζονται οι

συντελεστές a, b, c;

Κλάδοι του
άξονα
Δενδρίτες Συνάψεις
Πυρήνας
των παλμών
Σώμα

Ο νευρώνας των McCulloch – Pitts

• Το άθροισμα είναι το εσωτερικό γινόμενο δύο
διανυσμάτων:
– του διανύσματος των δεδομένων εισόδου
– του διανύσματος των συναπτικών βαρών
• Η συνάρτηση ενεργοποίησης του νευρώνα f(s) είναι
μη γραμμική
• Έχουν προταθεί διάφορες μοντελοποιήσεις του
νευρώνα McCulloch-Pitts οι οποίες διαφέρουν κυρίως
ως προς τον τύπο της συνάρτησης ενεργοποίησης
• Μορφές της συνάρτησης ενεργοποίησης.
(Εικόνα από το site https://medium.com)

Γενικές αρχές:
• Το συναπτικό δυναμικό μπορεί να ενισχύει (θετικό) ή
να καταστέλλει (αρνητικό) το σήμα εισόδου.
• Μάθηση στα βιολογικά συστήματα είναι η μεταβολή
των συναπτικών δυναμικών.
• Οσο περισσότερο χρησιμοποιείται μια σύναψη τόσο
ενισχύεται το δυναμικό της.
• Η γνώση μας είναι «αποθηκευμένη» στις τιμές των
συναπτικών δυναμικών.

Η υπόθεση του Hebb:
Donald Hebb, “The Organization of Behavior”, (1949)
... When an axon of cell A is near enough to excite a cell B
and repeatedly or persistently takes part in firing it, some
growth process or metabolic change takes place in one or
both cells such that A's efficiency, as one of the cells firing
B, is increased.
Στην αρχή αυτή βασίζονται διάφοροι κανόνες με τους
οποίους ρυθμίζονται οι τιμές των συναπτικών βαρών στα
Τ.Ν.Δ.

Στη συνέχεια θα μελετήσουμε ένα κανόνα προσαρμογής,
δηλ. ρύθμισης, των συναπτικών βαρών σε ένα απλό
μοντέλο τεχνητού νευρώνα ο οποίος θα εκπαιδευτεί σε
ένα απλο πρόβλημα ταξινόμησης μιας στοιχειώδους
λογικής συνάρτησης.
Στην αρχή θα κάνουμε κάποιες υποθέσεις για το μοντέλο
του τεχνητού νευρώνα, στη συνέχεια θα περιγράψουμε
τον κανόνα προσαρμογής των συναπτικών βαρών και
τέλος θα δείξουμε πως εφαρμόζεται ο εν λόγω κανόνας
στο απλό πρόβλημα ταξινόμησης.

ΕΚΠΑΊΔΕΥΣΗ ΤΕΧΝΗΤΟΥ ΝΕΥΡΩΝΑ
Υποθέσεις για τον τεχνητό νευρώνα:
• Δύο είσοδοι x1 και x2
• Το σήμα εισόδου για το Bias είναι +1
• Η συνάρτηση ενεργοποίησης είναι
• (1) η έξοδος χαρακτηρίζεται ανενεργή (Inactive)

• (2) η έξοδος χαρακτηρίζεται ενεργή (Active)
• Με τον ίδιο τρόπο μια είσοδος χαρακτηρίζεται ενεργή
ή ανενεργή ανάλογα με την τιμή της
Κανόνας (αλγορίθμος) προσαρμογής των βαρών του
τεχνητού νευρώνα
• Στις εισόδους του τεχνητού νευρώνα δίνονται με τη
σειρά οι τιμές εισόδου για κάθε πρότυπο και η
τρέχουσα έξοδος (Actual Output) του νευρώνα
συγκρίνεται με την αντίστοιχεί επιθυμητή έξοδο
(Desired Output) για το κάθε πρότυπο
• Η διόρθωση (ρύθμιση) των συναπτικών βαρών
εκτελείται εφαρμόζοντας τον επόμενο κανόνα:

Αν η έξοδος του νευρώνα
• είναι ενεργή (θετική τιμή) και είναι επιθυμητό να
είναι ενεργή
ή
• είναι ανενεργή (τιμή αρνητική ή μηδέν) και είναι
επιθυμητό να είναι ανενεργή
τότε
• καμμία διόρθωση των τιμών για τα βάρη

• είναι ανενεργή (τιμή αρνητική ή μηδέν) και είναι
επιθυμητό να είναι ενεργή (τιμή θετική)
τότε
• αύξησε τις τιμές των βαρών για τις ενεργές εισόδους
κατά μία σταθερή ποσότητα δ, έστω 0<δ ≤1.

• είναι ενεργή (τιμή θετική) και είναι επιθυμητό να
είναι ανενεργή (τιμή αρνητική ή μηδέν)
τότε
• μείωσε τις τιμές των βαρών για τις ενεργές εισόδους
κατά μία σταθερή ποσότητα δ, έστω 0<δ ≤1.

Παράδειγμα εφαρμογής για το πρόβλημα:
x1 x2 Έξοδος
0 0 Ενεργή (Α)
0 1 Ενεργή (Α)
1 1 Ανενεργή (Ι)

Γραφικά:
x2
(0, 1) (1, 1)
(0, 0) x1

Bias x1 x2 DO w0 w1 w2 AO I/D/N
+1 0 0 A 0 0 0 I
+0.1   Incr.
+1 0 1 A 0.1 0 0 A
   No c.
+1 1 1 I 0.1 0 0 A
-0.1 -0.1 -0.1 Decr.
+1 0 0 A 0 -0.1 -0.1 I
+0.1   Incr.
+1 0 1 A 0.1 -0.1 -0.1 I
+0.1  +0.1 Incr.

+1 1 1 I +0.2 -0.1 0 A
-0.1 -0.1 -0.1 Decr.
+1 0 0 A +0.1 -0.2 -0.1 A
   No c.
+1 0 1 A +0.1 -0.2 -0.1 I
+0.1  +0.1 Incr.
+1 1 1 I +0.2 -0.2 0 I
   No c.
+1 0 0 A +0.2 -0.2 0 A
   No c.

+1 0 1 A +0.2 -0.2 0 A
   No c.
+1 1 1 I +0.2 -0.2 0 I
   No c.
+0.2 -0.2 0
• DO: Desired Output, η έξοδος που θέλουμε για το συγκεκριμένο
πρότυπο
• AO: Actual Output, η έξοδος που παίρνουμε για το συγκεκριμένο
πρότυπο με τα συγκεκριμένα βάρη
• I/D/N: Increase/Decrease/No change, αύξηση/μείωση/καμμία
αλλαγή στις τιμές των βαρών
Ασκήσεις:
1. Να επαναλάβετε την προηγούμενη διαδικασία με τιμή
για το bias=-1 και για δ=0.5
2. Να επαναλάβετε τον αλγόριθμο με τιμές για το
bias=+1 και το δ=0.5, για το πρόβλημα:
x1 x2 Έξοδος
0 0 Ενεργή (A)
1 1 Ενεργή (A)
1 0 Ανενεργή (I)

Κλάδοι του
άξονα
Πυρήνας
των παλμών
Σώμα

• Κατά τη λειτουργία του βιολογικού νευρώνα η συνολική
διέγερση είναι το άθροισμα των διεγέρσεων σε όλους τους
δενδρίτες
• Η συχνότητα των παλμών που δημιουργούνται στην έξοδο του
νευρώνα και άρα μεταφέρνται μέσω του άξονα είναι ανάλογη
της συνολικής διέγερσης
• Στον ανθρώπινο εγκέφαλο υπάρχουν περίπου 100
δισεκατομμύρια νευρώνες
• Κάθε νευρώνας επεξεργάζεται τα σήματα εισόδου και τα
μεταφέρει σε άλλους νευρώνες μέσω περίπου 1000 (περίπου)
συνάψεων
• Οι νευρώνες είναι διασυνδεδεμένοι μεταξύ τους σχηματίζοντας
τον εγκεφαλικό ιστό που αποτελεί ένα δίκτυο νευρώνων

Τεχνητά Νευρωνικά Δίκτυα (ΤΝΔ)
Βιολογικός νευρώνας  τεχνητός νευρώνας
Εγκεφαλικός ιστός  δομή δικτύου
• Ένα ΤΝΔ είναι μια αρχιτεκτονική δομή (δίκτυο) αποτελούμενη
από ένα πλήθος διασυνδεδεμένων μονάδων επεξεργασίας
(τεχνητοί νευρώνες)
• Κάθε μονάδα επεξεργασίας εκτελεί έναν απλό υπολογισμό και
με βάση το αποτέλεσμα μεταδίδει πληροφορία στις
υπολογιστικές μονάδες με τις οποίες είναι συνδεδεμένη
• Οι συνδέσεις μεταξύ των μονάδων επεξεργασίας αντιστοιχούν
στις συνάψεις και κάθε σύναψη χαρακτηρίζεται από ένα
συντελεστή δηλ. το συναπτικό βάρος

Τεχνητά Νευρωνικά Δίκτυα
Παραδοχή:
Οι νοήμονες λειτουργίες δεν είναι αποκλειστικότητα του
ανθρώπινου εγκεφάλου
Δυνατότητες των ΤΝΔ:
• Μάθηση με παραδείγματα (αναγνώριση, ταξινόμηση, κλπ.)
• Ικανότητα γενίκευσης
• Ανοχή σε θόρυβο και βλάβες
• Διαχείριση ελλιπούς πληροφορίας και αβεβαιότητας
• Ικανότητα αποθήκευσης γνώσης
• Αυτοοργάνωση
• Απομνημόνευση «γνώσης»

ΜΑΘΗΣΗ ΚΑΙ ΕΚΠΑΙΔΕΥΣΗ ΣΤΑ ΤΝΔ
Σχετικά με τη Μάθηση
• Η μάθηση από παραδείγματα είναι αποτέλεσμα της
διαδικασίας εκπαίδευσης. Στόχος της είναι ο
καθορισμός των τιμών των συναπτικών βαρών ώστε το
δίκτυο να επιτελεί μια νοήμονα λειτουργία η οποία
περιγράφεται άτυπα από τα παραδείγματα.
• Ικανότητα γενίκευσης. Η μάθηση είναι επιτυχής όταν
το ΤΝΔ είναι ικανό να επιτελεί την επιθυμητή
λειτουργία όχι μόνο στα γνωστά παραδείγματα αλλά
και σε άγνωστα, επιδεικνύοντας έτσι ικανότητα
γενίκευσης.

• Όταν τα παραδείγματα εκπαίδευσης είναι
αντιπροσωπευτικά της λειτουργίας για εκμάθηση τότε
τα ΤΝΔ έχουν αποδείξει ότι αποτελούν συστήματα με
αξιόλογη γενικευτική ικανότητα.
ΜΑΘΗΜΑ 3Ο
ΒΙΟΛΟΓΙΚΟΣ ΚΑΙ ΤΕΧΝΗΤΟΣ ΝΕΥΡΩΝΑΣ
Κλάδοι του
άξονα
Πυρήνας
των παλμών
Σώμα


Παραδοχές
• Οι είσοδοι αναπαρίστανται ως ένα διάνυσμα τιμών
που ονομάζεται επαυξημένο διάνυσμα:
• Η επί πλέον τιμή αντιστοιχεί στο σήμα εισόδου

του bias και συνήθως τίθεται ίσο με 1
• Στο διάνυσμα αυτό αντιστοιχεί το επαυξημένο
διάνυσμα των βαρών:

Παραδοχές (συνέχεια)
• Κατά συνέπεια το άθροισμα:
γράφεται:
και το u αντικαθιστά τη μεταβλητή s

• Η μάθηση από παραδείγματα είναι αποτέλεσμα της
διαδικασίας εκπαίδευσης. Στόχος της είναι ο
καθορισμός των τιμών των συναπτικών βαρών ώστε το
δίκτυο να επιτελεί μια νοήμονα λειτουργία η οποία
περιγράφεται άτυπα από τα παραδείγματα.
• Ικανότητα γενίκευσης. Η μάθηση είναι επιτυχής όταν
το ΤΝΔ είναι ικανό να επιτελεί την επιθυμητή
λειτουργία όχι μόνο στα γνωστά παραδείγματα αλλά
και σε άγνωστα, επιδεικνύοντας έτσι ικανότητα
γενίκευσης.

• Όταν τα παραδείγματα εκπαίδευσης είναι
αντιπροσωπευτικά της λειτουργίας για εκμάθηση τότε
τα ΤΝΔ έχουν αποδείξει ότι αποτελούν συστήματα με
αξιόλογη γενικευτική ικανότητα.

Μάθηση με παραδείγματα
Διάφορες προσεγγίσεις
• Μάθηση με επίβλεψη (supervised learning)

• Μάθηση χωρίς επίβλεψη (unsupervised learning)
• Μάθηση με ενίσχυση (reinforcement learning)
• Μάθηση με ημι-επίβλεψη (semi-supervised learning)

Μάθηση με επίβλεψη (supervised learning)
• Τα παραδείγματα του προβλήματος εμφανίζονται με
τη μορφή συνόλου από ζεύγη της μορφής (είσοδος,
επιθυμητή έξοδος ή στόχος)
• Κάθε ζεύγος μπορεί να θεωρηθεί ως (ερώτηση, ορθή

απάντηση)
Σημειώστε ότι

• Αυτό που κατ’αρχήν μαθαίνει το ΤΝΔ είναι να
αντιστοιχίζει σωστά σε κάθε είσοδο την αντίστοιχη
έξοδο. Ο βαθμός στον οποίο αυτή η αντιστοίχηση είναι
σωστή χαρακτηρίζει και την επιτυχία της μάθησης
• Ο όρος μάθηση με επίβλεψη παραπέμπει στο
ανθρώπινο τρόπο μάθησης όπου ένας επιβλέπων «ο
δάσκαλος» εποπτεύει τη διαδικασία μάθησης
θέτοντας ερωτήματα και δίνοντας τις σωστές
απαντήσεις

PERCEPTRON
Βασικά στοιχεία
• Ένα perceptron είναι ένα ΤΝΔ που αποτελείται από
νευρώνες McCulloch-Pitts
• Περιλαμβάνει ένα ή περισσότερους νευρώνες
• Όλοι οι νευρώνες δέχονται στην είσοδο τις τιμές που
περιγράφουν τα πρότυπα
• Επί πλέον στο perceptron παρουσιάζεται και η τιμή της
κατηγορίας που αντιστοιχεί στο πρότυπο
• Με χρήση ενός αλγορίθμου που ρυθμίζει τα συναπτικά
βάρη το perceptron μαθαίνει να αντιστοιχεί σε κάθε
πρότυπο την κατηγορία στην οποία ανήκει
PERCEPTRON
• Το διάνυσμα των δεδομένων δίνεται ή μετατρέπεται σε

επαυξημένη μορφή:
• Η τιμή κάθε απάντησης (στόχου) είναι:

a)
ενώ πολλές φορές χρησιμοποιείται και
b)

• Στην πρώτη περίπτωση η συνάρτηση ενεργοποίησης
του τεχνητού νευρώνα είναι,
η συνάρτηση:
ή ακόμη:
Ενώ στη δεύτερη περιπτωση είναι η συνάρτηση:

PERCEPTRON
Τρόπος λειτουργίας
1. Για κάθε πρότυπο,
υπολογίζεται η συνολική είσοδος, δηλ. το επίπεδο
ενεργοποίησης του νευρώνα:
2. Υπολογισμός της εξόδου του νευρώνα με χρήση της

συνάρτησης ενεργοποίησης (activation function)

PERCEPTRON
Τρόπος λειτουργίας (συνέχεια)
3. Το εσωτερικό γινόμενο
υπολογίζεται με τα επαυξημένα διανύσματα για κάθε
πρότυπο

PERCEPTRON
Εκπαίδευση του perceptron

Δεδομένα:
• Το σύνολο των παραδειγμάτων εκπαίδευσης
X  {(x p , C (x p )), p  1..P}
• Εδώ, κάθε παράδειγμα αποτελείται από:
– ένα επαυξημένο διάνυσμα n+1 διαστάσεων:
για το p πρότυπο
– το διακριτικό της κατηγορίας : C (x p )  C1 ή C2
του προτύπου

PERCEPTRON
Δεδομένα:
• Το διακριτικό της κατηγορίας αποτελεί συμβολική
πληροφορία και θα πρέπει να μετατραπεί σε
αριθμητική δηλ. -1 και 1
• Άρα, απαιτείται ο καθορισμός των τιμών στόχων για
κάθε κατηγορία και κατά συνέπεια για κάθε πρότυπο:
C1  t  1 και C2  t  1
• Τα δεδομένα είναι πλέον:
X  {(x p , t p ), p  1..P}
PERCEPTRON
Ανακεφαλαιώνοντας:
• Παραδείγματα εκπαίδευσης: X  {(x p , t p ), p  1..P}
που ανήκουν σε δύο κατηγορίες
• Κάθε κατηγορία σηματοδοτείται από μία τιμή στόχο
• H εκπαίδευση συνίσταται στον καθορισμό εκείνων των
τιμών για τα βάρη του perceptron ώστε για κάθε
πρότυπο p η τιμή της εξόδου του perceptron να είναι
ίση με την τιμή του στόχου. Δηλαδή να ισχύει
y t
p p

PERCEPTRON
Ανακεφαλαιώνοντας:
• Αρχικά επιλέγεται ένα τυχαίο διάνυσμα βαρών που
δίνει μια τυχαία θέση του συνόρου απόφασης δηλ. της
διαχωριστικής ευθείας (επιπέδου ή υπερεπιπέδου)
• Για την τυχαία αυτή θέση του συνόρου απόφασης
κάποια από τα πρότυπα ενδέχεται να ταξινομούνται
σωστά και κάποια λάθος. Η θέση του συνόρου
απόφασης διορθώνεται με αλλαγή των συναπτικών
βαρών και υπολογίζεται η νέα θέση του

PERCEPTRON
• Τα πρότυπα ή αλλιώς παραδείγματα παρουσιάζονται
ένα προς ένα στο perceptron με κυκλική σειρά:
Επανάλη
1 2 ... P P+1 P+2 … 2P 2P+1 …
ψη
Πρότυπο 1 2 ... P 1 2 … P 1 …
Εποχή 1 Εποχή 2 Εποχή 3

PERCEPTRON
Για κάθε πρότυπο xp
• Σωστή ταξινόμηση του προτύπου σημαίνει ότι το
πρότυπο βρίσκεται στη σωστή πλευρά σε σχέση με το
σύνορο απόφασης (ευθεία, επίπεδο ή υπερεπίπεδο).
 Άρα καμμία αλλαγή στα βάρη του perceptron
• Λανθασμένη ταξινόμηση του προτύπου σημαίνει ότι το
πρότυπο βρίσκεται στη λάθος πλευρά σε σχέση με το
υπερεπίπεδο. Άρα απαιτείται να να αλλάξει θέση το
υπερεπίπεδο.
 Άρα μεταβολή των τιμών των βαρών
PERCEPTRON
Σχετικά με τη μεταβολή των βαρών:
• Η μεταβολή πρέπει να μετακινήσει το σύνορο
απόφασης προς την κατεύθυνση διόρθωσης του
σφάλματος ώστε,
– είτε το λάθος ταξινομημένο πρότυπο να βρεθεί στη
σωστή πλευρά του συνόρου απόφασης,
– είτε να μειωθεί η απόσταση που χωρίζει το πρότυπο
από την σωστή πλευρά του συνόρου απόφασης.

PERCEPTRON
Αλγόριθμος Εκπαίδευσης του perceptron

Συμβολισμοί:
• k η επανάληψη του αλγορίθμου
• w(k ) το επαυξημένο διάνυσμα βαρών στην k

επανάληψη
• x p (k ) το επαυξημένο διάνυσμα που αντιστοιχεί στο

πρότυπο p στην k επανάληψη και ο αντίστοιχος
p
στόχος t (k )

PERCEPTRON

Αρχικοποίηση:
1. Θέτουμε k = 0
2. Επιλέγουμε τυχαία τιμές για το διάνυσμα βαρών
σε ένα διάστημα όπως π.χ. το διάστημα [-1,1]
w(0)
3. Δίνουμε τιμή στο συντελεστή μάθησης  , (  0)
4.

PERCEPTRON

Σε κάθε επανάληψη k>0:
1. Επιλέγεται ένα πρότυπο και δίνεται στην είσοδο του
perceptron
2. Υπολογίζονται η διέγερση u
p
(k ) και η έξοδος y p (k )
3. Αν y (k )  t (k ) τότε τα συναπτικά βάρη
p p
τροποποιούνται με χρήση της διανυσματικής σχέσης:

w(k )  w(k  1)   (t p (k )  y p (k ))x p (k )
4. Αλλιώς τα βάρη μένουν αμετάβλητα

PERCEPTRON

Τερματισμός του αλγορίθμου:
1. Αν για μία εποχή δεν υπάρξει αλλαγή στα βάρη τότε ο
αλγόριθμος τερματίζει

PERCEPTRON

Σύγκλιση:
• Από το Θεώρημα σύγκλισης του κανόνα perceptron
αποδεικνύεται ότι αν οι δύο κατηγορίες είναι γραμμικά
διαχωρίσιμες τότε ο αλγόριθμος συγκλίνει σε
πεπερασένο αριθμό επαναλήψεων έχοντας
προσδιορίσει τιμές για τα βάρη που ορίζουν ένα
υπερεπίπεδο που αποτελεί το διαχωριστικό σύνορο
μεταξύ των δύο κατηγοριών
• Αν οι κατηγορίες δεν είναι γραμμικά διαχωρίσιμες τότε
ο αλγόριθμος αυτός «ταλαντώνεται» ανάμεσα στις δύο
κατηγορίες
PERCEPTRON

Επεξήγηση της διόρθωσης των βαρών:
• Έστω ότι στην k επανάληψη ισχύει ότι: t p (k )  1
και y p (k )  1
• Κατά συνέπεια (t p (k )  y p (k ))  2
y p (k )  1  u p (k )  0
• Άρα χρειάζεται u (k  1)  u (k )
p p

PERCEPTRON

Επεξήγηση της διόρθωσης των βαρών (συνέχεια)
• Μετά την ενημέρωση των βαρών για το x p (k )
πρότυπο θα ισχύει ότι:
u p (k  1)  w(k  1)T x p (k ) 
w(k )T x p (k )   (t p (k )  y p (k ))x p (k )T x p (k )
Άρα
u p (k  1)  u p (k )   (t p (k )  y p (k ))x p (k )T x p (k )

PERCEPTRON

• Δεδομένου ότι:
2
x (k ) x (k )  x (k )  0,   0 και
p T p p
(t p (k )  y p (k ))  0
• Συμπεραίνουμε πως,
u (k  1)  u (k )
p p

PERCEPTRON

• Αν στην k επανάληψη ισχύει ότι:
t p (k )  1 και y p (k )  1
• Τότε (t p (k )  y p (k ))  2
• Επί πλέον y p (k )  1  u p (k )  0
• Άρα χρειάζεται u p (k  1)  u p (k )
PERCEPTRON

θα ισχύει ότι:
u p (k  1)  w(k  1)T x p (k ) 
και
u (k  1)  u (k )  (t (k )  y (k ))x (k ) x (k )
p p p p p T p

PERCEPTRON

θα ισχύει ότι:
u p (k  1)  w(k  1)T x p (k ) 
και
u (k  1)  u (k )  (t (k )  y (k ))x (k ) x (k )
p p p p p T p

PERCEPTRON

• Δεδομένου ότι:
2
x (k ) x (k )  x (k )  0,   0 και
p T p p
(t p (k )  y p (k ))  0
• Συμπεραίνουμε ότι: u (k  1)  u (k )
p p

PERCEPTRON
Άλλοι τύποι προβλημάτων

Η λογική συνάρτηση XOR
x1 x2 Έξοδος
0 0 0
0 1 1
1 0 1
1 1 0

PERCEPTRON
Γραφικά:
x2
(0, 1) (1, 1)
(0, 0) x1
(1, 0)

PERCEPTRON
Διαχωρισμός με σύνορο απόφασης δύο ευθείες
x2
(0, 1) (1, 1)
(0, 0) x1
(1, 0)

PERCEPTRON
Διαχωρισμός με σύνορο απόφασης δύο ευθείες
x2
(0, 1) (1, 1)
(0, 0) x1
(1, 0)

PERCEPTRON
Δύο μη γραμμικά διαχωρίσιμες κατηγορίες, 2-διαστάσεις
35
30
25
20
15
10
0
0 20 40 60 80 100 120 140

PERCEPTRON
35
30
25
20
15
10
0
0 20 40 60 80 100 120 140

PERCEPTRON
35
30
25
20
15
10
0
0 20 40 60 80 100 120 140

PERCEPTRON
• Υπάρχει η δυνατότητα να εκπαιδεύσουμε ένα
perceptron ώστε να μπορεί να διαχωρίσει δύο μη
γραμμικά διαχωρίσιμες κατηγορίες με ένα γραμμικό
σύνορο απόφασης έτσι ώστε το σφάλμα που θα
προκύπτει να είναι αμελητέο για το συγκεκρμένο
πρόβλημα, δηλ. να μη μας ενδιαφέρει.
• Ο αλγόριθμος αυτός είναι ο αλγόριθμος pocket
perceptron (Gallant, 1990)
ΜΑΘΗΜΑ 4Ο
PERCEPTRON
Οι λογικές συναρτήσεις ως προβλήματα ταξινόμησης
• Η συνάρτηση AND
x1 x2 Έξοδος
0 0 0
0 1 0
1 0 0
1 1 1

PERCEPTRON
• Γραφικά:
x2
(0, 1) (1, 1)
x1
(0, 0)
(1, 0)

PERCEPTRON
• Η συνάρτηση OR
x1 x2 Έξοδος
0 0 0
0 1 1
1 0 1
1 1 1

PERCEPTRON
• Γραφικά:
x2
(0, 1) (1, 1)
x1
(0, 0)
(1, 0)

PERCEPTRON
Ασκήσεις
1. Να περιγραφούν οι προηγούμενες λογικές συναρτήσεις
ως προβλήματα ταξινόμησης που επιλύονται με
perceptron
2. Ποιές άλλες λογικές συναρτήσεις μπορούν να
περιγραφούν ως προβλήματα που επιλύονται με
perceptron
3. Σκεφτείτε αν είναι απαραίτητη η εκπαίδευση ενός
perceptron ή μπορούμε να βρούμε κάποια σταθερά
συναπτικά βάρη για κάθε λογική συνάρτηση
4. Μπορούμε αντί για τιμές 0 και 1 να επιλέξουμε τιμές -1
και 1 για τις εισόδους και την έξοδο κάθε συνάρτησης;
PERCEPTRON
Άλλοι τύποι προβλημάτων

• Η λογική συνάρτηση XOR
x1 x2 Έξοδος
0 0 0
0 1 1
1 0 1
1 1 0

PERCEPTRON
Γραφικά:
x2
(0, 1) (1, 1)
(0, 0) x1
(1, 0)

PERCEPTRON
Διαχωρισμός με ευθείες
x2
(0, 1) (1, 1)
x1
(0, 0)
(1, 0)

PERCEPTRON
Διαχωρισμός με ευθείες
x2
(0, 1) (1, 1)
(0, 0) x1
(1, 0)

PERCEPTRON
Γραφικά:
w01
x1 w11 a1
1
w12 w31 y
3
w21
x2 w32
2
w22 a2 w03
w02

PERCEPTRON
x1 x2 a1=f(x1+x2-0.5) a2=f(x1+x2-1.5) y=f(a1-a2-0.5)
0 0 0 0 0
0 1 1 0 1
1 1 1 0 1
1 1 1 1 0
ΜΑΘΗΜΑ 5Ο
MULTI LAYER PERCEPTRON
Δίκτυα Πρόσθιας Τροφοδότησης
(Feed-forward Neural Networks)
• Η ροή των υπολογισμών είναι προς την κατεύθυνση από
την είσοδο προς την έξοδο.
• Οι νευρώνες συνδέονται ώστε να υποστηρίζουν τη ροή
των υπολογισμών. Δηλαδή, δεν υπάρχει ανατροφοδότηση
της εξόδου ενός νευρώνα προς τους νευρώνες που
προηγούνται στη ροή των υπολογισμών.
• Tο γράφημα του δικτύου δεν περιλαμβάνει κύκλους. Τα
δίκτυα δεν είναι αναδρομικά.
• Γενικά τα δίκτυα αυτά χρησιμοποιούνται για να
υλοποιήσουν στατικές απεικονίσεις από το χώρο εισόδου
Rn στο χώρο εξόδου Rm.
Δίκτυα Πρόσθιας Τροφοδότησης
(Feed-forward Neural Networks)
Το Πολυεπίπεδο Perceptron
• Είναι ένα δίκτυο πρόσθιας τροφοδότησης
• Οι νευρώνες είναι τύπου perceptron αλλά διαφέρουν από
το απλό perceptron ως προς τον τύπο της συνάρτησης
ενεργοποίησης
• Αποτελείται από επίπεδα (στρώματα) δηλ. ομάδες
νευρώνων που εκτελούν την ίδια λειτουργία
• Κάθε επίπεδο τροφοδοτεί το επόμενο στην κατεύθυνση
από την είσοδο προς την έξοδο του δικτύου
• Οι νευρώνες του ίδιου επιπέδου δεν αλληλεπιδρούν
μεταξύ τους (no lateral connections)
• Η οργάνωση αυτή σε επίπεδα διευκολύνει τη μαθηματική
ανάλυση του τρόπου λειτουργίας και προσφέρει τη
δυνατότητα υλοποίησης σε παράλληλη αρχιτεκτονική
• Στο επίπεδο εισόδου δεν εκτελούνται υπολογισμοί δηλ.
δεν υπάρχει επεξεργασία των σημάτων εισόδου
• Τα κρυμμένα επίπεδα (ένα ή περισσότερα) αποτελούνται
από μη γραμμικούς νευρώνες που διεγείρονται από τα
σήματα εξόδου των νευρώνων του προηγούμενου
επιπέδου σταθμισμένα με τα αντίστοιχα συναπτικά βάρη
• Κάθε νευρώνας υπολογίζει ως διέγερση το εσωτερικό
γινόμενο των εξόδων των νευρώνων του προηγούμενου
επιπέδου και των αντίστοιχων συναπτικών βαρών
• Στο επίπεδο εξόδου χρησιμοποιούνται γραμμικοί ή μη
γραμμικοί νευρώνες ανάλογα με τον τύπο του
προβλήματος
• Ένα Δίκτυο Perceptron Πολλαπλών Στρωμάτων με ένα
κρυμμένο επίπεδο.

• Γραμμικός νευρώνας θα ονομάζεται ο νευρώνας που
χρησιμοποιεί ως συνάρτηση ενεργοποίησης μια γραμμική
συνάρτηση της διέγερσης
• Μη-γραμμικός νευρώνας θα ονομάζεται ο νευρώνας που
χρησιμοποιεί ως συνάρτηση ενεργοποίησης μια μη-
γραμμική συνάρτηση της διέγερσης
• Όλοι οι νευρώνες ενός επιπέδου χρησιμοποιούν την ίδια
συνάρτηση ενεργοποίησης, εκτός και αν υπάρχει
πρόβλεψη για το αντίθετο
• Ένα πολυεπίπεδο perceptron θα αναφέρεται εν συντομία
ως MLP
• Στους νευρώνες των κρυμένων επιπέδων η συνάρτηση
ενεργοποίησης είναι κυρίως μη γραμμική:
– η λογιστική σιγμοειδής, ή
– η υπερβολική εφαπτομένη
• Στο στρώμα εξόδου η συνάρτηση είναι είτε μη-γραμμική
είτε γραμμική ανάλογα με το τύπο του προβλήματος:
- στα προβλήματα ταξινόμησης συνήθως είναι μη-
γραμμική
- στα προβλήματα συναρτησιακής προσέγγισης
γραμμική

Συνήθεις συμβολισμοί:
(l )
• q i : ένα μέγεθος q που αφορά τον i νευρώνα του l επιπέδου
(l )
• ui : η διέγερση του i νευρώνα του l επιπέδου
• yi(l :) η έξοδος του i νευρώνα του l επιπέδου
•  (l )
i : το σφάλμα στην έξοδο του νευρώνα
(l )
• wi 0 : η πόλωση (το συναπτικό βάρος του bias) του νευρώνα
• f (l ) (.) : η συνάρτηση ενεργοποίησης των νευρώνων στο l επίπεδο
• d (l ) : ο αριθμός των νευρώνων στο l επίπεδο
• wij(l ) : βάρος της σύνδεσης από τον j νευρώνα του l-1 επιπέδου
στον i νευρώνα του l επιπέδου
Υπολογισμός σε ευθύ πέρασμα:
• Ένα MLP με n εισόδους, m εξόδους και Η κρυμμένα επίπεδα. Το
επίπεδο εισόδου είναι το μηδέν το επίπεδο εξόδου το Η+1. Άρα
d( 0)  n, d ( H 1)  m
• Στο επίπεδο εισόδου: yi( 0)  xi , y0( 0)  x0  1

• Στο h κρυμμένο επίπεδο και στο επίπεδο εξόδου:
d ( h 1) d ( h 1)
ui( h )  w
j 0
(h)
ij y (jh 1) , ui( h )   ij j
w( h ) ( h 1)
y  wi 0 , i  1,...d ( h )
(h)
j 0
yi( h )  f ( h ) (ui( h ) ), i  1,..., d( h ) , y0( h )  1
• Έξοδος του δικτύου: oi  yi( H 1) , i  1,..., m

Υπολογιστικές δυνατότητες του Πολυεπίπεδου Perceptron
• Το MLP υλοποιεί μια απεικόνιση από το χώρο των
εισόδων στο χώρο των εξόδων που καθορίζεται από τα
παραδείγματα εκπαίδευσης. Η λειτουργία ενός MLP είναι
σύμφωνη με το
• Θεώρημα Παγκόσμιας Προσέγγισης (Universal
Approximation Theorem).
Ένα δίκτυο πρόσθιας τροφοδότησης με τουλάχιστον ένα
κρυμμένο επίπεδο με μη-γραμμικούς νευρώνες μπορεί να
προσεγγίσει οποιαδήποτε συνάρτηση με οποιαδήποτε
ακρίβεια, με χρήση επαρκώς μεγάλου αριθμού νευρώνων
στο κρυμμένο επίπεδο
• Θεώρημα Παγκόσμιας Προσέγγισης (Universal
Approximation Theorem).
Αποτέλεσμα εξαιρετικά σημαντικό από θεωρητική άποψη
αλλά χωρίς ιδιαίτερο πρακτικό ενδιαφέρον
• Το πρόβλημα του καθορισμού του αριθμού των
κρυμμένων στρωμάτων και των νευρώνων για ένα
δεδομένο σύνολο εκπαίδευσης αντιστοιχεί στο πρόβλημα
επιλογής μοντέλου (model selection) για την επίλυση του
προβλήματος: βασικό ερευνητικό ζήτημα

• H ύπαρξη των μη-γραμμικών κρυμμένων νευρώνων
αυξάνει τις υπολογιστικές δυνατότητες ενός MLP
• Δυνατότητα επίλυσης μη γραμμικά διαχωρίσιμων
προβλημάτων ταξινόμησης
• Ένα MLP σύμφωνα με το Θεώρημα παγκόσμιας
προσέγγισης να υλοποιήσει οποιαδήποτε διαχωριστική
επιφάνεια όσο πολύπλοκη και αν είναι
• Ένα MLP με σιγμοειδείς συναρτήσεις ενεργοποίησης των
νευρώνων:
– στο κρυμμένο επίπεδο ορίζει υπερεπίπεδα στο χώρο των
δεδομένων
– στην έξοδο ορίζει περιοχές απόφασης που αντιστοιχούν σε
τομές των υπερεπιπέδων
• Περισσότεροι νευρώνες στο κρυμμένο επίπεδο
προσεγγίζουν πολυπλοκότερες μη γραμμικές απεικονίσεις
με τη χρήση περισσότερων νευρώνων με σιγμοειδείς
συναρτήσεις ενεργοποίησης
• Συνήθως χρησιμοποιούνται 1 ή 2 κρυμμένα επίπεδα
• Τα τελευταία χρόνια χρησιμοποιούνται ακόμη
περισσότερα (deep neural networks)

Άσκηση: Δίνεται το MLP του ακόλουθου σχήματος:
x0 X0=1
-10
x1 8
1 -15
8 y
3
x2 8
2 8 -5
12 x0
x0 -5
Αν η συνάρτηση ενεργοποίησης κάθε νευρώνα είναι λογιστική
σιγμοειδής δείξτε με απλούς υπολογισμούς ότι το συγκεκριμένο
MLP υπολογίζει τη συνάρτηση XOR
Εκπαίδευση του Πολυεπίπεδου Perceptron
• Δεδομένα του προβλήματος
• Επιλογές του χρήστη:
– Αποκοπή ακραίων τιμών (outliers)
– Κανονικοποίηση των δεδομένων εισόδου
– Κωδικοποίηση της εξόδου
– Καθορισμός της αρχιτεκτονικής του MLP δηλ. πλήθος
κρυμμένων επιπέδων, και πλήθος νευρώνων σε κάθε
κρυμμένο επίπεδο

• Κανονικοποίηση των δεδομένων
– Περιορισμός των τιμών σε κάποιο προκαθορισμένο
διάστημα
– Κανονικοποίηση σε μηδενική μέση τιμή και διασπορά
ίση με 1 με γραμμικές μεθόδους
– Περιορισμός των τιμών μεταξύ ενός μεγίστου και ενός
ελαχίστου, π.χ. [-1,1] ή [0,1] με γραμμική απεικόνιση
– Όταν τα δεδομένα δεν είναι συμμετρικά κατανεμημένα
γύρω από τη μέση τιμή τότε χρησιμοποιούνται μη
γραμμικές μέθοδοι όπως η softmax:
Μέθοδος softmax:
1 xi  x
• ˆxi  , όπου y
1 e y r
και r είναι τιμή που δίνει ο χρήστης
• Υποδείξεις σχεδίασης ενός MLP

• Αν για κάποιο διάνυσμα βαρών w η εκπαίδευση είναι
τέλεια τότε η τιμή της εξόδου για όλα τα πρότυπα θα
ισούται με τις τιμές στόχους
• Αλλιώς υπάρχει σφάλμα που σε αναλογία με τον απλό
νευρώνα ορίζεται από μια τετραγωνική συνάρτηση
σφάλματος E(w) (τύπος)
• Το Ε(w) ως άθροισμα τετραγώνων των σφαλμάτων ανά
παράδειγμα έχει κάτω φράγμα την τιμή μηδέν η οποία
προκύπτει όταν έχουμε τέλεια εκπαίδευση.
• Eκπαίδευση του MLP: ενημέρωση του διανύσματος των
βαρών w με σκοπό την ελαχιστοποίηση του τετραγωνικού
σφάλματος Ε(w).
• Όπως και στον απλό νευρώνα η μέθοδος ελαχιστοποίησης
που έχει ευρύτερα χρησιμοποιηθεί είναι η μέθοδος
gradient descent.
• Xρειάζεται ο υπολογισμός των μερικών παραγώγων του
σφάλματος για κάθε πρότυπο Ε p ως προς τα βάρη wi :
κανόνας οπισθοδιάδοσης σφάλματος (error
backpropagation)

Μέθοδος backpropagation
• Τεχνική υπολογισμού των μερικών παραγώγων του
σφάλματος για ένα παράδειγμα (x p , t p ) ως προς τα
βάρη σε ένα δίκτυο πρόσθιας τροφοδότησης με νευρώνες
εσωτερικού γινομένου και παραγωγίσιμες συναρτήσεις
ενεργοποίησης (MLP)
• Bασίζεται στην προς τα πίσω διάδοση διαμέσου του
δικτύου των σφαλμάτων που προκύπτουν στις εξόδους
του δικτύου
Μέθοδος backpropagation
• Άρα, για τον υπολογισμό των σφαλμάτων η ροή των
υπολογισμών είναι από την έξοδο προς την είσοδο.
• Υπολογίζονται επιμέρους τιμές σφαλμάτων για τους
κρυμμένους νευρώνες του δικτύου
• Μέθοδος backpropagation
– Εμπρόσθια τροφοδότηση
– Οπισθοδιάδοση του σφάλματος

• Τεχνική ομαδικής εκπαίδευσης (batch training)
• Τεχνική σειριακής εκπαίδευσης (sequential ή online
training)
• Αλγόριθμος
• Demo εφαρμογής του αλγορίθμου
ΜΑΘΗΜΑ 7Ο
RADIAL BASIS FUNCTION NEURAL NETWORKS
• Αρχιτεκτονική δικτύου RBF: Δίκτυα πρόσθιας

τροφοδότησης (feedforward) για προβλήματα μάθησης με
επίβλεψη. Εναλλακτικό του MLP.
• Υλοποιούν απεικονίσεις από το χώρο εισόδου στο χώρο
εξόδου (όπως το MLP) βασισμένα στο Θεώρημα
παγκόσμιας προσέγγισης και στο γεγονός ότι δεν είναι
μόνον οι σιγμοειδείς συναρτήσεις που αποτελούν βάση
του χώρου των συνεχών συναρτήσεων αλλά και οι
ακτινικές συναρτήσεις.
• Αρχιτεκτονική δικτύου RBF: Δίκτυα πρόσθιας

τροφοδότησης (feedforward) για προβλήματα μάθησης με
επίβλεψη. Εναλλακτικό του MLP.
• https://chrisjmccormick.files.wordpress.com/2013/08/archi
tecture_simple2.png

• Η λειτουργία των νευρώνων του κρυμμένου επιπέδου

είναι εντελώς διαφορετική. Οι νευρώνες υλοποιούν τη
λειτουργία συναρτήσεων πυρήνα (radial basis function
networks).
• Radial basis functions = kernel functions
• Συναρτήσεις ακτινικής βάσης = Συναρτήσεις πυρήνα

Συναρτήσεις ακτινικής βάσης
• Συναρτήσεις πυρήνα: αποτελούν μια άλλη βάση του χώρου των
συνεχών συναρτήσεων
• Μια συνάρτηση f (x) λέγεται συνάρτηση ακτινικού τύπου
(radial function) αν υπάρχει ένα διάνυσμα c που ονομάζεται
κέντρο (center ή centroid) και η τιμή της συνάρτησης εξαρτάται
από την απόσταση του x από το κέντρο c. Δηλαδή,
f (x)  f ( x  c )
• Παραδείγματα συναρτήσεων ακτινικού τύπου:
2
x c

– Συνάρτηση Gauss f (x)  e 2 2
Συναρτήσεις ακτινικής βάσης
– Πολυτετραγωνική συνάρτηση
f (x)  ( x  c   2 )1/ 2
2
( x  c   2 ) 1
2
– Συνάρτηση Cauchy f (x) 


• Οι συναρτήσεις αυτές παρέχουν μέγιστη τιμή στο κέντρο

και καθώς απομακρυνόμαστε ακτινικά από το κέντρο η
τιμή της συνάρτησης μειώνεται και σχεδόν εκμηδενίζεται
για σημεία x που είναι μακριά από το κέντρο c.
Δομή δικτύων RBF
• Τα δίκτυα RBF έχουν ένα μόνο κρυμμένο επίπεδο, του οποίου οι
κρυμμένοι νευρώνες j υπολογίζουν την ακτινική συνάρτηση
h j (x) του διανύσματος εισόδου x.
• Για ένα δίκτυο RBF με n εισόδους, Η κρυμμένους νευρώνες και m
εξόδους και
για είσοδο x  ( x1, x2 ,..., xn )T
οι έξοδοι ok (k  1,...m) του δικτύου υπολογίζονται από τη

σχέση: H
ok (x)  wk 0   wij h j (x)
j 1
• όπου wij είναι το συναπτικό βάρος της εξόδου του j κρυμμένου

νευρώνα με την είσοδο του i νευρώνα εξόδου
• Οι νευρώνες εξόδου είναι τυπικοί νευρώνες εσωτερικού
γινομένου (όπως και στο MLP) με γραμμική συνάρτηση
ενεργοποίησης.
• Το διάνυσμα βαρών w j  ( w j ,1, w j ,2 ,..., w j ,n )T
στην είσοδο του j κρυμμένου νευρώνα καθορίζει το κέντρο
της συνάρτησης, ενώ η παράμετρος  j καθορίζει την
ακτίνα της συνάρτησης.

• Η συνάρτηση παίρνει τη μέγιστη τιμή στο κέντρο, δηλαδή
όταν x  w j
και η τιμή ελαττώνεται εκθετικά καθώς απομακρυνόμαστε
ακτινικά από το κέντρο.
Συναρτήσεις Ακτινικής Βάσης
• Χαρακτηρίζονται από μια περιοχή εμβέλειας, έξω από την
οποία η συνάρτηση δίνει αμελητέες τιμές.
• Στην περίπτωση των δικτύων RBF, η περιοχή εμβέλειας
είναι σφαιρική (2 και 3 διαστάσεις) και γενικά υπερσφαίρα
στις n διαστάσεις.
• Άρα για ένα διάνυσμα x που δίνεται στην είσοδο του
δικτύου RBF, μεγάλη τιμή εξόδου θα δώσουν οι κρυμμένοι
νευρώνες οι οποίοι περιέχουν το x στην περιοχή εμβέλειάς
τους.
• Κατά συνέπεια, μπορούμε να θεωρούμε ότι οι κρυμμένοι
νευρώνες του δικτύου RBF ορίζουν σφαιρικές περιοχές
επιρροής στον n-διάστατο χώρο των δεδομένων εισόδου.

Δίκτυο RBF (πρόσθιο πέρασμα)
• Έστω ένα δίκτυο RBF με n εισόδους, H κρυμμένους νευρώνες
τύπου RBF, και M εξόδους.
• Για κάποια είσοδο x  ( x1, x2 ,..., xn )T
οι έξοδοι oi (i  1,...M ) προκύπτουν ως εξής:
– Επίπεδο εισόδου
– Κρυμμένο επίπεδο
• Διέγερση
• Έξοδος
Δίκτυο RBF (πρόσθιο πέρασμα)
– Επίπεδο εξόδου
• Διέγερση
• Έξοδος
– Έξοδοι δικτύου

Δίκτυο RBF (πρόσθιο πέρασμα) - Άσκηση
• Έστω ένα δίκτυο RBF με 2 εισόδους και 3 κρυμμένους
νευρώνες τύπου Gaussian RBF h1(x), h2(x), h3(x) με
κέντρα τα σημεία του επιπέδου R2 (0,0), (7,7), (-3,3),
αντίστοιχα και σ=1.
Ποιός από τους κρυμμένους νευρώνες θα δώσει
μεγαλύτερη έξοδο για κάθε ένα από επόμενα διανύσματα
εισόδου;
Εκτιμήστε την έξοδο χωρίς να κάνετε υπολογισμούς
1) x = (0.2, -0.2)
2) x = (-3.6, -5.2)
3) x = (6.5, 4.9)
4) x = (-5, 5)
Δυνατότητες Δικτύου RBF
• Tο δίκτυο RBF (όπως και το MLP) χαρακτηρίζεται από την
ιδιότητα της παγκόσμιας προσέγγισης (universal
approximation).
• Η ιδιότητα αυτή μας εξασφαλίζει ότι ένα δίκτυο RBF μπορεί να
προσεγγίσει οποιαδήποτε συνάρτηση με οποιαδήποτε
ακρίβεια, αυξάνοντας επαρκώς τον αριθμό των νευρώνων RBF.
• Όμως αυτή η ιδιότητα δεν είναι πρακτικά εκμεταλλεύσιμη,
διότι δεν μας προτείνει πόσους RBF νευρώνες να
χρησιμοποιήσουμε δοθέντος ενός συνόλου παραδειγμάτων
εκπαίδευσης. Έτσι, για την επιλογή του αριθμού των νευρώνων
RBF χρησιμοποιούνται οι μέθοδοι που προτάθηκαν για το MLP.

Κατασκευή Δικτύου RBF
• Έστω ότι γνωρίζουμε πως τα δεδομένα εκπαίδευσης ενός
προβλήματος ταξινόμησης σχηματίζουν κατά προσέγγιση
σφαιρικές και διακριτές ομάδες, και τα δεδομένα κάθε
ομάδας είναι της ίδιας κατηγορίας. (Σχήμα από Διαφάνειες Αρ. Λύκα)
Κατασκευή Δικτύου RBF
• Για κάθε ομάδα δεδομένων, μπορούμε να ορίσουμε ένα
νευρώνα RBF με κέντρο το κέντρο της αντίστοιχης ομάδας και
ακτίνα τη διασπορά της ομάδας.
• Για κάποια είσοδο x η τιμή της εξόδου h j (x ) του
νευρώνα j δηλώνει εάν το x ανήκει στην ομάδα j.
• Άρα το πρότυπο εισόδου x απεικονίζεται στο διάνυσμα
h(x)  (h1 (x),..., hH (x))T
που δείχνει το βαθμό στον οποίο το x ανήκει σε κάποια από τις
ομάδες που εντοπίζουν οι κρυμμένοι νευρώνες.
• Στη συνέχεια είναι πολύ εύκολο να καθορίσουμε τα βάρη στο
επίπεδο εξόδου, ώστε ο κρυμμένος νευρώνας που αντιστοιχεί
στην ομάδα κατηγορίας Ck να ενεργοποιήσει μόνο τον
αντίστοιχο νευρώνα εξόδου k.
Εκπαίδευση δικτύου RBF
• Κατά τη διάρκεια της εκπαίδευσης χρειάζεται να καθοριστούν οι
παράμετροι (βάρη) του δικτύου RBF:
• τα κέντρα w j  ( w1, j , w2, j ,..., wn, j )T , j  1,.., H
(H∙n παράμετροι) και οι ακτίνες  j (H παράμετροι) των νευρώνων
RBF
• τα βάρη w ij δηλ. (H+1)∙Μ παράμετροι στις οποίες
συμπεριλαμβάνονται και οι Μ πολώσεις (biases) των νευρώνων
εξόδου
• Τα βάρη έχουν εντελώς διαφορετικό νόημα για το κρυμμένο επίπεδο
και για το επίπεδο εξόδου.
• Συγκεκριμένα, τα βάρη των συνδέσεων μεταξύ του επιπέδου
εισόδου και του κρυμμένου επιπέδου αναπαριστούν τις
συντεταγμένες των κέντρων των κρυμμένων νευρώνων, ενώ
• τα βάρη των συνδέσεων μεταξύ του κρυμμένου επιπέδου και του
επιπέδου εξόδου έχουν την τυπική σημασία των βαρών για
νευρώνες εσωτερικού γινομένου (όπως και στο MLP) και ορίζουν την
εξίσωση υπερεπιπέδου για τους νευρώνες εξόδου.
• Αυτό συνεπάγεται ότι και η εκπαίδευση μπορεί να είναι διαφορετική
για τα δύο είδη βαρών.
• Κατ’αρχήν όπως και στο MLP η εκπαίδευση στοχεύει στην
ελαχιστοποίηση του τετραγωνικού σφάλματος μεταξύ πραγματικών
και επιθυμητών εξόδων του δικτύου.
• Έστω σύνολο παραδειγμάτων εκπαίδευσης
D  {(x p , t p )}, p  1,2,..., P
όπου x  ( x p ,1 , x p , 2 ,... x p ,n ) και t  (t p ,1 , t p , 2 ,...t p ,m )
p T p T

• Tο δίκτυο RBF θα πρέπει να έχει n νευρώνες στο επίπεδο εισόδου
και Μ νευρώνες στο επίπεδο εξόδου. Εστω H ο αριθμός των
κρυμμένων νευρώνων RBF (αριθμός που καθορίζεται από τον
χρήστη).
• Αν με θ  (1,2 ,..., L ) , όπου L  ( H  1)  (n  m)
T
συμβολίσουμε το διάνυσμα όλων των παραμέτρων του δικτύου που

χρειάζεται να καθοριστούν τότε το διάνυσμα εξόδου του δικτύου
p
RBF όταν το διάνυσμα εισόδου είναι το x μπορεί να γραφεί ως
o(x p , θ)
• Επομένως μπορούμε να ορίσουμε την τετραγωνική συνάρτηση
σφάλματος ως εξής: P
1 p
E (θ)   E (θ),
2
p
E (θ)  t  o(x , θ)
p p
p 1 2
• ή ακόμη,
1 m
E (θ)   (t p ,i  oi (x p , θ)) 2
p
2 i 1
• Δηλ, η E p (θ) είναι το τετραγωνικό σφάλμα για το p πρότυπο
• Για την εκπαίδευση ενός δικτύου RBF προτείνονται δύο

μεθοδολογίες:
 Ενιαία εκπαίδευση
 Εκπαίδευση δύο σταδίων

Ενιαία Εκπαίδευση δικτύου RBF
• Μέθοδος gradient descent για ελαχιστοποίηση του E p (θ) ως
προς τις παραμέτρους του δικτύου. Έτσι για κάθε παράμετρο του
διανύσματος θ ισχύει:
E
 k (t  1)   k (t )   ,
 k
P
E p
 k (t  1)   k (t )    , k  1,2,..., L
p 1  i
• Άρα για το παράδειγμα (x , t ) θα έχουμε:

p p
1 m
E   (oi  t p ,i )2
p
2 i 1
• Επί πλέον θα ισχύουν τα εξής:
 n 
 xp  w 2
   ( x p ,l w jl )2 
h j (x p )  exp     exp   l 1 
j
 2 2j   2 j2

   
 
H
oi  wi 0   wij h j (x p ), i  1,2,..., m
j 1
E p E p
• Άρα,  (oi  t p ,i )h j (x p ),  (oi  t p ,i )
wij wi 0

• Τελικά:
E p p ( x p ,l  w jl )
m
  (oi  t p ,i ) wij h j (x )
w jl i 1  2j
2
E p m x wj p
• και   (oi  t p ,i )wij h j (x )

p
 j i 1 2 3j
• Έτσι είναι δυνατή η εφαρμογή του gradient descent με ομαδική
ή σειριακή ενημέρωση. Γενικά, προτιμάται η ομαδική
ενημέρωση.
• Τα βάρη των συνδέσεων μεταξύ του κρυμμένου επιπέδου και
του επιπέδου εξόδου wij αρχικοποιούνται όπως στο MLP: π.χ.
επιλέγοντας τυχαίες τιμές στο (-1,1).
• Αν τα βάρη των συνδέσεων από το επίπεδο εισόδου στο
κρυμμένο επίπεδο δηλαδή τα κέντρα και οι ακτίνες των
συναρτήσεων βάσης αρχικοποιηθούν σε τυχαίες τιμές τότε ο
αλγόριθμος gradient descent παγιδεύεται σε ρηχά τοπικά
ελάχιστα.
• Αντίθετα, αν τα κέντρα και οι ακτίνες αρχικοποιηθούν σε καλές
τιμές, τότε βρίσκουμε καλές λύσεις.

• Έτσι είναι όχι απλά χρήσιμο αλλά και κρίσμο για την
εκπαίδευση του δικτύου RBF να υπάρξει μια αποδοτική
προσέγγιση αρχικού καθορισμού των κέντρων.
• Μια τέτοια προσέγγιση στηρίζεται στην τοποθέτηση των
κέντρων των κρυμμένων νευρώνων του RBF σε κέντρα ομάδων
που υπάρχουν στα δεδομένα εκπαίδευσης.
• Από τη θεώρηση αυτή προέκυψε η επόμενη μέθοδος.
Μέθοδος Εκπαίδευσης δύο σταδίων δικτύου RBF
Πρώτο στάδιο:
• Χρησιμοποιείται το σύνολο των δεδομένων εκπαίδευσης
X  {x p } για τον καθορισμό νευρώνων RBF.
• Αγνοείται η πληροφορία σχετικά με την κατηγορία κάθε προτύπου
εκπαίδευσης.
• Εφαρμόζεται κάποια μέθοδος ομαδοποίησης χωρίς επίβλεψη, όπως
k-means ή LVQ. Προκύπτουν άμεσα τα κέντρα των ομάδων wj ενώ ο
καθορισμός της ακτίνας προκύπτει από τον υπολογισμό της
διασποράς των δεδομένων κάθε ομάδας:
1
j   x wj
2 p 2
Pj x p

Δεύτερο στάδιο:
1η επιλογή
• Tα wij και σj παραμένουν σταθερά στις τιμές που καθορίστηκαν από
το πρώτο στάδιο και απομένει ο καθορισμός των βαρών των
συνδέσεων μεταξύ του κρυμμένου επιπέδου και του επιπέδου
εξόδου καθώς και των πολώσεων του επιπέδου εξόδου.
• Αυτή η επιλογή ισοδυναμεί με την εκπαίδευση ενός δικτύου που
αποτελείται μόνο από το επίπεδο εξόδου του δικτύου RBF με σύνολο
εκπαίδευσης το
{(h p , t p )}, h p  (h1 (x p ), h2 (x p ),..., hH (x p ))T
• Κατά συνέπεια μπορεί να χρησιμοποιηθεί η μέθοδος gradient

descent με μερικές παραγώγους
2η επιλογή
• Εφαρμογή της μεθόδου gradient descent (όπως ακριβώς στην ενιαία
εκπαίδευση), αλλά αυτή τη φορά έχοντας αρχικοποιήσει τα κέντρα
και τις ακτίνες στις τιμές που προέκυψαν από το πρώτο στάδιο.

MLP vs. RBF
• Και οι δύο τύποι δικτύων υλοποιούν μη γραμμικές απεικονίσεις από
το χώρο εισόδου Rn στο χώρο εξόδου Rm . Χαρακτηρίζονται από την
ιδιότητα της παγκόσμιας προσέγγισης.
• Θεμελιώδης διαφορά: η μορφή των συναρτήσεων hj(x) του
κρυμμένου επιπέδου.
• Κάθε κρυμμένος νευρώνας του MLP ορίζει την εξίσωση ενός
υπερεπιπέδου: το MLP υλοποιεί συναρτήσεις ταξινόμησης
διαχωρίζοντας το χώρο των προτύπων με υπερεπίπεδα και ορίζοντας
τις περιοχές απόφασης ως τομές των υπερεπιπέδων.
• Στον υπολογισμό μιας εξόδου συμμετέχουν όλες οι κρυμμένες
μονάδες: κατανεμημένη αναπαράσταση, δηλαδή η γνώση σχετικά με
την έξοδο που αντιστοιχεί σε κάποια είσοδο κατανέμεται στις τιμές
των βαρών όλων των κρυμμένων.
MLP vs. RBF
• Στα δίκτυα RBF ο χώρος δεδομένων εισόδου διαιρείται σε σφαιρικές
περιοχές, καθεμιά από τις οποίες αντιστοιχεί σε ένα νευρώνα του
κρυμμένου επίπεδου.
• Tα δίκτυα RBF δημιουργούν τοπικές αναπαραστάσεις, δηλαδή η
γνώση σχετικά με την έξοδο που αντιστοιχεί σε κάποια είσοδο x
ενσωματώνεται στα βάρη εκείνων των κρυμμένων νευρώνων οι
οποίοι περιλαμβάνουν το πρότυπο x στη σφαίρα επιρροής τους.

MLP vs. RBF
• Σε ένα MLP είναι δυνατό να υπάρχουν περισσότερα του ενός
κρυμμένα επίπεδα, ενώ το RBF έχει ακριβώς ένα κρυμμένο επίπεδο.
• Τέλος ένα MLP εκπαιδεύεται με ενιαίο τρόπο (δηλαδή
ενημερώνονται όλα τα βάρη με τον ίδιο αλγόριθμο), ενώ στο RBF
έχουμε συνήθως εκπαίδευση δύο σταδίων με διαφορετικούς
αλγορίθμους σε κάθε στάδιο.
ΜΑΘΗΜΑ 9Ο
ΕΞΕΛΙΚΤΙΚΟΣ ΥΠΟΛΟΓΙΣΜΟΣ
• Ο Εξελικτικός Υπολογισμός (ΕΥ) βασίζεται στην εϕαρμογή

της θεωρίας της εξέλιξης του Δαρβίνου και συγκεκριμένα
του μηχανισμού της ϕυσικής επιλογής (natural selection)
για την αυτοματοποιημένη επίλυση προβλημάτων που
ανάγονται κυρίως σε προβλήματα βελτιστοποίησης.
• Η ιδέα για την εϕαρμογή της θεωρίας πρωτοεμϕανίστηκε
τη δεκαετία του ΄50, πολύ πριν την ουσιαστική εμϕάνιση
των ηλεκτρονικών υπολογιστών, με τις ερευνητικές
εργασίες των Bremermann, Friedberg και Box .
• Στη συνέχεια, τη δεκαετία του ΄60, ο Fogel και οι

συνεργάτες του εισήγαγαν τον Εξελικτικό
Προγραμματισμό, ενώ ο Holland παρουσίασε τη μέθοδο
που ονόμασε Γενετικό Αλγόριθμο. Ταυτόχρονα, οι
Rechenberg και Schwefel διατύπωσαν τις λεγόμενες
Στρατηγικές Εξέλιξης. Τέλος, ο Koza, το 1989 παρουσίασε
την δική του προσέγγιση με τον τίτλο Γενετικός
Προγραμματισμός.
• Σήμερα, οι προσεγγίσεις αυτές χαρακτηρίζουν επί μέρους
περιοχές του χώρου που αντιπροσωπεύει ο γενικότερος
όρος του Εξελικτικού Υπολογισμού.

Μεταξύ των αξιωμάτων που θεμελιώνουν την θεωρία της

εξέλιξης των ειδών αξίζει να σημειώσουμε τα επόμενα στα
οποία βασίζονται όλες οι ανωτέρω προσεγγίσεις:
1. Τα άτομα σε ένα πληθυσμό ποικίλουν μεταξύ τους
2. Η ποικιλομορϕία αυτή κληρονομείται από γενεά σε γενεά
3. Σε κάθε γενεά αναπαράγονται περισσότεροι απόγονοι
από όσους μπορούν να επιβιώσουν
4. Η επιβίωση και η αναπαραγωγή των ατόμων δεν είναι

τυχαίες. Τα άτομα που επιβιώνουν και προχωρούν σε
αναπαραγωγή, ή αναπαράγονται περισσότερο από τα
άλλα, είναι αυτά που διαθέτουν τις πλέον ευνοϊκές
διαϕοροποιήσεις. Επιλέγονται με βάση τη διαδικασία της
ϕυσικής επιλογής.

Κατά συνέπεια, δεδομένου ενός πληθυσμού ατόμων, οι

περιβαλλοντικές συνθήκες και η ανάγκη για επιβίωση
επιβάλλουν, στα άτομα του πληθυσμού, την επικράτηση
μέσω της ϕυσικής επιλογής ή αλλιώς
• την επιβίωση του καταλληλότερου-ισχυρότερου (survival
of the fittest).
• Η ισχυροποίηση του ατόμου επιτρέπει τη μακροημέρευση
του και άρα τη δημιουργία περισσότερων απογόνων με
αποτέλεσμα, τουλάχιστον, την αύξηση της πιθανότητας
επιβίωσης περισσότερων ατόμων. Αυτό έχει ως
αποτέλεσμα την ενδυνάμωση των ατόμων και κατά
συνέπεια την ισχυροποίηση του πληθυσμού.
• Κάποιος μπορεί να αντιληϕθεί αυτή τη διεργασία ως μια

μακροπρόθεσμη διαδικασία βελτιστοποίησης κατά την
οποία τα άτομα του πληθυσμού έχουν ως στόχο την
ατομική ισχυροποίηση και μέσω αυτής τη μεγιστοποίηση
της ικανότητας επιβίωσης του πληθυσμού
• Στα πλαίσια του ανταγωνισμού με πληθυσμούς από άλλα
είδη

• Αν η ικανότητα επιβίωσης παρασταθεί με κάποια

αντικειμενική συνάρτηση τότε η βελτιστοποίηση αυτής της
συνάρτησης θα αντιπροσωπεύει τη μεγιστοποίηση της
ικανότητας επιβίωσης του πληθυσμού, πάντα με όρους
ϕυσικής επιλογής της εξελικτικής θεωρίας.
• Κάθε άτομο του πληθυσμού είναι ϕορέας μιας υποψήϕιας
λύσης του προβλήματος βελτιστοποίησης και για το λόγο
αυτό ονομάζεται υποψήϕιος.
• Αν επιχειρήσουμε να διατυπώσουμε, σε γενικές γραμμές,

αυτή τη διαδικασία βελτιστοποίησης θα πρέπει να
περιγράψουμε τη ροή της ως μια επανάληψη. Σε κάθε
«κύκλο» αυτής της επανάληψης ή αλλιώς γενεά
επιλέγονται ορισμένοι υποψήϕιοι από τον πληθυσμό με
βάση την επίδοσή τους όπως αυτή υπολογίζεται από την
αντικειμενική συνάρτηση και χαρακτηρίζονται ως
βέλτιστοι.
• Τα άτομα αυτά είναι οι γεννήτορες υποψηϕίων για την
επόμενη γενεά η οποία δημιουργείται εϕαρμόζοντας
διασταύρωση ή/και μετάλλαξη.

• Η διασταύρωση ασκείται σε δύο άτομα του πληθυσμού και

έχει ως αποτέλεσμα τη δημιουργία δύο νέων ατόμων που
αντικαθιστούν στον πληθυσμό τους γεννήτορες τους.
• Η μετάλλαξη ασκείται σε ένα υποψήϕιο ο οποίος με τον
τρόπο αυτό καθίσταται ένας νέος υποψήϕιος του
πληθυσμού.
• Έτσι, η εϕαρμογή της διασταύρωσης και της μετάλλαξης
έχει ως αποτέλεσμα τη δημιουργία απογόνων και την
εισαγωγή τους στον πληθυσμό που αποτελεί μια νέα
γενεά.
• Για την «επιβίωση» τους στη νέα αυτή γενεά οι απόγονοι

ανταγωνίζονται τους παλαιούς υποψήϕιους με βάση την
επίδοση τους όπως προκύπτει από την αντικειμενική
συνάρτηση. Με τον τρόπο αυτό η διαδικασία
επαναλαμβάνεται έως ότου βρεθεί λύση στο πρόβλημα ή
μέχρι να εξαντληθούν τα χρονικά περιθώρια που έχουν
καθοριστεί για τη διαδικασία βελτιστοποίησης.

Η θεωρία της εξέλιξης υποθέτει ότι η εμϕάνιση νέων

ειδών που είναι προσαρμοσμένα στο περιβάλλον είναι
απόρροια δύο παραγόντων:
• του μηχανισμού επιβίωσης του ισχυροτέρου και
• των μεταβολών στο περιβάλλον που είναι απρόβλεπτες
και άρα τυχαίες.
• Κατά συνέπεια η διαδικασία βελτιστοποίησης που

περιγράϕηκε προηγουμένως θα πρέπει να κάνει χρήση
τελεστών οι οποίοι να εξασϕαλίζουν την τυχαιότητα τόσο
με την ανταλλαγή πληροϕορίας μεταξύ των υποψηϕίων
κατά τη διασταύρωση, όσο και με τις αλλαγές που
επέρχονται σε έναν υποψήϕιο κατά τη μετάλλαξη.
• Όσον αϕορά τις ενέργειες επιλογής των υποψηϕίων
αυτές είναι δυνατόν να ακολουθούν κάποια στρατηγική
και κατά συνέπεια να είναι αιτιοκρατικές ή να είναι
τυχαίες.

• Για τα χαρακτηριστικά της λειτουργίας βελτιστοποίησης

των προσεγγίσεων του ΕΥ ισχύουν τα ακόλουθα:
a) Το σχήμα βελτιστοποίησης εντάσσεται στην κατηγορία
των τεχνικών δοκιμής και σϕάλματος (trial and error).
b) Η αντικειμενική συνάρτηση προσεγγίζει τη λύση του
προβλήματος ευρετικά παράγοντας μια ποιοτική
εκτίμηση της βέλτιστης λύσης.
c) Η διαδικασία εξερεύνησης του χώρου του προβλήματος
καθοδηγείται από τους τελεστές διασταύρωσης και
μετάλλαξης.

Γ ια τη σχεδίαση και τη χρήση μεθόδων βελτιστοποίησης

που βασίζονται στον ΕΥ είναι σημαντικό να λαμβάνονται
υπόψη δύο στοιχεία:
A. Η γενετική πολυμορϕία (genetic diversity). Η μέθοδος θα

πρέπει να εξασϕαλίζει ότι τόσο οι τελεστές μετάλλαξης και
διασταύρωσης όσο και η επιλογή διατηρούν την
ποικιλομορϕία στο σύνολο του πληθυσμού και ότι αυτή
μεταϕέρεται από γενεά σε γενεά.
• Σε περιπτώσεις που αυτό δεν συμβαίνει τα άτομα του

πληθυσμού τείνουν να αποκτούν κοινά χαρακτηριστικά με
αποτέλεσμα να συνωστίζονται σε μικρές περιοχές του
χώρου αναζήτησης αντί να εκτείνονται σε όλο το εύρος
του.
• Έτσι αν η μη εφαρμογή γενετικής πολυμορφίας έχει ως
συνέπεια τα προτερήματα της μεθόδου να εξαϕανίζονται
ενώ το υπολογιστικό κόστος της μεθόδου να υψηλό.

B. Η εξερεύνηση και η εκμετάλλευση (exploration and

exploitation). Οι όροι αυτοί που χρησιμοποιούνται ως
ζεύγος χαρακτηρίζουν ένα δίλημμα που συνοδεύει τις
μεθόδους ΕΥ. Συγκεκριμένα η εξερεύνηση αναϕέρεται
στην τάση να εξερευνηθεί σε όσο το δυνατό μεγαλύτερο
εύρος ο χώρος των λύσεων του προβλήματος ενώ
αντίθετα η εκμετάλλευση προκρίνει την αναζήτηση
βέλτιστης λύσης στη γειτονιά της καλλίτερης λύσης που
έχει βρεθεί από τη μέθοδο έως εκείνη την επανάληψη.
• Είναι προϕανές ότι δεν υπάρχει σαϕής απάντηση στο

δίλημμα αυτό χωρίς προηγούμενη γνώση του χώρου των
λύσεων.
• Η εξελικτική μέθοδος βελτιστοποίησης θα πρέπει να
προβλέπει την εμϕάνιση του εν λόγω διλήμματος και να το
προσεγγίζει εϕαρμόζοντας ευρετικές τεχνικές (μετα-
ευρετικές) που εξασϕαλίζουν τη μέγιστη αποδοτικότητα
της.

• Κατηγορίες εξελικτικών αλγορίθμων που αναϕέρονται και

ως διαϕορετικές διάλεκτοι του ΕΥ και είναι:
Ο Γενετικός Αλγόριθμος
Ο Γενετικός Προγραμματισμός
Ο Εξελικτικός Προγραμματισμός
Οι Εξελικτικές Στρατηγικές
Οι Διαϕοροεξελικτικοί Αλγόριθμοι
Νευροεξελικτική προσέγγιση η οποία είναι συγγενής προς

το Γενετικό Προγραμματισμό αλλά τα γονίδια
αναπαριστούν ΤΝΔ περιγράϕοντας τη δομή και τα
συναπτικά βάρη του δικτύου με άμεση ή έμμεση
κωδικοποίηση αυτών των χαρακτηριστικών.
Υλοποιήσεις αυτής της προσέγγισης:
• GeNeralized Acquisition of Recurrent Links (GNARL), ενός
εξελικτικού αλγορίθμου που κατασκευάζει αναδρομικά
νευρωνικά δίκτυα
• Το σύστημα NEAT (Neuro Evolution of Augmenting
Topologies) των Stanley και Miikkulainen που εξελίσσει
αυξητικά τοπολογίες ΤΝΔ

• Το εξελικτικό σύστημα EPNet για την κατασκευή

νευρωνικών δικτύων που έχουν τη δυνατότητα εξέλιξης
Αν και κάθε μια από τις ανωτέρω περιπτώσεις συνιστά το

αποτέλεσμα μιας διαϕορετικής προσέγγισης του
μηχανισμού της εξέλιξης εν τούτοις το τελικό αποτέλεσμα
αποτελεί τη διατύπωση ενός αλγορίθμου ολικής
βελτιστοποίησης.
Βελιστοποίηση
• Γενικά, για κάποιο πρόβλημα, η βελτιστοποίηση
αναφέρεται στην αναζήτηση της «καλύτερης» από όλες τις
δυνατές λύσεις που επιδέχεται το εν λόγω πρόβλημα.
• Αν δεχτούμε ότι ένα πρόβλημα είναι δυνατό να
περιγραφεί μαθηματικά, δηλ. να μοντελοποιηθεί, με μία
συνάρτηση τότε η βελτιστοποίηση συνίσταται στη
βελτιστοποίηση της εν λόγω συνάρτησης.
• Έτσι, ως βελτιστοποίηση χαρακτηρίζεται η διαδικασία
εύρεσης εκείνης της τιμής από το πεδίο ορισμού της
συνάρτησης στην οποία η συνάρτηση εμφανίζει ολικό (ή
τοπικό) μέγιστο ή ελάχιστο.

Βελιστοποίηση (συνέχεια)
• Στην απλούστερη περίπτωση ένα πρόβλημα
βελτιστοποίησης συνίσταται στη μεγιστοποίηση ή στην
ελαχιστοποίηση μιας πραγματικής συνάρτησης
• Θεωρητικά, αυτό μπορεί να επιτευχθεί με συστηματική
επιλογή τιμών για την ανεξάρτητη ή τις ανεξάρτητες
μεταβλητές από ένα σύνολο επιτρεπτών τιμών και τον
υπολογισμό των αντίστοιχων τιμών της συνάρτησης από
τις οποίες επιλέγεται η βέλτιστη (μέγιστη ή ελάχιστη).
• Δεδομένης της πραγματικής συνάρτησης
από κάποιο σύνολο προς το σύνολο των πραγματικών
αριθμών, ζητείται να βρεθεί στοιχείο
τέτοιο ώστε:
• είτε
αν πρόκειται για ένα πρόβλημα μεγιστοποίησης,
• είτε
αν πρόκειται για ένα πρόβλημα ελαχιστοποίησης.

Συνήθεις ονομασίες για τη συνάρτηση f είναι:
• αντικειμενική συνάρτηση (objective function) ή συνάρτηση
κόστους (cost function) αν το πρόβλημα αφορά
ελαχιστοποίηση, και
• συνάρτηση χρησιμότητας (utility function) ή ακόμη
συνάρτηση ενέργειας (energy function) αν το πρόβλημα
αφορά μεγιστοποίηση.
• Συνήθως για το πεδίο ορισμού της αντικειμενικής
συνάρτησης ισχύει ότι
και το A καθορίζεται από ένα σύνολο περιορισμών τους
οποίους απαιτείται να ικανοποιούν τα στοιχεία του. Το
σύνολο A ονομάζεται και χώρος αναζήτησης (search
space), ή ακόμη εφικτή περιοχή (feasible region), τα δε
στοιχεία του ονομάζονται υποψήφιες λύσεις (candidate
solutions) ή ακόμη εφικτές λύσεις (feasible solutions).

Για ένα πρόβλημα Για ένα πρόβλημα

ελαχιστοποίησης μεγιστοποίησης
Βελιστοποίηση - Παραδείγματα
• Να λυθεί το πρόβλημα: min ,
• Να λυθεί το πρόβλημα: max 2x
• Να λυθεί το πρόβλημα:

Οι Εξελικτικοί Αλγόριθμοι, λόγω της καταγωγής του από

την εξελικτική θεωρία, διαϕοροποιούνται από τις γνωστές
προσεγγίσεις (ολικής) βελτιστοποίησης. Τα σημεία που
διαφοροποιούνται είναι:
1. Η Αντικειμενική Συνάρτηση
2. Η Τεχνική Αναζήτησης
3. Η θεώρηση του Χώρου Αναζήτησης
Η Αντικειμενική Συνάρτηση
• Οι κλασσικές μέθοδοι ενδείκνυνται σε προβλήματα όπου η
αντικειμενική συνάρτηση είναι συνεχής και παραγωγίσιμη,
γραμμική, κυρτή ή ακόμη είναι γνωστό πως στο χώρο των
υποψήϕιων λύσεων της υπάρχει ένα ολικό βέλτιστο ενώ
απουσιάζουν τα τοπικά βέλτιστα.
• Αντίθετα, οι ΕΑ καλούνται να αντιμετωπίσουν προβλήματα
στα οποία η αντικειμενική συνάρτηση δεν είναι
υποχρεωτικά παντού συνεχής και παραγωγίσιμη και επί
πλέον δεν υπάρχουν πληροϕορίες για το είδος και το
πλήθος των βέλτιστων σημείων.

Η Τεχνική Αναζήτησης
• Οι «κλασσικές» μέθοδοι βελτιστοποίησης διακρίνονται ως
προς την τεχνική αναζήτησης που υιοθετούν κυρίως σε
μεθόδους, εξαντλητικής αναζήτησης, στις οποίες ο χώρος
των υποψήϕιων λύσεων εξετάζεται εξαντλητικά, ή
στοχαστικής αναζήτησης.
• Στην περίπτωση των ΕΑ η μετάβαση στο επόμενο σημείο
του χώρου αναζήτησης καθοδηγείται από το αποτέλεσμα
της αναζήτησης στο τρέχον σημείο συνυπλογίζοντας
κάποιους τυχαίους παράγοντες που αϕορούν τη
διατήρηση της ποικιλομορϕίας μεταξύ των ατόμων του
πληθυσμού.
• Το σύνολο των παραγόντων που επιλέγονται τυχαία κατά

την εϕαρμογή ενός ΕΑ και εξαιτίας των οποίων, σε
σημαντικό βαθμό, η εξέλιξη του πληθυσμού υπόκειται σε
τυχαιότητα, έχει οδηγήσει στην άποψη ότι οι αλγόριθμοι
αυτοί ανήκουν στην κατηγορία των στοχαστικών
αλγορίθμων.

• Οι στοχαστικοί αλγόριθμοι βελτιστοποίησης βασίζονται

στην τυχαία δειγματοληψία υποψήϕιων λύσεων στο χώρο
αναζήτησης με βάση μια τυχαία κατανομή (ομοιόμορϕη,
Boltzmann, κλπ.) εϕαρμόζοντας, πολλές φορές, προσθήκες
για τη βελτίωση της αποδοσής τους, όπως στρατηγικές
προσαρμοστικής αναζήτησης, ομαδοποίησης σημείων του
χώρου και στατιστικούς κανόνες τερματισμού.
• Κατά συνέπεια, μάλλον είναι ορθότερη η άποψη ότι οι ΕΑ
αποτελούν μια ιδαίτερη κατηγορία εκείνη των Ευρετικών
Αλγορίθμων δεδομένου του πλήθους των ευρετικών
χαρακτηριστικών που χρησιμοποιούν οι διάϕορες
προσεγγίσεις για τη διατήρηση των εξελικτικών
χαρακτηριστικών.
• Ένας σημαντικός αριθμός αλγορίθμων που προτείνονται

γιά την επίλυση μη κυρτών προβλημάτων βελτιστοποίησης
δεν είναι ικανοί να διαφοροποιήσουν ένα τοπικό ελάχιστο
(ή μέγιστο) από ένα ολικό ελάχιστο (ή μέγιστο), δηλαδή
αυτό που ονομάζεται, μιά αυστηρά βέλτιστη λύση. Έτσι
κατά τη διαδικασία εξερεύνησης του χώρου των εφικτών
λύσεων το πρώτο σημείο που θα εντοπίσουν θα το
θεωρήσουν ως τη βέλτιστη λύση του προβλήματος.
• Ο κλάδος των εφαρμοσμένων μαθηματικών που αφορά
στην ανάπτυξη ντετερμινιστικών αλγορίθμων που είναι
ικανοί να συγκλίνουν σε πεπερασμένο χρόνο στη βέλτιστη
λύση ενός προβλήματος βελτιστοποίησης ονομάζεται
καθολική βελτιστοποίηση (global optimization).
•ΣΤΑΥΡΟΣ
. ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ
• Άλλα σημαντικά ζητήματα που σχετίζονται με το είδος της

επεξεργασίας που χαρακτηρίζει τις εξελικτικές μεθόδους
επίλυσης προβλημάτων και προϕανώς αϕορούν και τις
εξελικτικές μεθόδους βελτιστοποίησης είναι τα εξής:
a) Το είδος της αναπαράστασης των υποψήϕιων λύσεων του
προβλήματος.
b) Η μορϕή της αντικειμενικής συνάρτησης που θα λαμβάνει
υπόψη τις απαιτήσεις και τα δεδομένα του προβλήματος.
c) Η αρχικοποίηση του πληθυσμού σε τυχαίες θέσεις στο
χώρο των υποψήϕιων λύσεων του προβλήματος ώστε ο
χώρος να καλύπτεται στο μεγαλύτερο δυνατό βαθμό.
d) Ο τελεστής διασταύρωσης που θα πρέπει να καθορίζεται

σε σχέση με το είδος της αναπαράστασης του χώρου των
λύσεων.
e) Ο τελεστής μετάλλαξης που θα πρέπει να συμβιβάζει την
εξερεύνηση με την εκμετάλλευση και να προάγει τη
διατήρηση της ποικιλομορϕίας του πληθυσμού.
f) Οι διαδικασίες επιλογής.
g) Τα κριτήρια τερματισμού.
h) Η επιλογή παραμέτρων.

ΑΛΓΟΡΙΘΜΟΙ ΝΟΗΜΟΣΥΝΗΣ ΣΜΗΝΟΥΣ
• Η Νοημοσύνη Σμήνους (ΝΣ) είναι όρος με τον οποίο

αποδίδεται τόσο η συλλογική συμπεριϕορά (collective
behavior) όσο και η αναδυόμενη νοημοσύνη (emergent
intelligence) που αϕορά αποκεντρωμένα και συνήθως
αυτο-οργανούμενα συστήματα που συνίστανται από ένα
πληθυσμό ατόμων.
• Η διατύπωση αυτή προκύπτει ως αποτέλεσμα της
παρατήρησης της διαδικασίας με την οποία οργανώνονται
κοινωνίες στη ϕύση όπως για παράδειγμα τα πουλιά τα
οποία οργανώνονται σε σμήνη ή τα μυρμήγκια που
δομούν αποικίες.
• Τα συμπεράσματα της παρατήρησης αϕορούν τόσο στην

ατομική συμπεριϕορά των μελών της κοινωνίας όσο και
στη συλλογική συμπεριϕορά της ίδιας της κοινωνίας που
αποσκοπούν στη διεκπεραίωση ζωτικών λειτουργιών όπως
η αναζήτηση και η συλλογή τροϕής ή όπως η
μετανάστευση του πληθυσμού.
• Τα συμπεράσματα αυτά χρησιμοποιήθηκαν
αποτελεσματικά από τους Beni και Wang για τη μελέτη των
δυνατοτήτων αλληλεπίδρασης και αυτο-οργάνωσης
ομάδων από ρομπότ που αποκαλούνται κυψελοειδή
ρομποτικά συστήματα (cellular robot systems).

• Η μεταϕορά του παραδείγματος από το ϕυσικό κόσμο και

η δημιουργία τεχνικού συστήματος αναλόγων
δυνατοτήτων οδηγεί στη δημιουργία συστημάτων ΝΣ τα
οποία συντίθενται από ένα πληθυσμό ατόμων που
συνήθως αποκαλούνται σωματίδια, ο δε πληθυσμός
σμήνος σωματιδίων.
• Έτσι ένα σύστημα Νοημοσύνης Σμήνους είναι ένα σύνολο
σωματιδίων (ή πρακτόρων) τα οποία βρίσκονται σε μια
συνεργατική σχέση μεταξύ τους και αλληλεπιδρούν με
στόχο την ατομική αλλά και τη συλλογική βελτίωση.
• Η συλλογική συμπεριϕορά του σμήνους αναδεικνύει μια

μορϕή νοημοσύνης η οποία βασίζεται στις αρχές της
Γειτνίασης, της Ποιότητας, των Ποικίλων Αντιδράσεων, της
Ευστάθειας και τέλος της Προσαρμοστικότητας οι οποίες
διέπουν τη λειτουργία των συστημάτων αυτών

• Οι Αλγόριθμοι Νοημοσύνης Σμήνους είναι η κλάση των

αλγορίθμων οι οποίοι προσομοιώνουν τη δομή και τη
συμπεριϕορά συστημάτων Νοημοσύνης Σμήνους με στόχο
την επίλυση προβλημάτων βελτιστοποίησης.
• Οι προσεγγίσεις που σήμερα αποτελούν τους
σημαντικότερους εκπροσώπους του πεδίου είναι αυτή της
βελτιστοποίησης που βασίζεται στο υπόδειγμα σμήνους
σωματιδίων, αυτή που παραπέμπει στο παράδειγμα της
Αποικίας Μυρμηγκιών, ο αλγόριθμος Τεχνητής Αποικίας
Μελισσών κλπ.
Βελτιστοποίηση με Σμήνος Σωματιδίων (ΒμΣΣ)

• Η ΒμΣΣ περιλαμβάνει όλες τις εκδοχές των αλγορίθμων
που έχουν ως αντικείμενο την επίλυση ενός προβλήματος
βελτιστοποίησης και βασίζονται στις αρχές της ΝΣ. Οι
αλγόριθμοι αυτοί αν και από πολλούς ερευνητές
θεωρούνται ως στοχαστικοί εντούτοις στην πράξη η
αναζήτηση της βέλτιστης λύσης στο χώρο των υποψήϕιων
λύσεων κατευθύνεται από την εμπειρία κάθε σωματιδίου
ατομικά όσο και από την εμπειρία του σμήνους που
εκπροσωπείται από το σωματίδιο με τη βέλτιστη κάθε
ϕορά συμπεριϕορά.


• Από τις εργασίες των Eberhardt και Kennedy είναι σαϕές
ότι τα χαρακτηριστικά των αλγορίθμων έχουν καταγωγή
στην ιδιότυπη νοημοσύνη που αναδεικνύεται από τη
συμπεριϕορά οργανωμένων πληθυσμών στη ϕύση όπως
τα σμήνη πουλιών, τα κοπάδια ψαριών, οι αποικίες
μυρμηγκιών, οι κοινωνίες μελισσών και άλλων ειδών.
• Ένας αλγόριθμος ΒμΣΣ διαθέτει ένα πληθυσμό από άτομα,
το σμήνος σωματιδίων. Κάθε σωματίδιο είναι ϕορέας μιας
υποψήϕιας λύσης του προβλήματος βελτιστοποίησης.
Συνήθως οι παράμετροι του προβλήματος περιγράϕονται
ως ένα διάνυσμα που ανήκει σε ένα σύνολο X ⊆ RN το
οποίο συνήθως είναι κλειστό και ϕραγμένο.

• Οποιοδήποτε και αν είναι το πρόβλημα βελτιστοποίησης
ένας αλγόριθμος ΒμΣΣ καλείται να αναζητήσει ένα σημείο
X * του χώρου των εϕικτών λύσεων για το οποίο η τιμή της
αντικειμενικής συνάρτησης f(X *) είναι η βέλτιστη είτε
τοπικά είτε ολικά.
• Το σημείο X * ονομάζεται βελτιστοποιητής (optimizer)
• Αρχικά τα σωματίδια του σμήνους κατανέμονται τυχαία,
ακολουθώντας για παράδειγμα την ομοιόμορϕη κατανομή,
στο χώρο των εϕικτών λύσεων X (feasible set), ή σε ένα
D ⊂ X, με στόχο να καλύψουν όσο το δυνατό μεγαλύτερο
τμήμα του.


• Με τον τρόπο αυτό κάθε σωματίδιο αντιπροσωπεύει μια
εϕικτή λύση. Το σύνολο των εϕικτών λύσεων αξιολογείται
ως προς τα κριτήρια βελτιστοποίησης και επιλέγεται εκείνο
το σωματίδιο το οποίο είναι ϕορέας της βέλτιστης λύσης.
• Η πληροϕορία αυτή αξιοποιείται στο επόμενο βήμα από
όλα τα σωματίδια του πληθυσμού τα οποία τείνουν να
μετακινηθούν προς μια νέα, περισσότερο υποσχόμενη,
περιοχή με βάση τη θέση του σωματιδίου τους σμήνους
που έχει, μέχρι εκείνη τη στιγμή, εντοπίσει στη θέση με την
καλλίτερη τιμή αλλά και με βάση την ατομική του εμπειρία
σε σχέση με την καλλίτερη θέση.

• Από τη μετακίνηση αυτή των σωματιδίων προκύπτει ένα
νέο σύνολο τιμών για την αντικειμενική συνάρτηση οι
οποίες θα αξιολογηθούν εκ νέου και η διαδικασία θα
επαναληϕθεί μέχρι τον εντοπισμό της καταλληλότερης, ως
προς το πρόβλημα βελτιστοποίησης, τιμής για την
αντικειμενική συνάρτηση ή μέχρι να συμπληρωθεί ο
μέγιστος επιτρεπτός αριθμών επαναλήψεων. Σημειώνεται
εδώ ότι κάθε επανάληψη θεωρείται, κατ’επέκταση της
ορολογίας των Γενετικών Αλγορίθμων, ως μια γενεά.


• Αλγόριθμος
ΜΑΘΗΜΑ 12Ο
ΑΣΑΦΗΣ ΛΟΓΙΚΗ
Ασαφή σύνολα και Πράξεις

• Το κλασικό σύνολο ως σύνολο αληθέιας ενός προτασιακού
τύπου
• Η έννοια της χαρακτηριστικής συνάρτησης στα κλασικά
σύνολα
• Η ασάφεια στη λεκτική περιγραφή μεγεθών: ψηλός,
θερμό, κρύο, μέτριο, φτηνό, κ.λπ.
• Ορισμός ενός ασαφούς συνόλου ως το σύνολο των τιμών
ενός μεγέθους που συνοδεύουν μια λεκτική περιγραφή.
• Οι τιμές του μεγέθους ανήκουν στο σύνολο αυτό με
κάποιο συντελεστή «αλήθειας» από 0 έως 1

• Ορίζεται μια συνάρτηση συμμετοχής των τιμών στο
σύνολο
• Παράδειγμα: για το φυσικό μέγεθος της θερμοκρασίας
ενός χώρου ο χαρακτηρισμός θερμός μπορεί να ορίσει το
σύνολο που περιγράφεται από την ακόλουθη συνάρτηση
συμμετοχής:


• Γραφικά
18 30

• Στην περίπτωση των διακριτών ασαφών συνόλων όπως
στο επόμενο παράδειγμα:
Α={0.5/1, 0.5/2, 0.75/3, 1/4, 1/5, 0.7/7, 0.6/9, 0.5/10}
• Ένωση ασαφών συνόλων

• Τομή ασαφών συνόλων
• Συμπλήρωμα ασαφών συνόλων
• Υποσύνολο ασαφών συνόλων


Άλλες πράξεις:
• Το ελάχιστο δύο στοιχείων
• Το μέγιστο δύο στοιχείων
• Το supremum (sup) ενός ασαφούς συνόλου
• Το infimum (inf) ενός ασαφούς συνόλου
• ------------------------------------------------------------------------
Πράξεις για τα γλωσσικά περιγράμματα (linguistic hedges)
• Διαστολή ασαφούς συνόλου
• Συστολή ή συμπύκνωση ασαφούς συνόλου
• Αύξηση της αντίθεσης ασαφούς συνόλου

Άλλες πράξεις:
• Καρτεσιανό γινόμενο δύο ασαφών συνόλων


• Καρτεσιανό γινόμενο δύο ασαφών συνόλων
A={0.25/a, 0.5/b, 1/c, 0.75/d, 0.5/e}
B={0.5/1, 0.5/2, 0.75/3, 1/4, 1/5, 0.7/6, 0.6/7, 0.5/8}
1 2 3 4 5 6 7 8
a 0.25 0.25 0.25 0.25 0.25 0.25 0.25 0.25
b 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
c 0.5 0.5 0.75 1 1 0.7 0.6 0.5
d 0.5 0.5 0.75 0.75 0.75 0.7 0.6 0.5
e 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
ΜΑΘΗΜΑ 5Ο
ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ KAI
ΑΥΤΟΟΡΓΑΝΟΥΜΕΝΟΙ ΧΑΡΤΕΣ (SOM)
ΜΑΘΗΜΑ 5 Ο – ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ & ΔΙΚΤΥΑ SOM
Μάθηση χωρίς επίβλεψη (unsupervised learning)

• Το σύνολο εκπαίδευσης αποτελείται μόνο από πρότυπα που
χαρακτηρίζουν το πρόβλημα χωρίς τιμές στόχους.
• Άρα, D  {(x p )}, p  1,...P
• Τεχνική κατάλληλη για μια σειρά προβλημάτων όπως:

– Ομαδοποίηση δεδομένων (clustering)
– Κατασκευή χαρτών δεδομένων (data maps)
– Μείωση της διάστασης των δεδομένων (dimensionality
reduction)
– Εκτίμηση πυκνότητας πιθανότητας (probability density
estimation)
• Τεχνική που υλοποιείται από νευρωνικά δίκτυα ανταγωνιστικής
μάθησης (competitive learning)
Τεχνητά Νευρωνικά Δίκτυα - Σ. Π. Αδάμ

ΜΑΘΗΜΑ 5 Ο - ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ & ΔΙΚΤΥΑ SOM
Ανταγωνιστική Μάθηση
• Η μέθοδος μαθησης σύμφωνα με την οποία οι νευρώνες ενός
δικτύου ανταγωνίζονται μεταξύ τους κατά τη διαδικασία της
μάθησης ως προς το ποιός νευρώνας εκπροσωπεί καλύτερα τα
δεδομένα
• Ένα ΤΝΔ ανταγωνιστικής μάθησης συνήθως αποτελείται από
– ένα επίπεδο εισόδου, και
– ένα επίπεδο με ανταγωνιστικούς νευρώνες, που ονομάζεται
ανταγωνιστικό επίπεδο (competitive layer).
• Τύποι ΤΝΔ ανταγωνιστικής μάθησης:
– Learning Vector Quantization (LVQ),
– Self Organizing Maps (SOM) ή Self-Organizing Feature Maps
ΤΝΔ Ανταγωνιστικής Μάθησης

• Παράδειγμα ΤΝΔ ανταγωνιστικής μάθησης
𝑥1
𝑜1
𝑥2
𝑜2
𝑜𝑚
𝑥𝑛


• Χαρακτηριστικά ενός ανταγωνιστικού νευρώνα i
• Έχει ένα σύνολο βαρών wi  ( wi ,1 , wi , 2 ,..., wi ,n )
που αντιστοιχεί σε κάποιο σημείο του χώρου των προτύπων
• Υπολογίζει ένα μέτρο ομοιότητας (ή απόστασης) ανάμεσα στο
διάνυσμα wi και στο πρότυπο x  ( x1 , x2 ,..., xn )
T
• Η σύγκριση της απόστασης του διανύσματος βαρών κάθε

νευρώνα από το πρότυπο συνεπάγεται έναν ανταγωνισμό
μεταξύ των νευρώνων για το ποιός είναι πλησιέστερα στο εν
λόγω πρότυπο.
• Το αποτέλεσμα αυτού του ανταγωνισμού είναι η ανάδειξη ενός
νευρώνα νικητή του οποίου διάνυσμα βαρών του είναι
πλησιέστερα προς το διάνυσμα εισόδου x.
• Ο νικητής νευρώνας θέτει την έξοδό του ίση με 1, ενώ οι
υπόλοιποι νευρώνες δίνουν έξοδο ίση με 0

• Εκπαίδευση (τροποποίηση των βαρών των νευρώνων)
• Ο νικητής-νευρώνας είναι αυτός που συνήθως μεταβάλλει τις
τιμές των βαρών του περισσότερο (ή και αποκλειστικά) σε
σύγκριση με τους υπόλοιπους ανταγωνιστικούς νευρώνες.
Αυτό αποτελεί βασική αρχή της ανταγωνιστικής μάθησης.
• Η έννοια της αυτο-οργάνωσης (self-organization): συγκεκριμένοι
νευρώνες μαθαίνουν να ανταποκρίνονται σε συγκεκριμένα
ερεθίσματα (διανύσματα εισόδου).
• Ως μέτρο απόστασης χρησιμοποιείται συνήθως η ευκλείδεια
x  wi 2
• Για ένα πρότυπο x, ο νικητής-νευρώνας m είναι αυτός με τη
μικρότερη απόσταση δηλ. w m  min x  wi 2
i
• Η εκπαίδευση επιτυγχάνεται “μετακινώντας” το διάνυσμα βαρών

wm του νικητή-νευρώνα προς το διάνυσμα εισόδου x.

• Άσκηση: Έστω ένα ΤΝΔ ανταγωνιστικής μάθησης με τρεις
ανταγωνιστικούς νευρώνες και αντίστοιχα διανύσματα βαρών:
w1  (0,0,0)T
w 2  (1,1,1)T
w 3  ( 1, 1,  1)T
• Ποια είναι η διάσταση n των δεδομένων εισόδου;
• Αν η είσοδος στο ΤΝΔ είναι το πρότυπο (παράδειγμα)
x  (0.3, 0.1, 0.2)T
• Ποιος θα είναι ο νικητής-νευρώνας με βάση την ευκλείδεια
απόσταση;
Ομαδοποίηση (clustering)
• Διαμερισμός του συνόλου παραδειγμάτων σε υποσύνολα που
ονομάζονται ομάδες (clusters): θέλουμε τα δεδομένα της ίδιας
ομάδας να είναι 'κοντά' μεταξύ τους (σύμφωνα με κάποια νόρμα
απόστασης) και μακριά από τα δεδομένα των άλλων ομάδων.
• Συνήθως ο αριθμός των ομάδων καθορίζεται από τον χρήστη.
• Κάθε ομάδα μπορεί περιγράφεται από ένα αντιπρόσωπο:
συνήθως το κέντρο της ομάδας (κεντροειδές) δηλ. από τον μέσο
όρο των προτύπων (παραδειγμάτων εκπαίδευσης) της ομάδας.

Αλγόριθμος k-μέσων (k-means)

• Δίνεται ένα σύνολο εκπαίδευσης
D  {(x p )}, x p  ( x p,1, x p,2 ,..., x p,n )T p  1,...P
• Δίνεται ο αριθμός των ομάδων έστω Μ (καθορίζεται από τον

χρήστη)
• Ο αλγόριθμος είναι κατάλληλος για την εύρεση ομάδων σε
μορφή ‘νεφών’.
• Χρησιμοποιεί ως αντιπρόσωπο για κάθε ομάδα έστω oi ένα
διάνυσμα wi  ( wi ,1, wi , 2 ,..., wi ,n )T
που περιέχει τις συντεταγμένες του κέντρου της ομάδας.
• O αλγόριθμος k-μέσων είναι διαδεδομένος κυρίως λόγω της
απλότητας και της ευκολίας στην υλοποίησή του.

• Aρχικοποίηση του μετρητή επαναλήψεων t=0 και των M κέντρων
wi (0), i  1,..., M
• Για κάθε t (σε κάθε επανάληψη)
– Για κάθε πρότυπο εκπαίδευσης x p  ( x p,1, x p,2 ,..., x p,n )T
- Yπολογισμός της ευκλείδειας απόστασης του xp από όλα τα
κέντρα wi
- Τοποθέτηση του xp στο σύνολο Oi με τη μικρότερη απόσταση
από το κέντρο wi της αντίστοιχης ομάδας, δηλαδή για την οποία
ισχύει:
d (x , w m )  min d (x , wi )
p p
i
– Για κάθε ομάδα i υπολογισμός των νέων κέντρων wi(t+1) ως
το μέσο όρο των στοιχείων του συνόλου Οi
– Έλεγχος τερματισμού με κριτήριο αν έχουν τα διανύσματα wi
μεταβληθεί μεταξύ δύο επαναλήψεων. Εάν ναι, τότε t=t+1
και έναρξη νέας επανάληψης, αλλιώς τερματισμός.

• Έστω ότι για κάθε ομάδα i αθροίζουμε τις αποστάσεις όλων των
προτύπων από το κέντρο wi της εν λόγω ομάδας και ονομάζουμε
το άθροισμα αυτό διασπορά των προτύπων από το κέντρο της
ομάδας 2 M
S ( w1 , w 2 ,..., w M )    x p  wi
i 1 x p Oi
• Ο αλγόριθμος ελαχιστοποιεί τη συνολική διασπορά των ομάδων

• Ο αλγόριθμος k-means εξαρτάται από την αρχικοποίηση των
κέντρων.
• Τα κέντρα συνήθως αρχικοποιούνται επιλέγοντας τυχαία Μ
πρότυπα.
• Μία προσέγγιση: Πολλές επανεκτελέσεις και διατήρηση της
καλύτερης λύσης (αυτής με την μικρότερη συνολική διασπορά).
Αλγόριθμος LVQ για ομαδοποίηση

• Learning Vector Quantization (LVQ)
(Εκπαιδευόμενος Διανυσματικός Κβαντιστής)
• Αποτελεί τη σειριακή (on-line) έκδοση του k-means
• Υλοποιείται με ΤΝΔ ανταγωνιστικής μάθησης
χρήστη)
• Άρα προκύπτει ένα ΤΝΔ ανταγωνιστικής μάθησης με Μ
ανταγωνιστικούς νευρώνες.
• Το διάνυσμα βαρών wi  ( wi ,1, wi ,2 ,..., wi ,n )T του ανταγωνιστικού
νευρώνα j περιέχει τις συντεταγμένες του κέντρου της ομάδας Οi


• Aρχικοποίηση του μετρητή επαναλήψεων t=0 και των M κέντρων
wi (0), i  1,..., M
• Αρχικοποίηση του ρυθμού μάθησης , του μετρητή εποχών t=0
και του μετρητή επαναλήψεων τ=0.
• Σε κάθε εποχή t, για κάθε πρότυπο p=1,…,P:
– Eφαρμογή του προτύπου xp ως εισόδου στο ΤΝΔ.
– Εύρεση του νικητή-νευρώνα m: d (x , w m )  min d (x , wi )
p p
i
– Eνημέρωση των βαρών μόνο του νικητή-νευρώνα m, ώστε το
κέντρο wm να πλησιάσει στο πρότυπο xp
wm, j (  1)  wm, j ( )   ( x p , j  wm, j ), j  1,..., n
wi , j (  1)  wi , j ( ), i  m, j  1,..., n
– τ=τ+1
• Έλεγχος τερματισμού.
Εάν όχι t=t+1 και έναρξη νέας εποχής.


• Ελαχιστοποιείται η συνολική διασπορά των ομάδων (όπως και
στον k-means).
• Eξαρτάται από την αρχικοποίηση των κέντρων: συνήθως
αρχικοποιούνται επιλέγοντας τυχαία Μ πρότυπα.
• Μία προσέγγιση: Πολλές επανεκτελέσεις και διατήρηση της
καλύτερης λύσης (αυτής με την μικρότερη συνολική διασπορά).

• Διανυσματικός Κβαντισμός Εικόνας
• Η εικόνα χωρίζεται σε παράθυρα (π.χ. 8x8). Οι τιμές των pixels σε
κάθε παράθυρο συνιστούν ένα διάνυσμα διάστασης n.
• Tα διανύσματα των παραθύρων ομαδοποιούνται σε Μ ομάδες.
• Τελικά κάθε παράθυρο της εικόνας αναπαρίσταται από το κέντρο
της ομάδας στην οποία ανήκει.

Αλγόριθμος LVQ για ταξινόμηση

• Υλοποιείται με ΤΝΔ ανταγωνιστικής μάθησης
χρήστη)
• Άρα προκύπτει ένα ΤΝΔ ανταγωνιστικής μάθησης με Μ
ανταγωνιστικούς νευρώνες.
• Το διάνυσμα βαρών wi  ( wi ,1, wi ,2 ,..., wi ,n )T του ανταγωνιστικού
νευρώνα j περιέχει τις συντεταγμένες του κέντρου της ομάδας Οi
• Κάθε ανταγωνιστικός νευρώνας i αντιστοιχεί σε μία κατηγορία Ci
(την οποία αναθέτει ο χρήστης).
• Η αρχικοποίηση γίνεται θέτοντας το διάνυσμα βαρών ενός
νευρώνα που τον αντιστοιχίζουμε στην κατηγορία Ci ίσο με
κάποιο παράδειγμα εκπαίδευσης της κατηγορίας Ci .

• Σε κάθε βήμα εφαρμόζουμε ως είσοδο το πρότυπο xp και
βρίσκουμε τον νικητή-νευρώνα m. Τα βάρη των υπόλοιπων
νευρώνων δεν μεταβάλλονται. Τα βάρη του νικητή νευρώνα m
μεταβάλλονται ως εξής:
– Αν η κατηγορία του xp και του νικητή νευρώνα m συμπίπτουν,
το διάνυσμα βαρών wm ‘μετακινείται’ προς το πρότυπο xp :
wm, j (  1)  wm, j ( )   ( x p, j  wm, j ), j  1,..., n
– Αν η κατηγορία του xp και του νικητή νευρώνα m διαφέρουν,
το διάνυσμα βαρών wm ‘απομακρύνεται’ από το πρότυπο xp :
wm, j (  1)  wm, j ( )   ( x p, j  wm, j ), j  1,..., n
• Μετά το τέλος της εκπαίδευσης, ταξινόμηση νέου
παραδείγματος στην κατηγορία του νικητή-νευρώνα.


• Άσκηση: Έστω ένα LVQ για ταξινόμηση δύο κατηγοριών με τρεις
ανταγωνιστικούς νευρώνες και αντίστοιχα διανύσματα βαρών:
w1  (0,0,0)T
w 2  (1,1,1)T
w 3  ( 1, 1,  1)T
• Ο νευρώνας 1 είναι κατηγορίας C1 και οι υπόλοιποι κατηγορίας
C2
• Σε ποιά κατηγορία θα ταξινομηθούν τα παραδείγματα:
x1  (0.2, 0.1,  0.3)T x2  (1.2, 0.9, 0.7)T
To δίκτυο SOM
• Προτάθηκε από τον T. Kohonen στα μέσα της δεκαετίας του 1980,
σε μια προσπάθεια μοντελοποίησης της διαδικασίας αυτο-
οργάνωσης που παρατηρείται σε πολλές περιοχές του
εγκεφαλικού ιστού και για διάφορες γνωστικές λειτουργίες.
• Οι νευρώνες στον φλοιό του εγκεφάλου είναι οργανωμένοι σε
πολλές περιοχές σχηματίζοντας το χάρτη του εγκεφάλου

To δίκτυο SOM
• Το χαρακτηριστικό της οργάνωσης σε περιοχές είναι ότι
διαφορετικά εξωτερικά ερεθίσματα (από τα αισθητήρια όργανα)
διεγείρουν τους νευρώνες σε διαφορετικές περιοχές στον
εγκέφαλο.
• Συγκεκριμένα, αισθήσεις όπως της αφής, της όρασης και της
ακοής, απεικονίζονται σε διαφορετικές περιοχές του
εγκεφαλικού φλοιού.
• Στην ουσία ο χάρτης ορίζεται από έναν πλέγμα νευρώνων οι
οποίοι είναι συντονισμένοι με τέτοιο τρόπο ώστε γειτονικοί
νευρώνες να αντιδρούν σε παρόμοια ερεθίσματα.
• Τα σήματα εισόδου απεικονίζονται στα σημεία του χάρτη,
ανάλογα με τα ιδιαίτερα χαρακτηριστικά τους.
To δίκτυο SOM
• Δίκτυο SOM: τεχνητό ανάλογο του βιολογικού χάρτη.
• Είναι ΤΝΔ ανταγωνιστικής μάθησης με ένα επί πλέον
χαρακτηριστικό: θεωρούμε ότι οι ανταγωνιστικοί νευρώνες είναι
τοποθετημένοι στους κόμβους ενός πλέγματος μιας ή δύο
(συνήθως) διαστάσεων.
• Κάθε ανταγωνιστικός νευρώνας χαρακτηρίζεται από δύο
ποσότητες:
α) το διάνυσμα βαρών (σημείο στο χώρο των προτύπων R )
n
β) τις συντεταγμένες της θέσης του στο πλέγμα.

• Οι νευρώνες εκπαιδεύονται ώστε η θέση τους στο πλέγμα να
συσχετίζεται με συγκεκριμένα χαρακτηριστικά των προτύπων
εισόδου.

To δίκτυο SOM
• Yλοποιείται ένας τοπογραφικός χάρτης (topographic map) των
δεδομένων εισόδου: oι θέσεις στο πλέγμα των νευρώνων που
είναι νικητές κατά τον ανταγωνισμό για κάποιο παράδειγμα
εισόδου είναι ενδεικτικές των χαρακτηριστικών αυτού του
παραδείγματος.
Εκπαίδευση του δικτύου SOM

• Αρχικά για κάθε νευρώνα i στο πλέγμα ορίζεται η γειτονιά του Ni
(στο πλέγμα). Δηλαδή το σύνολο των νευρώνων που
περιβάλλουν τον νευρώνα i.
• Mπορεί να έχει οποιαδήποτε μορφή (τετραγωνική, σφαιρική,
εξαγωνική κλπ). Συνήθως η γειτονιά Ni είναι συμμετρική γύρω
από τον νευρώνα i και περιλαμβάνει τον νευρώνα αυτό.


• Εκπαίδευση με διακριτή γειτονιά
• Δίνεται σύνολο εκπαίδευσης
• Καθορίζεται το πλήθος M=M1 x M2 των ανταγωνιστικών
νευρώνων των διαστάσεων M1 και M2 του διδιάστατου
πλέγματος.
• Aρχικοποίηση των M κέντρων wi (0), i  1,..., M
του ρυθμού μάθησης, της έκτασης της γειτονιάς, του μετρητή
εποχών t=0 και του μετρητή επαναλήψεων τ=0.

• Εκπαίδευση με διακριτή γειτονιά (συνέχεια αλγορίθμου)
• Σε κάθε εποχή t εφαρμογή των παρακάτω βημάτων για όλα τα
πρότυπα p=1,…,P
– Eφαρμογή του xp ως εισόδου στο ΤΝΔ, εύρεση του νικητή
νευρώνα m.
– Eνημέρωση των βαρών μόνο του νικητή-νευρώνα m και των
γειτονικών του, δηλαδή των νευρώνων του συνόλου του
Nm(τ):
wi , j (  1)  wi , j ( )   ( x p , j  wi , j ), i  N m ( ), j  1,..., n
wi , j (  1)  wi , j ( ), i  N m ( ), j  1,..., n


• Εκπαίδευση με διακριτή γειτονιά (συνέχεια αλγορίθμου)
– τ=τ+1
– Σταδιακή αργή μείωση του ρυθμού μάθησης και του εύρους
της γειτονιάς Nm(τ):

• Εκπαίδευση με συνεχή γειτονιά
• Συνεχής γειτονιά: οποιοσδήποτε νευρώνας l ανήκει στη γειτονιά
Ni του νευρώνα i με κάποιο βαθμό συμμετοχής hil που είναι
αντιστρόφως ανάλογος απόστασης στο πλέγμα μεταξύ των δύο
νευρώνων.
 d il 
      
2
• Όπου, hil ( ) exp  2 2 ( )  και il
d ri rl
 h 


• Εκπαίδευση με συνεχή γειτονιά (συνέχεια)
• Σε κάθε εποχή t εφαρμογή των παρακάτω βημάτων για όλα τα
πρότυπα p=1,…,P
– Eφαρμογή του xp ως εισόδου στο ΤΝΔ, εύρεση του νικητή
νευρώνα m.
– Eνημέρωση των βαρών όλων των νευρώνων με συντελεστή
βαρύτητας το βαθμό συμμετοχής hmi στη γειτονιά του νικητή-
νευρώνα m ως εξής:
 rm  ri 2 
hmi ( )  exp   , i  1,..., M
 2 h ( ) 
2
 
wi , j (  1)  wi , j ( )   ( )hmi ( )( x p, j  wi , j ), j  1,..., n

• Εκπαίδευση με συνεχή γειτονιά (συνέχεια)
– τ=τ+1
• Σταδιακή μείωση του η(τ) και του σh(τ)

Παραδείγματα εφαρμογών του δικτύου SOM

• WebSOM και ο χάρτης κειμένων (Text mining with the WebSOM)
https://aaltodoc.aalto.fi/handle/123455789/2312
• SOM applications and properties

https://users.ics.aalto.fi/mikkok/thesis/book/node16.html
ΣΥΝΑΡΤΗΣΕΙΣ ΠΟΛΛΩΝ ΜΕΤΑΒΛΗΤΩΝ
• Συναρτήσεις της μορφής

• Συνάρτηση δύο μεταβλητών
• Γραφική παράσταση
• Γραφική παράσταση και Ισοσταθμικές καμπύλες f(x,y)=c


Παράγωγοι συναρτήσεων πολλών μεταβλητών

• Για να υπολογιστεί η μερική παράγωγος ως προς x μιας

συνάρτησης δύο μεταβλητών f(x,y), θεωρούμε το y σαν
σταθερά και παραγωγίζουμε την συνάρτηση ως προς x σαν
να ήταν συνάρτηση μιας μεταβλητής.
Παρόμοια υπολογίζεται η μερική παράγωγος ως προς y.
Παράδειγμα: Να υπολογιστούν οι μερικές παράγωγοι της
f(x,y) = x cos(y) + y ex
Παράγωγος κατά κατεύθυνση (ή κατευθυνόμενη παράγωγος)

Παράγωγος κατά κατεύθυνση (ή κατευθυνόμενη παράγωγος)
• Τρόπος υπολογισμού: μέσω του διανύσματος της κλίσης
• Η παράγωγος κατά την κατεύθυνση του μοναδιαίου

διανύσματος û=u1î+u2ĵ δίνεται από το εσωτερικό
γινόμενο:
Ιδιότητες της κλίσης
• Για θ=0 => Dûf=max
• Σε κάθε σημείο του πεδίου ορισμού της η f παρουσιάζει
την μέγιστη αύξηση κατά μήκος της κατεύθυνσης του
διανύσματος της κλίσης
• Για θ=π => Dûf=min

• η f παρουσιάζει την μέγιστη μείωση
• Για θ=π/2 => Dûf=0

• η f δεν παρουσιάζει μεταβολή σε κατεύθυνση κάθετα στο
διάνυσμα της κλίσης


• Αν η f(x,y) είναι παραγωγίσιμη σε μια περιοχή και έχει σε
ένα εσωτερικό σημείο αυτής της περιοχής τοπικό
ακρότατο, τότε σε αυτό το σημείο fx=0 και fy=0.
• Το αντίστροφο πάλι δεν ισχύει: μπορεί οι μερικές
παράγωγοι να μηδενίζονται σε κάποιο σημείο και να μην
αντιστοιχεί σε ακρότατο (π.χ. σαγματικά σημεία).

• Το gradient ως διάνυσμα υποδεικνύει την αύξηση της
κλίσης μιας συνάρτησης.
• Παράδειγμα: https://en.wikipedia.org/wiki/Gradient
Βελτιστοποίηση
Μερικές Εισαγωγικές Έννοιες
Γενικά, για κάποιο πρόβλημα, η βελτιστοποίηση αναφέρεται στην αναζήτηση της

«καλύτερης» από όλες τις δυνατές λύσεις που επιδέχεται το εν λόγω πρόβλημα. Αν
δεχτούμε ότι ένα πρόβλημα είναι δυνατό να περιγραφεί μαθηματικά, δηλ. να
μοντελοποιηθεί, με μία συνάρτηση τότε η βελτιστοποίηση συνίσταται στη
βελτιστοποίηση της εν λόγω συνάρτησης. Έτσι, ως βελτιστοποίηση χαρακτηρίζεται η
διαδικασία εύρεσης εκείνης της τιμής από το πεδίο ορισμού της συνάρτησης στην
οποία η συνάρτηση εμφανίζει ολικό (ή τοπικό) μέγιστο ή ελάχιστο. Στην απλούστερη
περίπτωση ένα πρόβλημα βελτιστοποίησης συνίσταται στη μεγιστοποίηση ή στην
ελαχιστοποίηση μιας πραγματικής συνάρτησης. Θεωρητικά, αυτό μπορεί να
επιτευχθεί με συστηματική επιλογή τιμών για την ανεξάρτητη ή τις ανεξάρτητες
μεταβλητές από ένα σύνολο επιτρεπτών τιμών και τον υπολογισμό των αντίστοιχων
τιμών της συνάρτησης από τις οποίες επιλέγεται η βέλτιστη (μέγιστη ή ελάχιστη).
Στη συνέχεια θα αναφερθούμε με προβλήματα των οποίων η βελτιστοποίηση αφορά

στη μεγιστοποίηση ή στην ελαχιστοποίηση μιας συνάρτησης η οποία ονομάζεται
αντικειμενική συνάρτηση. Έτσι, ένα πρόβλημα βελτιστοποίησης μπορεί να
διατυπωθεί ως εξής.
Δεδομένης της πραγματικής συνάρτησης από κάποιο σύνολο προς
το σύνολο των πραγματικών αριθμών, ζητείται να βρεθεί στοιχείο τέτοιο
ώστε:
 είτε αν πρόκειται για ένα πρόβλημα μεγιστοποίησης,
 είτε αν πρόκειται για ένα πρόβλημα ελαχιστοποίησης.
Συνήθεις ονομασίες για τη συνάρτηση f είναι:

 αντικειμενική συνάρτηση (objective function) ή συνάρτηση κόστους (cost
function) αν το πρόβλημα αφορά ελαχιστοποίηση, και
 συνάρτηση χρησιμότητας (utility function) ή ακόμη συνάρτηση ενέργειας (energy
function) αν το πρόβλημα αφορά μεγιστοποίηση.
Συνήθως για το πεδίο ορισμού της αντικειμενικής συνάρτησης ισχύει ότι και
το καθορίζεται από ένα σύνολο περιορισμών τους οποίους απαιτείται να
ικανοποιούν τα στοιχεία του. Το σύνολο ονομάζεται και χώρος αναζήτησης
(search space), ή ακόμη εφικτή περιοχή (feasible region), τα δε στοιχεία του
ονομάζονται υποψήφιες λύσεις (candidate solutions) ή ακόμη εφικτές λύσεις (feasible
solutions).
Τέλος, μια εφικτή λύση η οποία ελαχιστοποιεί ή μεγιστοποιεί την αντικειμενική

συνάρτηση ονομάζεται βέλτιστη λύση ενώ το σημείο του πεδίου ορισμού της
1
αντικειμενικής συνάρτησης στο οποίο παίρνει τη βέλτιστη τιμή ονομάζεται
βελτιστοποιητής (optimizer) δηλ. ελαχιστοποιητής (minimizer) ή μεγιστοποιητής
(maximizer). Στην πλέον συνήθη μορφή του ένα πρόβλημα βελτιστοποίησης αφορά
στην ελαχιστοποίηση μιας αντικειμενικής συνάρτησης. Η διατύπωση ενός
προβλήματος βελτιστοποίησης συνήθως ακολουθεί τον εξής φορμαλισμό:
Για ένα πρόβλημα ελαχιστοποίησης Για ένα πρόβλημα μεγιστοποίησης
Όταν το πρόβλημα εστιάζει στην εύρεση του βελτιστοποιητή τότε η διατύπωση είναι:
Για ένα πρόβλημα ελαχιστοποίησης Για ένα πρόβλημα μεγιστοποίησης
Πολλά πραγματικά προβλήματα αλλά και θεωρητικά ζητήματα είναι δυνατό να

μοντελοποιηθούν μέσα στα πλαίσια της διατύπωσης αυτής. Για παράδειγμα
προβλήματα από τη φυσική, τη χημεία, τα οικονομικά, τη μηχανική κλπ. αναφέρονται
στη βελτιστοποίηση κάποιας συνάρτησης ενέργειας η οποία είναι η ενέργεια του
συστήματος.
Γενικά, εκτός από ιδιαίτερες περιπτώσεις όπου η αντικειμενική συνάρτηση είναι

κυρτή (convex), σε ένα πρόβλημα βελτιστοποίησης μπορεί να υπάρχουν πολλά
τοπικά ελάχιστα (ή μέγιστα), όπου ένα τοπικό ελάχιστο (ή μέγιστο) είναι ένα
σημείο του πεδίου ορισμού της αντικειμενικής συνάρτησης για το οποίο, υπάρχει ένα
τέτοιο ώστε,
τέτοιο ώστε , να ισχύει

για το ελάχιστο ή για το μέγιστο.
Δηλαδή, οι τιμές της f για όλα τα σημεία που βρίσκονται σε μια περιοχή του
είναι μεγαλύτερες (ή μικρότερες) από την τιμή της f στο δηλαδή το . Αν
οι προηγούμενες ανισότητες ισχύουν για όλα τα σημεία x του πεδίου ορισμού της f
τότε το είναι ολικό ελάχιστο (ή ολικό μέγιστο) ή απλά βέλτιστο.
Στη γενική περίπτωση, η διαδικασία βελτιστοποίησης περιλαμβάνει έναν αλγόριθμο

αναζήτησης της βέλτιστης τιμής κάποιας αντικειμενικής συνάρτησης ή/και του
στοιχείου του πεδίου ορισμού της αντικειμενικής συνάρτησης στο οποίο η
συνάρτηση έχει βέλτιστη τιμή. Αξίζει να σημειωθεί εδώ ότι, σε πολλές περιπτώσεις
ενδέχεται η συνάρτηση να παρουσιάζει βέλτιστη τιμή σε περισσότερα από ένα
σημεία του πεδίου ορισμού. Στις περιπτώσεις αυτές, ανάλογα με το πρόβλημα,
άλλοτε μας ενδιαφέρει η εύρεση μιας οποιασδήποτε βέλτισης τιμής ή μιας βέλτιστης
τιμής με συγκεκριμένα χαρακτηριστικά και άλλες φορές η εύρεση όλων των
βέλτιστων τιμών.
2
Ένας αλγόριθμος βελτιστοποίησης είναι ο αλγόριθμος καθορισμού του ελαχίστου (ή
του μεγίστου) μιας αντικειμενικής συνάρτησης. Η πλέον γνωστή περίπτωση
βελτιστοποίησης αφορά στην εύρεση του ελαχίστου μιας κυρτής συνάρτησης. Στην
περίπτωση αυτή ο αλγόριθμος συνίσταται στην εύρεση της ρίζας της πρώτης
παραγώγου της αντικειμενική συνάρτησης. Ως γνωστό, στο σημείο που μηδενίζεται η
πρώτη παράγωγος της η αντικειμενική συνάρτηση παρουσιάζει ακρότατο (ελάχιστο).
Παραδείγματα:
1. Να λυθεί το πρόβλημα: ( ),
Στο πρόβλημα αυτό το ελάχιστο της αντικειμενικής συνάρτησης είναι 1 και
επιτυγχάνεται για
2. Να λυθεί το πρόβλημα: (2x),

Στο πρόβλημα αυτό το μέγιστο της αντικειμενικής συνάρτησης δεν υπάρχει στους
πραγματικούς αριθμούς.
3. Να λυθεί το πρόβλημα:
Στο σύνολο των πραγματικών αριθμών, η σχέση ελαχιστοποιείται για

ενώ για το συγεκριμένο πεδίο ορισμού για Κατά συνέπεια η
ζητούμενη τιμή είναι .
Ένας σημαντικός αριθμός αλγορίθμων που προτείνονται γιά την επίλυση μη κυρτών
προβλημάτων βελτιστοποίησης δεν είναι ικανοί να διαφοροποιήσουν ένα τοπικό
ελάχιστο (ή μέγιστο) από ένα ολικό ελάχιστο (ή μέγιστο), δηλαδή αυτό που
ονομάζεται, μιά αυστηρά βέλτιστη λύση. Έτσι κατά τη διαδικασία εξερεύνησης του
χώρου των εφικτών λύσεων το πρώτο σημείο που θα εντοπίσουν θα το θεωρήσουν ως
τη βέλτιστη λύση του προβλήματος.
Ο κλάδος των εφαρμοσμένων μαθηματικών που αφορά στην ανάπτυξη

ντετερμινιστικών αλγορίθμων που είναι ικανοί να συγκλίνουν σε πεπερασμένο χρόνο
στη βέλτιστη λύση ενός προβλήματος βελτιστοποίησης ονομάζεται καθολική
βελτιστοποίηση (global optimization).
3
Βελτιστοποίηση με Σμήνος Σωματιδίων
(Particle Swarm Optimization)
Η μέθοδος βελτιστοποίησης αυτή προτάθηκε από τους Kennedy και Eberhart στην
εργασία τους:
Kennedy, J. & Eberhart, R. C., 1995, “Particle Swarm Optimization.” In Proceedings

of the IEEE International Conference on Neural Networks, Perth, Australia, IEEE
Service Center, 12-13.
Η μέθοδος είναι εμπνευσμένη από τη συλλογική, ή αλλιώς την κοινωνική,

συμπεριφορά σμηνών πτηνών, ψαριών και εντόμων και τη δυναμική της μετακίνησης
τους. Είναι μια ευρετική μέθοδος αναζήτησης της βέλτιστης λύσης που σε αντίθεση
με κλασικούς αλγορίθμους βελτιστοποίησης δεν χρησιμοποιεί την έννοια της
παραγώγου (gradient) της αντικειμενικής συνάρτησης και εφαρμόζεται κυρίως σε
προβλήματα όπου οι μεταβλητές παίρνουν συνεχείς τιμές. Κάποιοι συγγραφείς
θεωρούν την τεχνική αυτή ως στοχαστική εξ αιτίας της τεχνικής επιλογής της
επόμενης υποψήφιας λύσης χωρίς όμως ο αλγόριθμος να σχετίζεται με καθαρά
στοχαστικές τεχνικές όπως η προσομοιούμενη ανόπτηση (simulated annealing) ή
τεχνικές πολλαπλών εκκινήσεων (multi-start).
Ως προς τις επιδόσεις του ο αλγόριθμος Βελτιστοποίησης με Σμήνος Σωματιδίων

(ΒμΣΣ) ή αλλιώς αλγόριθμος PSO είναι συγκρίσιμος με το Γενετικό Αλγόριθμο
(Genetic Algorithm) με τον οποίο κατατάσσεται στην κατηγορία των εξελικτικών
αλγορίθμων ή ακόμη στους αλγορίθμους που βασίζονται σε πληθυσμό (population
based algorithms).
Προτερήματα
 Εύκολη υλοποίηση
 Προσέγγιση αδιάφορη προς την αλλαγή κλίμακας των μεταβλητών
 Δεν κάνει χρήση της έννοιας της παραγώγου και του συνεπαγόμενου
υπολογιστικού κόστους
 Χρησιμοποιεί ελάχιστες παραμέτρους
 Χαρακτηρίζεται ως αποτελεσματική μέθοδος για την ολική εξερεύνηση του
χώρου των εφικτών λύσεων
4
Μειονεκτήματα
 Ευρετική προσέγγιση με χρήση αρκετών μη γνωστών παραμέτρων

 Δεν εγγυάται την εύρεση της ολικά βέλτιστης τιμής δεδομένου ότι δεν
αποδεικνύεται ντετερμινιστική σύγκλιση αλλά στοχαστική σύγκλιση
(convergence in probability)
 Χαμηλές επιδόσεις έως αδυναμία αναζήτησης της βέλτιστης τιμής σε τοπικό
επίπεδο
 Απαιτεί μεγάλο αριθμό σωματιδίων σε την περίπτωση πρβλημάτων μεγάλων
διαστάσεων
Παραδείγματα εφαρμογών
 Ταυτοποίηση της νόσου Parkinson
 Αναγνώριση εικόνας
 Βελτιστοποίηση δικτύων διανομής ηλεκτρικής ενέργειας
 Βιοχημικές διεργασίες
 Ταυτοποίηση βιομηχανικών συστημάτων
 Εκπαίδευση νευρωνικών δικτύων
 Εξαγωγή κανόνων από ασαφή δίκτυα
 κλπ.
5
Βασικός Αλγόριθμος PSO
Στη συνέχεια παρουσιάζεται η βασική έκδοση του αλγορίθμου, χωρίς κάποια από τις
διάφορες βελτιώσεις που έχουν παρουσιαστεί κατά καιρούς από διάφορους
συγγραφείς.
Έστω ότι η αντικειμενική συνάρτηση είναι , όπου της οποίας

αναζητείται η βέλτιστη τιμή, έστω η ελάχιστη. Ο αλγόριθμος χρησιμοποιεί ως σμήνος
ένα σύνολο από n-διάστατα σημεία που συμβολίζονται με τα οποία
τοποθετούνται σε τυχαίες θέσεις στο πεδίο ορισμού της αντικειμενικής συνάρτησης,
δηλ. στο σύνολο . Σε κάθε επανάληψη ο αλγόριθμος μετακινεί τα σωματίδια
προσδιορίζοντας τη νέα θέση τους λαμβάνοντας υπόψη έως εκείνη την επανάληψη,
αφενός την καλύτερη θέση του σωματιδίου και αφετέρου τη θέση του σωματιδίου με
την καλύτερη επίδοση σε όλο το σμήνος.
Ο όρος καλύτερη θέση για ένα σωματίδιο σημαίνει τη θέση στην οποία το
σωματίδιο έχει την καλύτερη τιμή για την αντικειμενική συνάρτηση δηλ. τη
μικρότερη ή τη μεγαλύτερη εφικτή τιμή.
Θα παραστήσουμε τις μεταβλητές του αλγορίθμου στην επανάληψη ως εξής:

 η θέση του i σωματιδίου
 η ταχύτητα του i σωματιδίου
 η καλύτερη γνωστή θέση του i σωματιδίου έως την επανάληψη
 η καλύτερη θέση που έχει βρεθεί ένα σωματίδιο από ολόκληρο το σμήνος
(έως την επανάληψη)
 η καλύτερη γνωστή τιμή της αντικειμενικής συνάρτησης γιά το i σωματίδιο
έως την επανάληψη
 η καλύτερη γνωστή τιμή της αντικειμενικής συνάρτησης για ολόκληρο το
σμήνος (έως την επανάληψη)
Επί πλέον χρησιμοποιούνται οι ακόλουθες μεταβλητές:

 ο μέγιστος αριθμός επαναλήψεων του αλγορίθμου
 η μέγιστη αρχικά επιτρεπόμενη ταχύτητα των σωματιδίων (ο ρόλος και η
χρησιμότητα της δεν φαίνονται στον αλγόριθμο αλλά εξηγούνται στη συνέχεια)
 η ενδεχόμενα γνωστή βέλτιστη τιμή της αντικειμενικής συνάρτησης
Σημείωση: Η τιμή δεν είναι πάντα γνωστή και δεν χρησιμοποιείται σε όλες τις
εκδόσεις του αλγορίθμου.
Οι θέσεις των σωματιδίων στην επανάληψη ενημερώνονται σύμφωνα με τη

σχέση:
,
6
όπου,
.
Ο όρος ονομάζεται γνωστική συνιστώσα για το i σωματίδιο, ενώ ο

όρος ονομάζεται κοινωνική συνιστώσα για το i σωματίδιο.
Επί πλέον ισχύουν τα εξής:

‒ είναι ο συντελεστής της γνωστικής συνιστώσας
‒ είναι ο συντελεστής της κοινωνικής συνιστώσας
‒ είναι τυχαίοι πραγματικοί αριθμοί στο διάστημα οι οποίοι επιλέγονται
σε κάθε επανάληψη και καθορίζουν το βαθμό στον οποίο θα ληφθούν υπόψη για
τη νέα θέση κάθε σωματιδίου η καλύτερη γνωστή θέση του καθώς και η καλύτερη
γνωστή θέση του σμήνους.
// Αρχικοποίηση
1. Ανάθεση τιμών στις παραμέτρους
2. Τυχαία αρχικοποίηση των θέσεων των σωματιδίων ,
3. Τυχαία αρχικοποίηση των ταχυτήτων των σωματιδίων
4. Αρχικοποίηση
5. Για κάθε σωματίδιο αρχικός υπολογισμός της τιμής της αντικειμενικής
συνάρτησης με βάση τη θέση του.
6. Για κάθε σωματίδιο αρχικοποίηση της καλύτερης θέσης του, .
7. Αρχικοποίηση της καλύτερης τιμής και της καλύτερης θέσης του
σμήνους.
8.
9. Υπολογισμός της συνθήκης τερματισμού
// Επανάληψη
10. Αν η συνθήκη τερματισμού ισχύει τότε τέλος του αλγορίθμου,
αλλιώς συνέχεια στο βήμα 11.
11. Για κάθε σωματίδιο του σμήνους εκτέλεσε τα βήματα 11.1 έως 11.5
11.1 Ενημέρωση της ταχύτητας του σωματιδίου
11.2 Ενημέρωση της θέσης του σωματιδίου
11.3 Yπολογισμός της τιμής της αντικειμενικής συνάρτησης με
βάση τη θέση του σωματιδίου
11.4 εάν τότε
11.5 εάν τότε
7
12.
13. Υπολογισμός της συνθήκης τερματισμού, Συνέχεια στο βήμα 10.
14. Τέλος αλγορίθμου. Προσδιορίστηκαν, η καλύτερη δυνατή θέση για τα σωματίδια
του σμήνους και η βέλτιστη τιμή που αντιστοιχεί στη θέση αυτή.
Ο τερματισμός του αλγορίθμου καθορίζεται από το πρόβλημα. Τυπικά η συνθήκη

τερματισμού συντίθεται από τις ακόλουθες δύο βασικές συνθήκες:
a)
b) όπου ένας πολύ μικρός θετικός αριθμός π.χ.
Σχόλιο
Ένα σωματίδιο του σμήνους του οποίου η θέση υπολογίζεται σύμφωνα με τις
προηγούμενες σχέσεις από τον αλγόριθμο υπάρχει σοβαρός κίνδυνος να
«εκτροχιαστεί» αν δεν περιοριστεί. Γιά το λόγο αυτό έχουν προταθεί διάφορες
προσεγγίσεις εκ των οποίων οι επικρατέστερες είναι οι ακόλουθες:
 Μέγιστη ταχύτητα
Σύμφωνα με τη μέθοδο αυτή μετά τον υπολογισμό των ταχυτήτων η ταχύτητα
κάθε σωματιδίου συγκρίνεται με μία προκαθορισμένη μέγιστη ταχύτητα
σύμφωνα με την ακόλουθη λογική:
εάν τότε
;
εάν τότε
Να σημειωθεί ότι η τιμή της μέγιστης ταχύτητας είναι δυνατό να αλλάζει κατά την
εκτέλεση του αλγορίθμου.
 Αδρανειακό βάρος (inertia weight)

Το αδρανειακό βάρος είναι ένας συντελεστής που πολλαπλασιάζει την τιμή της
ταχύτητας του σωματιδίου κατά την προηγούμενη επανάληψη σε μιά προσπάθεια
να τη διατηρήσει, λειτουργώντας έτσι με τρόπο ανάλογο της αδράνειας. Η σχέση
υπολογισμού της ταχύτητας των σωματιδίων παίρνει τη μορφή:
 Παράγοντας σύσφιγξης (constriction factor)

Πρόκειται γιά ένα παράγοντα αντίστοιχο με το αδρανειακό βάρος ο οποίος όμως
εφαρμόζεται στο σύνολο των όρων που συνθέτουν τη συνισταμένη ταχύτητα ενός
8
σωματιδίου σε κάθε επανάληψη. Συγκεκριμένα η σχέση υπολογισμού της
ταχύτητας των σωματιδίων παίρνει τη μορφή:
Είναι προφανές ότι η μέθοδος του αδρανειακού βάρους και η μέθοδος που
χρησιμοποιεί τον παράγοντα σύσφιγξης είναι ισοδύναμες.
9
Δυαδικά Σμήνη Σωματιδίων (Binary Particle Swarms)
Μια εκδοχή της μεθόδου PSO είναι αυτή στην οποία ισχύει ότι οι θέσεις των
σωματιδίων είναι οι κορυφές υπερ-κύβου στις n διαστάσεις. Αν και οι μεταβλητές
που αφορούν τις ταχύτητες των σωματιδίων του σμήνους είναι συνεχείς αλλά
περιορισμένες στο διάστημα και οι μεταβλητές και υπολογίζονται
όπως και στα σμήνη σωματιδίων με συνεχείς τιμές, εν τούτοις οι θέσεις των
σωματιδίων είναι σημεία του συνόλου . Έτσι η αντικειμενική συνάρτηση
έχει τη μορφή .
Για τον υπολογισμό των θέσεων των σωματιδίων χρησιμοποιείται ο ίδιος αλγόριθμος
με τις αναγκαίες τροποποιήσεις. Η βασική διαφορά έγκειται στο ότι οι ταχύτητες
υπολογίζονται όπως και στα σμήνη με συνεχείς τιμές αλλά ορίζονται με όρους
πιθανοτήτων. Έτσι η ταχύτητα του i σωματιδίου ορίζεται στο διάστημα
μέσω μιας διαδικασίας αναγωγής ή αλλιώς κανονικοποίησης η οποία συντελείται με
χρήση της γνωστής σιγμοειδούς συνάρτησης:
όπου βέβαια η τιμή της υπολογίζεται με χρήση της γνωστής, από την
προηγούμενη παράγραφο, σχέσης.
Τέλος οι νέες θέσεις των σωματιδίων υπολογίζονται ως εξής,
όπου και είναι ένας αριθμός που έχει επιλεγεί τυχαία με

ομοιόμορφη κατανομή από το διάστημα .
Σχόλια
Στη δυαδική εκδοχή του αλγορίθμου εκτός από την ερμηνεία της ταχύτητας που
αλλάζει σε σχέση με τη συνεχή εκδοχή διαφορετικός είναι και ο ρόλος του
αδρανειακού βάρους ή του συντελεστή σύσφιγξης. Το αποτέλεσμα των συντελεστών
αυτών είναι αντίθετο από εκείνο στη συνεχή εκδοχή.
Επί πλέον στη συνεχή εκδοχή μεγάλες τιμές για την ταχύτητα ή τη μέγιστη ταχύτητα
ενισχύουν την αναζήτηση. Αντίθετα στη δυαδική PSO μικρές τιμές της μέγιστης
ταχύτητας προωθούν την αναζήτηση και αν η μέγιστη ταχύτητα είναι μηδέν τότε η
αναζήτηση είναι καθαρά τυχαία (στοχαστική).
10

ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ ΣΤΑΥΡΟΣ ΑΔΑΜ ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ ΣΤΑΥΡΟΣ ΑΔΑΜ ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ

Uploaded by

Copyright:

Available Formats

ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ

ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ

ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ 2020-2021

Ορισμοί και Ιστορικά Στοιχεία

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Ορισμοί και Ιστορικά Στοιχεία

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Βασικές Έννοιες και Ορισμοί

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Βασικές Έννοιες και Ορισμοί

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Βασικές Έννοιες και Ορισμοί

ΕΙΣΑΓΩΓΗ - ΠΡΟΒΛΗΜΑ ΤΑΞΙΝΟΜΗΣΗΣ

Δύο κατηγορίες συγγενών ζώων : Άλογο – Γαϊδούρι

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Ύψος Μέγεθος αυτιών

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Ύψος Μέγεθος αυτιών

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Ένα ζώο με Ύψος = 152cm και Μέγεθος αυτιών = 23cm

Ερώτημα: Σε ποιά κατηγορία ανήκει;

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Ένα ζώο με Ύψος = 152cm και Μέγεθος αυτιών = 23cm

Ερώτημα: Σε ποιά κατηγορία ανήκει;

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Ένα ζώο με Ύψος = 152cm και Μέγεθος αυτιών = 23cm

Ερώτημα: Σε ποιά κατηγορία ανήκει;

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

• Ερώτημα 1: Υπάρχει άλλη επιλογή ευθείας;

• Ερώτημα 2: Ποιά είναι η θέση του σημείου που

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

• Η θέση του σημείου που αναπαριστά το νέο ζώο στο

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

• Έχοντας την ευθεία μπορούμε τοποθετώντας κάθε νέο

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Ένας υπολογιστικός μηχανισμός που για το

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

• Τα παραδείγματα ή αλλιώς τα πρότυπα του

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Γραμμικά διαχωρίσιμες Μη γραμμικά διαχωρίσιμες

2 -διαστάσεις Ευθεία Καμπύλη ή τεθλασμένη γραμμή

3-διαστάσεις Επίπεδο Επιφάνεια

Ν-διαστάσεις Υπερεπίπεδο Υπερεπιφάνεια

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

Παραδείγματα γραμμικά και μη γραμμικά

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

• Η επίλυση προβλημάτων όπως αυτά που αναφέρθηκαν

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

(από το βιβλίο «Τεχνητά Νευρωνικά Δίκτυα», Κ. Διαμαντάρα)

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΣΤΑΥΡΟΣ ΑΔΑΜ ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ

ΑΠΟ ΤΟ ΒΙΟΛΟΓΙΚΟ ΣΤΟΝ ΤΕΧΝΗΤΟ ΝΕΥΡΩΝΑ

• όπου α είναι η κλίση και β η μετατόπιση