You are on page 1of 130

1

Norbet Wiener
“Κυβερνητική και Κοινωνία”
1948

ƒ «Συγκεκριμένα , εκείνο που επιτυγχάνεται με την Κυβερνητική (σαν μεθοδολογία ,


αντιμετωπίζει οποιοδήποτε πρόβλημα σχετικό με τον κόσμο με ένα εντελώς νέο τρόπο ,
επιτυγχάνοντας μια γενικότητα εφαρμογών) είναι η υπαγωγή της μελέτης όλων των ανωτέρω
φαινομένων σε μαθηματική ανάλυση ορισμένου τύπου».
Πρόλογος ΧΙ

ƒ « Η καινοτομία του Gibbs συνίσταται στο να εξετάσει όχι έναν κόσμο αλλά όλους τους κόσμους
που μπορεί να είναι απαντήσεις σε ένα περιορισμένο σύνολο ερωτήσεων σχετικά με το
περιβάλλον μας. Η κεντρική του αντίληψη αφορούσε την έκταση στην οποία απαντήσεις που
μπορούμε να δώσουμε σε ερωτήσεις για ένα σύνολο κόσμων είναι πιθανώς αληθινές και για ποιο
εκτεταμένο σύνολο. Πέρα από αυτό ο Gibbs είχε τη θεωρία ότι αυτή η πιθανότης έτεινε φυσικώς
να αυξηθεί όσο το σύμπαν ηλικιωνόταν. Το μέτρο αυτής της πιθανότητας ονομάζεται εντροπία
και η χαρακτηριστική τάση της εντροπίας είναι να αυξάνει. Καθώς αυξάνει η εντροπία , το
σύμπαν και όλα τα κλειστά συστήματα σ’ αυτό, τείνουν φυσικώς να εκφυλισθούν και να χάσουν
τις διακρίσεις τους , να κινηθούν από την λιγότερο στην περισσότερο πιθανή κατάσταση, από
μια κατάσταση οργανώσεως και διαφοροποιήσεως στην οποία υπάρχουν οι διακρίσεις και οι
μορφές σε μια κατάσταση χάους και ομοιομορφίας. Στο σύμπαν του Gibbs, η τάξη είναι
ελάχιστα πιθανή, ενώ το χάος πιθανότατο. Αλλά ενώ το σύμπαν ως σύνολο, εάν πραγματικά
υπάρχει ένα ολόκληρο σύμπαν, εξελίσσεται με φθίνουσα πρόοδο υπάρχουν ορισμένες νησίδες
στις οποίες η κατεύθυνση φαίνεται είναι αντίθετη προς εκείνη του σύμπαντος εν πλάτει και στις
οποίες υπάρχει μια περιορισμένη και παροδική τάση αυξήσεως της οργανώσεως. Η ζωή βρίσκει
καταφύγιο σε μερικές από αυτές τις περιοχές. Με αυτήν ακριβώς την άποψη στον πυρήνα της ,
άρχισε η καινούργια επιστήμη της Κυβερνητικής την εξέλιξή της».
Εισαγωγή ΧXV

ƒ «Εντροπία: Το ίσο κατά απόλυτη τιμή και αντίθετο κατά το πρόσημο από την πληροφορία .
Είναι ένα μέτρο αταξίας ή αβεβαιότητας για το σύστημα που περιγράφεται κάθε φορά. Κατά τη
μετάδοση ενός μηνύματος πάντοτε αυξάνει.
Ανάδραση: Η λειτουργία, η ιδιότητα της δυνατότητας να προσαρμόσουμε τη μελλοντική
συμπεριφορά με παρελθούσα.. Έτσι το νευρικό σύστημα και η αυτόματη μηχανή είναι
μηχανισμοί οι οποίοι λαμβάνουν αποφάσεις σε εξάρτηση με τις αποφάσεις που έλαβαν στο
παρελθόν».

ƒ «Πάλι είναι πιθανό η ζωή να ανήκει σε ένα περιορισμένο διάστημα χρόνου , να μην υπήρχε από
τις πρώτες γενεαλογικές εποχές και να ξανάρθει η εποχή που η γη θα είναι και πάλι ένας νεκρός
κόσμος,καμένοςήνεκρόςπλανήτης……………………………………………..……
ƒ Το περισσότερο που μπορούμε να ελπίζουμε είναι ότι ο ρόλος της προόδου σε ένα σύμπαν το
οποίο ως σύνολο καταρρέει, είναι ότι το όραμα των προσπαθειών μας για πρόοδο μπροστά
στην συντριπτική αναγκαιότητα, μπορεί να έχει το δέος της καθάρσεως της ελληνικής
τραγωδίας………..……..
………..Φαίνεται πως η πρόοδος και η πάλη μας εναντίον της αυξήσεως της εντροπίας εκ των
πραγμάτων θα καταλήξουν στην καθοδική πορεία από την οποία προσπαθούμε να
ξεφύγουμε……………………………………………………Η απλή πίστη στην πρόοδο δεν είναι
μια πεποίθηση που οφείλεται στην δύναμη , αλλά στην συγκατάθεση και άρα στην
αδυναμία….................
…………Ο σκοπός του χειροκροτήματος στο θέατρο είναι να καθιερώσει στο μυαλό του
ηθοποιού μια έκφραση διπλής επικοινωνίας………………………
………….Δεν είμαστε παρά στρόβιλοι σε έναν αιωνίως ρέοντα ποταμό. Είμαστε ένα υλικό που
δεν μένει, αλλά υποδείγματα που διαιωνίζουν τους εαυτούς
μας…………………………………………………………………………»
Κεφάλαιο 2, Πρόοδος & Εντροπία
2
Περιεχόμενα

1. Γενική Θεωρία περί τεχνητών νευρωνικών δικτύων…………………………………..………….4


2. Εγχειρίδιο χρήσης του προγράμματος neuropean………..……………………………..………..77
3. Θεωρητική προσέγγιση Application Credit Scoring……..…………………………..…………100
4. Αναλυτικό παράδειγμα χρήσης του neuropean στην επίλυση της αναγνώρισης της
επικινδυνότητας για ενδεχόμενη δανειοδότηση από κάποιο φορέα……………………………114
5. Ανάλυση του συγκεκριμένου σετ δεδομένων με τη βοήθεια στατιστικών πακέτων
(SPSS)…………………………………………………………………………………………..117
6. Συμπεράσματα εφαρμογής του τεχνητού νευρωνικού δικτύου στο συγκεκριμένο πρόβλημα...127
7. Συγκριτική παρουσίαση αποτελεσμάτων επεξεργασίας των δεδομένων με τις δυο διαφορετικές
μεθόδους SPSS – neuropean…………………………………………………………………….
8. Βιβλιογραφία……………………………………………………………….………………….
3

Γενική Θεωρία περί τεχνητών νευρωνικών δικτύων

Εισαγωγικές Παρατηρήσεις

Τα πρώτα υπολογιστικά συστήματα δημιουργήθηκαν για την επεξεργασία αριθμών. Ο αριθμός είναι ένα
είδος συμβόλου. Υπάρχουν πολλά άλλα είδη συμβόλων όπως λέξεις, σχήματα, κτλ. Με το να
γενικεύσουμε την «επεξεργασία αριθμών» σε «επεξεργασία συμβόλων», καταλήγουμε σε μια πολύ πιο
γενική και πολύ πιο χρήσιμη θεώρηση των υπολογιστικών συστημάτων ως επεξεργαστών συμβόλων.
Αυτή η θεώρηση έχει μεγάλη σημασία για την ΤΝ, διότι, όπως θα δούμε στη συνέχεια, η επεξεργασία
γνώσης αποτελεί αναπόσπαστο μέρος των συστημάτων ΤΝ. Η επεξεργασία της γνώσης μέσα στα πλαίσια
υπολογιστικών συστημάτων, συνεπάγεται την αναπαράστασή της με τυπικό, συμβολικό, τρόπο.

Τα προβλήματα με τα οποία καταπιάνονται συστήματα ΤΝ είναι συνήθως δύσκολα, τα οποία είναι


αδύνατο να επιλυθούν με εξαντλητική εξέταση όλων των πιθανών (μερικών) λύσεων. Για αυτό το λόγο
ένα ευφυές σύστημα πρέπει να έχει την ικανότητα να πλοηγείται, με αποτελεσματικότητα και αποδο-
τικότητα, σε ένα πολύ μεγάλο χώρο αναζήτησης, επιλέγοντας σε κάθε στάδιο την πιο «υποσχόμενη»
διαδρομή, η οποία στην πλειονότητα των περιπτώσεων, θα το οδηγήσει, εάν όχι σε βέλτιστη λύση
τουλάχιστον σε μία αρκετά ικανοποιητική λύση. Οι μηχανισμοί διείσδυσης ή εστίαση ς σε ένα μεγάλο
χώρο αναζήτησης (λύσεων) ονομάζονται ευρετικά. Η αναζήτηση λύσεων και η καθοδήγηση μέσω
ευρετικών αποτελεί μία πολύ κεντρική έννοια στο πεδίο της ΤΝ.

Γενικά, η επεξεργασία γνώσης μέσω συμβολικών αναπαραστάσεων και η καθοδήγηση αναζήτησης


λύσεων μέσω ευρετικών είναι τα χαρακτηριστικά που διακρίνουν τις μεθόδους ΤΝ από τις υπόλοιπες
υπολογιστικές μεθόδους.

Μέχρι τώρα έχουν προταθεί διάφοροι ορισμοί για το τι είναι ΤΝ. Κανένας από αυτούς τους ορισμούς δεν
είναι καθολικά αποδεκτός. Θα αναφερθούμε σε τέσσερις από αυτούς τους ορισμούς. Η έννοια της νοη-
μοσύνης ή ευφυΐας εμφανίζεται άμεσα ή έμμεσα σε όλους αυτούς τους ορισμούς. Η τεχνολογία των
έμπειρων συστημάτων αποτελεί το κυρίως εφαρμοσμένο μέρος της ΤΝ .

1.1 Τι είναι τεχνητή νοημοσύνη

Το πεδίο της ΤΝ είναι περίπου σαράντα ετών. Αυτό εξαρτάται από το πότε τοποθετείται χρονικά η έναρξη
της ΤΝ. Είναι γεγονός ότι η έρευνα σε ΤΝ άρχισε πολύ πριν επινοηθεί ο όρος «Τεχνητή Νοημοσύνη» από
τον John McCarthy, ενώ το πρώτο επίσημο διεθνές συνέδριο σε ΤΝ διεξήχθηκε το 1969 στη Βόρειο
Αμερική. Επίσης είναι γεγονός ότι το προβάδισμα σε αυτό το πεδίο δόθηκε από ερευνητές σε
πανεπιστήμια και ερευνητικά κέντρα της Βορείου Αμερικής και σε μεγάλο βαθμό το πεδίο εξακολουθεί
4
να «κυριαρχείται» από τους Αμερικανούς ερευνητές, παρόλο που τώρα η Ευρώπη δεν είναι πλέον ο
φτωχός συγγενής, αλλά έχει και αυτή να επιδείξει αξιόλογα ερευνητικά αποτελέσματα. Κάποιες ατυχείς
συγκυρίες είχαν ως αποτέλεσμα το κάπως αργό ξεκίνημα της ΤΝ στην Ευρώπη. Στο Ηνωμένο Βασίλειο,
για παράδειγμα, το «συμπέρασμα» του Sir James Lighthill ότι η ΤΝ δημιουργήθηκε από άντρες που
στόχο είχαν την κατασκευή του μηχανικού ανθρώπου ως υποκατάστατο της κυοφορίας, είχε ως
αποτέλεσμα το «πάγωμα» της κρατικής υποστήριξης προς την έρευνα σε ΤΝ μέχρι τις αρχές της
δεκαετίας του ΄80, όταν πλέον έγινε αντιληπτή η σημασία των ερευνητικών στόχων της ΤΝ και
αποφασίστηκε να διατεθούν σημαντικά κρατικά κονδύλια προς υποστήριξη αυτής της έρευνας. Σε αυτή
την αλλαγή πνεύματος συνέτεινε σε μεγάλο βαθμό η ανακοίνωση της Ιαπωνικής κυβέρνησης για τη
διάθεση τεράστιων ποσών προς τη δημιουργία του υπολογιστή πέμπτης γενεάς (fifth-generation
computer), ο οποίος θα είχε ικανότητες ευφυΐας. Η Ιαπωνική προσπάθεια μπορεί να μην επέφερε τα
αναμενόμενα αποτελέσματα, συνέβαλε όμως τα μέγιστα στην αναζωπύρωση του ενδιαφέροντος σε ΤΝ,
κυρίως στην Ευρώπη.

Πηγαίνοντας πολύ πιο πίσω από τα πιο πάνω γεγονότα, οι ρίζες της ΤΝ μπορούν να χρονολογηθούν στο
έργο των αρχαίων Ελλήνων φιλοσόφων, κυρίως του Αριστοτέλη, και σε μεταγενέστερο στάδιο, στο έργο
διάσημων μαθηματικών όπως του George Boole. Στην Ευρώπη ο Άγγλος μαθηματικός Alan Turing, ο
οποίος θεωρείται ένας από τους πατέρες της ΤΝ, ήταν ο πρώτος που διατύπωσε, κατά τη μεταπολεμική
περίοδο, την έννοια της ευφυούς υπολογιστικής μηχανής και προσδιόρισε τη δοκιμή με την οποία μπορεί
να «αποδειχθεί», με εμπειρικό τρόπο, η ύπαρξη ή μη ευφυΐας σε έναν υπολογιστή. Ο τομέας της
Κυβερνητικής (Cybemetics), κυρίως το μέρος αυτού του τομέα που ασχολήθηκε με τη δημιουργία
μηχανών, οι οποίες προσομοίωναν κάποια χαρακτηριστικά ανθρώπινης συμπεριφοράς, μπορεί να
θεωρηθεί σαν ένας από τους άμεσους προγόνους της ΤΝ. Σε γενικές γραμμές, η ουσία είναι ότι η ΤΝ
αντλεί από πολλούς και διαφορετικούς τομείς (Φιλοσοφία, Μαθηματικά, Γνωστική Ψυχολογία,
Μηχανική, κτλ), πράγμα το οποίο της δίνει τον πολυεπιστημονικό της χαρακτήρα, και οι εφαρμογές της
αφορούν πολλούς και διαφορετικούς τομείς (Ιατρική, Νομική, Εκπαίδευση, Γλωσσολογία, Γεωλογία,
Βιολογία, Αστρονομία, κτλ).

Αναμφισβήτητα, οι λέξεις «τεχνητή» και «νοημοσύνη» (ή ευφυΐα) δεν είναι απολύτως σαφής. Επομένως
δεν πρέπει να μας παραξενεύει το γεγονός ότι ο όρος «τεχνητή νοημοσύνη» έχει οδηγήσει σε έντονες
συζητήσεις, ακόμη και σε διαμάχες, εντός και εκτός της ερευνητικής κοινότητας, για το τι τέλος πάντων
σημαίνει. Τέτοιες συζητήσεις είναι αναμενόμενες και καλοδεχούμενες, για οποιοδήποτε σχετικά νέο πεδίο
τα «σύνορα» του οποίου δεν έχουν ακόμη σταθεροποιηθεί και συνεχώς επεκτείνονται σε νέες
κατευθύνσεις. Κανένας από τους κατά καιρούς προτεινόμενους ορισμούς του τι σημαίνει «τεχνητή
νοημοσύνη» δεν είναι καθολικά αποδεκτός. Κανένας από αυτούς δεν καλύπτει επακριβώς τις διάφορες
περιοχές που περιλαμβάνονται σε αυτό το πεδίο. Επομένως, από πρακτικής απόψεως, ο καλύτερος τρόπος
οριοθέτησης της ΤΝ στην παρούσα φάση ανάπτυξής της, είναι μέσω των ερευνητικών περιοχών που την
αποτελούν, όπως αυτές διαφαίνονται στα πρακτικά διεθνών συνεδρίων σε ΤΝ. Θα καταπιαστούμε με την
κατάσταση των τρεχόντων ερευνητικών στόχων του πεδίου στο τελευταίο κεφάλαιο του τόμου. Σε αυτή
5
την ενότητα θα αναφερθούμε σε κάποιους από τους προτεινόμενους ορισμούς της ΤΝ, ενώ στην
επόμενη ενότητα θα σας παρουσιάσουμε μία σύντομη ιστορική αναδρομή.

Οι Luger και Stubblefield (1998) προτείνουν καταρχήν τον ακόλουθο ορισμό:

Ορισμός 1: Τεχνητή Νοημοσύνη είναι ένας κλάδος της Πληροφορικής, ο οποίος ασχολείται με την
αυτοματοποίηση ευφυούς συμπεριφοράς.

Κατά τους Luger και Stubb1efield το δυνατό σημείο αυτού του ορισμού είναι η τοποθέτηση της ΤΝ ως
κλάδου της Πληροφορικής, το οποίο σημαίνει ότι η ΤΝ κληρονομεί όλες τις μεθοδολογίες, τεχνικές,
μηχανισμούς και πρότυπα που υπογραμμίζουν όλα τα υπολογιστικά συστήματα. Όμως, από πρακτικής
απόψεως, το αδύνατο σημείο του ορισμού είναι ότι εξαρτάται από το τι είναι «ευφυΐα» ή «ευφυής
συμπεριφορά», κάτι για το οποίο δεν υπάρχει σύγκλιση απόψεων. Στο τελευταίο κεφάλαιο του βιβλίου
τους, οι Luger και Stubblefield, δίνουν τον ακόλουθο τροποποιημένο ορισμό:

Ορισμός 2: Τεχνητή Νοημοσύνη είναι η μελέτη των μηχανισμών που διέπουν ευφυή συμπεριφορά, μέσω
της κατασκευής και αξιολόγησης συστημάτων τα οποία παριστάνουν αυτούς τους μηχανισμούς.

Εκ πρώτης όψεως αυτός ο ορισμός φαίνεται να είναι παράφραση του ορισμού 1. Πιο προσεκτική εξέταση
όμως δείχνει ότι υπάρχει μια ουσιαστική διαφορά. Ο ορισμός 2 μας προτείνει ότι ΤΝ είναι η μελέτη
κατανόησης της φύσης της ανθρώπινης ευφυούς συμπεριφοράς. Επομένως, δεν προϋποθέτει τον
προσδιορισμό της «ευφυούς συμπεριφοράς», όπως ο ορισμός 1. Φυσικά και ο ορισμός 2 παραμένει
απεριόριστος.
Ένας τρίτος εναλλακτικός ορισμός, ο οποίος έχει προταθεί από διάφορους ερευνητές, και είναι πιο
συγκεκριμένος, και επομένως πιο περιοριστικός, από τους ορισμούς 1 και 2, είναι ο ακόλουθος:

Ορισμός 3: Τεχνητή Νοημοσύνη είναι η ανάπτυξη υπολογιστικών συστημάτων για την επίλυση
δύσκολων προβλημάτων, τα οποία δεν μπορούν να επιλυθούν με την εξαντλητική εξέταση όλων των
πιθανών λύσεων μια και αυτές μπορεί να είναι πάρα πολλές.

Η έμφαση εδώ είναι σε δύσκολα προβλήματα, τα οποία παραδοσιακές υπολογιστικές μέθοδοι, δηλαδή
καθαρά αλγοριθμικές μέθοδοι, είναι ανίκανες να επιλύσουν, τουλάχιστο μέσα σε λογικά χρονικά πλαίσια.
Με έμμεσο τρόπο, αυτός ο ορισμός επικαλείται τη χρήση ευρετικών μεθόδων. Η σύνδεση του ορισμού 3
με την «ευφυΐα» απορρέει από τη γενική αποδοχή ότι ο άνθρωπος που μπορεί να επιλύσει τέτοια δύσκολα
προβλήματα, αποδοτικά και αποτελεσματικά, χαρακτηρίζεται από ευφυΐα. Επίσης χαρακτηρίζεται από
εκτενή γνώση και εμπειρία. Ευφυΐα, γνώση και εμπειρία είναι αλληλένδετες έννοιες. Βέβαια, δεν έπεται
ότι ο ίδιος άνθρωπος είναι εξίσου ικανός στην επίλυση όλων των ειδών δύσκολων προβλημάτων.

Παρόλο που ο ορισμός 3 είναι πολύ πιο συγκεκριμένος από τους ορισμούς 1 και 2, μια και υπονοεί μια
περιοριστική αντίληψη της έννοιας της ευφυΐας, την ικανότητα επίλυσης δύσκολων προβλημάτων, δεν
6
καλύπτει επαρκώς τις διάφορες ερευνητικές περιοχές που περιλαμβάνονται στη ΤΝ. Για παράδειγμα,
αυτός ο ορισμός δεν καλύπτει τις προσπάθειες δημιουργίας υπολογιστικών συστημάτων τα οποία
επιδεικνύουν «κοινή λογική» (common sense reasoning). Ο κάθε άνθρωπος, κανονικού επιπέδου νοημο-
σύνης, κατέχει κοινή λογική, η εφαρμογή της οποίας δεν χαρακτηρίζεται ως δύσκολη πράξη. Τέλος ένας
τέταρτος ορισμός ο οποίος έχει προταθεί από τους Rich και Κnight (1991) είναι ο ακόλουθος:

Ορισμός 4: Τεχνητή Νοημοσύνη είναι η μελέτη του πώς να κάνουμε τον υπολογιστή να πράξει κάτι που
επί του παρόντος ο άνθρωπος μπορεί να πράξει καλύτερα.

Ο ορισμός 4, όπως και ο ορισμός 3, αποφεύγει την απευθείας αναφορά σε ευφυΐα. Από πρακτικής
απόψεως το τι ορίζεται εδώ είναι αρκετά χειροπιαστό και επίσης, συγκριτικά με τον ορισμό 3, ο ορισμός 4
είναι πιο ευρύς σε εμβέλεια και φαίνεται να καλύπτει αρκετά ικανοποιητικά το πεδίο. Η οριοθέτηση της
ΤΝ διαμέσου αυτού του ορισμού είναι δυναμική, αφού το σύνολο των ικανοτήτων στις οποίες ο
άνθρωπος υπερέχει του υπολογιστή αναμένεται να μεταβάλλεται με το χρόνο.

Επί του παρόντος πολλά είναι εκείνα στα οποία ο άνθρωπος υπερέχει του υπολογιστή, όπως για
παράδειγμα η ικανότητα όρασης, μάθησης, ομιλίας, η συνδιάλεξη και η επιχειρηματολογία, η επίλυση
δύσκολων προβλημάτων, κτλ. Αυτές είναι ικανότητες, οι οποίες ενισχύονται με τις γνώσεις και την εμπει-
ρία. Ο υπολογιστής δεν έχει ακόμη φτάσει στο σημείο να επιδεικνύει οποιαδήποτε από αυτές τις
ικανότητες σε βαθμό συγκρίσιμο με αυτό του ανθρώπου, εκτός από την επίλυση εξειδικευμένων
προβλημάτων. Μηχανική μάθηση και όραση, κατανόηση ομιλίας, κατανόηση και μετάφραση φυσικής
γλώσσας, κτλ, αποτελούν από την αρχή μέχρι τώρα ενεργές ερευνητικές περιοχές της ΤΝ. Κοινός
παρανoμαστής αυτών των ερευνητικών δραστηριοτήτων είναι η αναπαράσταση γνώσης με συμβολικό
τρόπο και η ευρετική αναζήτηση.

1.1.1 Δοκιμή Turing για μηχανική ευφυΐα

Στην ενότητα 1.1 έχουμε αναφέρει τέσσερις εναλλακτικούς ορισμούς της ΤΝ. Σε καθέναν από αυτούς
εμφανίζεται άμεσα ή έμμεσα η έννοια της ευφυΐας. Όπως σας έχει ήδη αναφερθεί, κατά την δεκαετία του
80, η Ιαπωνική κυβέρνηση διέθεσε μεγάλα ποσά για τη δημιουργία του ευφυούς υπολογιστή. Η έννοια
αυτή είχε επινοηθεί πολύ πιο πριν, και συγκεκριμένα το1950, από τον Άγγλο μαθηματικό Alan Turing, ο
οποίος επίσης προσδιόρισε μία δοκιμή για το κατά πόσον ένας υπολογιστής κατέχει ευφυΐα..

Δοκιμή Turing

Υπάρχουν τρία χωριστά δωμάτια. Στο ένα βρίσκεται ο υπολογιστής, στο άλλο βρίσκεται ένας άνθρωπος
που παίζει το ρόλο του εξεταζόμενου και στο τελευταίο βρίσκεται ένας άλλος άνθρωπος ο οποίος παίζει
το ρόλο του ανακριτή. Ο ανακριτής δεν γνωρίζει σε ποιο δωμάτιο βρίσκεται ο άνθρωπος και σε ποιο ο
υπολογιστής. Η επικοινωνία ανάμεσα στον ανακριτή και τους άλλους δύο γίνεται μέσω τερματικών. Ο
7
ανακριτής θέτει διάφορα ερωτήματα, ταυτόχρονα στον άνθρωπο και στον υπολογιστή και με βάση τις
ξεχωριστές απαντήσεις που παίρνει προσπαθεί να διακρίνει τον άνθρωπο από τον υπολογιστή. Εάν ο
ανακριτής δεν μπορεί να διαχωρίσει τους δύο, τότε μπορεί να θεωρηθεί ότι ο υπολογιστής κατέχει ευφυΐα.

Φυσικά, κανένας υπολογιστής μέχρι τώρα δεν έχει περάσει αυτή τη δοκιμή, και ίσως αυτό να μην είναι
ποτέ εφικτό. Παρά ταύτα, αυτή η δοκιμή αποτελεί τη βάση των τρόπων αξιολόγησης συστημάτων ΤΝ,
όπως για παράδειγμα τα έμπειρα συστήματα όπου ο βασικός τρόπος αξιολόγησης αποτελείται από τη
σύγκριση της απόδοσης του συστήματος έναντι αυτής του έμπειρου πάνω σε ένα σύνολο προβλημάτων.

Σύμφωνα με αυτή τη δοκιμή το μέτρο σύγκρισης είναι η ανθρώπινη ευφυΐα, είτε σε επίπεδο κοινής ή
εξειδικευμένης νοημοσύνης, με όλα τα τρωτά και τους περιορισμούς που συνεπάγονται. Επομένως, ένας
υπολογιστής για να περάσει τη δοκιμή Turing, σε ζητήματα που υπερέχει του ανθρώπου, πρέπει να
μειώσει την ικανότητά του στο επίπεδο του ανθρώπου. Για παράδειγμα, ο υπολογιστής υπερέχει του
ανθρώπου σε μαθηματικές πράξεις όπου μπορεί να δώσει αλάνθαστα αποτελέσματα σε άμεσο χρόνο.
Έτσι, εάν το ερώτημα του ανακριτή είναι το γινόμενο ενός περίπλοκου πολλαπλασιασμού ο ευφυής
υπολογιστής ξεγελά τον ανακριτή με το να του δώσει λανθασμένη απάντηση στον ίδιο χρόνο που θα
χρειαζόταν ο άνθρωπος. Ένα σημείο κριτικής αυτής της δοκιμής είναι ακριβώς ότι προσπαθεί να περιο-
ρίσει (καλουπώσει) τη μηχανική ευφυΐα στα μέτρα της ανθρώπινης ευφυΐας, ενώ ίσως θα έπρεπε τα δύο
αυτά είδη ευφυΐας να αντιμετωπίζονται ως διαφορετικά, επιτρέποντας έτσι στον υπολογιστή να
εκμεταλλευτεί τις δικές του ανώτερες ικανότητες, όπως για παράδειγμα την απεριόριστη μνήμη του.
Ακόμη ένα σημείο κριτικής της δοκιμής είναι ότι η αντίληψη της ανθρώπινης ευφυΐας, που αντανακλά,
την οποία απαιτεί να προσομοιώσει ο υπολογιστής, περιορίζεται σε εργασίες επίλυσης προβλημάτων με
συμβολικό τρόπο, αγνοώντας πλήρως άλλα σημαντικά στοιχεία ευφυΐας όπως αισθητήριες ικανότητες ή
χειρωνακτικές επιδεξιότητες. Τέλος έχουν διατυπωθεί αντιρρήσεις για τη δοκιμή που σχετίζονται με το αν
η «συμπεριφορά» αρκεί να αποδείξει την ευφυΐα.

Συνοψίζοντας, σε αυτή την ενότητα παρουσιάστηκαν τέσσερις εναλλακτικοί ορισμοί της ΤΝ, καθώς
επίσης η δοκιμή Turing για μηχανική ευφυΐα.

1.2 Ιστορική αναδρομή

Οι πρώτες προσπάθειες του πεδίου εστιάζονταν στη δημιουργία συστημάτων, τα οποία θα μπορούσαν να
συναγωνίζονται τον άνθρωπο σε διάφορα επιτραπέζια παιγνίδια, τα οποία απαιτούν υψηλές διανοητικές
ικανότητες, όπως το checkers και το σκάκι. Η δικαίωση αυτών των προσπαθειών ήλθε το 1996, όταν ο
Deep Blue κατόρθωσε να νικήσει το μεγαλύτερο πρωταθλητή σκακιού, τον Gaπy Kasparov. Αυτή ίσως
να είναι η μεγαλύτερη επιτυχία της ΤΝ μέχρι σήμερα, η οποία δεν μπορεί να αμφισβητηθεί από κανένα.
Πάντως είναι η πιο διάσημη επιτυχία του πεδίου, αφού έτυχε μεγάλης κάλυψης σε παγκόσμια κλίμακα
από τα μέσα μαζικής ενημέρωσης. Είναι όμως συζητήσιμο κατά πόσον ο Deep B1ue πραγματικά
επιδεικνύει σκακιστική ευφυΐα μια και οι «ικανότητές» του απορρέουν από τον υπολογισμό των κινήσεων
8
και όχι από κάποια βαθιά «κατανόηση» των στρατηγικών εννοιών του παιγνιδιού.

Η άλλη πρωταρχική περιοχή έρευνας αφορούσε τη μηχανοποίηση της διεργασίας απόδειξης μαθηματικών
θεωρημάτων. Η εκτέλεση αυτής της διεργασίας από τον άνθρωπο θεωρείται κάτι το δύσκολο, το οποίο
απαιτεί ευφυΐα. Το πιο γνωστό αποτέλεσμα αυτών των προσπαθειών ήταν το σύστημα Logic Τheοrist, το
οποίο αναπτύχθηκε από τους Newell και Simon το 1963.

H αρχική αντίληψη, η οποία τελικά αποδείχτηκε λανθασμένη, ήταν ότι για την εκτέλεση των πιο πάνω
διανοητικών λειτουργιών (παίξιμο επιτραπέζιων παιγνιδιών, απόδειξη θεωρημάτων) χρειάζεται λίγη ή
ακόμη και καθόλου γνώση. Το τι χρειάζεται είναι η εξερεύνηση ενός μεγάλου αριθμού εναλλακτικών
(μερικών) λύσεων και η επιλογή της καλύτερης. Σύντομα όμως διαφάνηκε ότι και εκτενής γνώση
χρειάζεται και πιο ισχυρά ευρετικά για την καθοδήγηση του συλλογισμού. Για αυτούς ακριβώς τους
λόγους μια άλλη πρωτοπόρα προσπάθεια, και πάλι από τους Newell και Simon, το Σύστημα Γενικής
Επίλυσης Προβλημάτων (General Problem Solver - GPS), αποδείχθηκε μάταιη. Στόχος εδώ ήταν η
δημιουργία ενός συστήματος, το οποίο θα μπορούσε να επιλύσει οποιοδήποτε πρόβλημα σε οποιοδήποτε
τομέα, κάτι το υπερβολικά φιλόδοξο. Μετά από μία σχεδόν δεκαετία προσπαθειών, η ερευνητική ομάδα
αποδέχθηκε ότι αυτός ο στόχος δεν ήταν κατορθωτός, καταλήγοντας στο συμπέρασμα ότι στην επίλυση
προβλημάτων η γνώση παίζει ουσιαστικό ρόλο. Αυτό είχε ως αποτέλεσμα τη ριζική αλλαγή προσανα-
τολισμού στους στόχους του πεδίου. Το ενδιαφέρον τώρα εστιάστηκε στην αναπαράσταση της
ανθρώπινης γνώσης με συμβολικό τρόπο και τη χρήση της μέσα στα πλαίσια υπολογιστικών συστημάτων.
Επίσης ο νέος' αυτός προσανατολισμός οδήγησε στην ανάπτυξη γλωσσών και περιβαλλόντων
προγραμματισμού, ειδικών για συστήματα ΤΝ.

Η αποδοχή της σημασίας της γνώσης στην επίλυση προβλημάτων αποτελεί το θεμέλιο λίθο της
τεχνολογίας των έμπειρων συστημάτων, η έναρξη της οποίας χρονολογείται στις αρχές της δεκαετίας του
70. Εδώ κεντρικός στόχος είναι η αυτοματοποίηση εξειδικευμένης γνώσης, κάτι το οποίο είναι πιο
συγκεκριμένο από την αυτοματοποίηση κοινής γνώσης και αυτονόητου συλλογισμού, που επίσης
αποτελούν περιοχές έντονου ενδιαφέροντος.

Άλλες από τις αρχικές περιοχές έρευνας, οι οποίες εξακολουθούν να είναι ενεργές, είναι η μηχανική
όραση και ομιλία, η κατανόηση φυσικής γλώσσας, και η μηχανική μάθηση. Η σημασία της μηχανικής
μάθησης είναι μεγάλη για τη βιωσιμότητα συστημάτων που βασίζονται στη γνώση. Η γνώση του
ανθρώπου δεν είναι στατική, αλλά συνεχώς βελτιώνεται μέσω ενημέρωσης και εμπειρίας. Αυτή η
ικανότητα πρέπει να ενσωματωθεί σε ένα σύστημα βάσης γνώσης (knowledge-based system),
διαφορετικά υπάρχει ο κίνδυνος άμεσης αχρηστίας του συστήματος. Ένα μεγάλο μέρος της έρευνας σε
μηχανική μάθηση ασχολείται με υπολογιστικές μεθόδους για την «ανακάλυψη» γνώσης (knowledge
discovery) από μία βάση δεδομένων, τα οποία περιγράφουν συγκεκριμένα περιστατικά (του εν λόγω
προβλήματος) μαζί με τις λύσεις τους.
9
Γενικά, επί του παρόντος η έρευνα σε ΤΝ καλύπτει ένα ευρύ φάσμα θεμάτων. Σε θεωρητικό επίπεδο η
έρευνα εστιάζεται κυρίως στην αξιωματοποίηση και αυτοματοποίηση συλλογισμού (automated
reasoning). Ειδικά θέματα αφορούν την αναθεώρηση πεποιθήσεων (belief revision), το κλασικό πλέον
θέμα της απόδειξης θεωρημάτων και την ανάπτυξη διαφόρων λογισμών για την αναπαράσταση γνώσης
και συλλογισμού, όπως περιγραφικός λογισμός, μη αθροιστικός λογισμός, λογισμός με πιθανότητες,
χρονικός λογισμός, κτλ.

Η περιοχή της μάθησης εξακολουθεί να έχει κεντρική θέση, όπου, όπως έχουμε ήδη αναφέρει, μεγάλο
ενδιαφέρον προσελκύει ο νέος τομέας της ευφυούς ανάλυσης δεδομένων (intelligent data analysis - IDA)
ή εξόρυξης δεδομένων (data mining - DM) με στόχο την «ανακάλυψη» γνώσης από μεγάλες βάσεις
δεδομένων (knowledge discovery in databases - ΚDD). Αυτή η έρευνα έχει πολλές και σημαντικές
πρακτικές εφαρμογές, αφού η σημερινή τεχνολογία της πληροφορίας επιτρέπει την αποθήκευση σε
ηλεκτρονικούς υπολογιστές τεράστιων ποσοτήτων δεδομένων με μικρό κόστος. Μία άλλη νέα
κατεύθυνση στη περιοχή της μάθησης είναι η μάθηση με ενίσχυση (reinforcement learning), η οποία έχει
άμεση εφαρμογή σε έμπειρα συστήματα, σε συστήματα ρομποτικής, σε συστήματα βάσεων περιστατικών,
κτλ.

Η περιοχή της Κατανεμημένης ΤΝ (Distributed ΑΙ), συγκαταλέγεται στις σχετικά πρόσφατες εξελίξεις
του πεδίου. Αυτή η περιοχή άρχισε να αναπτύσσεται πριν ακόμη αρχίσει η επανάσταση του διαδικτύου.
Φυσικά η ανάπτυξη του διαδικτύου έχει δώσει μεγάλη ώθηση σε αυτή την περιοχή, οι ρίζες της οποίας
βρίσκονται στο συνεργατικό μοντέλο επίλυσης προβλημάτων, γνωστό ως το μοντέλο του μαυροπίνακα
(blackboard model). Η αρχική έκδοση αυτού του μοντέλου προτάθηκε προς το τέλος της δεκαετίας του
70. Ειδικά θέματα που εμπίπτουν στην κατανεμημένη ΤΝ είναι μοντέλα ευφυών διαμεσολαβητών
(intelligent agents), συστήματα πολλαπλών διαμεσολαβητών, μοντέλα συντονισμού και συνεργασίας, κτλ.
Αποτελέσματα αυτής της έρευνας έχουν ήδη εφαρμοστεί στον τομέα της ΤΝ στην Ιατρική, όπου έχουν
αναπτυχθεί και τεθεί σε (πειραματική) λειτουργία συστήματα πολλαπλών διαμεσολαβητών τηλεϊατρικής
για τη διαχείριση ασθενών. Τα οφέλη που απορρέουν από τέτοια συστήματα είναι πολλά και σημαντικά.

1.3 Επεξεργασία συμβόλων

Η κεντρική υπόθεση που υπογραμμίζει την έρευνα σε ΤΝ είναι η υπόθεση του «συστήματος φυσικών
συμβόλων» (physical symbol system hypothesis), η οποία προτάθηκε από τους Newell και Simon το 1976.
Η γνώση, η οποία όπως έχουμε δει αποτελεί αναπόσπαστο μέρος ενός συστήματος ΤΝ, αναπαριστάται σε
μορφή δομών συμβόλων (symbol structures).

Σύστημα Φυσικών Συμβόλων

Αποτελείται από ένα σύνολο οντοτήτων, οι οποίες ονομάζονται σύμβολα, είναι φυσικά πρότυπα και
αποτελούν τα συστατικά στοιχεία ενός άλλου είδους οντότητας, της έκφρασης ή δομής συμβόλων. Έτσι
10
μία δομή συμβόλων αποτελείται από διάφορα σύμβολα, τα οποία συσχετίζονται με κάποιο φυσικό
τρόπο, όπως το ένα είναι δίπλα στο άλλο. Ανά πάσα στιγμή το σύστημα περιέχει μία συλλογή δομών
συμβόλων. Το σύστημα επίσης έχει έναν αριθμό διεργασιών, οι οποίες επεξεργάζονται εκφράσεις και
παράγουν άλλες εκφράσεις, όπως διεργασίες δημιουργίας, τροποποίησης, αναπαραγωγής και
καταστροφής. Το σύστημα φυσικών συμβόλων είναι μία μηχανή η οποία παράγει με το χρόνο μία
εξελισσόμενη συλλογή δομών συμβόλων. Ένα τέτοιο σύστημα υπάρχει σε έναν κόσμο οντοτήτων, ο
οποίος εκτείνεται πέραν των συμβολικών εκφράσεων, αυτών καθ' αυτών.

Στη συνέχεια οι Newell και Simon διατυπώνουν την υπόθεση:

Υπόθεση Συστήματος Φυσικών Συμβόλων

Ένα σύστημα φυσικών συμβόλων έχει τα αναγκαία και επαρκή μέσα για γενική ευφυή δράση.

Αυτή παραμένει μία υπόθεση, μια και δεν υπάρχει λογικός τρόπος απόδειξης ή άρνησής της. Έτσι, μόνο
με εμπειρικό τρόπο μπορεί να επικυρωθεί. Οι υπολογιστές παρέχουν το τέλειο μέσο για αυτό τον
πειραματισμό μια και μπορεί να προγραμματιστούν για να προσομοιώσουν οποιοδήποτε σύστημα
φυσικών συμβόλων .Οι δομές συμβόλων αντιπροσωπεύουν τη γνώση του συστήματος και τις πληροφο-
ρίες /συμπεράσματα για το υπό εξέταση πρόβλημα. Οι διεργασίες επεξεργασίας εκφράσεων είναι οι
μηχανισμοί συλλογισμού του έμπειρου συστήματος.

1.4 Αλγόριθμοι και Ευρετικά

Θα εξηγηθεί η διαφορά ανάμεσα σε αλγοριθμικές και ευρετικές υπολογιστικές μεθόδους και με αυτό τον
τρόπο θα επιδειχθεί η σημασία των ευρετικών μεθόδων σε συστήματα ΤΝ.

Μία ευρετική μέθοδος κάνει χρήση ευρετικών. Ευρετικά είναι «κανόνες χειρός» (rules of thumb), κανόνες
καλού μαντέματος. Οι κανόνες αυτοί δεν εγγυώνται αναγκαστικά επιτυχία, δηλαδή δεν είναι απαραίτητα
αλάνθαστοι, αλλά παρέχουν χρήσιμη καθοδήγηση για την πλειοψηφία των περιπτώσεων του
προβλήματος, οδηγώντας σε ικανοποιητικά καλές και ίσως βέλτιστες, λύσεις με αποτελεσματικό τρόπο.
Με άλλα λόγια προσπαθούν να βρουν σύντομα μονοπάτια στο χώρο αναζήτησης λύσεων, σε βάρος της
πληρότητας (δηλαδή να υπάρχει λύση για κάποιο πρόβλημα και όμως τα ευρετικά να μην μπορούν να
οδηγήσουν σε αυτή). Ουσιαστικά τα ευρετικά δεν αναιρούν τη βασική αλγοριθμική προσέγγιση στην
επίλυση προβλημάτων, δηλαδή τη βήμα προς βήμα πορεία προς την αναζήτηση κάποιας λύσης, αλλά
συμπληρώνουν τις αλγοριθμικές προσεγγίσεις.

Η γνώση, αυτή καθ' αυτή, σε μεγάλο βαθμό είναι ευρετική. Μόνο οι «καθολικές αλήθειες» (universal
truths) μπορεί να θεωρηθούν αλάνθαστες πηγές γνώσης. Η εμπειρική γνώση δεν μπορεί να θεωρηθεί ως
αλάνθαστη μια και πάντοτε υπάρχει το ενδεχόμενο να ανατραπεί από νέες παρατηρήσεις. Τα
συμπεράσματα που προκύπτουν από τη χρήση εμπειρικής γνώσης δεν είναι απαραίτητα αλάνθαστα.
11
Επομένως, υπολογιστικές μέθοδοι οι οποίες βασίζονται σε εμπειρική γνώση είναι ευρετικές. Πέραν
τούτου, επειδή συνήθως το μέγεθος της γνώσης είναι μεγάλο, η επιλογή των κομματιών της γνώσης που
αφορούν το υπό εξέταση πρόβλημα χρειάζεται να γίνει με ευρετικό τρόπο. Έτσι σε ένα σύστημα ΤΝ η
εφαρμογή ευρετικών μπορεί να γίνεται σε διάφορα επίπεδα. Ευρετικά που καθοδηγούν τη χρήση άλλων
ευρετικών είναι μετά-ευρετικά.

Σύνοψη

Συνοψίζοντας, σε αυτή την ενότητα έγινε μία πολύ σύντομη ιστορική αναδρομή της ΤΝ. Η αρχική
προσέγγιση ήταν στη χρήση «συντακτικών» μεθόδων, δηλαδή μεθόδων που δεν αφορούσαν τη χρήση
γνώσης. Αυτή αποδείχθηκε λανθασμένη, καταλήγοντας στο συμπέρασμα ότι η «ευφυΐα χρειάζεται
γνώση», και οδηγώντας σε μία νέα προσέγγιση με κεντρικό άξονα την επεξεργασία γνώσης σε συμβολική
μορφή. Αυτή η αλλαγή προσανατολισμού ήταν το αποτέλεσμα της αποδοχής της σημασίας της γνώσης
στην επίλυση προβλημάτων, η οποία οδήγησε στο να εστιαστεί η προσπάθεια στην αυτοματοποίηση της
ανθρώπινης γνώσης . Η βασική υπόθεση που υπογραμμίζει την έρευνα σε ΤΝ , σε όλο το φάσμα της ,
είναι η υπόθεση του συστήματος φυσικών συμβόλων, η οποία προτάθηκε από τους Newel & Simon. Αυτή
η υπόθεση επισημαίνει τη σημασία της επεξεργασίας συμβόλων . Διαχωρίζουμε τις καθαρά αλγοριθμικές
υπολογιστικές μεθόδους και τις υπολογιστικές μεθόδους , οι οποίες βασίζονται στη χρήση ευρετικών για
αποδοτικό και αποτελεσματικό υπολογισμό λύσεων, που δεν είναι αναγκαστικά βέλτιστες , αλλά
ικανοποιητικές. Όταν τώρα αναφερόμαστε σε τεχνικές ΤΝ, εννοούμε μεθόδους οι οποίες αξιοποιούν
γνώση.
12

2.1.1 Έμπειρα συστήματα - ορισμός, σκοπός, χαρακτηριστικά

η αρχική προσπάθεια στο πεδίο της ΤΝ στόχευε στη δημιουργία συστημάτων γενικής επίλυσης
προβλημάτων (genera1 prob1em solvers). Μέσα από αυτή την προσπάθεια, και συγκεκριμένα την
αποτυχία της διεφάνη ότι η αποδοτική και αποτελεσματική επίλυση ρεαλιστικών προβλημάτων είναι
άμεσα συνδεμένη με τη χρήση συγκεκριμένης γνώσης. Αυτό οδήγησε στη δημιουργία των συστημάτων
βάσης γνώσης (know1edge based systems). Η γενική αρχιτεκτονική ενός συστήματος βάσης γνώσης
δίνεται στο Σχήμα :

Μηχανισμός
Εξαγωγής Συμπερασμάτων
(Inference Engine)

Βάση Γνώσης(knowledge Base) Δεδομένα Προβλήματος

Έμπειρα συστήματα είναι συστήματα βάσης γνώσης, τα οποία μπορούν να οργανωθούν ως συστήματα
παραγωγής, πλαισίων κτλ. Σε γενικό επίπεδο υπάρχει κοινή αποδοχή για το τι είναι έμπειρο σύστημα.

Γενικός ορισμός: Έμπειρο σύστημα είναι υπολογιστικό σύστημα, το οποίο μπορεί να επιλύσει αποδοτικά
και αποτελεσματικά ρεαλιστικά προβλήματα, η επίλυση των οποίων εκ μέρους του ανθρώπου
συνεπάγεται την ύπαρξη κάποιας μορφής εμπειρογνωμοσύνης.

Ο γενικός ορισμός απλώς οριοθετεί το πεδίο δράσεως της τεχνολογίας, χωρίς να κάνει καμία δέσμευση ως
προς τον τρόπο επίλυσης των προβλημάτων. Απλά μας λέει ότι απώτερος στόχος είναι η επίλυση
προβλημάτων, τα οποία μπορούν να επιλυθούν ικανοποιητικά μόνο από έμπειρους. Σε έναν (εξειδι-
κευμένο) τομέα οι πραγματικά έμπειροι είναι συνήθως συγκριτικά λίγοι σε αριθμό, διότι η απόκτηση
εμπειρογνωμοσύνης είναι επίπονη διεργασία που επιτυγχάνεται μέσω εκτενέστατης εμπειρίας. Επομένως,
13
πίσω από το γενικό ορισμό κρύβεται ο (γενικός) σκοπός της τεχνολογίας.

(Γενικός) Σκοπός Τεχνολογίας Έμπειρων Συστημάτων: Η εξάπλωση, σε ευρεία κλίμακα, της


ικανότητας επίλυσης προβλημάτων, που απαιτούν εμπειρογνωμοσύνη, για κοινωνικούς, οικονομικούς ή
άλλους λόγους.

Αναφορικά με τη συγκεκριμενοποίηση του γενικού ορισμού του έμπειρου συστήματος, υπάρχουν δύο
σχολές σκέψεως. Η μία σχολή σκέψεως πρεσβεύει ότι ένα έμπειρο σύστημα θα πρέπει να αποτελεί όσο
γίνεται πιο ακριβή προσομοίωση της εν λόγω εμπειρογνωμοσύνης ή τουλάχιστον των στοιχείων αυτής
που μπορούν να εξωτερικευτούν. Σημασία, δηλαδή, δεν έχει μόνο το τελικό αποτέλεσμα για κάποιο
πρόβλημα, αλλά και ο τρόπος εξαγωγής του. Επομένως, το μέτρο σύγκρισης σε σχέση με την εν γένει
απόδοση του συστήματος αποτελεί αυτός καθ' αυτός ο έμπειρος. Στόχος είναι το έμπειρο σύστημα να
επιλύει προβλήματα εξίσου ικανοποιητικά με τον έμπειρο και ίσως και καλύτερα, αφού δεν θα έχει τις
αδυναμίες του ανθρώπινου οργανισμού (μείωση μνήμης, αισθήματα που μπορεί να επηρεάζουν αρνητικά
τη σκέψη, κτλ.).
Η άλλη σχολή σκέψεως πρεσβεύει ότι σημασία έχει μόνο το τελικό απoτέλεσμα και επομένως ένα
έμπειρο σύστημα δεν είναι κατ' ανάγκη η προσομοίωση της εν λόγω εμπειρογνωμοσύνης. Στόχος δηλαδή
θα πρέπει να είναι η δημιουργία συστημάτων που μπορούν να επιλύσουν «ορθά» αυτά τα προβλήματα με
όσο το δυνατό υψηλότερη απόδοση (υψηλότερη από αυτή των έμπειρων).

Συνηγορούμε με την προσέγγιση που πρεσβεύει η πρώτη σχολή σκέψης διότι συνάδει καλύτερα με τη
φύση αυτών των συστημάτων ως συμβούλων υποστήριξης αποφάσεων που χρειάζεται να συνδιαλέγονται
με το χρήστη τους και να παρέχουν τεκμηριώσεις των εισηγήσεών τους. Επομένως, δεν είναι μόνο το
τελικό αποτέλεσμα που έχει σημασία, αλλά και ο συλλογισμός και η γνώση που οδήγησε σε αυτό.
Παραθέτουμε λοιπόν τον ακόλουθο εκλεπτυσμένο ορισμό του τι είναι έμπειρο σύστημα:

Εκλεπτυσμένος ορισμός: Έμπειρο σύστημα είναι σύστημα βάσης γνώσης, το οποίο μοντελοποιεί
εκτενώς την εμπειρογνωμοσύνη ενός ή περισσότερων εμπείρων του σχετικού (εξειδικευμένου) τομέα. Η
απόδοση του συστήματος στην επίλυση των εν λόγω ρεαλιστικών προβλημάτων πρέπει να είναι
συγκρίσιμη με αυτήν των εμπείρων.

Με βάση τον εκλεπτυσμένο ορισμό, ο σκοπός, η κεντρική αρχή της τεχνολογίας των έμπειρων
συστημάτων, μπορεί να διατυπωθεί σαφέστερα.

Κεντρική Αρχή Τεχνολογίας: Η (ευρεία) εξάπλωση της εν λόγω εμπειρογνωμοσύνης για κοινωνικούς,
οικονομικούς ή άλλους λόγους. Ο τυπικός χρήστης ενός έμπειρου συστήματος αναμένεται μεν να ανήκει
στο σχετικό γνωστικό πεδίο, αλλά να μην είναι ο ίδιος έμπειρος. Το έμπειρο σύστημα βοηθά αυτό το
χρήστη να αποδίδει σε βαθμό ικανότητας συγκρίσιμο με αυτόν του έμπειρου. Ακόμη και ο έμπειρος
μπορεί να χρησιμοποιήσει το σύστημα με σημαντικά οφέλη.
14

Το εύρος της επιθυμητής εξάπλωσης κάποιας εμπειρογνωμοσύνη ς εξαρτάται από τον τομέα. Η εμβέλεια
της χρησιμότητας ενός έμπειρου συστήματος μπορεί να είναι ολόκληρη η υφήλιος ή να περιορίζεται στα
πλαίσια κάποιας εταιρείας/ οργανισμού, που μπορεί φυσικά να είναι πολυεθνική/ός. Οι τομείς εφαρμογής
των πρώτων έμπειρων συστημάτων περιελάμβαναν την επιστημονική ανάλυση , τη γεωλογία, τη
μηχανική , την ιατρική ,κ.τ.λ.
Καθένα από αυτά τα πρωταρχικά συστήματα αναπτύχθηκε ως ένα αυτοδύναμοι (stand-a1οne) σύστημα,
για την εκτέλεση του οποίου συνήθως απαιτείτο υπολογιστική μηχανή, η λεγόμενη LISP-machine.
Εξάπλωση σήμαινε τη διανομή ξεχωριστών αντιτύπων του συστήματος και τη σταδιακή ενημέρωση με
την παροχή νέων αντιτύπων.

Έμπειρα συστήματα δεν θεωρούνται πλέον ότι είναι οπωσδήποτε ξεχωριστά αυτοδύναμα συστήματα,
αλλά μπορεί να είναι τμήματα ευρύτερων υπολογιστικών συστημάτων.
Όπως ήδη αναφέραμε, έμπειρα συστήματα ανήκουν στα συστήματα υποστήριξης αποφάσεων (decision
support systems). Χρησιμοποιούνται κυρίως σε ρόλο συμβούλου (consu1tant, advisor), αλλά επίσης και
σε ρόλο κριτή (critic) ή φροντιστή (tutor). Όλοι αυτοί οι ρόλοι συνεπάγονται τη διεξαγωγή διάλεξης
ανάμεσα στο χρήστη και το σύστημα. Επομένως, έμπειρα συστήματα ανήκουν στα διαλογικά συστήματα.
Η ποιότητα της διασύνδεσης ανάμεσα στο σύστημα και το χρήστη αποτελεί κρίσιμο. παράγοντα. Οι
απαιτήσεις αυτής της διασύνδεσης, όταν το σύστημα χρησιμοποιείται ως σύμβουλος είναι :
Απαιτήσεις Διασύνδεσης Έμπειρου Συστήματος με Χρήστη .
Το σύστημα συνδιαλέγεται με το χρήστη για να:

¾ «κατανοήσει» καλύτερα το πρόβλημα,


¾ αποσπάσει περισσότερες πληροφορίες για το πρόβλημα.

Ο χρήστης συνδιαλέγεται με το σύστημα για να:

¾ προσφέρει περισσότερες πληροφορίες για το πρόβλημα,


¾ κατανοήσει καλύτερα τη συλλογιστική του συστήματος,
¾ πεισθεί για την εγκυρότητα της προτεινόμενης λύσης,

¾ εντοπίσει κενά ή λάθη στη βάση γνώσης του συστήματος για σκοπούς βελτίωσης (knowledge
debugging) - εδώ νοείται ότι ο χρήστης ανήκει στην κατηγορία των εμπείρων.

Οι ερωτήσεις και επεξηγήσεις του συστήματος πρέπει να είναι κατανοητές και λογικές προς το χρήστη.
Οι δομές διαλόγου και επεξηγήσεων θα πρέπει να αποτελούν σημαντικό στοιχείο του σχεδιασμού του
συστήματος από την αρχή, αφού συμβάλλουν σημαντικά στην όλη αποδοχή του συστήματος. Η ιδιάζουσα
φύση του διαλογικού στοιχείου ενός έμπειρου συστήματος, σε σχέση με παραδοσιακά υπολογιστικά
συστήματα, αποτελεί ένα από τα διακριτικά χαρακτηριστικά αυτών των συστημάτων. Άλλο διακριτικό
χαρακτηριστικό είναι η ικανότητα αυτοανάπτυξης και αυτοβελτίωσης. Εμπειρογνωμοσύνη είναι κάτι το
15
δυναμικό που συνεχώς βελτιώνεται, είτε με νέες προσωπικές εμπειρίες ή ως αποτέλεσμα νέων
εξελίξεων στο συγκεκριμένο τομέα. Είναι σημαντικό ένα έμπειρο σύστημα να ενσωματώνει και το ανα-
πτυξιακό στοιχείο της ανθρώπινης εμπειρογνωμοσύνης.

Απαιτήσεις Αναπτυξιακού Στοιχείου

Ένα έμπειρο σύστημα πρέπει να:

¾ έχει την ικανότητα αυτοβελτίωσης (δηλαδή μάθηση ς) με βάση τις προσωπικές του
εμπειρίες στην επίλυση προβλημάτων,
¾ διευκολύνει την εκ των έξω ενημέρωση της βάσης γνώσης του.

Τα εν γένει χαρακτηριστικά των έμπειρων συστημάτων συνοψίζονται

Χαρακτηριστικά Έμπειρων Συστημάτων .

¾ Προσομοιώνουν ανθρώπινο συλλογισμό και γνώση.


¾ Επιλύουν προβλήματα κάνοντας χρήση ευρετικών ή προσεγγιστικών μεθόδων.
¾ Καταπιάνονται με προβλήματα ρεαλιστικής πολυπλοκότητας, η αποδοτική και αποτελεσματική
επίλυση των οποίων εκ μέρους του ανθρώπου συνεπάγεται εμπειρογνωμοσύνη.
¾ Επιδεικνύουν υψηλά επίπεδα απόδοσης και σε ταχύτητα και σε ορθότητα λύσεων.
¾ Συνδιαλέγονται με το χρήστη.
¾ Επεξηγούν και τεκμηριώνουν τις εισηγήσεις τους.

2.1.2 Βασικές μορφές συλλογισμού

Ο φιλόσοφος C.S. Peirce διαχώρισε τρεις βασικές μορφές συλλογισμού, το συμπέρασμα (deduction), την
απαγωγή (abduction) και την επαγωγή (abduction), οι οποίες αντιστοίχως αφορούν πρόβλεψη (prediction),
εξήγηση ,explanation) και μάθηση (learning). Η ροή του συλλογισμού σε καθεμία από τις μορφές δίνεται

(α) συμπέρασμα: με βάση υπόθεση (ή γεγονός) και θεωρία προβλέπονται παρατηρήσεις

(β) απαγωγή: με βάση παρατήρηση αγνώστου αιτίας και θεωρία παράγεται υπόθεση προς εξήγηση της
παρατήρησης

(γ) επαγωγή: με βάση πολλαπλές παρατηρήσεις και υποθέσεις αναφορικά με πιθανές συσχετίσεις,
16
παράγεται θεωρία, δηλαδή μαθαίνεται νέα γνώση

Η απλή ανάμεσα στις τρεις μορφές είναι το συμπέρασμα. Ο συλλογισμός σε κατηγορηματική λογική
είναι συμπερασματικός . Οι κανόνες modus ponens και αναγωγή είναι συμπερασματικοί κανόνες.

Απαγωγή

Απαγωγή είναι συλλογισμός με υποθέσεις (hypothetical reasoning). Το κρίσιμο ερώτημα είναι ποια είναι
η «καλύτερη» ανάμεσα στις αξιόπιστες υποθέσεις Επομένως, χρειάζεται να αξιολογηθούν οι αντίπαλες
αξιόπιστες υποθέσεις με στόχο την επιλογή αυτής που αποτελεί την καλύτερη εξήγηση. Αυτή η
αξιολόγηση/ διερεύνηση εμπλέκει συμπερασματικό συλλογισμό Γενικά, αντίθετες συνεπαγωγές εκ
μέρους αντίπαλων υποθέσεων αποτελούν καλά σημεία διαχωρισμού.
Σε συμπερασματικό συλλογισμό, πρόθεση είναι να αποδειχθεί κατά πόσον κάτι ευσταθεί, ενώ σε
απαγωγικό συλλογισμό πρόθεση είναι να απαντηθεί γιατί κάτι ευσταθεί. Όπως είδαμε, προς απάντηση
κάποιου γιατί είναι σημαντικό να αποφασισθεί κατά πόσον. Επομένως, το συμπέρασμα μπορεί να θεω-
ρηθεί υποδιεργασία της απαγωγής. Αυτή η «σύμπραξη» αποτελεί το υποθετικό-συμπερασματικά
(hypothetico-deductive) σχήμα, το οποίο εμφανίζεται σε πολλά έμπειρα συστήματα, κυρίως συστήματα
που αφορούν διάγνωση και αποσφαλμάτωση.

Επαγωγή

Ο επαγωγικό ς συλλογισμός στοχεύει στην ανάπτυξη θεωριών και στην ανακάλυψή γνώσης. Επομένως,
αφορά τη μάθηση. Η απαγωγή και το συμπέρασμα αφορούν την επίλυση προβλημάτων εκ μέρους του
έμπειρου συστήματος, το συλλογισμό του συστήματος αναφορικά με την παραγωγή λύσεων. Η επαγωγή
αφορά το αναπτυξιακό στοιχείο του συστήματος. Ένα έμπειρο σύστημα πρέπει να έχει την ικανότητα
σταδιακής αυτοβελτίωσης με βάση τις εμπειρίες του στην επίλυση προβλημάτων. Η ικανότητα μάθηση ς
κατά προσαύξηση (incremental leaming) που χρειάζεται να έχει ένα έμπειρο σύστημα, οδηγεί στη
σταδιακή εκλέπτυνση της γνώσης του συστήματος και κατά συνέπεια μειώνει το γνωστό
«μποτιλιάρισμα»(bottleneck) που συνδέεται με την απόσπαση της γνώσης των εμπείρων. Αδυναμίες στην
αρχική εκδοχή της γνώσης του συστήματος είναι επιτρεπτές, εφόσον η ικανότητα μάθησης εκ μέρους του
συστήματος μπορεί να οδηγήσει στην απαλοιφή αυτών των αδυναμιών σε εύλογο χρονικό διάστημα. Για
να μπορεί ένα σύστημα να μαθαίνει πρέπει να καταγράφει με κάποιο τρόπο τις εμπειρίες του, δηλαδή τα
περιστατικά (του γενικού προβλήματος) με τα οποία έχει καταπιαστεί, το συλλογισμό που διεξήγαγε σε
σχέση με αυτά τα περιστατικά, τις λύσεις στις οποίες κατέληξε και κατά πόσον αυτές ήταν ορθές ή όχι και
γιατί. Αυτή η μνημόνευση προηγούμενων περιστατικών βοηθά το σύστημα να επαναλαμβάνει τις
επιτυχίες του σε παρόμοια μελλοντικά περιστατικά και κυρίως να αποφεύγει σοβαρά λάθη. Το πεδίο της
μάθησης με χρήση μίας βάσης περιστατικών (Case Based Learning -CBL) είναι αρκετά αναπτυγμένο και
17
μπορεί να χρησιμοποιηθεί με σημαντικά πλεονεκτήματα σε σχέση με τη μάθηση που χρειάζεται να
εκδηλώνει ένα έμπειρο σύστημα.

Η κατά προσαύξηση μάθηση διαφέρει από τις παραδοσιακές μεθόδους της μηχανικής μάθη σης. Μία
παραδοσιακή μέθοδος συνήθως χρειάζεται τη συσσώρευση μίας εκτενούς βάσης περιστατικών, η οποία
θα χρησιμοποιηθεί π.χ. για την επαγωγή κάποιων γενικών κανόνων (δηλαδή γενικών συσχετίσεων), οι
οποίοι στη συνέχεια μπορεί να τεθούν σε λειτουργία στα πλαίσια κάποιου έμπειρου συστήματος. Η
μάθηση γίνεται στατικά, εκ των προτέρων, ως ξεχωριστή διεργασία. Η κατά προσαύξηση μάθηση
ενσωματώνεται στη διεργασία της επίλυσης προβλημάτων, με άλλα λόγια διεξάγεται με δυναμικό τρόπο.
Για παράδειγμα, το σύστημα αρχίζει με κάποιους κανόνες, ίσως αρκετά ανακριβείς. Η χρήση κάποιου
κανόνα στα πλαίσια επίλυσης πραγματικών περιστατικών παρακολουθείται και αυτό μπορεί να οδηγήσει
στη σταδιακή τροποποίηση ή και διαγραφή του κανόνα. Φυσικά, παραδοσιακές μέθοδοι μάθησης
μπορούν να συνδυαστούν με δυναμικές μεθόδους μάθη ση ς. Η(αρχική) γνώση που παράγεται με στατικό
τρόπο μπορεί στη συνέχεια να εκλεπτυνθεί με δυναμικό τρόπο.

Πρόσφατα στο πεδίο της μηχανικής μάθησης έχει γίνει ο διαχωρισμός ανάμεσα σε περιγραφική επαγωγή ή
μάθηση (descriptive learning) και προβλεπτική επαγωγή (predictive learning). Η μεν πρώτη στοχεύει στην
ανακάλυψη κατηγοριών, η δε δεύτερη στην ανακάλυψη κανόνων για την αναγνώριση περιστατικών
δεδομένων κατηγοριών.

Σύνοψη

Η ανάπτυξη της τεχνολογίας των έμπειρων συστημάτων ήταν το φυσικό επακόλουθο της αποτυχίας της
αρχικής προσπάθειας για τη δημιουργία συστημάτων γενικής επίλυσης προβλημάτων. Έμπειρα
συστήματα είναι συστήματα βάσης γνώσης για την επίλυση (εξειδικευμένων) προβλημάτων, των οποίων
η ικανοποιητική επίλυση εκ μέρους του ανθρώπου συνεπάγεται την ύπαρξη εμπειρογνωμοσύνης.
Συνηγορούμε με την προσέγγιση ότι ένα έμπειρο σύστημα πρέπει να αποτελεί την όσο γίνεται πιο ακριβή
προσομοίωση των στοιχείων της εν λόγω εμπειρογνωμοσύνης, στοιχεία τα οποία μπορεί να εξω-
τερικευτούν. Αυτό γιατί ένα έμπειρο σύστημα χρειάζεται να συνδιαλέγεται με το χρήστη του και να
τεκμηριώνει τις εισηγήσεις του. Επιπλέον, ένα έμπειρο σύστημα χρειάζεται να αυτοβελτιώνεται, όπως
γίνεται και με την ανθρώπινη εμπειρογνωμοσύνη. Ποιο μέρος της εμπειρογνωμοσύνης καταχωρείται στη
βάση γνώσης του συστήματος και ποιο στο μηχανισμό συλλογισμού εξαρτάται από τον τρόπο
αναπαράστασης. Εάν χρησιμοποιείται εξ ολοκλήρου δηλωτική αναπαράσταση, τότε και η περιγραφική
γνώση και η συλλογιστική γνώση καταχωρούνται στη βάση γνώσης, ενώ ο μηχανισμός συλλογισμού είναι
ένας διερμηνέας της αναπαράστασης.

Η κεντρική αρχή αυτής της τεχνολογίας είναι η εξάπλωση των σχετικών πεδίων εμπειρογνωμοσύνης για
σοβαρούς κοινωνικούς, οικονομικούς ή άλλους λόγους, κάτι το οποίο διευκολύνεται αφάνταστα με την
ανάπτυξη του διαδικτύου. Ένα έμπειρο σύστημα χρησιμοποιείται κυρίως από άτομα τα οποία ανήκουν
στο εν λόγω πεδίο, αλλά δεν είναι οι ίδιοι έμπειροι. Η χρήση του συστήματος τους βοηθά να αποδίδουν
18
σε βαθμό ικανοτήτων συγκρίσιμο με εκείνο των εμπείρων. Παρόλο που τα αρχικά έμπειρα συστήματα
αναπτύχθηκαν ως αυτοδύναμα συστήματα, τα οποία απαιτούσαν ειδικούς υπολογιστές, συνήθως τώρα,
έμπειρα συστήματα αποτελούν στοιχεία ευρύτερων συστημάτων και δεν έχουν ιδιαίτερες απαιτήσεις ως
προς τους υπολογιστές.

Η χρήση της τεχνολογίας των έμπειρων συστημάτων ενδείκνυται για προβλήματα τα οποία δεν μπορούν
να επιλυθούν αποδοτικά με τις παραδοσιακές μεθόδους προγραμματισμού. Όμως, οι βασικές
προϋποθέσεις για ένα τέτοιο εγχείρημα είναι ότι υπάρχει τουλάχιστο ένας έμπειρος που ωθείται πολύ
θετικά προς τη δημιουργία του έμπειρου συστήματος και φυσικά υπάρχουν σοβαροί λόγοι για την
εξάπλωση της εν λόγω εμπειρογνωμοσύνης. Τέλος τα όρια του πεδίου της εμπειρογνωμοσύνης θα πρέπει
να μπορούν να προσδιορισθούν. Η αλήθεια είναι ότι η δημιουργία ενός έμπειρου συστήματος
συνεπάγεται μεγάλη προσπάθεια και συνήθως σημαντικό κόστος. Η αρχική προσέγγιση προς
διευκόλυνση της δημιουργίας νέων έμπειρων συστημάτων εστιαζόταν στην έννοια του κελύφους (shell) ή
κενού συστήματος (empty system). Σιγά σιγά όμως αναπτύχθηκαν μεθοδολογίες και εργαλεία τεχνολο-
γίας γνώσης, όπου η έμφαση είναι στην έννοια της επαναχρησιμοποίησης (reusability) κάτι το οποίο είναι
κοινό και με τις γενικότερες μεθοδολογίες τεχνολογίας λογισμικού

2.2 Έμπειρα Συστήματα Πρώτης Γενιάς

Την πρώτη γενεά των έμπειρων συστημάτων παρουσιάζουν τρία αντιπροσωπευτικά


συστήματα(Mycin,Prospector,Internist-1) τα οποία είναι καθοριστικά για την περαιτέρω εξέλιξη της
τεχνολογίας. Αυτά τα συστήματα δημιουργήθηκαν επί μέτρω, μετά από μεγάλη προσπάθεια, με στόχο την
υποβοήθηση ατόμων στην επίλυση σημαντικών προβλημάτων. Ως τρόπος απλοποίησης της δημιουργίας
νέων έμπειρων συστημάτων, επινοήθηκε η έννοια του συστήματος κελύφους. Η αδυναμία αυτής της
προσέγγισης είναι η επικέντρωσή της στο επίπεδο αναπαράστασης και όχι στο επίπεδο γνώσης.
Τα συστήματα πρώτης γενεάς θεωρούνται ρηχά, κυρίως λόγω της ευρείας χρήσης του φορμαλισμού των
κανόνων παραγωγής, που έχει ως αποτέλεσμα σημαντική γνώση να αναπαριστάται με υπονοούμενο
τρόπο ή να μην αναπαριστάται καθόλου.

Η αβεβαιότητα, σε επίπεδο γνώσης αλλά και δεδομένων, αποτελεί αναπόφευκτο στοιχείο. Ως εκ τούτου, η
αναπαράσταση της αβεβαιότητας και μοντέλα συλλογισμού με αβεβαιότητα αποτελούν αναπόσπαστο
μέρος αυτής της τεχνολογίας. Υπάρχουν κάποιες αδυναμίες των τριών αυτών συστημάτων. Σε γενικό
επίπεδο οι αδυναμίες των συστημάτων πρώτης γενεάς μπορεί να καταταγούν σε τρεις κατηγορίες, αυτές
που αφορούν τη διεπαφή του συστήματος με το χρήστη, αυτές που αφορούν την ικανότητα του
συστήματος ως επιλυτή προβλημάτων και αυτές που αφορούν το αναπτυξιακό στοιχείο του συστήματος
Μπορεί να ειπωθεί ότι οι διάφορες αυτές αδυναμίες απορρέουν από το γεγονός ότι τα συστήματα πρώτης
γενεάς δεν αποτελούν ακριβείς προσομοιωτές των εν λόγω πεδίων εμπειρογνωμοσύνης. Αυτό είναι
συνέπεια του τρόπου κατασκευής τους, ο οποίος έδινε έμφαση στην απευθείας αναπαράσταση της γνώσης
19
και όχι στη μοντελοποίησή της ως βασικής προϋπόθεσης για τη σωστή επιλογή της αναπαράστασης.
Έτσι σημαντική γνώση αγνοείται πλήρως ή εμφανίζεται με υπονοούμενο τρόπο. Εάν ο τρόπος οργάνωσης
της γνώσης και ο μηχανισμός συλλογισμού του συστήματος δεν ανταποκρίνεται σε αυτούς των εμπείρων,
ενδεχομένως η διεπαφή του συστήματος με το χρήστη του (δομή διαλόγου, επεξηγήσεις, κτλ.)να έχει
(σοβαρές) αδυναμίες. Το ίδιο και η δυνατότητα επέκτασης/ εκλέπτυνσης της γνώσης του. Τέλος, η
δυσκαμψία, που παρατηρήθηκε σε σχέση με την ικανότητα των πρωταρχικών συστημάτων στην επίλυση
προβλημάτων, οφείλεται στο ότι στην ουσία είχαν μόνο μία μέθοδο για την επίλυση όλων των
περιστατικών του γενικού προβλήματος και στο γεγονός ότι, στην περίπτωση των συστημάτων
παραγωγής, τα συστήματα δεν είχαν κάποια βαθύτερη γνώση αναφορικά με τις τεκμηριώσεις των
κανόνων, η οποία θα τους έδινε μεγαλύτερη ευελιξία. Γενικά, ευελιξία σημαίνει την κατοχή
εναλλακτικών μεθόδων επίλυσης και την ικανότητα επιλογής της σωστής μεθόδου για δεδομένο
περιστατικό του προβλήματος Τυπικά περιστατικά μπορεί να επιλύονται με μία μέθοδο και δύσκολα
περιστατικά με άλλη μέθοδο, η οποία ενδεχομένως να επικαλείται βαθύτερη γνώση. Αυτά τα σημεία θα
τα συζητήσουμε περαιτέρω στα πλαίσια της διαπραγμάτευσής μας για έμπειρα συστήματα δεύτερης
γενεάς, στο επόμενο κεφάλαιο.

2.3 Έμπειρα Συστήματα Δεύτερης Γενιάς

Η δεύτερη γενεά έμπειρων συστημάτων εξετάζεται μέσω δύο συστημάτων, του NEOMYCIN και του
MDX .Στόχος της δεύτερης γενεάς είναι η απαλοιφή των σημαντικών αδυναμιών της πρώτης γενεάς με
σκοπό τη δημιουργία συστημάτων τα οποία είναι πιο ευέλικτα στην επίλυση προβλημάτων, πιο
επεξηγήσιμα και πιο επαναχρησιμοποιήσιμα. Στην πρώτη γενεά, σημαντική γνώση της μορφής «Πώς»,
«Τι» και «γιατί» ήταν παντελώς απούσα ή εμφανιζόταν με υπονοούμενο τρόπο. Η δεύτερη γενεά χαρα-
κτηρίζεται κυρίως από τη χρήση πολλαπλών μοντέλων γνώσης και τον προσανατολισμό του σχεδιασμού
αυτών των συστημάτων στο επίπεδο γνώσης με στόχο την επίτευξη υψηλότερης αφαιρετικότητας.
Η αρχιτεκτονική του συστήματος NEOMYCIN, αναφέρεται κυρίως (α) στην ύπαρξη δύο εναλλακτικών
μοντέλων της περιγραφικής γνώσης, προς κάλυψη και των πιο δύσκολων περιστατικών του προβλήματος,
η επίλυση των οποίων απαιτεί διερεύνηση σε βαθύτερο επίπεδο γνώσης, αλλά και για την πιο
ικανοποιητική τεκμηρίωση των λύσεων εν γένει, και (β) στη μοντελοποίηση και αναπαράσταση
στρατηγικής γνώσης η οποία επιτρέπει την παροχή στρατηγικών επεξηγήσεων. Επίσης, εξετάσαμε τη
γενική μέθοδο της ευρετικής ταξινόμησης, η οποία αποτελείται από τρεις διεργασίες συλλογισμού,
αφαιρετικότητα δεδομένων, ενεργοποίηση ευρετικών συνδέσμων και εκλέπτυνση λύσεων.

Η αρχιτεκτονική του συστήματος MDX είναι συνεργατική και η γενίκευση αυτής αποσκοπεί στην
αρχιτεκτονική των γενικευμένων εργασιών.

2.4 Τεχνολογία Γνώσης


Εισαγωγικές Παρατηρήσεις
20

Μία σφαιρική παρουσίαση των διεργασιών που εμπλέκονται με την ανάπτυξη έμπειρων συστημάτων
(δεύτερης γενεάς). Αυτές οι διεργασίες αποτελούν την Τεχνολογία Γνώσης(Knowledge Engineering).

Ένα έμπειρο σύστημα είναι ένα μοντέλο εμπειρογνωμοσύνης. Όπως όλες οι εργασίες μοντελοποίησης,
έτσι και η δημιουργία ενός έμπειρου συστήματος συνεπάγεται την ανάλυση, κυρίως ποιοτικών,
δεδομένων και το σχεδιασμό μίας αφηρημένης δομής του μοντέλου. Το μοντέλο εξωτερικεύει την υπονο-
ούμενη δομή των δεδομένων και επομένως μπορεί να θεωρηθεί η ερμηνεία ή η επεξήγηση των
δεδομένων. Η απόσπαση του μοντέλου εμπειρογνωμοσύνης και η έκφρασή του σε μορφή κατανοητή προς
τους έμπειρους αποτελεί το πρώτο κρίσιμο βήμα της όλης διεργασίας. Το δεύτερο κρίσιμο βήμα είναι η
αναπαράσταση του μοντέλου σε συμβολικό επίπεδο και η εν γένει υλοποίησή του με τεχνικές του πεδίου
της ΤΝ.

Η ιδεατή απόσταση ανάμεσα στα ποιοτικά δεδομένα, εκφρασμένα σε φυσική γλώσσα, και τις συμβολικές
κατασκευές υλοποίησης που παρέχει η ΤΝ είναι μεγάλη. Το λάθος της αρχικής προσέγγισης ως προς τη
δημιουργία έμπειρων συστημάτων ήταν ότι «απαιτούσε» απευθείας μετάβαση από τα δεδομένα σε
συμβολικές δομές. Η προσέγγιση της δεύτερης γενεάς είναι ο ενδιάμεσος σχεδιασμός ιδεατών μοντέλων
εμπειρογνωμοσύνης ως η γέφυρα ανάμεσα στα δεδομένα και τις συμβολικές κατασκευές υλοποίησης. Τα
μοντέλα εμπειρογνωμοσύνης δεν εκφράζονται απευθείας με συμβολικό τρόπο αλλά με βάση κάποια
ενδιάμεση αναπαράσταση (mediαting representαtion). Ενδιάμεσες αναπαραστάσεις είναι κατανοητές
στους έμπειρους και ως εκ τούτου βοηθούν στην ανάλυση των δεδομένων και την απόσπαση της δομής
αυτών. Παράλληλα, ως επιπλέον μέσο γεφύρωσης του κενού ανάμεσα στα δεδομένα και το επιδιωκόμενο
σύστημα, εφαρμόζεται η τεχνική της ταχείας ανάπτυξης πρωτοτύπων (rαpid prototyping). Αυτό
διευκολύνει την επικοινωνία και κατανόηση ανάμεσα στο χρήστη και το δημιουργό του συστήματος.
Υπάρχουν σημαντικές διαφορές ανάμεσα στις διεργασίες ανάπτυξης ενός έμπειρου συστήματος και ενός
παραδοσιακού υπολογιστικού συστήματος παρόλο που μεθοδολογίες Τεχνολογίας Γνώσης πρέπει να
συνδυάζονται με μεθοδολογίες Τεχνολογίας Λογισμικού, αφού ένα έμπειρο σύστημα δεν θεωρείται πλέον
ως ένα ξεχωριστό, αυτόνομο σύστημα (stαnd αlone system ) η υλοποίηση του οποίου απαιτεί ειδικούς
υπολογιστές, αλλά ως μία μονάδα ενός ευρύτερου συστήματος, το οποίο επίσης περιέχει παραδοσιακές
αλγοριθμικές και άλλες μονάδες. Σε μία τυπική εργασία τεχνολογίας λογισμικού, συνήθως είναι εφικτό,
μετά από τη σχετική ανάλυση του προβλήματος, να διατυπωθούν με σαφήνεια οι απαιτήσεις του
συστήματος. Στη συνέχεια μπορεί να σχεδιαστεί ολοκληρωτικά το σύστημα και μετά να ακολουθήσει η
υλοποίηση και η δοκιμή του συστήματος .Τροποποιήσεις στην υλοποίηση και σχεδιασμό του συστήματος
μπορεί να γίνουν καθ' οδό, αλλά συνήθως η ανάγκη για ριζικές τροποποιήσεις και αναθεωρήσεις δεν
εγείρεται. Αυτό διότι ο ρόλος του συστήματος και γενικά η λειτουργικότητα που απαιτείται από αυτό, και
κατά συνέπεια οι πληροφορίες που εμπλέκονται στη λειτουργία του, μπορεί να διατυπωθούν σαφώς εκ
των προτέρων, πριν δηλαδή αρχίσει η διεργασία σχεδιασμού.

Σε αντίθεση με παραδοσιακά συστήματα, ο ρόλος ενός έμπειρου συστήματος δεν μπορεί κατ' ανάγκη να
21
διατυπωθεί σαφώς εκ των προτέρων και ούτε μπορεί να ειπωθεί ότι ένα έμπειρο σύστημα έχει
«ολοκληρωθεί». Αυτό γιατί το κεντρικό συστατικό ενός έμπειρου συστήματος είναι γνώση και γνώση
είναι κάτι το δυναμικό και πολύ πιο περίπλοκο από δεδομένα. Είναι δύσκολο να οριοθετηθεί επακριβώς,
εκ των προτέρων, όλη η γνώση που χρειάζεται, έστω και σε αφηρημένο επίπεδο. Η αναμενόμενη, αρχική
ασάφεια ως προς το έργο που θα επιτελεί το έμπειρο σύστημα και τη γνώση που απαιτείται προς εκπλή-
ρωση αυτού του έργου, σταδιακά θα μειώνεται, αλλά αυτό μπορεί να είναι εφικτό μόνο μετά τη
δημιουργία ενός αριθμού πρωτότυπων συστημάτων η υλοποίηση των οποίων στην ουσία αποτελεί μέρος
της ανάλυσης των απαιτήσεων του συστήματος. Με άλλα λόγια ριζικές αναθεωρήσεις σε οποιοδήποτε
στάδιο της διεργασίας δεν μπορούν να αποκλεισθούν, ακόμη και το ενδεχόμενο ολόκληρη η διεργασία να
ξαναρχίσει από την αρχή.
Η κεντρική συνιστώσα στην ανάπτυξη ενός έμπειρου συστήματος είναι το μοντέλο εμπειρoγvωμoσύνης.
Για τους σκοπούς της κατανόησης του πώς αναπτύσσεται η εμπειρογνωμοσύνη κάποιου ατόμου, έχουν
διεξαχθεί πολλές μελέτες αναφορικά με τις διαφορές, ως προς την επίλυση σχετικών προβλημάτων,
ανάμεσα σε έμπειρα και άπειρα άτομα δεδομένου τομέα ή ανάμεσα σε κατηγορίες ατόμων με
διαφορετικά μεγέθη εμπειρίας. Το τι διαφαίνεται από αυτές τις μελέτες είναι ότι η αρχικά αδόμητη βάση
γνώσης του άπειρου ατόμου, μέσω της εμπειρίας σε διάφορους τρόπους επίλυσης προβλημάτων,
σταδιακά αποκτά σχήμα και δομή, ούτως ώστε τα τεμάχια της γνώσης να οργανώνονται για άμεση και
αποδοτική χρήση. Επίσης, διεφάνη ότι οι δομές που μαθαίνονται μέσω εμπειρίας είναι «ορθογώνιες» προς
τις παραδοσιακές δομές που περιέχονται στα βιβλία. Συγκεκριμένα, η περιγραφική γνώση ενός άπειρου
ατόμου είναι «ακατέργαστη», επειδή (α) επικεντρώνεται στις κλασικές περιγραφές, (β) είναι
διασκορπισμένη, επειδή δεν υπάρχουν πολλές διασυνδέσεις ανάμεσα στα στοιχεία της, και (γ) η εσω-
τερική δομή των στοιχείων της είναι ανακριβής.

Σύμφωνα με την πρόταση του Chαndrαsekαrαn , η διεργασία απόκτησης εμπειρογνωμοσύνης αποτελεί τη


διεργασία της «μεταγλώττισης» της γνώσης προς αποδοτική και αποτελεσματική χρήση στα πλαίσια
διεξαγωγής συγκεκριμένων εργασιών επίλυσης προβλημάτων.

2.4.1 Ολοκληρωτικές διερευνήσεις εργασιών

Η δόμηση της περιγραφικής γνώσης, οι στρατηγικές και τα εν γένει ευρετικά για την άμεση και
αποδοτική χρήση της περιγραφική ς γνώσης αποτελούν αλληλένδετες συνιστώσες του μοντέλου
εμπειρογνωμοσύνης, οι οποίες σταδιακά διαμορφώνονται και εκλεπτύνονται ως αποτέλεσμα της
διεργασίας απόκτησης εμπειρογνωμοσύνης. Στόχος είναι η απόσπαση της δομής της περιγραφικής
γνώσης και των εν λόγω στρατηγικών. Κάτι τέτοιο δεν είναι όμως ορατό. Ορατός είναι ο διάλογος που
διεξάγεται ανάμεσα στον έμπειρο και το συμβουλευόμενό του στα πλαίσια επίλυσης πραγματικών
προβλημάτων. Ο διάλογος απορρέει από την εφαρμογή των σχετικών στρατηγικών εκ μέρους του
έμπειρου. Πίσω από τις συγκεκριμένες ερωτήσεις και την ακολουθία των ερωτήσεων κρύβονται
στρατηγικές και κατά συνέπεια στοιχεία της δομής της περιγραφική ς γνώσης. Με άλλα λόγια, η δομή του
διαλόγου είναι αλληλένδετη με το μοντέλο εμπειρογνωμοσύνης .Από τη δομή του διαλόγου, η οποία
22
χρειάζεται να εξαχθεί από την ανάλυση δειγμάτων πραγματικών διαλόγων, μπορεί να διαφανεί το
μοντέλο εμπειρογνωμοσύνης. Τα δείγματα διαλόγων, σε φυσική γλώσσα, αποτελούν σημαντικό στοιχείο
των ποιοτικών δεδομένων που αναφέρθηκαν στις Εισαγωγικές Παρατηρήσεις.

Οι ολοκληρωτικές διερευνήσει ς εργασιών (total task investigations) στόχο έχουν την διερεύνηση του
ακολουθιακού χαρακτήρα της αναζήτησης πληροφοριών που οδηγεί σε συμπεράσματα και αποφάσεις.
Τέτοιες μέθοδοι αναπτύχθηκαν και εφαρμόστηκαν από τους Elstein, Shulman, και Sprafka, σε μία
κλασική πλέον μελέτη, η οποία διεξήχθη προς το τέλος της δεκαετίας του 70, με απώτερο στόχο την
κατανόηση των επιδεξιοτήτων, στρατηγικών ή άλλων ιδιοτήτων που χαρακτηρίζουν την απόδοση των
επιδέξιων κλινικών ιατρών. Η μελέτη επικεντρωνόταν στην απόσπαση των δύο συνιστωσών του
μοντέλου εμπειρογνωμοσύνης, των στρατηγικών αναζήτησης και των δομών μνήμης. Το κίνητρο πίσω
από αυτή τη μελέτη ήταν η βελτίωση ή η επιτάχυνση του τρόπου με τον οποίο οι σπουδαστές της ιατρικής
μπορούν να μάθουν αυτές τις ικανότητες. Συμπεράσματα της έρευνας είναι ότι υποθέσεις (αναφορικά με
τη λύση του προβλήματος) παράγονται νωρίς, ο αριθμός των ενεργών υποθέσεων είναι πολύ μικρός,
σπανίως υπερβαίνει το 5 και σχεδόν ποτέ δεν υπερβαίνει το 7, το πιο κοινό λάθος είναι η υπερ-
ερμηνεία(δίνεται μεγαλύτερη βαρύτητα από ό,τι θα έπρεπε σε ενδείξεις που συνάδουν με την
επιδιωκόμενη υπόθεση, ενώ μπορεί να αγνοηθούν σημαντικές ενδείξεις που είναι ενάντιες της υπόθεσης),
η ικανότητα μπορεί να σχετίζεται με περιπτώσεις και η γνώση και εμπειρία είναι βασικές για την
ικανότητα.

Η εφαρμογή μίας μεθόδου ολοκληρωτικής διερεύνησης εργασιών συνεπάγεται την προσομοίωση του
περιβάλλοντος της εν λόγω εργασίας. Οι μέθοδοι μπορεί να κατηγοριοποιηθούν με βάση τον τρόπο
προσομοίωσης. Υπάρχουν τρεις κατηγορίες, οι οποίες, σε φθίνουσα σειρά κόστους εφαρμογής, είναι (α)
υψηλής πιστότητας προσομοίωση (high fidelity simulation), όπου μπορεί να απαιτείται η συμμετοχή
ηθοποιών, (β) μεσαίας πιστότητας προσομοίωση (moderate fidelity simulation), άλλως μέθοδοι «του
καλαθιού» και(γ) χαμηλής πιστότητας προσομοίωση (loτυ fidelity simulation).

Ένα παράδειγμα μεθόδου χαμηλής πιστότητας προσομοίωση είναι το εξής: Ο αναλυτής δημιουργεί έναν
κατάλογο με όλες τις πιθανές ενέργειες, σε σχέση με δεδομένο πρόβλημα, και τα αντίστοιχα
αποτελέσματά τους. Οι ενέργειες αποσκοπούν στην απόσπαση πληροφοριών για το πρόβλημα.
Παρουσιάζεται ο κατάλογος ενεργειών, χωρίς τα αποτελέσματα, στον έμπειρο. Ο έμπειρος διαδοχικά
επιλέγει ενέργειες και για κάθε ενέργεια που επιλέγει του παρουσιάζεται το αποτέλεσμά της, μέχρις ότου
είτε να εξαντληθούν όλες οι ενέργειες ή να φτάσει σε λύση του προβλήματος. Κατά τη διάρκεια της
διεργασίας ο έμπειρος δεν χρειάζεται να φανερώσει τη σκέψη του. Ο αναλυτής καταγράφει την
ακολουθία των επιλογών του έμπειρου (αυτό είναι το αντίστοιχο του διαλόγου) και στη συνέχεια
χρειάζεται να αναλύσει αυτή την ακολουθία για να ανακαλύψει τη σκέψη του έμπειρου.

Συνεχίζουμε με δύο μεθόδους μεσαίας πιστότητας προσομοίωση. Κατά μία μέθοδο ο αναλυτής διαδοχικά
φανερώνει πληροφορίες για το υπό επίλυση πρόβλημα τοποθετώντας σχετικά σημειώματα σε ένα καλάθι.
23
Ο έμπειρος, ο οποίος δεν εγείρει ερωτήσεις, βλέπει αυτές τις πληροφορίες, αποσύρει από το καλάθι
εκείνες που θέλει να χρησιμοποιήσει και παράλληλα φανερώνει τη σκέψη του στον αναλυτή. Μία
δεύτερη μέθοδο έχουμε, όταν παρουσιάζονται κάποιες αρχικές πληροφορίες για το πρόβλημα στον
έμπειρο και στη συνέχεια ο έμπειρος δικαιούται να θέσει μέχρι είκοσι ερωτήσεις για να βρει τη λύση του
προβλήματος. Η ακολουθία των ερωτήσεων καταγράφεται και αναλύεται με στόχο την ανακάλυψη της
σκέψης του έμπειρου. Αυτή η μέθοδος, η οποία είναι μία εκδοχή του γνωστού παιγνιδιού των είκοσι
ερωτήσεων, οδηγεί σε δυαδικά δέντρα αποφάσεων.

Μέθοδοι υψηλής πιστότητας προσομοίωσης συνεπάγονται πολύ πιο υψηλό κόστος σε σχέση με τις άλλες
δύο κατηγορίες μεθόδων. Σύμφωνα με μία τέτοια μέθοδο, για εφαρμογή σε σχέση με κλινικά
προβλήματα, ηθοποιοί εκπαιδεύονται να παίξουν τους ρόλους των ασθενών κατά τη διάρκεια της φυσικής
εξέτασης και της λήψης του ιστορικού. Επιπλέον πληροφορίες, Π.χ. αποτελέσματα εργαστηριακών
εξετάσεων, παρέχονται από ένα νοσοκόμο που ασκεί το ρόλο της τράπεζας πληροφοριών.

Σε συγκεκριμένα στάδια της διεργασίας, ο έμπειρος χρειάζεται να φανερώσει την μέχρι τώρα σκέψη του.
Αυτό διαφέρει από το να σκέφτεται και παράλληλα να χρειάζεται να παρουσιάσει αυτή τη σκέψη, όπως
απαιτεί η μέθοδος του καλαθιού. Το τι έχουμε εδώ είναι επεισοδιακές αναδρομικές αξιολογήσεις της
σκέψεως. Αυτές οι αναδρομικές αξιολογήσεις θεωρούνται σημαντικό χαρακτηριστικό της μεθόδου, διότι
δεν μπορούν να εξαχθούν επακριβή συμπεράσματα αναφορικά με τη στρατηγική του έμπειρου, βασιζόμε-
να μόνο πάνω στη διεπαφή του έμπειρου με τον ασθενή.

Η διεπαφή του έμπειρου με τον ασθενή γράφεται σε βίντεο-ταινία, η οποία στη συνέχεια παρουσιάζεται
στον έμπειρο ως ερέθισμα για περαιτέρω ανακλήσεις από τη μνήμη του. Αυτό αποτελεί ένα επιπλέον
τρόπο εισχώρησης πίσω από την ορατή συμπεριφορά, σε συσχετίσεις, στρατηγικές, κτλ.

Επομένως, αυτή η μέθοδος παρέχει τρεις επιπλέον πηγές δεδομένων προς συμπλήρωση της ανάλυσης της
εργασίας: (α) υλικό από τυχόν ταυτόχρονες σκέψεις εκ του φανερού, που ο έμπειρος εθελοντικά παρέχει,
π.χ. σύντομες προτάσεις αναφορικά με το τι είχε μάθει ή το τι πρόκειται να πράξει και γιατί, (β)
μακρύτερες επεισοδιακές αξιολογήσεις, οι οποίες διεξάγονται σε φυσικά διαλείμματα της εργασίας, και
(γ) υλικό που λαμβάνεται κατά την παρουσίαση της βίντεο-ταινίας.

2.4.2 Διεργασίες τεχνολογίας γνώσης

Οι διεργασίες τεχνολογίας γνώσης αφορούν την απόσπαση (σχεδιασμό), αναπαράσταση και υλοποίηση
του σχετικού μοντέλου εμπειρογνωμοσύνης. Η εμπλοκή του έμπειρου είναι υψίστης σημασίας, σε όλες
αυτές τις διεργασίες.

Η διεργασία απόσπασης του μοντέλου εμπειρογνωμοσύνη ς μπορεί να αρχίσει χωρίς καμία


«προκατάληψη». Όμως, ως αποτέλεσμα της εμπειρίας που έχει μέχρι τώρα συσσωρευτεί, μπορούν να
24
ορισθούν γενικευμένα σκελετικά μοντέλα εμπειρογνωμοσύνη ς για διάφορες εργασίες. Ένα τέτοιο
μοντέλο μπορεί να αποτελέσει το σημείο εκκίνησης, ούτως ώστε να υπάρχει κάποια εστίαση από την
αρχή. Σε αυτό το. στάδιο μπορούν να εφαρμοστούν μέθοδοι ολοκληρωτικής διερεύνησης εργασιών ή
άλλες τεχνικές συνεντεύξεων (βλέπε ενότητα 10.3) με στόχο τη σταδιακή επέκταση και εκλέπτυνση του
υπό κατασκευή μοντέλου. Καθόλη τη διάρκεια της διεργασίας, το μοντέλο αξιολογείται με βάση τη μέχρι
τώρα; αποκτηθείσα γνώση του έμπειρου και του πεδίου ευρύτερα. Το μοντέλο; «κατευθύνει» την
περαιτέρω απόκτηση γνώσης και στη συνέχεια η νέα γνώση μπορεί να οδηγήσει σε αναθεωρήσεις ή
επεκτάσεις του μοντέλου.
Κατά τη διεργασία απόσπασης, το μοντέλο εκφράζεται σε υψηλό επίπεδο αφαιρετικότητας με χρήση
κάποιας ενδιάμεσης ή μεσολαβητικής αναπαράστασης. Τέτοιες αναπαραστάσεις διευκολύνουν την
επικοινωνία ανάμεσα στον αναλυτή και τον έμπειρο και ως εκ τούτου είναι πιο αποδοτικές στην
απόκτηση γνώσης . Ένα παράδειγμα ενδιάμεσης αναπαράστασης είναι τα συστημικά γραμματικά δίκτυα
(systemic grammar netτυorks), τα οποία έχουν χρησιμοποιηθεί για την ανάλυση ποιοτικών δεδομένων,
καθώς επίσης για τον ορισμό και την ταξινόμηση εννοιών. Η σημειογραφία των συστημικών
γραμματικών δικτύων είναι αρκετά απλή. Κυκλικό τόξο, σε σχέση με κάποια επιλογή, σημαίνει ότι η
επιλογή μπορεί να επαναληφθεί.

Η διεργασία της αναπαράστασης του μοντέλου στοχεύει στη μετάφραση του μοντέλου σε επίπεδο
συμβόλων, χρησιμοποιώντας δηλαδή φορμαλισμούς αναπαράσταση ς γνώσης, όπως κανόνες, πλαίσια,
κτλ Είναι σημαντικό αυτή η μετάφραση, από ιδεατό επίπεδο σε επίπεδο συμβόλων, να διατηρήσει τη
δομή της γνώσης. Όλα τα στοιχεία του μοντέλου πρέπει, δηλαδή, να εμφανίζονται ρητά στη συμβολική
αναπαράσταση. Με αυτό τον τρόπο διατηρούνται όλοι οι σημασιολογικοί διαχωρισμοί και έτσι δεν
επηρεάζεται η δύναμη της εκφρασιμότητας. Σε αυτό το στάδιο αποφασίζεται ποια στοιχεία του μοντέλου
θα αναπαρασταθούν με δηλωτικό τρόπο και ποια με διαδικασιακό. Η αναπαράσταση του μοντέλου
αξιολογείται έναντι αυτού καθ' αυτού του ιδεατού μοντέλου και έναντι πραγματικής γνώσης.

Η διεργασία της υλοποίησης του μοντέλου συνεπάγεται το «γέμισμα» των συμβολικών δομών με
πραγματική γνώση, καθώς επίσης και την ανάπτυξη του σχετικού κώδικα με βάση τεχνικές του πεδίου της
ΤΝ, ούτως ώστε να κατασκευαστεί ένα λειτουργήσιμο σύστημα. Το σύστημα δοκιμάζεται και
αξιολογείται συνεχώς, πάντοτε με την ενεργή συμμετοχή του έμπειρου. Η αξιολόγηση αφορά την
ικανότητα του συστήματος στην επίλυση πραγματικών προβλημάτων, τα οποία δεν έχουν ήδη
χρησιμοποιηθεί στα πλαίσια της ανάπτυξης του συστήματος. Συστηματικές δοκιμές πρέπει να
προγραμματίζονται για κάθε στάδιο που αποτελεί σηματοδότη ως προς το επίπεδο περιεκτικότητας της
περιγραφική ς γνώσης του συστήματος. Η απόκτηση όλου του συνόλου της γνώσης που χρειάζεται για
«πλήρη» περιεκτικότητα είναι επίπονη και χρονοβόρα διαδικασία και για αυτό δεν θα πρέπει να
απαιτείται η απόκτηση όλης αυτής της γνώσης πριν να διεξαχθεί η συστηματική δοκιμή του συστήματος.
Εξάλλου η πιο εντατική δοκιμή του συστήματος θα πρέπει να γίνει μόλις η περιεκτικότητα της βάσης
γνώσης είναι η ελάχιστη απαιτούμενη για να θεωρούνται τα αποτελέσματα της δοκιμής αξιόπιστα και
25
φυσικά για να μπορεί να δοκιμαστεί το σύστημα έναντι πραγματικών προβλημάτων. Αυτή η εντατική,
πρωταρχική δοκιμή έχει ως σκοπό την ανακάλυψη σοβαρών σφαλμάτων, σε οποιοδήποτε από τα
εμπλεκόμενα επίπεδα(μοντέλο, συμβολική αναπαράσταση, υλοποίηση) όσο γίνεται πιο έγκαιρα, για να
μειώσει το κόστος τυχόν ριζικών αναθεωρήσεων.

Οι διεργασίες της απόσπασης, αναπαράστασης και υλοποίησης του μοντέλου εμπειρογνωμοσύνη ς μπορεί
να θεωρηθούν παράλληλες διεργασίες με αμοιβαίες επιδράσεις. Ο μηχανικός γνώσης πρέπει να είναι
διατεθειμένος να αντιμετωπίσει ακόμα και καταστάσεις που συνεπάγονται πλήρη ανακατασκευή του
συστήματος. Πειραματισμός μέσω ταχείας ανάπτυξης πρωτοτύπων, π.χ. με χρήση κάποιου συστήματος
κελύφους, ενδείκνυται ως μέσο καλύτερης κατανόησης της εν λόγω εμπειρογνωμοσύνης. Επίσης, η
χρήση κάποιου εργαλείου απόκτησης γνώσης ενδείκνυται, κυρίως όταν οι συμβολικές δομές γνώσης
έχουν φτάσει σε κάποιο ικανοποιητικό επίπεδο αξιοπιστίας.

2.4.3 Τεχνικές συνεντεύξεων

Πέραν των μεθόδων για την ολοκληρωτική διερεύνηση εργασιών μπορεί να χρησιμοποιηθούν και άλλες
τεχνικές συνεντεύξεων που δεν στοχεύουν κατ' ανάγκη στην ολοκληρωτική διερεύνηση κάποιας εργασίας
(επίλυσης προβλημάτων). Σε αυτή την ενότητα εξετάζουμε κάποιες από αυτές τις τεχνικές.

Η τεχνική «δίδαξε πίσω» (teachback intervieτυ technique), η οποία βασίζεται στη θεωρία συνομιλίας του
Pask, επικεντρώνεται σε ένα πρόγραμμα ημιδομημένων συνεντεύξεων. Καταρχάς σε κάθε συνάντηση
αποφασίζεται το αντικείμενο της συζήτησης και το μέσο επικοινωνίας (τα συστημικά γραμματικά δίκτυα
που αναφέρθηκαν πιο πάνω, έχουν χρησιμοποιηθεί ως μέσο επικοινωνίας στα πλαίσια αυτής της
τεχνικής). Ο διάλογος ανάμεσα στον έμπειρο και τον αναλυτή διεξάγεται σε δύο επίπεδα. Το επίπεδο «ο»
αφορά επεξηγήσεις για το πώς εκτελείται ένας αλγόριθμος, ενώ το επίπεδο «Ι»αφορά επεξηγήσεις ως
προς το γιατί οι αλγόριθμοι λειτουργούν, δηλαδή επεξηγήσεις των επεξηγήσεων (μετά-επεξηγήσεις).

Σε μία συνομιλία, αρχικά ο έμπειρος περιγράφει μία διαδικασία στον αναλυτή. Στη συνέχεια ο αναλυτής
τη διδάσκει πίσω στον έμπειρο χρησιμοποιώντας την ορολογία του έμπειρου και με τρόπο ικανοποιητικό
προς τον έμπειρο. Στο τέλος αυτού του σταδίου (διάλογος σε επίπεδο «ο») μπορεί να ειπωθεί ότι ο
αναλυτής και ο έμπειρος μοιράζονται την ίδια έννοια. Κατά το δεύτερο στάδιο (διάλογος σε επίπεδο «Ι»)
ο αναλυτής ζητά από τον έμπειρο να του δώσει μία επεξήγηση αναφορικά με το πώς μπορεί να
ανακατασκευασθεί η δεδομένη έννοια. Στη συνέχεια, ο αναλυτής διδάσκει αυτό πίσω στον έμπειρο,
μέχρις ότου ο έμπειρος να ικανοποιηθεί από την εκδοχή του αναλυτή, οπότε μπορεί να ειπωθεί ότι ο
αναλυτής έχει κατανοήσει τον έμπειρο.
Επομένως, στο επίπεδο «ο» διδάσκονται πίσω (στον έμπειρο από τον αναλυτή) έννοιες με στόχο την
επίτευξη κοινών εννοιών, ενώ στο επίπεδο «1»διδάσκονται πίσω μνήμες με στόχο την επίτευξη
κατανόησης.

Τα πλεονεκτήματα αυτής της τεχνικής είναι η αντικειμενικότητα, η επιτυχία στο να κερδίσει και να
26
διατηρήσει (ο αναλυτής) το ενδιαφέρον του έμπειρου και το γεγονός ότι δεν υπάρχει καμία αμφιβολία
ως προς την αυθεντικότητα των δεδομένων που αποσπώνται με αυτή την τεχνική. Υπάρχουν όμως και
μειονεκτήματα. Η τεχνική είναι αρκετά κουραστική για τον αναλυτή, ο οποίος θα πρέπει να είναι
εκπαιδευμένος σε συνεντεύξεις. Επίσης, οδηγεί σε πάρα πολύ υλικό προς ανάλυση και οι συνεντεύξεις θα
πρέπει να είναι μικρής διάρκειας.

Στη συνέχεια αναφερόμαστε, πολύ συνοπτικά, σε κάποιες άλλες τεχνικές συνεντεύξεων:

. Συνέντευξη «φροντιστήριο» (tutοrial interνiew). Ο έμπειρος δίνει ένα φροντιστήριο πάνω στα κύρια
θέματα και έννοιες του τομέα.

. Eσrιασμένη συνέντευξη (focused interνiew). Ο αναλυτής ετοιμάζει τα θέματα προς συζήτηση εκ των
προτέρων. Στόχος είναι η απόκτηση περιγραφικής γνώσης, των ειδών προβλημάτων που ο έμπειρος
επιλύει και γενικά των λειτουργιών που εκτελεί ως έμπειρος.

. Διαχωρισμός των στόχων (distinction of goals). Ο αναλυτής παρουσιάζει στον έμπειρο ένα συγκεκριμένο
στόχο και τον ερωτά ποιες είναι οι αναγκαίες και επαρκείς μαρτυρίες για το διαχωρισμό αυτού του
στόχου από άλλους στόχους. Αυτή η τεχνική είναι κατάλληλη για διαγνωστικούς τομείς.

. Επανακατάταξη (reclassification). Ζητείται από τον έμπειρο να διεξάγει συλλογισμό σε δύο κατευθύνσεις.
Από ορατά γεγονότα, διαμέσου μαρτυριών, προς στόχους (απαγωγικός συλλογισμός) και αντίστροφα από
στόχους, διαμέσου υποστόχων, προς ορατά γεγονότα (συμπερασματικός συλλογισμός).

. Συστηματικοί «σύμπτωμα-προς-δυσλειτουργία» σύνδεσμοι (systematic symptom-to-fault links).


Παρουσιάζεται στον έμπειρο ένα σύνολο συμπτωμάτων και ένα σύνολο δυσλειτουργιών και του ζητείται
να συνδέσει συμπτώματα με δυσλειτουργίες. Αυτή η τεχνική, η οποία και πάλι ζητεί από τον έμπειρο να
διεξάγει απαγωγικό συλλογισμό, είναι εφαρμόσιμη μόνο σε πολύ απλούς και περιορισμένους τομείς. Η
σειρά με την οποία εμφανίζονται τα συμπτώματα σε μία πραγματική κατάσταση αγνοείται πλήρως.

. Ενδιάμεσα βήματα συλλογισμού (intermediate reasoning steps). Στοχεύει στην απόκτηση πληροφοριών
προς συμπλήρωση των συνδέσμων που αποσπά η προηγούμενη τεχνική.

. Δομημένη συνέντευξη (structured intervieτυ). Στόχος εδώ είναι η απόκτηση όλης της γνώσης που αφορά
μία συγκεκριμένη έννοια. Η τεχνική εμπλέκει τη λεπτομερή και σε βάθος ανάλυση μίας ακολουθίας
θεμάτων που αφορούν την έννοια.

. Είκοσι ερωτήσεις. Η ίδια τεχνική που αναφέρθηκε και προηγουμένως με την επέκταση ότι ο έμπειρος
μπορεί να ερωτηθεί από τον αναλυτή, γιατί ερωτά τις συγκεκριμένες ερωτήσεις.

. Σκαλωτό πλέγμα (laddered grid). Ο αναλυτής παρουσιάζει στον έμπειρο ένα σύνολο εννοιών και του ζητεί
27
να τις ταξινομήσει με διάφορους εναλλακτικούς τρόπους και κάθε φορά να εξηγήσει την ταξινόμηση.
Η τεχνική αυτή είναι κατάλληλη για τομείς όπου ο αναλυτής υποψιάζεται την ύπαρξη ιεραρχικών δομών.

. Ενδοσκόπηση (introspection). Ο αναλυτής ζητεί από τον έμπειρο να φαντασθεί πώς θα έλυνε (ή έχει
λύσει) κάποιο πρόβλημα ή κατηγορία προβλημάτων. Αυτή η τεχνική, όπως και η μέθοδος του καλαθιού,
απαιτεί από τον έμπειρο να φανερώσει τη σκέψη του. Παράλληλα, ο αναλυτής μπορεί να θέτει στον
έμπειρο, ερωτήματα των τύπων «Πώς» και «Τι», αλλά όχι του τύπου «Γιατί», διότι τέτοια ερωτήματα
μπορεί να έχουν ως αποτέλεσμα η προσοχή να αποσπασθεί κάπου αλλού.

. Αναδρομική περιγραφή περιστατικού (retrospective case description). Ζητείται από τον έμπειρο να
περιγράψει πώς επεξεργάσθηκε ένα ή περισσότερα τυπικά περιστατικά, κατά προτίμηση από το πρόσφατο
παρελθόν. Ο αναλυτής χρειάζεται να αξιολογήσει πόσο αντιπροσωπευτικό είναι το κάθε περιστατικό.
Είναι γεγονός ότι στη μνήμη κάποιου αποτυπώνονται καλύτερα πιο σπάνια και επομένως αξιοσημείωτα
περιστατικά.

. Κρίσιμο περιστατικό (critical incident). Σε αντίθεση με την προηγούμενη τεχνική, εδώ ζητείται από τον
έμπειρο να περιγράψει τις εμπειρίες του αναφορικά με αξιοσημείωτα ή δύσκολα περιστατικά. Η χρήση
αυτής της τεχνικής μπορεί να δημιουργήσει μία ερεθιστική αρχή στη διεργασία απόκτησης γνώσης, αφού
τέτοια κρίσιμα περιστατικά αποτελούν μεγαλύτερο ενδιαφέρον για τον έμπειρο σε σχέση με τυπικά
περιστατικά, ενώ παράλληλα στοχεύει στο να αποκαλύψει τυχόν «μποτιλιαρίσματα» στο έργο του
έμπειρου.
. Προσομοίωση σεναρίου «προς τα εμπρός» (forτυard scenaήο simulation). Ο έμπειρος περιγράφει με
λεπτομέρεια πώς θα επεξεργαζόταν ένα υποθετικό περιστατικό, επιλεγμένο είτε από τον ίδιο ή από τον
αναλυτή.

Οι προηγούμενες σύντομες περιγραφές αποτελούν ένα δείγμα τεχνικών συνεντεύξεων. Υπάρχουν πολλές
άλλες τεχνικές. Η χρήση τέτοιων τεχνικών στοχεύει στην επίτευξη κατανόησης ανάμεσα στον έμπειρο και
τον αναλυτή και την έκφραση αυτής της κατανόησης σε μορφή η οποία επιτρέπει τη δημόσια εξέταση.
Αυτή θεωρείται η κεντρική λειτουργία της διεργασίας απόκτησης γνώσης.

2.4.4 Μεθοδολογία CommonΚADS

Aποτελεί την πιο ευρέως διαδεδομένη μεθοδολογία τεχνολογίας γνώσης, τουλάχιστο στον Ευρωπαϊκό
χώρο. Το αρχικό όνομα της μεθοδολογίας ήταν απλά ΚADS (Κnoτυledge Acquisition and Document
Structuring). Στόχος των δημιουργών της ήταν η ανάπτυξη μίας ολοκληρωμένης μεθοδολογίας για τη
δημιουργία συστημάτων βάσεων γνώσης. Η όλη προσπάθεια άρχισε κατά το πρώτο ήμισυ της δεκαετίας
του 80 και διάρκεσε για μια δεκαετία. Φυσικά, ακόμη και σήμερα η μεθοδολογία βρίσκεται σε μία συνεχή
διαδικασία βελτίωσης και επέκτασης.
28
Αρχικά η μεθοδολογία επικεντρωνόταν σε τεχνικές για την απόκτηση γνώσης, ενώ αργότερα, πέραν
της τεχνολογίας γνώσης, η οποία αποτελεί τον κεντρικό της άξονα, επεκτάθηκε σε διαχείριση έργου,
ανάλυση οργανισμού και τεχνολογία λογισμικού, διότι όλα αυτά εμπλέκονται στη δημιουργία ενός
συστήματος βάσεως γνώσης, και μετονομάσθηκε σε μεθοδολογία CommonΚADS. Όπως ήδη
αναφέρθηκε, συστήματα βάσεων γνώσης δεν αποτελούν σήμερα. αποσπασμένες εφαρμογές, οι οποίες
απαιτούν ειδικούς υπολογιστές, π.χ. LISP machines, αλλά μέρος ευρύτερων υπολογιστικών συστημάτων.
Επομένως, μία μεθοδολογία συστημάτων βάσεων γνώσης θα πρέπει να μπορεί να συνάδει με τρέχουσες
τεχνολογίες λογισμικού.

Πέραν αυτής καθ' αυτής της μεθοδολογίας, η εφαρμογή της διευκολύνεται με την παροχή της Βιβλιοθήκης
CommonΚADS, η οποία αποτελεί τη βάση για επαναχρησιμοποίηση σε καθαρά πρακτικό επίπεδο. Η
Βιβλιοθήκη οργανώνεται με βάση μία κατηγοριοποίηση προβλημάτων και συλλογισμών. Η κατ' αρχήν
πρόσβαση στη Βιβλιοθήκη γίνεται μέσω των κατηγοριών ή τύπων προβλημάτων, Π.χ. διάγνωση,
πρόγνωση, προγραμματισμός, σχεδίαση, κτλ. Αρχίζοντας από τις κατηγορίες προβλημάτων, οι οποίες
αποτελούν τα πιο αφηρημένα στοιχεία της Βιβλιοθήκης, τα στοιχεία διασπώνται, καταλήγοντας σε
επαναχρησιμοποιήσιμους, κανονικοποιημένους συλλογισμούς (reusable, canonical inferences), οι οποίοι
αποτελούν τα πρωτεύοντα στοιχεία της Βιβλιοθήκης. Άλλα στοιχεία της Βιβλιοθήκης είναι οι μονάδες
μοντελοποίησης (κατασκευαστικά τεμάχια), οι οποίες συντίθενται σε γενικευμένα μοντέλα ( σκελετικά
πλάνα μαζί με περιορισμούς αναφορικά με το πώς μπορούν να«γεμίσουν») και οι σχετικές διαδικασίες
μοντελοποίησης (τα βήματα που θα πρέπει να ακολουθηθούν για τη δημιουργία των μοντέλων).

Η ανάγκη για μια πιο μεθοδολογική προσέγγιση στην ανάπτυξη συστημάτων βάσεων γνώσης διαφάνηκε
αρκετά νωρίς, ως το μέσο υπερνίκησης του λεγόμενου «μποτιλιαρίσματος στην απόκτηση γνώσης»
(knowledge acquisition bottleneck). Η απόσπαση γνώσης αναφορικά με το πώς ο έμπειρος εκτελεί κάποια
εργασία αποτελεσματικά, με τρόπο που να μπορεί να τυποποιηθεί αυτή η γνώση σε μορφή υπολογιστικού
συστήματος, είναι κάτι το πολύ δύσκολο. Επιπρόσθετος λόγος για μια πιο μεθοδολογική προσέγγιση
αποτελούσε το γεγονός ότι οι μέθοδοι συλλογισμού που χρησιμοποιούνταν σε συστήματα βάσεων γνώσης
δεν ήταν πάντοτε πλήρως κατανοητές.

Η μεθοδολογία CommonΚADS βασίζεται στην αντιμετώπιση της διεργασίας απόκτησης γνώσης, ως


ενέργειας μοντελοποίησης. Ένα σύστημα βάσεως γνώσης θεωρείται ως λειτουργικό μοντέλο που
εκδηλώνει κάποια επιθυμητή συμπεριφορά, η οποία είναι ορατή ή προδιαγράφεται διαμέσου ρεαλιστικών
φαινομένων. Επομένως, η δημιουργία ενός τέτοιου συστήματος είναι η κατασκευή ενός υπολογιστικού
μοντέλου δεδομένης επιθυμητής συμπεριφοράς, η οποία μπορεί, αλλά όχι κατ' ανάγκη, να συμπίπτει με τη
συμπεριφορά κάποιου έμπειρου. Η απόκτηση γνώσης θεωρείται μία κατασκευαστική διεργασία κατά την
οποία ο μηχανικός γνώσης μπορεί να χρησιμοποιήσει όλων των ειδών δεδομένα αναφορικά με τη
συμπεριφορά του έμπειρου με στόχο την κατασκευή του υπολογιστικού μοντέλου. Οι αρχές που διέπουν
τη μεθοδολογία CommonΚADS είναι οι ακόλουθες:
29
Αρχές Μεθοδολογίας CommonΚADS
Πολλαπλά μοντέλα
Μοντελοποίηση εμπειρογνωμοσύνης
Επαναχρησιμοποίηση
Διαχωρισμός γνώσης
Σχεδιασμός που διατηρεί τη δομή τ:ης γνώσης.

Το κάθε μοντέλο παρουσιάζει μία διαφορετική όψη του υπό κατασκευή συστήματος. Το κεντρικό
μοντέλο είναι αυτό καθ' αυτό το μοντέλο εμπειρογνωμοσύνης. Η αρχή της επαναχρησιμοποίησης έχει
αποκτήσει μεγάλη σημασία, όχι μόνο σε σχέση με συστήματα βάσεων γνώσης, αλλά γενικά στην
ανάπτυξη υπολογιστικών συστημάτων. Σε αυτά τα συμφραζόμενα επαναχρησιμοποίηση αναφέρεται σε
σκελετικά μοντέλα εμπειρογνωμοσύνης, Kανονικοποιημέvoυς συλλογισμούς, κτλ. Στο υπό κατασκευή
μοντέλο εμπειρογνωμοσύνης πρέπει να γίνονται όλοι οι σχετικοί σημασιολογικοί διαχωρισμοί ως προς
την εμπλεκόμενη γνώση και ο σχεδιασμός του μοντέλου, σε επίπεδο συμβόλων, πρέπει να διατηρεί αυτή
τη δομή της γνώσης.

2.4.5 Πολλαπλά μοντέλα

Η κατασκευή ενός συστήματος βάσεως γνώσης είναι μία περίπλοκη διεργασία, η οποία μπορεί να
θεωρηθεί ως διεργασία αναζήτησης σε ένα μεγάλο χώρο αποτελούμενο από μεθόδους, τεχνικές και
εργαλεία τεχνολογίας γνώσης. Αυτή η πολυπλοκότητα μπορεί να ελεγχθεί σε κάποιο βαθμό με τη χρήση
πολλαπλών μοντέλων, το καθένα εκ των οποίων παρουσιάζει το σύστημα από διαφορετική σκοπιά,
δίνοντας έτσι έμφαση σε ορισμένα χαρακτηριστικά του συστήματος, αφαιρώντας παράλληλα τα υπόλοιπα
χαρακτηριστικά. Τα προτεινόμενα μοντέλα είναι τα εξής:

Πολλαπλά Μοντέλα (Οψεις) Ενός Συστήματος Βάσεως Γνώσης . Μοντέλο Οργανισμού (Organizational
Model)
. Μοντέλο Εφαρμογής (Application Model)
. Μοντέλο Εργασίας (Task Model)
. Μοντέλο Συνεργασίας (Cooperation Model)
. Μοντέλο Εμπειρογνωμοσύνης (Expertise Model)
. Ιδεατό Μοντέλο (Conc_ptual Model)
. Μοντέλο Σχεδιασμού (Design Model)

ΜΟΝΤΕΛΟ ΟΡΓΑΝΙΣΜΟΥ

Το μοντέλο οργανισμού συνεπάγεται τα ακόλουθα:

. Ορισμό του προβλήματος, το οποίο το σύστημα στοχεύει να επιλύσει μέσα στον Οργανισμό.
. Ανάλυση της κοινωνικό-οργανωτικής δομής του περιβάλλοντος, μέσα στο οποίο θα λειτουργεί
30
το σύστημα.
. Περιγραφή των λειτουργιών, εργασιών και «μποτιλιαρισμάτων» του Οργανισμού.

. Πρόβλεψη ως προς το πώς η εισαγωγή του συστήματος θα επιδράσει πάνω στον Οργανισμό και τους
ανθρώπους που εργάζονται μέσα σε αυτόν.

ΜΟΝΤΕΛΟ ΕΦΑΡΜΟΓΗΣ

Το μοντέλο εφαρμογής ορίζει τη λειτουργία του συστήματος σε σχέση με τους μελλοντικούς του χρήστες,
οι οποίοι είναι είτε άνθρωποι ή άλλα συστήματα. Επίσης προσδιορίζει τους εξωτερικούς περιορισμούς
που σχετίζονται με την ανάπτυξη της εφαρμογής, π.χ. περιορισμούς αναφορικά με ταχύτητα,
αποτελεσματικότητα, χρήση ειδικού λογισμικού ή υπολογιστή, κτλ

ΜΟΝΤΕΛΟ ΕΡΓΑΣΙΑΣ

Το μοντέλο εργασίας ορίζει τις συγκεκριμένες εργασίες που θα εκτελεί το σύστημα σε σχέση με την
προσδιοριζόμενη λειτουργία του, προς επίτευξη δηλαδή των στόχων του. Η επίτευξη κάποιου στόχου
μπορεί να γίνει με εναλλακτικούς τρόπους. Επομένως, χρειάζεται να επιλεγεί ο κατάλληλος τρόπος για τη
συγκεκριμένη εφαρμογή, λαμβάνοντας υπόψη τα χαρακτηριστικά της εφαρμογής, την υφιστάμενη γνώση
και δεδομένα, τις απαιτήσεις του χρήστη, καθώς επίσης εξωτερικούς παράγοντες. Υπάρχουν τρεις όψεις
του μοντέλου εργασίας, οι οποίες αναλύονται παρακάτω:

Διάσπαση Εργασίας. Η εργασία διασπάται σε υποεργασίες, κτλ Για κάθε υποεργασία προσδιορίζεται η
διεπαφή της, δηλαδή ποιος είναι ο στόχος της και τι πληροφορίες χρειάζεται προς εκπλήρωση αυτού του
στόχου.

Κατανομή Εργασίας. Οι υποεργασίες κατανέμονται σε διαμεσολαβητές (agents). Σε αυτό το επίπεδο,


διαμεσολαβητές είναι το ίδιο το υπό κατασκευή σύστημα, ο χρήστης ή κάποιο άλλο σύστημα. Ο χρήστης
ή άλλα συστήματα αποτελούν εξωτερικούς διαμεσολαβητές.

Περιβάλλον Εργασίας. Οι περιορισμοί που επιβάλλονται από τον τομέα εργασίας. Αυτοί οι περιορισμοί
έχουν επίδραση στην εμβέλεια και εν γένει φύση των μοντέλων εμπειρογνωμοσύνη ς και συνεργασίας.

ΜΟΝΤΕΛΟ ΣΥΝΕΡΓΑΣΙΑΣ

Προδιαγράφει τη λειτουργικότητα των υποεργασιών, στο μοντέλο εργασίας, οι οποίες χρειάζονται


συνεργατική προσπάθεια, όπως για παράδειγμα υποεργασίες που αφορούν την απόκτηση δεδομένων ή
την παροχή επεξηγήσεων, κτλ. Αυτές οι υποεργασίες ονομάζονται εργασίες μεταβίβασης (transfer tasks),
31
επειδή για τη διεκπεραίωσή τους απαιτείται η μεταβίβαση κάποιας πληροφορίας από το σύστημα σε
κάποιο εξωτερικό διαμεσολαβητή ή αντιστρόφως. Επομένως, το τι προδιαγράφεται είναι ένα μοντέλο
επίλυσης προβλημάτων με συνεργασία, στο οποίο το σύστημα μαζί με το χρήστη εκπληρώνουν κάποιο
στόχο με τρόπο που να ικανοποιούνται οι περιορισμοί του περιβάλλοντος εργασίας.

ΜΟΝΤΕΛΟ ΕΜΠΕΙΡΟΓΝΩΜΟΣΥΝΗΣ

Όπως ήδη αναφέρθηκε, το μοντέλο εμπειρογνωμοσύνης είναι η ουσία της όλης υπόθεσης, για αυτό και θα
το συζητήσουμε περαιτέρω στην επόμενη υποενότητα. Η δημιουργία αυτού του μοντέλου αποτελεί την
κεντρική πράξη στη διεργασία κατασκευής του συστήματος. Αυτό είναι το στοιχείο που διακρίνει την
τεχνολογία γνώσης από την παραδοσιακή τεχνολογία λογισμικού.

Στόχος είναι η προδιαγραφή, σε επίπεδο γνώσης (knowledge level) και όχι επίπεδο συμβόλων
(symbollevel), της εμπειρογνωμοσύνης που απαιτείται για την εκτέλεση των εργασιών (επίλυσης
προβλημάτων), που έχουν ανατεθεί στο σύστημα. Η δημιουργία του μοντέλου επικεντρώνεται στη
συμπεριφορά που το σύστημα χρειάζεται να εκδηλώνει και στα είδη της γνώσης που οδηγούν στην
εκδήλωση αυτής της συμπεριφοράς, χωρίς εξέταση του πώς υλοποιείται ο εν λόγω συλλογισμός. Η
δημιουργία του μοντέλου καθοδηγείται μεν από την ανάλυση της συμπεριφοράς του εμπείρου, αλλά και
με την προκατάληψη ως προς το τι πρέπει και τι μπορεί να πράξει το επιδιωκόμενο σύστημα.

ΙΔΕΑΤΌ ΜΟΝΤΕΛΟ

Το ιδεατό μοντέλο είναι η ένωση των μοντέλων εμπειρογνωμοσύνης και συνεργασίας και επομένως
παρέχει μιαν ολοκληρωμένη εικόνα του τι αναμένεται να είναι η λειτουργικότητα του συστήματος και
ποιες οι διαπροσωπείες του με εξωτερικούς διαμεσολαβητές. Το ιδεατό μοντέλο, όπως εξάλλου και τα
μοντέλα που το απαρτίζουν, είναι ανεξάρτητο υλοποίησης.

ΜΟΝΤΕΛΟ ΣΧΕΔΙΑΣΜΟΥ

Το μοντέλο σχεδιασμού αποτελεί τη μετάφραση του ιδεατού μοντέλου σε επίπεδο συμβόλων, με βάση
φορμαλισμούς αναπαράστασης γνώσης, μηχανισμών συλλογισμού και άλλων υπολογιστικών τεχνικών,
που θα πρέπει να χρησιμοποιηθούν για την υλοποίηση του συστήματος. Στο μοντέλο σχεδιασμού πρέπει
να ληφθούν υπόψη εξωτερικές απαιτήσεις, όπως ταχύτητα, υλικό, λογισμικό, κτλ.. Το «ερμηνευτικό
πλαίσιο»(interpretation context) είναι το σκελετικό μοντέλο (εμπειρογνωμοσύνης, ο ρόλος του οποίου
είναι να εστιάζει τη διερμήνευση της συμπεριφοράς που παρατηρείται.

Υλοποίηση Συστήματος
32
Ο διαχωρισμός ανάμεσα στην ιδεατή μοντελοποίηση και το σχεδιασμό θεωρείται το ισχυρό και
ταυτόχρονα το αδύνατο σημείο της μεθοδολογίας. Ισχυρό σημείο θεωρείται, επειδή κατά τη
μοντελοποίηση ο μηχανικός γνώσης δεν έχει προκαταλήψεις με βάση τους περιορισμούς του
υπολογιστικού πλαισίου. Από την άλλη πλευρά, αδύνατο σημείο θεωρείται, επειδή μετά τη
μοντελοποίηση παραμένει το πρόβλημα της υλοποίησης και ενδεχομένως στοιχεία του μοντέλου να μην
είναι υλοποιήσιμα δεδομένης της υφιστάμενης τεχνολογίας. Οι σύνδεσμοι υποδηλώνουν ότι πληροφορίες
από το ένα μοντέλο χρησιμοποιούνται στη δημιουργία του άλλου μοντέλου.
Όπως αναφέρθηκε στις Εισαγωγικές Παρατηρήσεις, η τεχνολογία γνώσης στοχεύει στη γεφύρωση του
κενού ανάμεσα στην επιδιωκόμενη συμπεριφορά και ένα σύστημα το οποίο εκδηλώνει αυτή τη
συμπεριφορά. Η μεθοδολογία CommonΚADS εισηγείται την ανάπτυξη ενός αριθμού μοντέλων ως το
μέσο γεφύρωσης του κενού. Κάθε μοντέλο αντιπροσωπεύει μία συγκεκριμένη όψη του συστήματος,
επιτρέποντας έτσι στο μηχανικό γνώσης να αντεπεξέλθει της πολυπλοκότητας του εγχειρήματός του. Η
διάσπαση του έργου με αυτό τον τρόπο δεν είναι άλλη από την παραδοσιακή στρατηγική«διαίρει και
βασίλευε».

2.4.6 Μοντελοποίηση εμπειρογνωμοσύνης

Η μεγαλύτερη πρόκληση της τεχνολογίας γνώσης είναι η ικανοποιητική απάντηση του ερωτήματος «Πώς
μοντελοποιείται η εμπειρογνωμοσύνη;». Η μεθοδολογία CommonΚADS προτείνει τις ακόλουθες βασικές
προϋποθέσεις προς αυτό το σκοπό:

Είναι εφικτό και χρήσιμο να διαχωριστούν διάφορα γενικευμένα είδη γνώσης (generic types of
knowledge) σύμφωνα με τους διαφορετικούς ρόλους που παίζει η γνώση σε διεργασίες συλλογισμού.

Αυτά τα είδη γνώσης μπορούν να οργανωθούν σε διάφορα στρώματα, τα οποία έχουν


περιορισμένες διασυνδέσεις.

Ο βασικός διαχωρισμός είναι ανάμεσα σε περιγραφική γνώση τομέα (domain knowledge) και γνώση
ελέγχου (control knowledge). Η πρόταση αυτής της μεθοδολογίας είναι η γνώση ελέγχου να διαχωριστεί
σε τρία είδη, δίνοντας έτσι τέσσερα στρώματα γνώσης (βλέπε Σχήμα 10.7). Στο χαμηλότερο στρώμα είναι
η περιγραφική γνώση, ενώ στο υψηλότερο η στρατηγική γνώση. Τα ενδιάμεσα στρώματα είναι η γνώση
ειδών συλλογισμού (types ofinferences) και πιο πάνω η γνώση στοιχειωδών εργασιών (Ρήmίtίve tasks). Οι
διασυνδέσεις ανάμεσα στα στρώματα γνώσης είναι περιορισμένες. Συγκεκριμένα, κάθε στρώμα γνώσης
ελέγχου μπορεί να επικοινωνήσει μόνο με το αμέσως πιο κάτω στρώμα.
Από τα τέσσερα στρώματα, αυτό που έχει εξερευνηθεί το λιγότερο, από την ερευνητική ομάδα, είναι
εκείνο της στρατηγικής γνώσης. Πρόσφατη έρευνα της ομάδας επικεντρώθηκε σε αυτό το στρώμα με
στόχο την καλύτερη κατανόηση του τι είναι στρατηγική γνώση. Ο προτεινόμενος διαχωρισμός, στα
τέσσερα στρώματα, αντικατοπτρίζει τους διαφορετικούς τρόπους, με τους οποίους η γνώση μπορεί να
θεωρηθεί και να χρησιμοποιηθεί. Στη συνέχεια θα εξετάσουμε τα στρώματα γνώσης.
33
ΠΕΡΙΓΡΑΦΙΚΗ ΓΝΩΣΗ ΤΟΜΕΑ

Η περιγραφική γνώση είναι στατική γνώση, η οποία αποτελεί τη θεωρία (theory) του τομέα εφαρμογής.
Εκφράζεται με δηλωτικό τρόπο και απαρτίζεται από τα ακόλουθα πρωτεύοντα στοιχεία:

Έννοιες, οι οποίες αντιπροσωπεύουν τα σχετικά αντικείμενα. Κάθε έννοια έχει την ονομασία της.

Ιδιότητες και τιμές. Κάθε έτυοια έχει ένα σύνολο χαρακτηριστικών, τις ιδιότητές της. Κάθε ιδιότητα έχει
ονομασία και σύνολο τιμών.

Σχέσεις ανάμεσα σε έννοιες Οι πιο κοινές σχέσεις είναι οι ιεραρχικές σχέσεις, «είναι» και «είναι-μέρος» .

Σχέσεις ανάμεσα σε εκφράσεις ιδιοτήτων.

Δομή, για την απεικόνιση σύνθετων αντικειμένων.

Για δεδομένο μοντέλο εμπειρογνωμοσύνης, επιλέγεται το υποσύνολο των πρωτευόντων στοιχείων, το


οποίο παρέχει στο μηχανικό γνώσης την απαιτούμενη εκφρασιμότητα. Τα πρωτεύοντα στοιχεία
χρησιμοποιούνται για τον ορισμό του σχήματος του τομέα (domain schema). Αυτό το σχήμα περιγράφει τη
δομή των προτάσεων της θεωρίας του τομέα (domain theory), ενώ παράλληλα παρέχει τα σημεία
αναφοράς σχετικά με την επεξεργασία της περιγραφική ς γνώσης (θεωρίας του τομέα) από το πιο πάνω
στρώμα γνώσης, τα είδη συλλογισμού.

Στη μεθοδολογία CommonΚADS η περιγραφική γνώση θεωρείται σχετικά ανεξάρτητη εργασίας. Οι


ονομασίες που δίνονται στις (κατηγορίες) εννοιών, τις ιδιότητές και σχέσεις τους, κτλ. δεν θα πρέπει να
υποδηλώνουν οποιαδήποτε συγκεκριμένη χρήση αυτής της γνώσης στο σχήμα τομέα. Το ίδιο σώμα
περιγραφικής γνώσης μπορεί να χρησιμοποιηθεί στα πλαίσια διαφορετικών εργασιών επίλυσης
προβλημάτων. Επομένως, ο διαχωρισμός της περιγραφικής γνώσης από το συγκεκριμένο τρόπο χρήσης
της στα πλαίσια δεδομένης εργασίας θεωρείται το πρώτο βήμα ως προς την ευέλικτη χρήση και
επαναχρησιμοποίηση της περιγραφικής γνώσης.

Όπως όμως έχουμε συζητήσει σε προηγούμενα κεφάλαια, αλλά και σε προηγούμενες ενότητες του
παρόντος κεφαλαίου, η απόσπαση περιγραφικής γνώσης και η αποκάλυψη της δομής αυτής, ανεξαρτήτως
χρήσεως, καταρχάς είναι κάτι το πολύ γενικό και δεύτερο, σημαντικά στοιχεία της δομής της
περιγραφικής γνώσης αφορούν άμεσα την αποτελεσματική και αποδοτική χρήση της στα πλαίσια
συγκεκριμένων εργασιών. Φυσικά, κανένας δεν διαφωνεί ότι τα στοιχεία ενός σώματος περιγραφικής
γνώσης τα οποία ενδεχομένως να αφορούν περισσότερες από μία εργασίες, θα πρέπει να αποσπασθούν
και η δομή τους να διατυπωθεί με τρόπο ανεξάρτητο οποιασδήποτε χρήσεως, για να διευκολύνεται η
επαναχρησιμοποίηση.
34

ΓΝΩΣΗ ΕΙΔΩΝ ΣΥΛΛΟΓΙΣΜΟΥ

Οι συλλογισμοί που αποτελούν το αμέσως πιο πάνω στρώμα γνώσης, θεωρούνται βασικοί από την άποψη
ότι μπορούν να περιγραφούν πλήρως μέσω της ονομασίας τους, της διεπαφής τους (ποιες πληροφορίες
αποτελούν την είσοδο και έξοδό τους) και των στοιχείων της περιγραφική ς γνώσης (σχήματος τομέα)
που επεξεργάζονται. Για τους σκοπούς της μοντελοποίησης, ο τρόπος υλοποίησης κάποιου συλλογισμού
δεν έχει σημασία. Σημασία έχει μόνο η λειτουργικότητα που παρέχει. Αυτή είναι μία άλλη σημαντική
αρχή τεχνολογίας λογισμικού, ο διαχωρισμός ανάμεσα στο «τι» και το «πως». Μπορεί μεν για σκοπούς
μοντελοποίησης, κάποιος συλλογισμός να θεωρείται ως βασικός, στην πραγματικότητα, όμως, μπορεί να
αποτελεί μία σύνθετη υπολογιστική διεργασία.

Η περιγραφική γνώση εκφράζεται ανεξάρτητα από τις χρήσεις της. Η γνώση συλλογισμού αναθέτει
ρόλους στη περιγραφική γνώση σύμφωνα με τις διάφορες χρήσεις της τελευταίας στα πλαίσια βασικών
συλλογισμών. Η γνώση συλλογισμού αποτελείται από τα ακόλουθα στοιχεία:

Μετα-τάξεις (meta-classes). Μία μετα-τάξη περιγράφει κάποιο ρόλο, ο οποίος μπορεί να ανατεθεί σε
αντικείμενα (έννοιες) κατά την επίλυση προβλημάτων, και δίνει τις κατηγορίες των αντικειμένων (από το
σχήμα τομέα), στα οποία μπορεί να ανατεθεί αυτός ο ρόλος. Η ίδια κατηγορία αντικειμένων μπορεί να
συνδέεται με περισσότερους από ένα ρόλο. Με άλλα λόγια μία μετα-τάξη είναι κάποια ετικέτα που
αποδίδει συγκεκριμένη (δυναμική) σημασιολογία σε κάποια (στατική) έννοια της περιγραφικής γνώσης.
Είναι ένα ψευδώνυμο (alias) της έννοιας σε συγκεκριμένα συμφραζόμενα και η ίδια έννοια μπορεί να έχει
πολλά ψευδώνυμα. Για παράδειγμα, η έννοια μονάδα (βλέπε Σχήμα 10.8) μπορεί να έχει το ρόλο της
υπόθεσης (hypothesis) στα πλαίσια κάποιου συλλογισμού και το ρόλο της λύσης (solution) στα πλαίσια
κάποιου άλλου συλλογισμού. Η διατύπωση της περιγραφικής γνώσης με τρόπο ανεξάρτητο της χρήσης
της διευκολύνει την ανάθεση πολλαπλών (δυναμικών) ρόλων στις εν λόγω έννoιες και προφανώς αυτό
είναι ένα σημαντικό πλεονέκτη μα.

Πηγές γνώσης (knowledge sources), όπου ο όρος έχει διαφορετική σημασιολογία από τον ομώνυμο όρο
στο μοντέλο του μαυροπίνακα (βλέπε κεφ. 6). Οι πηγές γνώσης αντιπροσωπεύουν τις επεξεργασίες που
εκτελούν οι βασικοί συλλογισμοί. Σε αυτό το επίπεδο οι πηγές γνώσης είναι απλές ονομασίες, αφού τα
«πώς» των συλλογισμών θεωρούνται ως «μαύρα κουτιά».

Όψεις τομέα (domain views), από τη σκοπιά των διαφόρων πηγών γνώσης. Επομένως, μία όψη τομέα
προσδιορίζει τα στοιχεία της περιγραφικής γνώσης που αποτελούν το «σώμα γνώσης» που επεξεργάζεται
η δεδομένη πηγή γνώσης.

Με βάση τα προηγούμενα, η σύνθεση ενός βασικού συλλογισμού περιλαμβάνει τα ακόλουθα:


• Τη μετα-τάξη, που αποτελεί την είσοδό του.
35
• Την πηγή γνώσης και την αντίστοιχη όψη της (στο επίπεδο της περιγραφικής γνώσης), που
αποτελεί την επεξεργασία του.
• Τη μετα-τάξη που αποτελεί την έξοδό του.

Τα πλεονεκτήματα που απορρέουν από το διαχωρισμό της περιγραφικής γνώσης και του τρόπου
θεώρησής της στα πλαίσια συλλογισμών μπορεί να συνοψισθούν ως ακολούθως:

• Επιτρέπονται πολλαπλές χρήσεις της ιδίας γνώσης.

• Αποφεύγεται ο πλεονασμός.

• Παρέχεται διπλός τρόπος ονομασίας της γνώσης, ανεξάρτητος και εξαρτώμενος της χρήσης της.

• Η εμβέλεια της γνώσης συνήθως είναι ευρύτερη από το τι απαιτείται από τη δεδομένη εργασία
επίλυσης προβλημάτων, από τις απαιτήσεις, δηλαδή, του εμπλεκόμενου συνόλου βασικών
συλλογισμών.

Οι βασικοί συλλογισμοί αποτελούν τα βασικά κατασκευαστικά τεμάχια του συστήματος βάσεως γνώσης.
Διατυπώνουν τις βασικές ενέργειες συλλογισμού εκ μέρους του συστήματος και αποδίδουν ρόλους στα
αντικείμενα του τομέα. Κάθε βασικός συλλογισμός είναι μία ανεξάρτητη οντότητα. Ωστόσο, οι βασικοί
συλλογισμοί μπορούν να ενωθούν σε δίκτυα, όπου η έξοδος ενός συλλογισμού αποτελεί την είσοδο
κάποιου άλλου συλλογισμού, κτλ. Σε αυτό το στρώμα γνώσης δεν ορίζεται οποιοσδήποτε έλεγχος σε
σχέση-με ένα τέτοιο δίκτυο συλλογισμού, απλώς ορίζονται τα σχετικά λεξιλόγια και οι εξαρτήσεις
ανάμεσα στους βασικούς συλλογισμούς, οι οποίες χρησιμοποιούνται από το πιο πάνω στρώμα για τον
ορισμό του σχετικού ελέγχου, στα πλαίσια σύνθετων εργασιών συλλογισμού.

ΓΝΩΣΗ ΣΤΟΙΧΕΙΩΔΩΝ ΕΡΓΑΣΙΩΝ


Αυτό το στρώμα παρέχει τη γνώση ως προς το πώς βασικοί συλλογισμοί μπορούν να ενωθούν για την
επίτευξη κάποιου στόχου. Η ίδια εργασία συλλογισμού (reasoning task) μπορεί να συνδέεται με
πολλαπλού ς στόχους και ο ίδιος στόχος με πολλαπλές εργασίες. Επομένως, η συσχέτιση ή καλύτερα
ανάθεση στόχων σε εργασίες δεν είναι κατ' ανάγκη κάτι το απλό, αφού η σχέση ανάμεσα σε εργασίες και
στόχους είναι πολυσήμαντη και όχι μονοσήμαντη. Αυτό το έργο όμως ανήκει στο υψηλότερο σώμα
γνώσης, δηλαδή αυτό της στρατηγικής γνώσης.

Οι εργασίες αντιπροσωπεύουν (χαμηλότερου επιπέδου) στρατηγικές για την επίτευξη στόχων που
αφορούν την επίλυση προβλημάτων. Οι βασικοί συλλογισμοί αποτελούν ατομικές, αδιάσπαστες εργασίες.
Επομένως, αυτό το στρώμα αφορά σύνθετες εργασίες, οι οποίες εμπλέκουν ένα σύνολο βασικών
συλλογισμών σύμφωνα με συγκεκριμένη δομή ελέγχου (control structure). Η έννoια της εργασίας σε αυτή
τη μεθοδολογία έχει μία σημαντική διαφορά με την αντίστοιχη έννοια στο σύστημα NEOMYCIN . Στο
36
NEOMYCIN οι μετα-κανόνες, που αποτελούν τις στρατηγικές υλοποίησης των διαφόρων μη τελικών
εργασιών, μπορούν να αναφέρονται απευθείας στην περιγραφική γνώση. Εδώ οι εργασίες αναφέρονται σε
συλλογισμούς(τελικές εργασίες) και όχι απευθείας στην περιγραφική γνώση.

Υπάρχουν οι ακόλουθες κατηγορίες εργασιών:


- Βασικές εργασίες (primitive tasks), δηλαδή βασικοί συλλογισμοί.
- .Σύνθετες εργασίες (composite tasks), όπου σύνθετη εργασία μπορεί να είναι η αναδρομική
κλήση της ίδιας εργασίας.
- Εργασίες μεταβίβασης (transfer tasks), οι οποίες απαιτούν διασύνδεση με κάποιο εξωτερικό
διαμεσολαβητή, συνήθως το χρήστη, και σε αυτό το επίπεδο απλά θεωρούνται ως μαύρα κουτιά.
Οι εργασίες μεταβίβασης είναι τεσσάρων ειδών:
1. Απόκτησης (Obtain). Το σύστημα ζητά κάποια πληροφορία από τον εξωτερικό διαμεσολαβητή,
έχοντας το ίδιο την πρωτοβουλία.

2. Παρουσίασης (Present). Το σύστημα παρουσιάζει κάποια πληροφορία στον εξωτερικό


διαμεσολαβητή, έχοντας και πάλι την πρωτοβουλία.
3. Αποδοχής (Receiνe). Το σύστημα αποδέχεται κάποια πληροφορία από τον εξωτερικό
διαμεσολαβητή, μετά από πρωτοβουλία του τελευταίου.
4. Παροχής (Provide). Το σύστημα παρέχει κάποια πληροφορία στον εξωτερικό διαμεσολαβητή,
πάλι μετά από πρωτοβουλία του τελευταίου.

Μία σύνθετη εργασία αποτελείται από το σχετικό στόχο ή στόχους, τις υποεργασίες που την απαρτίζουν
και τον έλεγχο που διέπει την εφαρμογή των υποεργασιών. Με σκοπό τη διατύπωση της δομής ελέγχου
προσδιορίζονται οι λεγόμενοι όροι ελέγχου (control terms). Αυτές είναι ονομασίες για σχετικά σύνολα
στοιχείων από τις εμπλεκόμενες μετα-τάξεις, π.χ. οι όροι εστία(focus) και σύνολο-ανταγωνισμού, οι οποίοι
στα πλαίσια του διαγνωστικού συστήματος που αναφέρθηκε πιο πάνω, κατονομάζουν σύνολα στοιχείων
από τη μετα-τάξη υπόθεση. Επίσης, ο προσδιορισμός της δομής ελέγχου κάνει χρήση γνωστών
αλγοριθμικών δομών διαδικασιακού προγραμματισμού, π.χ. repeat-until, for-<1o, κτλ. Κάθε υποεργασία,
που είναι επίσης σύνθετη, αναλύεται με τον ίδιο τρόπο. Με άλλα λόγια η μεθοδολογία CommonΚADS
προτείνει μία τυποποιημένη ψευδογλώσσα με αρκετά στοιχεία διαδικασιακού προγραμματισμού για τη
σαφή διατύπωση σύνθετων εργασιών συλλογισμού. Επομένως, μία σύνθετη εργασία διασπάται σε υπο-
εργασίες, υπο-υπο-εργασίες, κτλ., όπου οι τελικές εργασίες είτε είναι πηγές γνώσης (βασικοί
συλλογισμοί), είτε εργασίες μεταβίβασης. Η εκτέλεση εργασιών μεταβίβασης προσδιορίζεται στο
μοντέλο συνεργασίας. Επίσης, η διάσπαση των σύνθετων εργασιών, που γίνεται στα πλαίσια του μοντέ-
λου εμπειρογνωμοσύνη ς, είναι η περαιτέρω εκλέπτυνση της διάσπασης της όλης εργασίας που παρέχεται
στο μοντέλο εργασίας.

ΠΡΑΚΤΙΚΗ ΓΝΩΣΗ
37
Όπως ήδη αναφέραμε, το υψηλότερο στρώμα γνώσης είναι αυτό που έχει εξερευνηθεί το λιγότερο από
την ερευνητική ομάδα. Η γνώση αυτού του στρώματος παρέχει υψηλότερου επιπέδου στρατηγικές από
αυτές που αφορούν τους τρόπους εκπλήρωσης εργασιών. Η στρατηγική γνώση σχετίζεται με την ανάλυση
του προβλήματος και τη διατύπωση των σχετικών στόχων, καθώς επίσης την ανάθεση αυτών των στόχων
σε εργασίες, με άλλα λόγια την κατάρτιση, σε υψηλό επίπεδο, ενός σχεδίου δράσεως, που αφορά το
δυναμικό προγραμματισμό σχετικών εργασιών. Από τη στιγμή που δεδομένος (υπο )στόχος ανατεθεί σε
δεδομένη εργασία, ο τρόπος επίτευξή ς του αποφασίζεται από την εν λόγω γνώση εργασίας.

Σύνοψη

Eξετάσαμε τις διεργασίες που εμπλέκονται στη δημιουργία έμπειρων συστημάτων ή γενικότερα συστημάτων
βάσεων γνώσης. Αυτές οι διεργασίες αποτελούν την τεχνολογία γνώσης. Το στοιχείο που διακρίνει την
τεχνολογία γνώσης από την παραδοσιακή τεχνολογία λογισμικού είναι η μοντελοποίηση
εμπειρογνωμοσύνης. Αυτό συνεπάγεται την απόσπαση (σε ιδεατό επίπεδο), την αναπαράσταση (σε επίπεδο
συμβόλων) και την υλοποίηση (με τεχνικές της ΤΝ) του εν λόγου μοντέλου εμπειρογνωμοσύνης.

Ως την απόσπαση του μοντέλου μπορεί να χρησιμοποιηθούν μέθοδοι ολοκληρωτικών διερευνήσεων


εργασιών, οι οποίες στοχεύουν στη διερεύνηση του ακολουθιακού χαρακτήρα της αναζήτησης πληροφοριών
που οδηγεί σε συμπεράσματα και αποφάσεις. Επίσης, μπορεί να εφαρμοσθούν διάφορες άλλες τεχνικές
συνεντεύξεων.

Στη συνέχεια εξετάσαμε τη μεθοδολογία CommonΚADS ως αντιπροσωπευτικό παράδειγμα ολοκληρωμένης


μεθοδολογίας τεχνολογίας γνώσης. Οι βασικές αρχές αυτής της μεθοδολογίας είναι η εξής (α) Η θεώρηση
του συστήματος από όλες τις δυνατές σκοπιές (οργανισμού, εφαρμογής, εργασίας, συνεργασίας,
εμπειρογνωμοσύνη ς, σχεδιασμού), που οδηγεί έτσι στην ανάγκη δημιουργίας πολλαπλών μοντέλων και
ταυτόχρονα τον έλεγχο, με μεθοδικό τρόπο, της εμπλεκόμενης πολυπλοκότητας, (β) η μοντελοποίηση της
εμπειρογνωμοσύνης ως κεντρικής συνιστώσας, αφού αυτό εξάλλου αποτελεί την μεγαλύτερη πρόκληση της
τεχνολογίας γνώσης, (γ) η επαναχρησιμοποίηση, (δ) ο διαχωρισμός της γνώσης σε διάφορα είδη, σύμφωνα
με τους διαφορετικούς ρόλους που παίζει η γνώση σε διεργασίες συλλογισμού, και (ε) ο σχεδιασμός που
διατηρεί τη δoμή της γνώσης.

Η μεθοδολογία προτείνει την οργάνωση της γνώσης σε τέσσερα στρώματα με περιορισμένες διασυνδέσεις
ανάμεσά τους. Αυτά είναι (α) το στρώμα περιγραφικής γνώσης, το οποίο εκφράζεται ανεξάρτητα των
διαφόρων τρόπων χρήσεως του, (β) το στρώμα βασικών συλλογισμών, το οποίο αναθέτει ρόλους στην
περιγραφική γνώση σύμφωνα με την εμπλοκή της στα πλαίσια συγκεκριμένων συλλογισμών, (γ) το στρώμα
εργασιών, το οποίο εφαρμόζει βασικούς συλλογισμούς και εργασίες μεταβίβασης (προκαλούν συνεργασία με
εξωτερικούς διαμεσολαβητές), στα πλαίσια επίτευξης δεδομένων στόχων, και (δ) το στρώμα στρατηγικής
γνώσης, το οποίο αποφασίζει τους στόχους προς επίλυση των συγκεκριμένων προβλημάτων, καταρτίζει
σχέδια δράσεως και ελέγχει την εκτέλεση των εργασιών που εμπλέκονται στα σχέδια δράσεως.
38

2.5 Τρέχοντες Ερευνητικοί Στόχοι

Καταρχάς τα κυριότερα, γενικής εμβέλειας, συνέδρια στην περιοχή της ΤΝ, θεωρούνται το International
Joint Conference οη Artificial Intelligence (IJCAl) και το European Conference οη Artificial Intelligence
(ECAI), τα οποία οργανώνονται επί διετούς βάσεως σε ζυγά και μονά έτη αντιστοίχως. Εξετάζοντας τα
πρακτικά αυτών των συνεδρίων, κάποιος μπορεί να αποκομίσει μία ακριβή εικόνα της πορείας εξέλιξης
της ΤΝ. Πέραν αυτών των συνεδρίων, όπως εξάλλου συμβαίνει σε όλες τις επιστημονικές περιοχές,
υπάρχει πληθώρα άλλων ειδικών συνεδρίων, π.χ. στην περιοχή της ΤΝ στην Ιατρική οργανώνεται, επίσης
επί διετούς βάσεως, το συνέδριο Artificial Intelligence iη Medicine Europe (ΑΙΜΕ).

Ένας από τους τομείς που επί του παρόντος προσελκύει μεγάλο ερευνητικό ενδιαφέρον, όχι μόνο από την
επιστημονική κοινότητα της ΤΝ, αλλά και την αντίστοιχη της περιοχής των βάσεων δεδομένων, είναι οι
αυτόνομοι διαμεσολαβητές (autonomous agents) και τα συστήματα πολλαπλών διαμεσολαβητών (multi-
agent systems), τα οποία πηγάζουν από την περιοχή της Κατανεμημένης ΤΝ, και προφανώς η ραγδαία
εξέλιξη του διαδικτύου έχει συμβάλει σημαντικά σε αυτό το ενδιαφέρον. Η κοινότητα της ΤΝ προσεγγίζει
το αντικείμενο των διαμεσολαβητών από τη σκοπιά της «ευφυΐας» ή λογικότητας (rationality). Σε
θεωρητικό επίπεδο, ερευνητικά θέματα αφορούν την ανάπτυξη γλωσσών επικοινωνίας, διαπραγμάτευσης
και επιχειρηματολογίας, τη μελέτη της κοινωνικής όψης των διαμεσολαβητών, την ανάπτυξη μοντέλων
αλληλεπίδρασης και συνεργασίας, δράσεως, συμπεριφοράς και συντονισμού και γενικά την ανάπτυξη
σχετικών υπολογιστικών μοντέλων.

Σε επίπεδο εφαρμογών οι προοπτικές είναι μεγάλες. Λαμβάνοντας υπόψη ότι η παγκοσμιοποίηση της
πληροφορίας είναι πλέον πραγματικότητα και το γεγονός ότι ο όγκος της πληροφορίας αυξάνεται
εκθετικά, μία πολύ χρήσιμη, εάν όχι αναγκαία εφαρμογή της τεχνολογίας των ευφυών διαμεσολαβητών,
είναι η ανάπτυξη έξυπνων και προσαρμόσιμων προς τις ανάγκες του χρήστη, μηχανών αναζήτησης
(search engines) προς ανάκληση πληροφοριών από το διαδίκτυο ή το κοσκίνισμα των δεκάδων
εκατοντάδων ηλεκτρονικών μηνυμάτων που αναμένεται να παραλαμβάνει κανείς επί καθημερινής βάσε-
ως, κατά το πολύ σύντομο μέλλον. Άλλες σημαντικές εφαρμογές είναι η διαχείριση ροής εργασιών, η
ρομποτική, η επεξεργασία εικόνων, η προσομοίωση και εν γένει οποιοδήποτε πεδίο για το οποίο
ενδείκνυται η δια κατανομής επίλυση προβλημάτων, η επίλυση κατανεμημένων προβλημάτων ή η
εφαρμογή τεχνικών κατανομής για την επίλυση προβλημάτων. Η δια κατανομής επίλυση προβλημάτων,
σημαίνει ότι το σύνολο της εμπειρογνωμοσύνης κατανέμεται ανάμεσα στους διαμεσολαβητές, ο καθένας
εκ των οποίων έχει περιορισμένες ικανότητες σε σχέση με ολόκληρο το πρόβλημα. Αυτή η κατηγορία
39
εφαρμογών αναφέρεται ως «συνεργασία ειδικών». Το μοντέλο του μαυροπίνακα (βλέπε κεφ. 6) και το
σύστημα MDX (βλέπε κεφ. 9) ανήκουν σε αυτή την κατηγορία. Η επίλυση κατανεμημένου προβλήματος
σημαίνει ότι το ίδιο το πρόβλημα είναι κατανεμημένης φύσεως, ενώ οι διαμεσολαβητές έχουν παρόμοιες
ικανότητες. Τέλος, η τελευταία κατηγορία αφορά κλασικά προβλήματα, π.χ. προβλήματα
προγραμματισμού (planning), τα οποία μπορούν να επιλυθούν πιο αποδοτικά μέσω διαδράσεως
πολλαπλών διαμεσολαβητών. Αυτό αναφέρεται ως επίλυση δια συντονισμού.

Ένας άλλος νέος τομέας της ΤΝ που θεωρείται αρκετά σημαντικός είναι αυτός της εξελικτικής
γλωσσολογίας (evolutionary linguistics). Η εν λόγω έρευνα βασίζεται στην υπόθεση ότι μία γλώσσα είναι
ένα σύνθετο, προσαρμόσιμο σύστημα, το οποίο προκύπτει μέσα από τις προσαρμόσιμες αλληλεπιδράσεις
ανάμεσα σε διαμεσολαβητές και συνεχίζει να εξελίσσεται για να παραμένει προσαρμοσμένο στις ανάγκες
και ικανότητες αυτών των διαμεσολαβητών. Πειράματα αναφορικά με αυτή την υπόθεση έχουν διεξαχθεί
σε σχέση με ομιλούντα ρομπότ. Ο ευρύτερος τομέας της εξελικτικής ρομποτικής (evolutionary robotics)
και της τεχνητής ζωής (artificial life) επίσης προσελκύουν μεγάλο ενδιαφέρον

Η ανάπτυξη του Επαγωγικού Λογικού Προγραμματισμού (Inductive Logic Programming αλλιώς ILP), η
οποία αποτελεί την τομή της μηχανικής μάθησης και του λογικού προγραμματισμού, έχει ανοίξει πολλές
οδούς με μεγάλες προκλήσεις. Σκοπός είναι η επαγωγή (μάθηση) λογικών προγραμμάτων από
παραδείγματα και γνώση «φόντου» (background knowledge). Οι προοπτικές εφαρμογής αυτής της
τεχνολογίας σε σημαντικά βιομηχανικά προβλήματα είναι μεγάλες. Πιο πρόσφατα, η στροφή του
ερευνητικού ενδιαφέροντος από τη σύνθεση προγραμμάτων στην ανακάλυψη γνώσης έχει οδηγήσει στην
ανάπτυξη προηγμένων τεχνικών, οι οποίες έχουν πρακτική εφαρμογή στην ανακάλυψη γνώσης από
σχεσιακές βάσεις δεδομένων.

Γενικά η ανακάλυψη γνώσης από μεγάλες βάσεις δεδομένων (knowledge discovery in databases - ΚDD), η
εξόρυξη δεδομένων (data mining) και το σχετικά νεαρότερο πεδίο της ευφυούς ανάλυσης δεδομένων
(intelligent data (analysis - IDA), επίσης αποτελούν πηγές έντονου ερευνητικού ενδιαφέροντος, κυρίως
από τη βιομηχανία. Αυτό καταμαρτυρείται από την οργάνωση σχετικών συνεδρίων και την εμφάνιση
νέων επιστημονικών περιοδικών, όπως Data Mining and Κnowledge Discovery Intelligent Data Analysis,
κτλ., καθώς επίσης τον συνεχώς αυξανόμενο αριθμό σημαντικών νέων εφαρμογών σε αυτόν τον τομέα.
Στόχος είναι η μείωση του αυξανόμενου χάσματος ανάμεσα στον όγκο δεδομένων σε ηλεκτρονικές
βάσεις και της ερμηνείας, κατανόησης και αποτελεσματικής χρήσης αυτών των δεδομένων. Η ανάλυση
δεδομένων και η εξόρυξη πληροφορίας ή γνώσης εμπλέκει υπολογιστικές μεθόδους από διάφορες
επιστημονικές περιοχές, εντός και εκτός της ΤΝ, όπως στατιστικές μεθόδους, μεθόδους μηχανικής
μάθησης, μεθόδους αναπαράστασης και συλλογισμού με χρόνο, κτλ. Επίσης, αυτός ο τομέας έχει δώσει
μεγάλη ώθηση στο εξελισσόμενο πεδίο της ενόρασης πληροφοριών(information visualization).

Η έννοια του χρόνου και ο συλλογισμός με χρόνο (temporal reasoning) έχουν επίσης εξελιχθεί σε
σημαντικό πεδίο έρευνας. Ο χρόνος και η μοντελοποίησή του σε σχέση με βάσεις δεδομένων απασχολεί
40
έντονα και την κοινότητα των βάσεων δεδομένων, αφού όντως υπάρχουν πολλοί κοινοί στόχοι. Βασι-
κή έρευνα αφορά οντολογίες και θεωρίες χρόνου, την επεξεργασία χρονικών περιορισμών, την ανάπτυξη
χρονικών γλωσσών αναπαράσταση ς (temporal representation languages), κτλ. Η έρευνα σε εφαρμοσμένο
επίπεδο καλύπτει ένα ευρύ φάσμα εφαρμογών, όπως εφαρμογές στην ιατρική, νομική, επεξεργασία
φυσικής γλώσσας, μοντελοποίηση ευφυών διαμεσολαβητών, κτλ. Το συγγενές πεδίο της έννοιας του
χώρου και του συλλογισμού αναφορικά με χώρο (spatial reasoning) είναι επίσης ένα ενεργό πεδίο έρευνας.
Λόγω της συγγένειας αυτών των εννοιών πολλοί ερευνητές ασχολούνται ταυτόχρονα και με τις δύο, με
αποτέλεσμα να δημιουργηθεί το πεδίο του συλλογισμού σε χώρο και χρόνο (spatio-temporal reasoning).

Το πεδίο της ικανοποίησης περιορισμών (constraint satisfaction) ήταν σχεδόν πάντοτε στο προσκήνιο της
έρευνας σε ΤΝ, λόγω της συνδυαστικής φύσεως των εν λόγω προβλημάτων και ως εκ τούτου του
επιπέδου δυσκολίας που συνδεόταν με την επίλυσή τους. Πρόσφατα, λόγω της αλματώδους αύξησης σε
ταχύτητα και δύναμη των υπολογιστών, οι επιτεύξεις σε αυτό το πεδίο είναι αξιοσημείωτες.
Συγκεκριμένα, έχουν αναπτυχθεί περιβάλλοντα και εργαλεία προγραμματισμού με περιορισμούς
(constraint programming langιιages and tools), τα οποία επιτρέπουν την επίλυση προβλημάτων περιο-
ρισμών που εμπλέκουν μεταβλητές της τάξεως των χιλιάδων. Πέραν των γραμμικών και μη γραμμικών
περιορισμών, αυτά τα εργαλεία υποστηρίζουν λογικούς, υψηλότερου βαθμού και καθολικούς
περιορισμούς. Επίσης, επιτρέπουν τον προγραμματισμό διαδικασιών αναζήτησης ως προς τη διερεύνηση
του εν λόγω χώρου.

Άλλοι ανερχόμενοι τομείς αφορούν ΤΝ και μουσική/ τέχνη, ΤΝ και τεχνολογία λογισμικού (μέθοδοι
ανάπτυξης λογισμικού, με έμφαση στην επαναχρησιμοποίηση μονάδων, υποστηριζόμενες από μεθόδους
ΤΝ), ευφυή συστήματα τα οποία βοηθούν άτομα με ειδικές ανάγκες να επικοινωνούν με τον υπόλοιπο
κόσμο, εικονική και αυξανόμενη πραγματικότητα, κτλ Όπως αντιλαμβάνεστε είναι αδύνατο να
αναφερθούμε σε όλους τους τομείς έρευνας και στην ουσία το τι έχει διαπραγματευθεί αυτός ο τόμος
είναι η κορυφή του παγόβουνου της τεχνητής νοημοσύνης και των έμπειρων συστημάτων. Συνεχώς
εμφανίζονται νέα πεδία δράσεως και, όπως μπορεί να επιβεβαιώσει οποιοσδήποτε έχει ασχοληθεί σοβαρά
με αυτά τα θέματα, το πεδίο είναι ανεξάντλητο σε νέες προκλήσεις. Αυτό εξηγεί και το γεγονός ότι η εν
λόγω επιστημονική κοινότητα, όχι μόνο δεν έχει μειωθεί αλλά συνεχώς αυξάνεται.

ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

3.1 Τι είναι τα νευρωνικά δίκτυα

Τα νευρωνικά δίκτυα (neural networks ή με σύντμηση neural nets) αποτελούν μια σχετικά νέα περιοχή
στις φυσικές επιστήμες, καθόσον έχουν γίνει γνωστά και έχουν αναπτυχθεί σε διεθνές επίπεδο μόνο κατά
41
τις τελευταίες δεκαετίες Αποτελούν ένα θέμα με μεγάλο ενδιαφέρον στις τεχνολογικές επιστήμες. Το
κύριο χαρακτηριστικό τους είναι ότι οι πρώτες αρχές και λειτουργίες τους βασίζονται και εμπνέονται από
το νευρικό σύστημα των ζώντων οργανισμών (και φυσικά του ανθρώπου), αλλά η μελέτη και η χρήση
τους έχει προχωρήσει πολύ πέρα από τους βιολογικούς οργανισμούς. Ουσιαστικά δημιουργήθηκε μία νέα
περιοχή η οποία έχει αποκοπεί τελείως από την βιολογία και σήμερα τα νευρωνικά δίκτυα χρησιμοποι-
ούνται για να λύσουν κάθε είδους προβλήματα με ηλεκτρονικό υπολογιστή. Η φιλοσοφία τους όμως είναι
διαφορετική από τον τρόπο με τον οποίο δουλεύουν οι κλασικοί υπολογιστές. Η λειτουργία τους
προσπαθεί να συνδυάσει τον τρόπο σκέψης του ανθρώπινου εγκεφάλου με τον αφηρημένο μαθηματικό
τρόπο σκέψης. Έτσι στα νευρωνικά δίκτυα χρησιμοποιούμε τέτοιες ιδέες όπως, λ.χ. ένα δίκτυο μαθαίνει
και εκπαιδεύεται, θυμάται ή ξεχνά μια αριθμητική τιμή κτλ, πράγματα που μέχρι τώρα τα αποδίδαμε μόνο
στην ανθρώπινη σκέψη. Αλλά βέβαια μπορούν και χρησιμοποιούν επί πλέον και περίπλοκες μαθηματικές
συναρτήσεις και κάθε είδους εργαλεία από την μαθηματική ανάλυση.

Ένα ιδιαίτερο χαρακτηριστικό είναι ότι οι επιστήμονες στην περιοχή των νευρωνικών δικτύων
προέρχονται σχεδόν από όλες τις περιοχές των φυσικών επιστημών, όπως την Ιατρική, την επιστήμη
Μηχανικών, τη Φυσική, τη Χημεία, τα Μαθηματικά, την επιστήμη Υπολογιστών, την Ηλεκτρολογία κτλ
Καμία άλλη επιστήμη σήμερα δεν συνδυάζει με τόσο άμεσo τρόπο γνώσεις που προέρχονται από τόσο
διαφορετικές περιοχές.

Η έμπνευση για τα νευρωνικά δίκτυα, όπως αναφέρθηκε παραπάνω, ξεκινά από την βιολογία. Οι ζώντες
οργανισμοί, από τους πιο απλούς μέχρι τον άνθρωπο, έχουν ένα νευρικό σύστημα το οποίο είναι
υπεύθυνο για μια πλειάδα από διεργασίες, όπως είναι η επαφή με τον εξωτερικό κόσμο, η μάθηση, η
μνήμη κτλ. Το νευρικό σύστημα των οργανισμών αποτελείται από πολλά νευρωνικά δίκτυα τα οποία είναι
εξειδικευμένα στις διεργασίες αυτές. Η κεντρική μονάδα του νευρικού συστήματος είναι, οπωσδήποτε, ο
εγκέφαλος, ο οποίος επίσης αποτελείται από νευρωνικά δίκτυα. Κάθε νευρωνικό δίκτυο αποτελείται από
ένα μεγάλο αριθμό μονάδων, που λέγονται νευρώνες ή νευρώνια (neurons). Ο νευρώνας είναι η πιο μικρή
ανεξάρτητη μονάδα του δικτύου, όπως λ.χ. το άτομο είναι η πιο μικρή μονάδα της ύλης. Οι νευρώνες
συνεχώς και ασταμάτητα επεξεργάζονται πληροφορίες, παίρνοντας και στέλνοντας ηλεκτρικά σήματα σε
άλλους νευρώνες. Βλέπουμε λοιπόν ότι οι πρώτες γνώσεις μας για τα νευρωνικά δίκτυα προέρχονται από
την βιολογία και την ιατρική. Έτσι, λοιπόν, τα νευρωνικά δίκτυα των ζώντων οργανισμών τα ονομάζουμε
βιολογικά νευρωνικά δίκτυα, ενθυμούμενοι ότι αυτά είναι και τα πρώτα δίκτυα που μελετήθηκαν,
καθόσον υπάρχουν σε όλους τους ζώντες οργανισμούς (όχι όμως στα φυτά).

Οι διεργασίες που επιτελούνται από τα βιολογικά νευρωνικά δίκτυα στους ζώντες οργανισμούς είναι πολύ
περίπλοκες αλλά και τόσο χρήσιμες στην καθημερινή ζωή του ανθρώπου. Θα μπορούσαμε να φτιάξουμε
έναν υπολογιστή με τέτοια εσωτερική δομή που να μοιάζει με την δομή του εγκεφάλου και έτσι να μπο-
ρέσουμε να πετύχουμε αυτές τις διεργασίες; Αυτό έχει οδηγήσει στο να γίνουν κάποιες πρώτες σκέψεις
μήπως είναι δυνατόν να δημιουργηθούν κάποια πρότυπα (μοντέλα) του νευρωνικού συστήματος του
42
ανθρώπου, τα οποία θα περιέχουν όλα τα χαρακτηριστικά που είναι γνωστά μέχρι σήμερα και τα οποία
θα μπορούσαν από μόνα τους να επιτελέσουν τις εργασίες αυτές, με τον ίδιο τρόπο που γίνονται στα
βιολογικά νευρωνικά δίκτυα. Τα δίκτυα αυτά ονομάζονται τεχνητά νευρωνικά δίκτυα(artifιcial neural
nets, ΑΝΝ). Η βασική τους διαφορά από τα βιολογικά δίκτυα είναι ότι τα δίκτυα αυτά παίρνουν γνώσεις
(μαθαίνουν) με την εξάσκηση και την εμπειρία, όπως ακριβώς και οι άνθρωποι, αλλά διαφέρουν στο ότι
δεν ακολουθούν ορισμένους προκαθορισμένους κανόνες, που είναι χαρακτηριστικό των υπολογιστών.

3.2 Ένα απλό νευρωνικό δίκτυο

Ένα νευρωνικό δίκτυο αποτελείται από ένα αριθμό στοιχείων, τους νευρώνες. Σε κάθε νευρώνα
καταφθάνει ένας αριθμός σημάτων, τα οποία έρχονται ως είσοδος σ' αυτόν. Ο νευρώνας έχει μερικές
πιθανές καταστάσεις στις οποίες μπορεί να βρεθεί η εσωτερική δομή του που δέχεται τα σήματα εισόδου
και, τέλος, έχει μία μόνον έξοδο, η οποία είναι συνάρτηση των σημάτων εισόδου. Κάθε σήμα που
μεταδίδεται από ένα νευρώνα σε ένα άλλο μέσα στον νευρωνικό δίκτυο συνδέεται με την τιμή βάρους, w,
και η οποία υποδηλώνει πόσο στενά είναι συνδεδεμένοι οι δύο νευρώνες που συνδέονται με το βάρος
αυτό. Η τιμή αυτή συνήθως κυμαίνεται σε ένα συγκεκριμένο διάστημα, λ.χ. στο διάστημα από -1 ως 1,
αλλά αυτό είναι αυθαίρετο και εξαρτάται από το πρόβλημα που προσπαθούμε να λύσουμε. Η σημασία
του βάρους είναι όπως ακριβώς είναι και ο χημικός δεσμός ανάμεσα σε δύο άτομα που απαρτίζουν ένα
μόριο. Ο δεσμός μας δείχνει πόσο δυνατά είναι συνδεδεμένα τα δύο άτομα του μορίου. Έτσι και ένα
βάρος μας λέγει ακριβώς πόσο σημαντική είναι η συνεισφορά του συγκεκριμένου σήματος στην
διαμόρφωση της δομής του δικτύου για τους δύο νευρώνες τους οποίους συνδέει. Όταν το w είναι μεγάλο
(μικρό), τότε η συνεισφορά του σήματος είναι μεγάλη (μικρή).

3.3 Μετάδοση του σήματος μέσα στο νευρωνικό δίκτυο

Έχοντας την δομή ενός απλού δικτύου, μένει τώρα να δούμε πως και με ποιά διαδικασία μεταδίδεται το
σήμα από νευρώνα σε νευρώνα. Ουσιαστικά γίνεται πάντοτε αυτό που υπαινίχθηκε παραπάνω, δηλ., όλα
τα σήματα που φθάνουν σε ένα νευρώνα μαζεύονται (αθροίζονται), υπόκεινται σε μία διαδικασία,
παράγεται ως αποτέλεσμα της διαδικασίας μία έξοδος και αυτό είναι το σήμα το οποίο μεταδίδεται
43
περαιτέρω στους επόμενους νευρώνες. Η θεώρηση αυτή είναι γενική και ισχύει πάντοτε, αυτό όμως
που αλλάζει είναι η διαδικασία η οποία δεν είναι πάντα η ίδια. Ας δούμε αρχικά δύο τρόπους με τους
οποίους γίνεται η μετάδοση αυτή. Ο πρώτος τρόπος είναι δυαδικός. Στην περίπτωση αυτή ένας νευρώνας
μπορεί να βρεθεί σε μία από δύο δυνατές καταστάσεις: να είναι ενεργός ή να είναι αδρανής. Όταν ένας
νευρώνας δέχεται διάφορα σήματα, τότε υπολογίζει μία ποσότητα χ από όλα τα δεδομένα που έχει και
συγκρίνει την τιμή της ποσότητας αυτής με μια τιμή κατωφλίου, θ, η οποία είναι χαρακτηριστική
(σταθερή) και ορισμένη από την αρχή για τον νευρώνα αυτόν. Αν η τιμή της ποσότητας είναι μεγαλύτερη
από την τιμή κατωφλίου, τότε λέμε ότι ο νευρώνας ενεργοποιείται. Αν όμως είναι μικρότερη, τότε ο
νευρώνας παραμένει αδρανής, δηλ. στην δεδομένη στιγμή δεν μεταδίδει κανένα σήμα περαιτέρω στο
δίκτυο. Επειδή ο νευρώνας εδώ δρα ως δυαδικό στοιχείο, γι' αυτό η έξοδός του, f(χ), θα είναι 1 όταν είναι
ενεργοποιημένος και Ο όταν είναι αδρανής.

f(χ) = 1, εάν χ > θ και

f(χ) = 0, εάν χ < θ

Με τον δεύτερο τρόπο δεν υπάρχει χαρακτηριστική τιμή κατωφλίου με την οποία γίνεται η σύγκριση της
παραπάνω συνάρτησης. Η μετάδοση του σήματος γίνεται πάλι με την συνάρτηση.f(χ), η οποία τώρα έχει
μία ειδική μορφή. Χρησιμοποιούμε όλες τις τιμές των εισόδων και τις τιμές των βαρών, w, και
υπολογίζουμε αριθμητικά την .f(x).

Η γενική ονομασία της συνάρτησης σε όλες τις περιπτώσεις είναι συνάρτηση μεταφοράς (transfer
function), ή συνάρτηση ενεργοποίησης (activation function). Το κοινό χαρακτηριστικό που έχουν οι
συναρτήσεις αυτές είναι ότι πρέπει να είναι πάντοτε μη-γραμμικές. Δεν αρκούν γραμμικές συναρτήσεις,
γιατί τότε η έξοδος θα ήταν ευθέως ανάλογη με την είσοδο, κάτι που δεν μπορεί να συμβεί στα νευρωνικά
δίκτυα.
3.4 Πώς εκπαιδεύουμε ένα νευρωνικό δίκτυο

Ο πρωταρχικός σκοπός της λειτουργίας ενός τεχνητού νευρωνικού δικτύου είναι να μπορεί να λύνει
συγκεκριμένα προβλήματα που του παρουσιάζουμε ή να επιτελεί από μόνο του ορισμένες διεργασίες, λ.χ.
να αναγνωρίζει εικόνες. Για να μπορεί όμως να γίνει αυτό λέμε ότι το νευρωνικό δίκτυο προηγουμένως
πρέπει να εκπαιδευθεί κατάλληλα. Αυτό είναι και το βασικό χαρακτηριστικό των νευρωνικών δικτύων,
δηλ ότι μαθαίνουν ή εκπαιδεύονται. Τι ακριβώς όμως σημαίνει ότι ένα νευρωνικό δίκτυο εκπαιδεύεται;
Όπως και στα βιολογικά δίκτυα έτσι και τα ΤΝΔ δέχονται ορισμένες εισόδους και αντίστοιχα δίνουν
ορισμένες εξόδους (input-output). Όταν λέμε εισόδους / εξόδους εννοούμε ότι παρουσιάζονται στο δίκτυο
κάποια σήματα τα οποία έχουν αριθμητικές τιμές, λχ. θα μπορούσε να είναι κάποιος δυαδικός αριθμός
αποτελούμενος από Ο και 1. Οι αριθμοί αυτοί που δίνονται στην είσοδο του δικτύου αποτελούν κάποιο
πρότυπο. Για ένα πρόβλημα μπορεί να απαιτούνται πολλά πρότυπα. Σε κάθε πρότυπο αντιστοιχεί και μία
σωστή απάντηση, η οποία είναι το σήμα που πρέπει να πάρουμε στην έξοδο ή αλλιώς ο στόχος. Η
44
εκπαίδευση γίνεται με το να παρουσιάσουμε μια ομάδα από τέτοια πρότυπα στο δίκτυο,
αντιπροσωπευτικά ή παρόμοια με αυτά που θέλουμε να μάθει το δίκτυο. Αυτό σημαίνει ότι δίνουμε στο
δίκτυο ως εισόδους κάποια πρότυπα για τα οποία ξέρουμε ποια πρέπει να είναι η έξοδος στο δίκτυο,
ξέρουμε δηλ ποιος είναι ο στόχος, τι πρέπει να δίνει το δίκτυο ως απάντηση στα πρότυπα που του
παρουσιάζουμε. Ουσιαστικά είναι σαν να δίνουμε στο δίκτυο μία ερώτηση και ακολούθως να του δίνουμε
την απάντηση που αντιστοιχεί. Το δίκτυο χρησιμοποιεί την κατάλληλη συνάρτηση μεταφοράς j(χ) για να
μεταδίδει το σήμα σε όλη τη δομή του, από την είσοδο ως την έξοδο. Κατά την διάρκεια της εκπαίδευσης
το μόνο πράγμα που αλλάζει είναι οι τιμές των βαρών των συνδέσεων των νευρώνων. Αυτό δεν γίνεται
πάντα με τον ίδιο τρόπο, αλλά εξαρτάται σημαντικά από την μέθοδο που χρησιμοποιούμε. Το δίκτυο με
τα δεδομένα αυτά τροποποιεί την εσωτερική του δομή ώστε να μπορεί να κάνει την ίδια αντιστοιχία που
του δώσαμε εμείς. Ενώ αρχικά ξεκινάει με τιμές στα βάρη w που είναι τυχαίες, κατά την διάρκεια της
εκπαίδευσης μεταβάλλει τις τιμές αυτές, μέχρι να εκπαιδευθεί πλήρως. Ακολούθως, αφού βρει την σωστή
εσωτερική δομή του, τότε θα μπορεί να λύνει και άλλα ανάλογα προβλήματα τα οποία δεν τα έχει δει
προηγουμένως, δηλ δεν έχει εκπαιδευθεί στα πρότυπα των προβλημάτων αυτών. Οπωσδήποτε όμως, τα
προβλήματα αυτά θα πρέπει να είναι της ίδιας φύσης και των ίδιων χαρακτηριστικών όπως αυτά της
εκπαίδευσης και όχι διαφορετικά. Ως σκέψη λοιπόν μια τέτοια διαδικασία είναι πολύ φιλόδοξη. Αυτός
είναι ο πιο συνηθισμένος τρόπος εκπαίδευσης, αλλά θα δούμε ότι υπάρχουν διάφορες παραλλαγές ως
προς τον τρόπο με τον οποίο τα δεδομένα παρουσιάζονται στο δίκτυο όταν αυτό εκπαιδεύεται.

Γενικά, μπορούμε να πούμε ότι κατά την εκπαίδευση ενός δικτύου οι αλλαγές στα βάρη γίνονται με ένα
από τους εξής δύο τρόπους:

. με εποπτευόμενο τρόπο

. με μη-εποπτευόμενο τρόπο (ή αυτό-εποπτευόμενο τρόπο)

Η εποπτευόμενη μάθηση είναι και ο πιο συχνός τρόπος στην εκπαίδευση των νευρωνικών δικτύων.
Αρχικά δίνουμε τις τιμές των εισόδων και των στόχων που πρέπει να μάθει το δίκτυο, δηλ.
παρουσιάζουμε τα πρότυπα στο δίκτυο. Ξεκινούμε με τυχαίες τιμές στα βάρη w. Κατά την διαδικασία
εκπαίδευσης το δίκτυο αλλάζει τις τιμές των βαρών διορθώνοντας αυτές ανάλογα με το σφάλμα που
παίρνουμε (διαφορά από τον στόχο). Ο σκοπός μας εδώ είναι τελικά να ελαχιστοποιήσουμε την διαφορά
(το σφάλμα) μεταξύ της επιθυμητής εξόδου και της τρέχουσας τιμής της εξόδου μετά από διαδοχικές
αλλαγές των βαρών (ανακυκλώσεις διορθώσεων). Μερικές φορές η διαδικασία αυτή μπορεί να απαιτεί
μεγάλους αριθμούς τέτοιων διορθώσεων και, επομένως, μεγάλους υπολογιστικούς χρόνους.

Στην μη-εποπτευόμενη εκπαίδευση απλώς δίνουμε την πληροφορία στο δίκτυο, αλλά δεν δίνουμε
αντίστοιχους στόχους όπως προηγουμένως και έτσι δεν γίνεται κανένας έλεγχος ή σύγκριση για την
πορεία του σφάλματος. Το δίκτυο δεν χρησιμοποιεί κάποια εξωτερική παράμετρο για την αλλαγή των
βαρών. Υπάρχει βέβαια συγκεκριμένη διαδικασία που ακολουθείται και καταλήγει σε εκπαίδευση του
45
δικτύου. Το δίκτυο χρησιμοποιεί έναν εσωτερικό έλεγχο, ψάχνει να βρει κάποιες τάσεις ή
κανονικότητα στα σήματα εισόδου και προσπαθεί ώστε οι έξοδοι να έχουν τα ίδια χαρακτηριστικά όπως
και οι είσοδοι. Λέμε ότι έτσι έχουμε αυτο-εποπτευόμενη εκπαίδευση διότι το δίκτυο ελέγχει τον εαυτό
του και διορθώνει τα σφάλματα στα δεδομένα με ένα μηχανισμό ανάδρασης (feedback). Ο τρόπος αυτός
δεν συναντάται τόσο συχνά όπως η εποπτευόμενη εκπαίδευση και δεν είναι απόλυτα κατανοητός, αλλά
είναι πολύ χρήσιμος σε ορισμένες καταστάσεις που δεν υπάρχουν δεδομένα στο πρόβλημα. Σε όλες τις
περιπτώσεις όταν το δίκτυο σταματάει να αλλάζει τις τιμές των βαρών, τότε θεωρούμε ότι η εκπαίδευση
έχει επιτευχθεί. Αυτό συμβαίνει επειδή το λάθος στην έξοδο γίνεται μηδέν ή είναι πολύ κοντά (τείνει) στο
μηδέν.

3.5 Τα νευρωνικά δίκτυα και οι υπολογιστές

Το παραπάνω σχήμα δίνει το πιο απλό νευρωνικό δίκτυο που μπορεί να υπάρξει, δηλαδή αποτελείται από
έναν μόνο νευρώνα. Πιο περίπλοκα νευρωνικά δίκτυα δημιουργούνται από πολλούς νευρώνες οι οποίοι
συνδέονται μεταξύ τους με μια συγκεκριμένη δομή. Καθόσον, η δομή τέτοιων δικτύων μπορεί να είναι
πολύ περίπλοκη, ομιλούμε πλέον για αρχιτεκτονική δικτύων, πράγμα που αποτελεί ένα από τα καίρια
θέματα των τεχνητών νευρωνικών δικτύων. Η αρχιτεκτονική των νευρωνικών δικτύων είναι πολύ
διαφορετική από αυτήν των παραδοσιακών υπολογιστών που περιέχουν έναν επεξεργαστή. Οι γνωστοί
υπολογιστές δουλεύουν σειριακά, σύμφωνα με τις πρώτες ιδέες του νοn Neumann , και έχουν την
ικανότητα να επιτελούν μερικές εκατοντάδες εντολών που είναι πολύ γνωστές, όπως είναι οι αριθμητικές
πράξεις κτλ. Στην διαδικασία εκτέλεσης των εντολών ακολουθούν πιστά ένα εσωτερικό ρολόι.

Από τη φύση τους τα νευρωνικά δίκτυα δεν λειτουργούν σειριακά, αλλά με τρόπο που μοιάζει πιο πολύ
σε παράλληλο τρόπο λειτουργίας, διότι μία εργασία μοιράζεται στα διάφορα τμήματα του δικτύου,
μοιράζεται σε όλους τους επί μέρους νευρώνες [4]. Έτσι λέμε ότι τα νευρωνικά δίκτυα είναι συστήματα
«παράλληλων κατανεμημένων διεργασιών» «paraΙΙeΙ distributed processing»). Αυτό μας παρέχει μεγάλες
ταχύτητες, διότι είναι σαν να έχουμε ταυτόχρονα πολλούς επεξεργαστές στη διάθεσή μας. Αλλ' όμως η
αρχιτεκτονική των νευρωνικών δικτύων διαφέρει από αυτήν των παραλλήλων επεξεργαστών, για το λόγο
ότι οι απλοί επεξεργαστές των νευρωνικών δικτύων (δηλ. οι νευρώνες) έχουν μεγάλο αριθμό
διασυνδέσεων, ο οποίος συνολικά είναι πολύ μεγαλύτερος από τον αριθμό των νευρώνων. Και αυτό
βέβαια γιατί κάθε νευρώνας έχει πολλές συνδέσεις. Αντίθετα, στους παράλληλους υπολογιστές, οι
επεξεργαστές είναι συνήθως περισσότεροι από τις διασυνδέσεις μεταξύ τους και ως προς την
πολυπλοκότητα τους ακολουθούν την μηχανή νοn Neumann. Τα νευρωνικά δίκτυα διαφέρουν από αυτό,
διότι οι μονάδες τους είναι πολύ πιο απλές και επιτελούν πολύ απλούστερες λειτουργίες, δηλ. ξέρουν
μόνο να αθροίζουν τα σήματα εισόδου και να τροποποιούν τα βάρη των διασυνδέσεων. Επίσης, οι νευ-
ρώνες λειτουργούν ανεξάρτητα ο ένας από τον άλλο και δεν χρειάζονται συγχρονισμό. Αυτό δίνει στα
νευρωνικά δίκτυα την ευρωστία και ανοχή σε σφάλματα

Οι πληροφορίες που αποθηκεύονται σε ένα νευρωνικό δίκτυο μοιράζονται σε ένα μεγάλο αριθμό
46
μονάδων, δηλ. σε πολλούς νευρώνες. Αντίθετα, όταν αποθηκεύουμε στοιχεία στην μνήμη του
υπολογιστή, κάθε πληροφορία σε δυαδική μορφή τοποθετείται σε μια συγκεκριμένη τοποθεσία.

Πίνακας 3.1
Ομοιότητες και διαφορές μεταξύ των νευρωνικών δικτύων και του υπολογιστή με τη φιλοσοφία του von
Neumαnn.

Νευρωνικά Δίκτυα 2.Σειριακή επεξεργασία


1.Εργάζονται με σύγχρονο τρόπο λειτουργίας
3.Προγραμματίζεται με εντολές λογικού χαρα
2.Παράλληλη επεξεργασία κτήρα (if-then)
4.Η μνήμη και επεξεργασία πληροφορίας
3.Εκπαιδεύονται με παραδείγματα αλλάζοντας τα χωρίζονται
βάρη των συνδέσεών τους
4.Η μνήμη, τα δίκτυα και οι μονάδες λειτουργίας
συνυπάρχουν 5.Καμία ανοχή στα σφάλματα
6.Εξαρτάται εξ ολοκλήρου από το προσφερόμενο
5.Ανοχή στα σφάλματα λογισμικό
6.Αυτο-οργάνωση κατά τη διαδικασία της 7.Η πληροφορία αποθηκεύεται σε συγκεκριμένες
εκπαίδευσης διευθύνσεις μνήμης
8.Ο χρόνος ενός κύκλου είναι της τάξης του nsec
7.Η πληροφορία αποθηκεύεται στα βάρη των
συνδέσεων
8.Ο χρόνος ενός κύκλου είναι της τάξης του msec

Υπολογιστής
1.Εργάζεται με ασύγχρονο τρόπο λειτουργίας
47
Τελικά, όταν ένα νευρωνικό δίκτυο λύνει ένα πρόβλημα με επιτυχία, παρόλο που καταλαβαίνουμε την
μαθηματική διαδικασία που ακολουθείται (την οποία εμείς σχεδιάσαμε), εν τούτοις δεν καταλαβαίνουμε γιατί (ή
πως) λύνεται το πρόβλημα. Το νευρωνικό δίκτυο δεν «σπάζει» το πρόβλημα σε πολλά μικρά λογικά κομμάτια,
αλλά το λύνει με μία «ολιστική» μέθοδο, πράγμα που είναι δύσκολο για το ανθρώπινο μυαλό να το κατανοήσει
με απλή λογική. Βέβαια η λύση ελέγχεται εύκολα ότι είναι η σωστή, και έτσι η τεχνική αυτή μπορεί να
χρησιμοποιείται με επιτυχία.

Μια άλλη νέα ιδιότητα στα νευρωνικά δίκτυα είναι αυτή της ανοχής σφάλματος. Αυτό σημαίνει ότι αν ένα μικρό
τμήμα του δικτύου χαλάσει, το υπόλοιπο δίκτυο συνεχίζει να λειτουργεί, έστω και με ένα μικρό σφάλμα. Αν το
δούμε με άλλο τρόπο, σημαίνει ότι, αν τα δεδομένα ενός προβλήματος σε ένα μικρό μέρος τους είναι εσφαλμένα,
το δίκτυο δίδει την σωστή απάντηση και πάλι όμως με ένα μικρό σφάλμα. Είναι γνωστό ότι σε όλα τα παραπάνω
οι υπολογιστές δουλεύουν τελείως διαφορετικά. Αν, λ.χ. από λάθος σε ένα υπολογιστικό πρόγραμμα ζητήσουμε
να γίνει μια διαίρεση μιας ποσότητας δια του μηδενός, τότε ο υπολογιστής σταματά αμέσως την εκτέλεση του
προγράμματος και δίνει μήνυμα σφάλματος, έστω και αν δεν υπάρχει κανένα άλλο σφάλμα στο πρόγραμμα.
Αντίθετα ένα νευρωνικό δίκτυο καταλαβαίνει ότι μια τέτοια διαίρεση είναι αδύνατη, την ξεπερνά με κάποιο
σφάλμα στο τελικό αποτέλεσμα και συνεχίζει την λύση του προβλήματος. Βλέπουμε λοιπόν ότι στα νευρωνικά
δίκτυα έχουμε κάποια ανοχή στα σφάλματα. Είναι φυσικό να ρωτήσουμε βέβαια πόσο μεγάλη μπορεί να είναι η
ανοχή αυτή. Η απάντηση είναι ότι δεν μπορούμε να προσδιορίσουμε ένα γενικό ποσοστό ανοχής σφάλματος,
αλλά οι συνηθισμένες τιμές σε διάφορα προβλήματα που παρουσιάζονται για την μεγαλύτερη δυνατή ανοχή
είναι της τάξης του 10-15%. Όλα όμως εξαρτώνται από το συγκεκριμένο πρόβλημα και φυσικά υπάρχουν
διακυμάνσεις στα νούμερα αυτά.

Το χαρακτηριστικό της ανοχής του σφάλματος στα νευρωνικά δίκτυα είναι μια ιδέα που δεν την συναντάμε σε
άλλες συνήθεις υπολογιστικές τεχνικές. Μερικές φορές το στοιχείο αυτό είναι επιθυμητό και λύνει το πρόβλημα
μας σχετικά εύκολα, ενώ με άλλες μεθόδους μπορεί να είναι πολύ χρονοβόρο. Είναι ιδιαίτερα χρήσιμο όταν δεν
μας ενδιαφέρει η απόλυτη ακρίβεια, αλλά μια προσεγγιστική λύση μπορεί να αρκεί για αυτό που θέλουμε. Αυτό
όμως δεν συμβαίνει πάντα και δεν μπορούμε να πούμε ότι με τα νευρωνικά δίκτυα μπορούμε να λύσουμε όλα τα
προβλήματα που μέχρι σήμερα είναι άλυτα. Σε μερικά προβλήματα η χρήση τους δεν συνίσταται καθόλου.

3.6 Σύγχρονες εφαρμογές των νευρωνικών δικτύων

Όλες οι εφαρμογές των νευρωνικών δικτύων έχουν προκύψει τα τελευταία λίγα χρόνια και μερικές από αυτές
ήδη βρίσκονται ως έτοιμα προϊόντα στην αγορά και χρησιμοποιούνται ευρέως. Είναι βέβαιο ότι τα επόμενα
χρόνια ένας πολύ μεγαλύτερος αριθμός θα ακολουθήσει, αφού ακόμη το πεδίο αυτό βρίσκεται σε νηπιακή
ηλικία. Οι εφαρμογές αυτές περιλαμβάνουν αναγνώριση προτύπων, υπολογισμό συναρτήσεων, βελτιστοποίηση,
πρόβλεψη, αυτόματο έλεγχο και πολλά άλλα θέματα. Θα περιγράψουμε εδώ μερικές από τις εφαρμογές αυτές,
αλλά δεν είναι δυνατόν να αναφερθούμε σε όλες διότι ο αριθμός τους είναι πολύ μεγάλος:

Στις τραπεζικές εργασίες μια δύσκολη απόφαση είναι να υπολογισθεί ο παράγοντας επικινδυνότητας σε μια
αίτηση για ένα στεγαστικό δάνειο . Από τα δεκάδες στοιχεία που περιέχει μια αίτηση, η τράπεζα θέλει να ξέρει τι
πιθανότητα υπάρχει ο πελάτης να αδυνατεί να κάνει τις πληρωμές του συμβολαίου. Τα στοιχεία που παίζουν
48
ρόλο στις αποφάσεις αυτές είναι το εισόδημα και η φερεγγυότητα του δανειολήπτη. Ένα πρόγραμμα νευρωνι-
κού δικτύου που λέγεται «Νέστωρ» (Nestor) εκπαιδεύεται σε μερικές χιλιάδες αιτήσεις, από τις οποίες οι μισές
εγκρίθηκαν και οι μισές απορρίφθηκαν από την τράπεζα με απόφαση των υπαλλήλων της. Συγκρίνοντας με τα
πραγματικά δεδομένα, για μία νέα αίτηση δανείου που γίνεται στην τράπεζα, το σύστημα ψάχνει να βρει στοι-
χεία και να αποφασίσει τι ακριβώς αποτελεί παράγοντα μεγάλης επικινδυνότητας. Τελικά, παίρνει μια απόφαση
να δώσει ή να μην δώσει το δάνειο, η οποία έχει μεγαλύτερο ποσοστό επιτυχίας από άλλες μεθόδους. Το
πρόγραμμα «Nestor» έχει χρησιμοποιηθεί αρκετά τα τελευταία χρόνια.

Μια άλλη εφαρμογή είναι η δημιουργία φίλτρου που τοποθετείται σε τηλεπικοινωνιακές γραμμές, όπως λ.χ. οι
τηλεφωνικές γραμμές, και το οποίο «καθαρίζει» την γραμμή από το θόρυβο και την ηχώ, ενώ συγχρόνως
περιορίζει τα σφάλματα κατά τη μετάδοση. Το πρώτο τέτοιο φίλτρο επινοήθηκε από τον Β. Widrow, ονομάζεται
Adaline και χρησιμοποιείται πάνω από 30 χρόνια με επιτυχία. Είναι από τις πιο παλιές εφαρμογές των
νευρωνικών δικτύων .
Στη χημική ανάλυση χρησιμοποιούνται νευρωνικά δίκτυα εκεί όπου πρέπει να ληφθούν γρήγορες αποφάσεις και
δεν υπάρχει χρόνος για να γίνουν λεπτομερείς και χρονοβόρες αναλύσεις στο εργαστήριο. Ένα παράδειγμα είναι
να μπορεί να γίνει γρήγορος έλεγχος στις αποσκευές επιβατών στα αεροδρόμια για το αν υπάρχουν εκρηκτικές
ύλες μέσα σ' αυτές. Η εταιρία Science Application Intemational (SAIC), έχει δημιουργήσει μια συσκευή
θερμικής ανάλυσης νετρονίων (thermal neutron analysis, ΤΝΑ) που ελέγχεται από ένα νευρωνικό δίκτυο και
ανακαλύπτει αντικείμενα τα οποία περιέχουν εκρηκτικά, με το να αναλύσει το σήμα εκπομπής ακτινών γ . Η
επιτυχία του συνίσταται στο ότι μπορεί να ξεχωρίσει την προέλευση των στοιχείων και, έτσι, μπορεί να
καταλάβει και να ξεχωρίσει το σήμα από το άζωτο σε μία βόμβα ή σε ένα γιαούρτι. Σε ένα αεροδρόμιο η
ταχύτητα της ανάλυσης είναι 5 δευτερόλεπτα ανά βαλίτσα. Έχει επιτυχία περί το 90%, πράγμα που σημαίνει ότι
το ένα στα δέκα αντικείμενα πρέπει να εξετάζεται χειρωνακτικά από υπάλληλο.

Μια άλλη πολύ χρήσιμη εφαρμογή των νευρωνικών δικτύων είναι στην αναγνώριση εικόνων, κειμένων και
γενικά προτύπων (pattem recognition). Η εφαρμογή αυτή περιλαμβάνει πάρα πολλές δραστηριότητες, από τις
πλέον επιτυχείς των νευρωνικών δικτύων, αλλά εδώ θα αναφέρουμε μόνον ένα απλό πρόγραμμα που σήμερα
χρησιμοποιείται κατά κόρον στην επεξεργασία κειμένων. Το πρόγραμμα αυτό λέγεται «Omnipage», το ανέπτυξε
η εταιρία Caere (που τώρα λέγεται ScanSoft) το 1994 και υλοποιείται σε ένα απλό PC.. Το πρόγραμμα διαβάζει
τυπωμένα κείμενα με σαρωτή (scanner) και τα μετατρέπει σε χαρακτήρες ASCII. Μάλιστα το πρόγραμμα αυτό
δουλεύει ικανοποιητικά, έστω και αν τα γράμματα είναι μερικώς καταστραμμένα, όπως λχ. συμβαίνει συχνά σε
σελίδες fax.

Η εταιρία Nestor έχει επίσης αναπτύξει ένα πρόγραμμα που αναγνωρίζει την γραφή Κάντζι (ιαπωνική γραφή)
και έτσι μεταφράζει αυτόματα διάφορα κείμενα στα Αγγλικά. Η αρχική έκδοση μπορούσε να αναγνωρίσει 2500
χαρακτήρες με επιτυχία 92%. Ο μέσος Ιάπων αναγνωρίζει περίπου 2000-3000 τέτοιους χαρακτήρες. Το δίκτυο
αυτό χρησιμοποιεί μία γενικευμένη λογική που θα μπορούσε εύκολα να εφαρμοσθεί και σε άλλες γλώσσες, όπως
Κυριλλικά, Εβραϊκά κτλ.
49
Ένα άλλο γνωστό πρόβλημα είναι η μετατροπή κειμένου σε φωνή, και βέβαια το αντίστροφο. Ένα γνωστό
πρόγραμμα, το NETta1k, κάνει ακριβώς αυτό, δηλ. ένα δίκτυο εκπαιδεύεται στο να διαβάζει γραπτά κείμενα και
να τα απαγγέλλει . Το δίκτυο έχει 309 νευρώνες με 18629 συνάψεις σε 3 διαφορετικά επίπεδα. Η είσοδος του
δικτύου αποτελείται από 7 ομάδες νευρώνων και κάθε ομάδα από 29 νευρώνες (ένα για τα 26 γράμματα, ένα για
το κενό, την τελεία, και το κόμα). Η έξοδος αποτελείται από 26 νευρώνες, ενώ το μεσαίο επίπεδο έχει 80
νευρώνες. Το πρόγραμμα εξετάζει ένα παράθυρο με 7 χαρακτήρες, το οποίο συνεχώς μετακινείται κατά ένα
χαρακτήρα, διορθώνει τα σφάλματα του και μετά την εκπαίδευση του το δίκτυο μπορεί να βρει τους κανόνες για
τα φωνήεντα, τα κενά κτλ. και μεταβάλλει τα βάρη του ανάλογα. Στην αρχή η απαγγελία ήταν ακατανόητη,
μετά ήταν νηπιακής μορφής και τελικά έφθασε σε 95% αναγνωρίσιμης και κατανοητής ομιλίας.

Φυσικά, ο αριθμός των εφαρμογών που λειτουργούν σήμερα και βασίζονται σε νευρωνικά δίκτυα είναι πολύ
μεγαλύτερος από αυτές που αναφέρονται παραπάνω, οι οποίες είναι μόνον ενδεικτικές των δραστηριοτήτων στην
περιοχή αυτή, ενώ καθημερινά δημιουργούνται καινούργιες. Μια απλή λίστα σε μερικές περιοχές με διάφορες
εφαρμογές θα μπορούσε να περιλάβει επιγραμματικά και μόνον:

Βιολογία
. Καλύτερη κατανόηση της λειτουργίας του εγκεφάλου

. Μοντέλα για την όραση (την αίσθηση στην οποία έχει γίνει η μεγαλύτερη έρευνα σήμερα και για την οποία
έχουμε την καλύτερη κατανόηση)

Επιχειρήσεις
. Εκτίμηση για την ύπαρξη κοιτασμάτων πετρελαίου σε γεωλογικά πετρώματα

. Για την επιλογή του κατάλληλου προσωπικού σε σημαντικές θέσεις στην επιχείρηση

Ιατρική

. Ανάγνωση και ανάλυση των ακτινών Χ

. Κατανόηση των επιληπτικών κρίσεων


. Παρακολούθηση εγχείρησης
. Προβλέψεις για αντιδράσεις οργανισμών στην λήψη φαρμάκων

. Διάγνωση και θεραπεία από τα συμπτώματα

. Ανάλυση ομιλίας σε ακουστικά βαρηκοΐας κωφών ατόμων

Στρατιωτική τέχνη
50
. Αναγνώριση και παρακολούθηση στόχων
. Βελτιστοποίηση της χρήσης πόρων σε έλλειψη
. Κωδικοποίηση σημάτων ραντάρ

. Δημιουργία «έξυπνων» όπλων

. Για κατόπτευση

Χρηματοοικονομικά
. Ανάλυση επικινδυνότητας δανείων

. Ανάγνωση χειρόγραφων κειμένων

. Αξιολόγηση επενδύσεων και ανάλυση χαρτοφυλακίων . Αναγνώριση πλαστογραφιών

Βιομηχανία

. Αυτοματικοποίηση ρομπότ και συστημάτων ελέγχου

. Επιλογή ανταλλακτικών κατά την συναρμολόγηση

. Έλεγχος στην γραμμή παραγωγής

. Επιθεώρηση της ποιότητας κατα την κατασκευή

Περιβάλλον
. Πρόβλεψη καιρού

. Ανάλυση τάσεων και παρατηρήσεων

3.7.1 Η αρχή

3.7 Ιστορική αναδρομή

Επειδή τα νευρωνικά δίκτυα είναι σχετικά μία νέα περιοχή, δεν υπάρχει ουσιαστικά μεγάλη προϊστορία, όπως
σε άλλες παραδοσιακές επιστήμες. Ξεκίνησε σε διεθνές επίπεδο μόλις κατά τις τελευταίες δεκαετίες, αλλά η
μεγάλη ώθηση σ' αυτά δόθηκε μετά το 1980. Σ' αυτό βοήθησε τόσο η τεράστια ανάπτυξη του υλικού /λογισμικού
των Η/Υ όσο και η ανάπτυξη νέων αλγορίθμων εκπαίδευσης. Η ανάπτυξη των νευρωνικών δικτύων πέρασε από
πολλές φάσεις και εξελίξεις.
51

Το πρώτο μοντέλο νευρωνικού δικτύου το οποίο προτείνει ότι οι νευρώνες είναι η βασική μονάδα του δικτύου
παρουσιάσθηκε το 1943 από τους McCulloch και Pitts. Σε μία πρώτη εργασία τους οι ερευνητές αυτοί
παρουσίασαν για πρώτη φορά την ιδέα ότι ένα νευρωνικό δίκτυο αποτελείται από μία συλλογή ενός μεγάλου
αριθμού νευρώνων και έδειξαν πώς θα μπορούσαν να λειτουργούν οι νευρώνες με τις διασυνδέσεις τους. Αυτή
θεωρείται ιστορικά ότι είναι η πρώτη εικόνα ενός νευρωνικού δικτύου. Μάλιστα οι συγγραφείς θεώρησαν ότι οι
νευρώνες και οι συνδέσεις τους είναι ένα πρότυπο, ανάλογο ενός ηλεκτρικού κυκλώματος. Ο McCulloch ήταν
νευροφυσιολόγος και ο Pitts ένας 18χρονος πρωτοετής φοιτητής των Μαθηματικών. Οι ίδιοι συγγραφείς
προχώρησαν το 1947 σε πιο εξελιγμένο πρότυπο για την αναγνώριση σχημάτων. Το πρότυπο αυτό περιέχει
πολλά χαρακτηριστικά από τα μεταγενέστερα πρότυπα. Ο νευρώνας θεωρείται ότι μπορεί να έχει δύο μόνον
καταστάσεις. Μπορεί να δέχεται πολλές εισόδους αλλά δίνει μία μόνον έξοδο. Οι έξοδοι από διαφορετικούς
νευρώνες δεν επιτρέπεται να ενώνονται, αλλά πρέπει υποχρεωτικά να οδηγούν σε είσοδο άλλου νευρώνα. Οι
απολήξεις των νευρώνων είναι δύο ειδών: διεγερτικές και ανασταλτικές. Οι δύο καταστάσεις του νευρώνα είναι
ότι είτε πυροδοτεί ή βρίσκεται σε ηρεμία. Η ροή της πληροφορίας μέσα στον νευρώνα ελέγχεται από πύλες, οι
οποίες επίσης είναι διεγερτικές ή ανασταλτικές. Όταν ο νευρώνας πυροδοτεί, στέλνει ένα παλμό. Οι λειτουργίες
αυτές πάντα γίνονται σε διακριτό χρόνο και υποτίθεται ότι όλοι οι νευρώνες αποκρίνονται ταυτόχρονα, δηλ. το
σύστημα δρα συγχρονισμένα. Η κατάσταση ενός νευρώνα σε χρόνο t + 1 εξαρτάται από την κατάστασή του σε
χρόνο t και από τις εισόδους που εισέρχονται στην χρονική αυτή στιγμή.

3.7.2 Τα πρώτα μοντέλα

Το μοντέλο του αισθητήρα (perceptron) παρουσιάσθηκε για πρώτη φορά το 1957 από τον F. Rosenb1att [12], ο
οποίος αρχικά έφτιαξε το πρώτο δίκτυο με hardware που μπορούσε να κάνει πολλές και διάφορες διεργασίες.
Είναι ένα πολύ απλό μοντέλο (οι λεπτομέρειες θα παρουσιασθούν στα επόμενα κεφάλαια) που έχει μόνο δύο
επίπεδα, αυτά της εισόδου και της εξόδου. Το σήμα προχωρά μονοδρομικά από την είσοδο στην έξοδο. Το
μοντέλο αυτό στην αρχή είχε πολλές επιτυχίες, δημιούργησε μεγάλο ενθουσιασμό και μάλιστα ήδη αρχίζει να
συζητείται η ιδέα ότι πιθανόν τα νευρωνικά δίκτυα να είναι η ανώτερη τεχνική που λύνει όλα τα προβλήματα
που μέχρι τότε παρέμεναν άλυτα. Οι πρώτες λοιπόν επιτυχίες μεγαλοποιήθηκαν, αλλά γρήγορα φάνηκε ότι τα
μοντέλα αυτά είχαν πολλούς περιορισμούς. Μια συνολική και εμπεριστατωμένη εικόνα του προτύπου αυτού
παρουσιάσθηκε το 1969 στο βιβλίο «Perceptrons» των Minsky και Papert. Αποδεικνύεται με αναλυτικά
μαθηματικά ότι υπάρχουν συγκεκριμένοι περιορισμοί στο πρότυπο αυτό. Οι αρχικές προσδοκίες που είχαν
δημιουργηθεί ήδη φαίνεται ότι δεν επαληθεύονται και προς το παρόν τα νευρωνικά δίκτυα χάνουν την
δημοτικότητα τους, με αποτέλεσμα ο κόσμος να στρέφεται σε μια νέα παρεμφερή περιοχή που τότε άρχισε να
γίνεται γνωστή, την Τεχνητή Νοημοσύνη.

Την ίδια περίπου εποχή με την ανάπτυξη του μοντέλου του αισθητήρα οι Widrow και Hoff ανέπτυξαν το 1959
δύο νέα μοντέλα, το Ada1ine και το Madaline, τα οποία όπως είδαμε νωρίτερα ήταν από τα πρώτα μοντέλα που
χρησιμοποιήθηκαν επιτυχώς για πρακτικά προβλήματα: Χρησιμοποιήθηκαν ως φίλτρα για να εξαλείψουν την
ηχώ σε τηλεφωνικές γραμμές.
52

Τα επόμενα είκοσι χρόνια, μέχρι περίπου το 1980, μικρή μόνο πρόοδος επιτελέσθηκε στα νευρωνικά δίκτυα,
διότι οι περιορισμοί που αναφέρθηκαν παραπάνω αποθάρρυναν τους περισσότερους στο πεδίο αυτό, το οποίο,
όπως φάνηκε λίγο αργότερα, έψαχνε να βρει μία διέξοδο και να κάνει νέα σημαντικά βήματα.

3.7.3 Η ωρίμανση

Η διέξοδος αυτή ήρθε με ένα μνημειώδες έργο που παρουσιάσθηκε το 1982 από τον J. Hopfield , ο οποίος είναι
βιολόγος, και το οποίο έδωσε μεγάλη ώθηση στην ανάπτυξη των δικτύων. Σε μία εργασία του μόλις 5 σελίδων ο
Hopfield έδειξε με αυστηρά μαθηματική απόδειξη πώς ένα νευρωνικό δίκτυο μπορεί να χρησιμοποιηθεί ως
αποθηκευτικός χώρος (storage device) και πώς επίσης μπορεί ένα δίκτυο να επανακτήσει όλη την πληροφορία
ενός συστήματος έστω και αν του δοθούν μερικά τμήματα μόνο και όχι ολόκληρο το σύστημα. Αμέσως
εκτιμήθηκε η σπουδαιότητα της ιδιότητας αυτής και ως εκ τούτου η εργασία αυτή αποτέλεσε έμπνευση για πολ-
λές άλλες ιδέες που ακολούθησαν.

Ένα επόμενο σημαντικό βήμα ήταν η πρόοδος που επιτελέσθηκε στην διαδικασία εκπαίδευσης των δικτύων όταν
επινοήθηκε ο κανόνας της διόρθωσης του σφάλματος (errοr cοrrectίοn learning). Έγινε κατανοητό ότι κατά την
εκπαίδευση ενός δικτύου, σε όποια κατάσταση και αν βρίσκεται αυτό σε μια δεδομένη στιγμή, σημασία έχει η
απόκλιση που δίνει στην την έξοδο του το δίκτυο από την αναμενόμενη τιμή ή τον στόχο που έχουμε θέσει. Η
διαφορά αυτή δίνει το σφάλμα που παράγει το δίκτυο την δεδομένη στιγμή n και δίνεται από:

δ(n) = t(n)-o(n)

όπου «t» είναι ο στόχος, «o » είναι η έξοδος και «δ» είναι το σφάλμα. Το δ τώρα ενεργοποιεί ένα μηχανισμό
ελέγχου με σκοπό να επιφέρει μια σειρά από διορθωτικές αλλαγές στα βάρη w, πράγμα που θα φέρει το δίκτυο
πλησιέστερα στην εκπαίδευση του. Αυτό γίνεται με τον υπολογισμό της ποσότητας Δ:

Δί = ηδΧί

οπου η είναι μιά σταθερά, και Χί είναι η τιμή του σήματος εισόδου. Τέλος το Δw(n), δηλ. η διόρθωση του βάρους
w στην δεδομένη στιγμή n, δίνεται κατ' ευθείαν από το Δ:

Δw(n) = Δί

Ο κανόνας αυτός λέγεται «κανόνας Δ» ή κανόνας «Widrow-Hoff» και χρησιμοποιείται ευρύτατα σε διάφορες
μεθόδους εκπαίδευσης δικτύων, όπως θα δούμε στα επόμενα κεφάλαια.

Το 1986 δημοσιεύεται ένα άλλο σημαντικό έργο από τους McC1elland και Rumelhart, το «Parallel Distributed
53
Processing», το οποίο ανοίγει νέους δρόμους στην εκπαίδευση των νευρωνικών δικτύων. Παρουσιάζεται η
ιδέα πώς ένα νευρωνικό δίκτυο μπορεί να θεωρηθεί και να χρησιμοποιηθεί ως παράλληλος επεξεργαστής. Το
έργο αυτό κάνει ένα σημαντικό βήμα πέρα από το Perceptron, με το να επιτρέπει την ύπαρξη και άλλων
επιπέδων νευρώνων, εκτός από την είσοδο και την έξοδο, που αποτελούν την εσωτερική δομή του δικτύου.
Προτείνουν μία νέα διαδικασία εκπαίδευσης, την μέθοδο της οπισθοδιάδοσης (back-propagation), η οποία
χρησιμοποιεί τις παραπάνω εξισώσεις και κατέληξε να είναι η πιο χρήσιμη σήμερα. τεχνική εκπαίδευσης
δικτύων. Η μέθοδος αυτή είχε συζητηθεί και από άλλους νωρίτερα, αλλά για πρώτη φορά το 1986
παρουσιάσθηκε ολοκληρωμένα και με αυστηρό μαθηματικό τρόπο.

3.7.4 Η κατάσταση σήμερα

Μετά την πρόοδο σε τόσα πολλά σημεία που παρουσιάσθηκε ιδιαίτερα την δεκαετία του 1980, τα τελευταία
δέκα χρόνια παρατηρούμε ότι αρχίζουν να εμφανίζονται πολλά σημεία που δείχνουν ότι η περιοχή των
νευρωνικών δικτύων έχει πλέον ωριμάσει και αναπτυχθεί σε ένα ανεξάρτητο πεδίο της επιστήμης με δικά του
στοιχεία, δικό του χαρακτήρα σαφώς καθορισμένο και τέλος με μεγάλο αριθμό επιστημόνων που ασχολούνται
αποκλειστικά τώρα με την νέα αυτή περιοχή. Τα στοιχεία αυτά είναι:

Από το 1985 και μετά αρχίζουν τα πρώτα συνέδρια που είναι αφιερωμένα αποκλειστικά σε νευρωνικά δίκτυα,
από την American PhysicaI Society και από την ΙΕΕΕ. Παρακολουθούνται από περισσότερους από χίλιους
συνέδρους. Ταυτόχρονα δημιουργούνται ειδικές επαγγελματικές εταιρίες νευρωνικών δικτύων με χιλιάδες μέλη,
όπως η IntemationaI NeuraI Network Society με τρεις πόλους: Αμερική (με διευθυντή τον Grossberg), Ευρώπη
(Kohonen) και Ιαπωνία (Amari).

Προς τα τέλη της δεκαετίας του ογδόντα παρουσιάζονται τουλάχιστον πέντε νέα περιοδικά αφιερωμένα
αποκλειστικά στα νευρωνικά δίκτυα, ενώ πριν λίγα xρόνια δεν υπήρχε ούτε ένα. Τ α τελευταία χρόνια μετά το
1990 εκδίδονται και άλλα 3-4 νέα, με συνέπεια να υπάρχουν σήμερα περίπου 10 επιστημονικά περιοδικά
αφιερωμένα στα νευρωνικά δίκτυα. Φυσικά, και τα γνωστά περιοδικά της Επιστήμες Υπολογιστών, της Φυσικής
και των Ηλεκτρολόγων Μηχανικών επίσης περιλαμβάνουν πλειάδα άρθρων με νέα αποτελέσματα στα νευρωνικά
δίκτυα. Κάθε μήνα πλέον δημοσιεύονται εκατοντάδες εργασίες με αποκλειστικό θέμα κάποια άποψη των νευ-
ρωνικών δικτύων.
Πολύ σημαντικό είναι επίσης το γεγονός ότι τα τελευταία δεκαπέντε χρόνια δημιουργήθηκαν και οι πρώτες
εμπορικές εταιρίες οι οποίες ασχολούνται αποκλειστικά με νευρωνικά δίκτυα. Βρίσκονται σχεδόν όλες στις
ΗΠΑ, συνήθως έχουν μικρό αριθμό εργαζομένων (λ.χ. 20 άτομα), και παράγουν εξειδικευμένα προγράμματα για
την λύση συγκεκριμένων προβλημάτων. Μερικά από αυτά έχουν επιτυχία, αλλά διαφαίνεται με το πέρασμα του
χρόνου ότι οι αρχικές προσδοκίες για ραγδαία αύξηση των εμπορικών εφαρμογών δεν επαληθεύονται. Έχουν
φθάσει πλέον σε ένα σταθερό επίπεδο ανάπτυξης, ενώ η ετήσια αύξηση είναι μικρή.
54
Σύνοψη

Τα νευρωνικά δίκτυα έχουν δημιουργήσει κατά τις τελευταίες δεκαετίες μία νέα επιστήμη η οποία επικαλύπτει
όλες σχεδόν τις θετικές επιστήμες και την μηχανολογία. Μέχρι σήμερα έχουν χρησιμοποιηθεί σε ένα μεγάλο
αριθμό εφαρμογών και μάλιστα σε προβλήματα που οι γνωστοί τρόποι αντιμετώπισης τους παρουσιάζουν
δυσκολίες, με αποτέλεσμα την απόδειξη της αναγκαιότητας τους. Στην ουσία είναι προγράμματα σε
ηλεκτρονικό υπολογιστή και για αυτό ονομάζονται τεχνητά νευρωνικά δίκτυα (ΤΝΔ). Έχουν μία δομή η οποία
εμπνέεται από το πρότυπο του ανθρώπινου εγκεφάλου. Δεν περιέχουν όλες τις λεπτομέρειες της δομής και
λειτουργίας του εγκεφάλου, οι οποίες εξάλλου δεν είναι γνωστές ακόμα και σήμερα. Χρησιμοποιούν μόνο την
κεντρική ιδέα της δομής και της λογικής λειτουργίας του, ξεκινώντας από μία συλλογή μονάδων που είναι
αντίστοιχες προς τους νευρώνες-κύτταρα, και προσπαθούν να επιτελέσουν τις ανάλογες διεργασίες για τις
οποίες έχουν σχεδιασθεί. Τελικά όμως τα βιολογικά και τα τεχνητά δίκτυα διαφέρουν πάρα πολύ ως προς την
αρχιτεκτονική και τις ιδιότητες τους. Οι νευρώνες στα ΤΝΔ είναι συνδεδεμένοι μεταξύ τους μέσω των βαρών
τους. Λειτουργούν με το να δέχονται και να αποστέλλουν κάποιο συγκεκριμένο σήμα. Ο τρόπος σύνδεσης
εξαρτάται από τον τύπο του δικτύου που αναπαριστούν. Τα δίκτυα εκπαιδεύονται ώστε να αναγνωρίζουν και να
επιτελούν μία συγκεκριμένη διεργασία. Η εκπαίδευσή τους γίνεται με το να αλλάζουν οι τιμές των βαρών τους.
Αναπτύχθηκαν μόλις τις τελευταίες δεκαετίες και έχουν πετύχει αρκετά εντυπωσιακά αποτελέσματα, αλλά έχει
φανεί επίσης ότι έχουν και αρκετούς περιορισμούς. Οι περιορισμοί δημιουργούνται συχνά όταν το μέγεθος και η
πολυπλοκότητα του συστήματος αυξάνουν. Είναι ιδιαίτερα ικανά σε συνδυαστικά προβλήματα και σε
γενικοποιήσεις. Αντίθετα, δεν είναι ικανά σε προβλήματα λογικής και σε υπολογισμούς, όπου η αριθμητική
ακρίβεια είναι σημαvτικός παράγων. Υπάρχουν πάρα πολλά μοντέλα δικτύων με διαφορετική δομή, φιλοσοφία
και τρόπο λειτουργίας και πολλές και διάφορες εφαρμογές.

Το ιστορικό ενδιαφέρον για τα νευρωνικά δίκτυα προέρχεται από την θέληση να φτιάξουμε μηχανές που είναι
ικανές να επιτελούν πολύ περίπλοκες πράξεις και οι οποίες δεν γίνονται με επιτυχία από τον σειριακό τρόπο
λειτουργίας των γνωστών μας υπολογιστών του μοντέλου του von Neumαnn. Η ανάπτυξη των νευρωνικών
δικτύων πέρασε πολλές φάσεις, άλλες από τις οποίες ήταν πολύ ενδιαφέρουσες με μεγάλα επιτεύγματα και άλλες
όχι τόσο. Αριθμούν μια ιστορία περίπου πενήντα ετών. Το βέβαιο είναι ότι από το 1980 και μετά η περιοχή αυτή
έχει πάρει την θέση της ως μία νέα ειδικότητα διαθεματικού χαρακτήρα, όπως φαίνεται από την έρευνα που
γίνεται καθημερινά, τα σχετικά δημοσιεύματα, τις δραστηριότητες, και τις εμπορικές εφαρμογές που
κυκλοφορούν σήμερα στην αγορά.

Βιολογικά Νευρωνικά Δίκτυα

Ο ανθρώπινος οργανισμός αποτελείται από πολλά συστήματα και υποσυστήματα, αν και συχνά στην
καθομιλουμένη τον αναφέρουμε ως ένα όργανο. Περιέχει ένα πολύ μεγάλο αριθμό νευρώνων, πολλών
διαφορετικών τύπων, οι οποίοι έχουν πολύ περίπλοκη συνδεσμολογία και απαρτίζουν πολλά νευρωνικά δίκτυα.
Τα δίκτυα μεταφέρουν ηλεκτρικά σήματα σε ολόκληρο το Κεντρικό Νευρικό Σύστημα, τα οποία και ελέγχουν
κάθε λειτουργία του. Τα σήματα αυτά δημιουργούνται με την απότομη αλλαγή του δυναμικού δράσης εξαιτίας
55
της μεταβολής των συγκεντρώσεων των ιόντων κυρίως του νατρίου και ασβεστίου στο εσωτερικό και
εξωτερικό του κυττάρου του νευρώνα. Στο σημερινό επίπεδο γνώσεων, γνωρίζουμε και εξηγούμε ικανοποιητικά
τόσο την ανατομική δομή των κυττάρων αυτών, όσο και τον μηχανικό τρόπο λειτουργίας τους Στο σημείο, όμως,
που η επιστήμη ακόμη και σήμερα έχει πολύ μικρή πρόοδο, είναι στο πώς αυτές οι πρωτογενείς λειτουργίες
μετατρέπονται σε αφηρημένες έννοιες που κατανοούν όλοι οι ζώντες οργανισμοί. Οπωσδήποτε, όμως, οι ιδέες:
από τη δομή και λειτουργία των νευρωνικών δικτύων των ζώντων οργανισμών χρησιμοποιούνται άμεσα για την
κατασκευή υπολογιστικών νευρωνικών δικτύων, οι οποίοι με τη σειρά τους μπορούν να επιτελούν ένα πλήθος
από διεργασίες και να λύνουν ικανοποιητικά πολλά προβλήματα.

Σύγκριση με Τεχνητά νευρωνικά δίκτυα

Είδαμε ότι οι αριθμοί των μονάδων των νευρώνων και οι συνδέσεις τους είναι πράγματι πολύ μεγάλοι. Ως τάξη
μεγέθους είναι πολύ μεγαλύτεροι από τους αριθμούς μονάδων που μπορεί να χειριστεί εύκολα σήμερα ένας
υπολογιστής και μάλλον πλησιάζει το ανάλογο των ατόμων/ μορίων στην ύλη (αριθμός του Avogadro). Είναι
μάλλον λογικό να είναι έτσι τα πράγματα, αν πάρουμε υπ' όψη μας την πολυπλοκότητα του ανθρώπινου νου και
όλες τις διεργασίες που επιτελεί. Τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ) οπωσδήποτε υπολείπονται κατά πολύ στο
σημείο αυτό και δεν μπορούν να κάνουν πράγματα που ο εγκέφαλος ακόμα και ενός παιδιού επιτελεί με μεγάλη
ευκολία. Ένα ΤΝΔ μπορεί να έχει μερικές εκατοντάδες ή χιλιάδες νευρώνες, αλλά όχι την τάξη μεγέθους που
έχει ο ανθρώπινος εγκέφαλος. Από την άλλη μεριά τα ΤΝΔ μπορούν να λύσουν δύσκολα μαθηματικά
προβλήματα, όπως είναι η αναγνώριση συστήματος, η πρόβλεψη κ.α., στα οποία ο ανθρώπινος εγκέφαλος δεν τα
καταφέρνει καλά. Επιπλέον, υπάρχουν πολλές άλλες διαφορές, όπως ότι οι συνάψεις είναι πολύ περίπλοκες στα
βιολογικά, ενώ πολύ απλές στα ΤΝΔ. Η συνδεσμολογία (ο τρόπος και ο αριθμός συνδέσεων) είναι επίσης πολύ
πιο περίπλοκη στα βιολογικά νευρωνικά δίκτυα. Η διαφορά τους αυτή στις συνάψεις είναι μάλλον η πιo
σημαντική διαφορά μεταξύ των δύο αυτών ειδών. Η ταχύτητα όμως στους υπολογιστές είναι χιλιάδες φορές
μεγαλύτερη από την ταχύτητα διάδοσης του σήματος στα βιολογικά νευρωνικά δίκτυα. Παρόλα αυτά, η διαφορά
στην ταχύτητα δεν επαρκεί για να καλύψει διαφορά στην πολυπλοκότητα.

Κανόνες εκπαίδευσης ΤΝΔ

Όλοι οι αλγόριθμοι εκπαίδευσης βασίζονται σε γενικούς "κανόνες" μάθησης, εκ των οποίων άλλοι έχουν ως
πρότυπό τους το μοντέλο της βιολογικής μάθησης και άλλοι αποτελούν υλοποίηση μαθηματικών μοντέλων.
Πάντως, ο μηχανισμός της μάθηση ς είναι σίγουρα πιο πολύπλοκος από τις απλοποιήσεις που εμπεριέχουν οι
κανόνες που έχουν αναπτυχθεί.
Οι κυριότερες τεχνικές μάθησης παρουσιάζονται παρακάτω.
56

1. Κανόνας Hebb

Ο κανόνας αυτός παρουσιάστηκε από τον Hebb το 1949. Η βασική του ιδέα είναι ότι αν μια επεξεργαστική
μονάδα δέχεται είσοδο από μια άλλη και εάν και οι δύο έχουν την ίδια μορφή ενεργοποίησης, ο συντελεστής
βάρους μεταξύ τους ενισχύεται.

2. Κανόνας Δέλτα

Είναι αλλιώς γνωστός ως Wιndrow-Hoff κανόνας μάθησης και βασίζεται στην ιδέα της συνεχούς μεταβολής των
συντελεστών βάρους. έτσι ώστε να ελαχιστοποιείται η διαφορά (Δ) μεταξύ των επιθυμητών εξόδων και των
εκάστοτε εξόδων του δικτύου. Ο κανόνας αυτός χρησιμοποιείται στο μοντέλο Adaline και τον LMS (Least Mean
Square) αλγόριθμο εκπαίδευσής του.

3 . Gradient Descent

Είναι μια μαθηματική προσέγγιση του προβλήματος ελαχιστοποίησης του σφάλματος μεταξύ των επιθυμητών
και των πραγματικών εξόδων. Η ποσοτική αναπροσαρμογή των συντελεστών βάρους είναι ανάλογη της πρώτης
παραγώγου του σφάλματος. Ο κανόνας αυτός, αν και συγκλίνει σε μια κατάσταση ισορροπίας πολύ αργά,
χρησιμοποιείται συχνά. Ο κανόνας Δέλτα είναι ένα παράδειγμα του γενικότερου Gradient Descent κανόνα

4 . Κανόνας Kohonen

Ο κανόνας αυτός προέρχεται από τον Τeυνο Kohonen και είναι εμπνευσμένος από τη μάθηση σε βιολογικά
συστήματα. Χρησιμοποιείται μονάχα σε μη-επιβλεπόμενη μάθηση. Η μονάδα επεξεργασίας με τη μεγαλύτερη
τιμή εξόδου έχει τη δυνατότητα απαγόρευσης στις υπόλοιπες μονάδες, εκτός από συγκεκριμένο αριθμό
γειτονικών, να μεταβάλλουν τους συντελεστές βάρους τους. Επιπλέον, το πλήθος των γειτονικών μονάδων
μπορεί να μεταβάλλεται χρονικά κατά τη διαδικασία της εκπαίδευσης (συνήθως φθίνει).

5. Back-Propagation
Η τεχνική αυτή βασίζεται στη διάδοση του σφάλματος "προς τα πίσω" (back-propagatίon) και είναι η πιο συχνά
χρησιμοποιούμενη γενίκευση του κανόνα Δέλτα. Η διαδικασία αποτελείται από δύο φάσεις: τη φάση ανάκλησης
και τη φάση μάθησης. Γενικά, η μέθοδος αυτή εφαρμόζεται σε ιεραρχικά δίκτυα, όπου έχουμε κρυμμένα
στρώματα μονάδων επεξεργασίας. Γενικά είναι πολύ αργή, μερικές φορές ασταθής, και συχνά συγκλίνει σε
τοπικά ελάχιστα. Για το λόγο αυτό έχουν αναπτυχθεί αρκετές βελτιωμένες εκδόσεις. Ο κανόνας αυτός
εφαρμόζεται κυρίως σε Multi-Layer Perceptron ΤΝΔ μοντέλα. Η μέθοδος αυτή είναι εποπτευόμενη, καθότι
πάντοτε δίδεται ο στόχος που πρέπει το δίκτυο να έχει ως έξοδο. Τα πρότυπα που παρουσιάζονται στο δίκτυο
57
πρέπει να ανήκουν στην ίδια μορφή ή κατηγορία και πρέπει να είναι αρκετά τον αριθμό ώστε να λαμβάνουν
υπόψη τους όλες τις πλευρές του προβλήματος .
6. Κανόνας Grossberg

Σύμφωνα με τον κανόνα αυτό, το ΤΝΔ αποτελείται από εσωτερικές και εξωτερικές μονάδες. Εσωτερικές είναι
οι μονάδες που δέχονται πολλές εισόδους, ενώ εξωτερικές οι μονάδες που παράγουν πολλές εξόδους. οφείλεται
σε μελέτες του Steven Grossberg πάνω στον κανόνα του Hebb.
Σύμφωνα με τον κανόνα αυτό, η αναπροσαρμογή των συντελεστών βάρους είναι ανάλογη τόσο με τις
καταστάσεις εισόδου. όσο και με τις καταστάσεις εξόδου. Σημαντικές παράμετροι είναι η τιμή κατωφλίου
(threshold) και ο χρόνος.

7 . Drive-Reinforcement Theory

Οφείλεται στον Harry ΚIopf. Το DRT είναι περισσότερο ένα μοντέλο μάθησης, παρά ΤΝΔ μοντέλο, αλλά έχει
αρκετές ομοιότητες με τον κανόνα Grossberg.
Εδώ, σε αντίθεση με τον κανόνα Hebb, οι μονάδες επεξεργασίας μεταβάλλουν τους συντελεστές βάρους
αναλογικά με το γινόμενο των καταστάσεων εισόδου και εξόδου. Επιπλέον, η τρέχουσα κατάσταση εξόδου
εξαρτάται περισσότερο από την προηγούμενη είσοδο, παρά την τρέχουσα. Έτσι, η διάταξη των προτύπων στην
είσοδο του δικτύου είναι πλέον σημαντική.
Η ισχύς κάθε σύνδεσης μετριέται με βάση την συχνότητα ενεργοποίησής της από την μονάδα επεξεργασίας.
Αυτή είναι και η κύρια διαφορά με τους υπόλοιπους κανόνες μάθησης, και η βασική ομοιότητα με πραγματικά
βιολογικά συστήματα. Προς το παρόν, το DRT μοντέλο χρησιμοποιείται ως εργαλείο έρευνας.

8 . Boltzmann

Μια άλλη τεχνική μάθησης είναι αυτή που εφαρμόζεται στις αντίστοιχες «μηχανές» (Boltzmann). Υλοποιεί
ένα στοχαστικό μοντέλο μετάβασης των μονάδων επεξεργασίας, αφού ο συσχετισμός των καταστάσεων εισόδου
με τις αντίστοιχες καταστάσεις εξόδου βασίζεται σε υπό συνθήκη πιθανότητες. Αυτή είναι και η βασική διαφορά
με τις υπόλοιπες τεχνικές, αφού για τις ίδιες εισόδους, το δίκτυο μπορεί να παράγει διαφορετικές εξόδους.
Ανήκει στις στατιστικές μεθόδους εκπαίδευσης όπου σε αυτές χρησιμοποιούμε αυστηρές διαδικασίες
ακολουθώντας μαθηματικούς τύπους. Χρησιμοποιεί τους μαθηματικούς τύπους της κατανομής Boltzmann και
είναι ένα δίκτυο που παρουσιάζει μεγάλους χρόνους εκπαίδευσης.

9. Cauchy
Μέθοδος στατιστικής εκπαίδευσης , σαν την παραπάνω , μόνο που χρησιμοποιούνται οι μαθηματικοί τύποι της
κατανομής Cauchy. Έχει την ίδια μορφή με του Boltzmann, μόνο που πέφτει πιο αργά ,με συνέπεια να έχουμε
πιο μακριές ουρές και άρα μεγαλύτερη πιθανότητα για μεγαλύτερα βήματα.

10. Μέθοδος Ειδικής Θερμότητας


58

Μέθοδος στατιστικής εκπαίδευσης , με τον οποίο επιτυγχάνονται μικρότεροι χρόνοι εκπαίδευσης, αλλά και πάλι
η όλη διαδικασία είναι αργή.
ΣΥΝΟΠΤΙΚΟΣ ΠΙΝΑΚΑΣ ΜΟΝΤΕΛΩΝ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ

Νευρωνικό χρονο-
Δημιουργός Εφαρμογές Περιορισμοί Σχόλια
δίκτυο λογία
Λύνει μόνο Το παλαιότερο
Αναγνώριση γραμμικώς νευρωνικό δίκτυο, δεν
Αισθητήρας 1957 Rosenblatt
χαρακτήρων διαχωρίσιμα χρησιμοποιείται πλέον
προβλήματα σήμερα
Πρότυπο Θεωρεί γραμμική Έχει χρησιμοποιηθεί σε
Φίλτρα, σε εφαρμογές
Adaline- 1960 Widrow τη σχέση εσόδων εμπορικές εφαρμογές
στις τηλεπικοινωνίες
Madaline - εξόδων πάνω από 30 χρόνια
Απαιτούνται πολλά
Δεν αλλάζει δίκτυα για την λύση για
Πρότυπο Αναγνώριση συνεχούς
1967 Grossberg εύκολα η τη λύση ενός
Χιονοστιβάδας προφορικού λόγου
ταχύτητα του προβλήματος ,δεν αρκεί
μόνο ένα
Δίνει διαφορετικά βάρη
Απαιτεί
Παρεγκεφαλιδικό 1969- Marr, Albus. Κινητική άκρων σε διαφορετικές
περίπλοκες
πρότυπο 1982 Pellionez ρομποτικών μηχανών εντολές, ώστε η έξοδος
εισόδους
να μην έχει θόρυβο
Αρκετά προχωρημένο
Πρότυπο
1978- Carpeenter- Ευαίσθητο σε σε πολυπλοκότητα , δεν
προσαρμοσμένου Αναγνώριση προτύπων
1986 Grossberg μετατροπές έχει χρησιμοποιηθεί
προσανατολισμού
πολύ
Δεν κάνει
Πρότυπο του Χρησιμοποιεί βάσεις Βρίσκει το σύνολο μιας
εκπαίδευση σε
εγκεφάλου σε 1977 Anderson δεδομένων για την δομής από σπασμένα
κύκλους, αλλά σε
κουτί εκπαίδευσή του τμήματα
ένα μόνο βήμα
Χρειάζεται
Πολύ περίπλοκη δομή,
Πρότυπο 1978- Αναγνώριση πολλούς
Fukushima δεν συντομεύεται ή
Νευρογνώστη 1984 χειρόγραφου κειμένου νευρώνες και
αλλάζει εύκολα
μεγάλα δίκτυα
59
Χρειάζεται
Αναπαριστά μια Πολύ χρήσιμο σε
Πρότυπο μεγάλους
1980 Kohonen γεωγραφική περιοχή σε προβλήματα
Kohonen χρόνους
μια άλλη αεροδυναμικής
εκπαίδευσης
Περιορισμένο
μέγεθος του Λύνει προβλήματα
Πρότυπο Σύνθεση δεδομένων από
1982 Hopfield δικτύου και των βελτιστοποίησης και
Hopfield σπασμένα τμήματα
προβλημάτων, συνειρμικής μνήμης
είναι αργό
Χρειάζεται
Αναγνώριση προτύπων μεγάλους Απλό στη δομή ,
Στατιστικά
1985 Hinton ανάλυση σημάτων από χρόνους αποφεύγει τα τοπικά
Δίκτυα
ραντάρ εκπαίδευσης, έχει ελάχιστα
αρκετό θόρυβο
Μικρή
Πρότυπο Πολύ εύκολο στη χρήση
αποθηκευτική
συνειρμικής μπορεί από σπασμένα
1985 Kosko Συνειρμική μνήμη ικανότητα, τα
μνήμης διπλής τμήματα να βρίσκει το
δεδομένα να
κατεύθυνσης όλο
κωδικοποιούνται
Το δημοφιλές και
Αναγνώριση γραφής , διαδεδομένο δίκτυο από
Χρειάζεται
σύνθεση ομιλίας από όλα όσα έχουν
Οπισθοδιάδοση 1985 Rumelhart πολλά πρότυπα -
κείμενο, τραπεζικά παρουσιασθεί στην
παραδείγματα
δάνεια ιστορία των νευρωνικών
δικτύων
Παρόμοιο με την
Πρότυπο Πολύπλοκη
Hecht - Συμπίεση δεδομένων, οπισθοδιάδοση, ελέγχει
αντίθετης 1986 δομή, πολλές
Nielsen στατιστική ανάλυση μόνο του την πρόοδο
διάδοσης συνάψεις
του με πίνακες

Κοινά χαρακτηριστικά των Νευρωνικών Δικτύων

Όλα τα δίκτυα έχουν το κοινό χαρακτηριστικό ότι δημιουργούνται και αποτελούνται από απλές μονάδες
λειτουργίας, τον γνωστό μας πλέον νευρώνα. Οι νευρώνες έχουν μία συγκεκριμένη διάταξη που οδηγεί σε μία
δομή, η οποία ποικίλει στους διάφορους τύπους δικτύων. Όμως, όλοι οι τύποι έχουν το κοινό χαρακτηριστικό ότι
δέχονται σήματα στην είσοδο τους, τα οποία τα πολλαπλασιάζουν επί το αντίστοιχο βάρος, βρίσκουν το
60
άθροισμα όλων των γινομένων και ακολούθως μεταβιβάζουν το άθροισμα αυτό σε μία ειδική συνάρτηση η
οποία παράγει την έξοδο από τον κάθε νευρώνα. Η τιμή αυτή της εξόδου ακολούθως προωθείται στους
υπόλοιπους νευρώνες.
Οι νευρώνες έχουν μία συγκεκριμένη διάταξη, που συνήθως είναι κατανεμημένη σε επίπεδα. Μερικά πρότυπα
έχουν ένα μόνο επίπεδο, ενώ άλλα αποτελούνται από πολλά επίπεδα. Οι συνδέσεις μεταξύ των νευρώνων επίσης
ποικίλουν, από το ένα άκρο όπου μπορεί να υπάρχει πλήρης συνδεσμολογία, όπου κάθε μονάδα είναι
συνδεδεμένη με κάθε άλλη μονάδα, στο άλλο άκρο που κάθε νευρώνας έχει μόνο μία σύνδεση με τον γειτονικό
του νευρώνα, ή ακόμα και ενδιάμεσες περιπτώσεις όπου έχουμε τυχαίες συνδέσεις μεταξύ μερικών μόνο
νευρώνων. Οι συνδέσεις μπορεί να έχουν κανόνες ότι πρέπει να μεταδίδουν το σήμα μόνο κατά την μπροστινή
φορά ή μπορεί να έχουν μηχανισμό ανάδρασης, οπότε η έξοδος ενός νευρώνα μπορεί να γίνεται είσοδος σε
άλλους νευρώνες, να μεταδίδουν το σήμα μόνο σε διπλανού ς νευρώνες ή ακόμα να παίρνουν και τυχαίο σήμα.
Οι συναρτήσεις που υπολογίζουν την έξοδο σε κάθε νευρώνα επίσης ποικίλουν, αν και όπως είδαμε δεν
υπάρχουν πολλοί τύποι που να έχουν όλες τις επιθυμητές ιδιότητες, παρά μόνο 3--4 κατηγορίες. Οι κανόνες
εκπαίδευσης επίσης είναι διαφορετικοί, από πολύ απλοί (όπως, λ.χ. στον στοιχειώδη αισθητήρα) ως αρκετά
περίπλοκοι(όπως, λ.χ. στην μέθοδο οπισθοδιάδοσης του λάθους, που είναι απαραίτητο να εφαρμόσουμε την
τεχνική της πλέον απότομης καθόδου). Ο χρόνος εκπαίδευσης είναι άλλη μία παράμετρος με τα ίδια
χαρακτηριστικά, καθώς επίσης και το επίπεδο εμπιστοσύνης που αναμένουμε να έχει η λύση του προβλήματος.
Τα πλεονεκτήματα και μειονεκτήματα του κάθε δικτύου επίσης είναι γνωστά. Δεν υπάρχει το τέλειο
δίκτυο, που να μπορεί να κάνει όλες τις δουλειές και να λύνει όλα τα προβλήματα. Όλα εξαρτώνται λοιπόν από
τι χρήση και τι εφαρμογή έχουμε για το κάθε δίκτυο που αναπτύσσουμε.
Από όλα τα δίκτυα και όλες τις μεθόδους εκπαίδευσης είδαμε ότι η μέθοδος της οπισθοδιάδοσης
υπερτερεί κατά πολύ όλων των άλλων. Για μερικούς μάλιστα νευρωνικά δίκτυα σημαίνει οπισθοδιάδοση. Είναι η
τεχνική που δημιουργεί και «προσαρμόζει» ένα σύστημα στο πρόβλημα μας, το οποίο ελαχιστοποιεί το σφάλμα
στην έξοδο χρησιμοποιώντας μία μαθηματική τεχνική, αυτή της πλέον απότομης καθόδου. Την «προσαρμογή»
αυτή την πετυχαίνει με το να εισάγει εσωτερικά επίπεδα στο δίκτυο, τα οποία δε «βλέπουν» ούτε στην είσοδο
ούτε στην έξοδο, κατ- ευθείαν και η δράση τους δεν ελέγχεται έξω από το δίκτυο. Όλοι οι νευρώνες σε τέτοιο
δίκτυο χρησιμοποιούν μη-γραμμικές συναρτήσεις μεταφοράς, διότι τότε μόνον οι τιμές των σημάτων
παραμένουν πεπερασμένες. Ο συνδυασμός των παραγόντων αυτών επιτρέπουν το δίκτυο να λύσει ικανοποιητικά
μεγάλη ποικιλία προβλημάτων σε εφαρμογές από μαθηματικές εξισώσεις μέχρι οικονομικά μεγέθη, τραπεζικά
δάνεια κτλ
Από την συνολική εικόνα που σχηματίσαμε για τα νευρωνικά δίκτυα μπορούμε να βγάλουμε κάποια
γενικά συμπεράσματα, ως προς την θέση που έχουν στον επιστημονικό κόσμο σήμερα, και να απαριθμήσουμε τα
ειδικά πλεονεκτήματα που έχουν. Τα νευρωνικά δίκτυα είναι ιδιαίτερα δημοφιλή σε προβλήματα που περιέχουν
μη-προβλέψιμες λειτουργίες ή ένα περιβάλλον το οποίο δεν κατανοούμε καλά. Ο ανθρώπινος εγκέφαλος έχει
πολλά χαρακτηριστικά τα οποία τον καθιστούν ικανό να λύνει περίπλοκα προβλήματα λογικής. Πολλά αυτά τα
χαρακτηριστικά τα βρίσκουμε και στα τεχνητά νευρωνικά δίκτυα, αλλά όχι όμως όλα. Ορισμένες από τις λύσεις
προβλημάτων με νευρωνικά δίκτυα έχουν κάποια πλεονεκτήματα έναντι των κλασικών μεθόδων

Έχοντας δει μια μεγάλη ποικιλία τύπων νευρωνικών δικτύων είναι φυσικό να αναρωτηθούμε πώς θα
61
ξέρουμε ποιόν τύπο δικτύου θα επιλέξουμε για κάποιο δεδομένο πρόβλημα ή εφαρμογή. Η απάντηση όμως
δεν είναι εύκολη ή μονοσήμαντη. Και αυτό διότι με την σωστή εκπαίδευση μπορεί ένα νευρωνικό δίκτυο να
λύσει μία μεγάλη ποικιλία προβλημάτων. Αλλά αυτό βέβαια δεν σημαίνει ότι μπορεί να λύνει όλα τα
προβλήματα. Είδαμε ότι το δίκτυο οπισθοδιάδοσης λύνει προβλήματα από το X-OR ως προβλήματα τραπεζικών
δανείων. Η απάντηση λοιπόν στο παραπάνω ερώτημα είναι ότι κάθε πρόβλημα είναι ειδική περίπτωση και μόνο
με πολλαπλές δοκιμές θα είναι δυνατόν να βρούμε τον καλύτερο τύπο δικτύου, ερευνώντας πάντα την
βιβλιογραφία για προσπάθειες που πιθανόν έχουν γίνει στο παρελθόν πάνω στο ίδιο πρόβλημα. Κάθε φορά όμως
η εκπαίδευση πρέπει να είναι η κατάλληλη. Το λογισμικό όμως το οποίο υπάρχει σήμερα στην αγορά είναι
γενικής χρήσης και έτσι συχνά συμβαίνει να μπορεί να χρησιμοποιηθεί κατάλληλα για τη μία ή την άλλη
εφαρμογή.

Μία μοναδική ικανότητα που έχουν τα νευρωνικά δίκτυα είναι ότι ένα εκπαιδευμένο δίκτυο μπορεί να
αναγνωρίσει δεδομένα τα οποία δεν έχει δει ποτέ του. Αυτό όμως συμβαίνει όταν τα δεδομένα είναι στην ίδια
τάξη προβλημάτων, όπως αυτά στα οποία έχει εκπαιδευθεί το δίκτυο, και φυσικά όχι σε οποιαδήποτε άλλη
κατηγορία. Αυτό συμβαίνει διότι τα κρυμμένα επίπεδα στο δίκτυο οργανώνονται με τέτοιο τρόπο ώστε να
αναγνωρίζουν τα σημαντικά χαρακτηριστικά του σήματος της εισόδου, έχουν την ικανότητα να δημιουργούν μία
εσωτερική αναπαράσταση των εξωτερικών προτύπων που έρχονται, στο δίκτυο και κατόπιν μπορούν να
αναγνωρίζουν τα νέα πρότυπα που δεν έχουν δει ποτέ. Η ιδέα αυτή ακούγεται ίσως εξωπραγματική αλλά είναι
αληθινή, με τους περιορισμούς όμως που είπαμε παραπάνω. Δεν μπορούμε όμως με την ίδια εκπαίδευση να
αναμένουμε ένα δίκτυο να λύνει με επιτυχία τελείως διαφορετικά προβλήματα, λ.χ. να λύνει σειρές Fourier και
ταυτόχρονα αναλύει τα δεδομένα από ένα χρωματογράφο. Δεν έχει σχεδιασθεί, ούτε πιστεύεται ότι θα γίνει στο
μέλλον ένα νευρωνικό δίκτυο το οποίο όταν εκπαιδευθεί θα μπορεί να λύνει όλα τα προβλήματα που του
παρουσιάζονται, οποιασδήποτε μορφής και αν είναι αυτά με το σημερινό επίπεδο γνώσεων. Οι απαιτήσεις μας
λοιπόν πρέπει να περιορίζονται σε προβλήματα της ίδιας μορφής με τα δεδομένα της εκπαίδευσης.

Ένα άλλο χαρακτηριστικό που είδαμε σε αρκετά κεφάλαια είναι ότι τα νευρωνικά δίκτυα είναι ανεκτικά
στα σφάλματα (fault tolerant). Το πρωταρχικό παράδειγμα είναι φυσικά ο εγκέφαλος, που όπως είδαμε, κάθε
μέρα χάνει χιλιάδες νευρώνες, χωρίς παρά ταύτα να χάνει τις ιδιότητές του. Όταν από ένα δίκτυο χάνονται
νευρώνες, τότε η απόδοση του δικτύου πέφτει σταδιακά και όχι καταστροφικά. Στα τεχνητά νευρωνικά δίκτυα
δεν χάνονται νευρώνες, αλλά το αντίστοιχο εδώ μπορεί να είναι ότι πέφτει η ποιότητα των εισερχομένων
σημάτων ή τα εισερχόμενα σήματα έχουν σε ένα βαθμό κάποιο θόρυβο. Αυτό είναι χρήσιμο σε πολλές
εφαρμογές, όπως π.χ. σε κείμενα όπου λείπουν τμήματα από λέξεις, όπως σε σελίδες φαξ, ή θαμπές φωτογραφίες
κτλ.

Ο εγκέφαλος έχει χαρακτηριστικά παράλληλης λειτουργίας και κάτι αντίστοιχο συμβαίνει και στα
νευρωνικά δίκτυα. Οι υπολογισμοί που γίνονται σε ένα νευρώνα δεν εξαρτώνται από τι συμβαίνει στους άλλους
νευρώνες στο ίδιο επίπεδο. Έτσι οι διορθώσεις στις τιμές των βαρών w σε ένα επίπεδο μπορούν να γίνουν
ταυτόχρονα. Αυτό είναι ανάλογο με ένα παράλληλο υπολογιστή στον οποίο κάθε επεξεργαστής αντιστοιχεί σε
ένα νευρώνα του δικτύου. Αυτό βέβαια έχει άμεσο αποτέλεσμα ότι αυξάνεται κατά πολύ η ταχύτητα του
62
συστήματος (εκπαίδευση και λειτουργία), όπως ότι ένας παράλληλος υπολογιστής είναι πολύ ταχύτερος του
σειριακού.

Μέθοδος οπισθοδιάδοσης του λάθους

H μέθoδoς οπισθοδιάδοσης του λάθους (errοr backpropagation) είναι η πιο δημοφιλής μέθοδος σήμερα
για την εκπαίδευση ενός δικτύου που αποτελείται από πολλά επίπεδα και έχει χρησιμοποιηθεί στις πιο πολλές
εφαρμογές. Ιστορικά, πρώτα αναπτύχθηκαν δίκτυα ενός και δύο επιπέδων, όπως ο στοιχειώδης αισθητήρας που
είδαμε στο προηγούμενο κεφάλαιο. Τα δίκτυα όμως αυτά γρήγορα φάνηκε ότι έχουν μεγάλους περιορισμούς ως
προς τις ικανότητες που τους έχουν και έτσι σύντομα καταλήφθηκαν. Έτσι φυσιολογικά ακολούθησαν τα δίκτυα
πολλών επιπέδων που αναπτύχθηκαν αργότερα και για τα οποία αρχικά δεν υπήρχαν θεωρητικοί τρόποι για την
εκπαίδευσή τους, μέχρι που εμφανίστηκε η μέθοδος οπισθοδιάδοσης. Η μέθοδος αυτή αναπτύχθηκε ανεξάρτητα
σε διάφορες παραλλαγές από τους Bryson και Ηο, Werbos , Parker , αλλά διαφημίστηκε πολύ και προωθήθηκε
από το έργο «Parallel Distributed Processing: Explorations ίn the Microstructure of Cognition» των Rumelhart
και McCΙelland , το οποίο άνοιξε πολλές εφαρμογές και νέα πεδία, ανακινώντας μεγάλο ενδιαφέρον σε όλη την
περιοχή των νευρωνικών δικτύων. Ως τεχνική βασίζεται σε καθαρά μαθηματική θεώρηση με αυστηρά τεκ-
μηριωμένες αποδείξεις. Το νευρωνικό δίκτυο στο οποίο εφαρμόζεται είναι αρκετά πιο περίπλοκο από τον
αισθητήρα. Είναι ένα δίκτυο πολλαπλών επιπέδων και κάθε επίπεδo έχει (ή μπορεί να έχει) πολλούς νευρώνες.
Οι νευρώνες μέσα στο ίδιο επίπεδο δεν συνδέονται μεταξύ τους, αλλά οι νευρώνες που ανήκουν σε διαφορετικά
επίπεδα συνδέονται ως συνήθως με τις γνωστές συνάψεις. Υπάρχουν λοιπόν πολλές ςειρές με τα βάρη w μεταξύ
των επιπέδων αυτών και όχι μία μόνο σειρά. Η καινοτομία που εισάγεται στα δίκτυα αυτά είναι ότι μπορούμε να
επιφέρουμε τις κατάλληλες μεταβολές στα βάρη στα ενδιάμεσα επίπεδα, εκεί όπου δεν υπάρχει στόχος και άρα
δεν μπορεί να χρησιμοποιηθεί μια απλή τεχνική, ως είναι λ.χ. ο κανόνας Δέλτα.

Η κεντρική ιδέα της δομής και της λειτουργίας τέτοιων δικτύων είναι σχετικά απλή : ένα δίκτυο ξεκινά
την διαδικασία μάθησης από τυχαίες τιμές των βαρών του. Εάν δώσει λάθος απάντηση (που είναι και το πιο
πιθανό) τότε τα βάρη διορθώνονται έτσι ώστε το λάθος να γίνει μικρότερο. Η διαδικασία επαναλαμβάνεται
πολλές φορές , έτσι ώστε σταδιακά το λάθος ελαττώνεται μέχρις ότου να γίνει πολύ μικρό και ανεκτό. Στο
σημείο αυτό λέμε ότι το δίκτυο έχει μάθει τα παραδείγματα που του διδάξαμε με την ακρίβεια που θέλαμε να
μάθει.

Στην δομή του μοντέλου του αισθητήρα, τα εισερχόμενα σήματα στο δίκτυο φθάνουν στο επίπεδο
εισόδου, επεξεργάζονται στους νευρώνες και από εκεί οδηγούνται κατευθείαν προς στο επίπεδο εξόδου. Τέτοια
δίκτυα δεν έχουν εσωτερική αναπαράσταση. Αυτό σημαίνει ότι οποιαδήποτε κωδικοποίηση δίνεται στο σήμα
εισόδου, ότι είναι αρκετή, καθόσον τα πρότυπα που εισάγονται στην είσοδο και αυτά που παράγονται στην
έξοδο είναι του ίδιου τύπου. Αυτό επιτρέπει στα δίκτυα αυτά να κάνουν λογικές γενικεύσεις και να βρίσκουν
63
πρότυπα τα οποία ποτέ δεν έχουν δει. Ο περιορισμός όμως του ότι οι είσοδοι και έξοδοι πρέπει να είναι του
ίδιου τύπου δεν τους επιτρέπει να λύσουν πιο γενικά ή πιο περίπλοκα προβλήματα. Στο γνωστό πρόβλημα του X-
OR βλέπουμε ότι δύο πρότυπα που είναι τελείως διαφορετικά πρέπει να δώσουν ίδια απάντηση. Η λύση στην
δυσκολία αυτή βρίσκεται με το να δώσουμε στο δίκτυο μια διαφορετική δομή και να αποκτήσει έτσι μία
καινούρια ικανότητα. Προσθέτουμε τώρα και ένα τρίτο επίπεδο, μεταξύ του επιπέδου εισόδου και εξόδου, που
ονομάζεται κρυμμένο επίπεδο και το οποίο τώρα μπορεί να δημιουργήσει την εσωτερική αναπαράσταση των
σημάτων εισόδου. Ο λόγος που ονομάζουμε το επίπεδο αυτό κρυμμένο επίπεδο είναι ότι το επίπεδο αυτό δεν
«βλέπει» κατευθείαν ούτε την είσοδο ούτε την έξοδο του δικτύου αλλά μόνον το εσωτερικό του.

Μετά τις πολλές εργασίες που έγιναν με το μοντέλο του αισθητήρα φάνηκε ότι όταν υπάρχει ένα
κρυμμένο επίπεδο τότε δημιουργείται πάντοτε ένας τρόπος αναπαράστασης στο κρυμμένο αυτό επίπεδο, το
οποίο τώρα μπορεί να ξεπεράσει τον περιορισμό που υπήρχε προηγουμένως περί της ομοιότητας εισόδου-
εξόδου. Αρκεί να έχουμε αρκετές μονάδες (νευρώνες) στο κρυμμένο επίπεδο και να βρούμε τα σωστά βάρη w με
μια κατάλληλη διαδικασία. Ένα τέτοιο δίκτυο πολλαπλών επιπέδων φαίνεται στο Σχήμα 1. Ως συντομογραφία
ενός πολυεπιπέδου νευρωνικού δικτύου συχνά χρησιμοποιείται ο εξής: Ρ-m1ι-m2 ..-mn-n, όπου Ρ είναι ο αριθμός
των εισόδων, n είναι ο αριθμός των εξόδων, m ο αριθμός των κρυμμένων επιπέδων με m1 κόμβους το πρώτο, m2
κόμβους το δεύτερο,... και mn το τελευταίο.

Εικόνα 1 .Ένα δίκτυο με πολλαπλά επίπεδα

Πρώτα, υπάρχει ένα επίπεδο εισόδου το οποίο αποτελείται από μία ομάδα νευρώνων οι οποίοι δεν
κάνουν ουσιαστικά τίποτα άλλο παρά να δέχονται το σήμα εισόδου. Κατόπιν υπάρχει ένας αριθμός εσωτερικών
επιπέδων, καθένα από τα οποία έχει έναν αριθμό νευρώνων, και τα οποία δέχονται το σήμα από το επίπεδο
64
εισόδου, το επεξεργάζονται και κατόπιν το προωθούν προς την έξοδο. Στο Σχήμα 1 υπάρχει ένα μόνο
κρυμμένο επίπεδο, αλλά θα μπορούσε να ήταν δύο, τρία ή οποιοσδήποτε άλλος αριθμός επιπέδων. Τέλος,
υπάρχει ένα επίπεδο εξόδου που έχει επίσης έναν αριθμό νευρώνων, οι οποίοι δέχονται σήμα από τα εσωτερικά
επίπεδα και το προωθούν προς την έξοδο του δικτύου. Γενικά, δεν υπάρχει κανόνας ως προς τον αριθμό τόσο
των εσωτερικών επιπέδων όσο και ως προς τον αριθμό των νευρώνων που περιλαμβάνει κάθε επίπεδο (εισόδου,
εξόδου ή εσωτερικό). Η απάντηση σ' αυτό είναι διαφορετική σε κάθε πρόβλημα. Για τον αριθμό νευρώνων στην
είσοδο και έξοδο το πρόβλημα είναι κάπως δυσκολότερο , γιατί ο αριθμός αυτός θα παρέχεται άμεσα από τα
δεδομένα του προβλήματος. Εάν, λ.χ. θέλουμε να αναπαραστήσουμε μία συνάρτηση που ορίζεται από 256
σημεία, τότε η είσοδος θα πρέπει να έχει 256 μονάδες.
Αλλά για τον αριθμό μονάδων στο κρυμμένο επίπεδο δεν υπάρχει ούτε τέτοιου είδους απόδειξη. Τέτοιες
απαντήσεις βγαίνουν ακόμη και με «μαύρη τέχνη». Πολλές φορές αναγκαζόμαστε και καταφεύγουμε μέθοδο
των δοκιμών (trίal and error) και με τον τρόπο αυτό βρίσκουμε μία απάντηση που σίγουρα δουλεύει, αλλά είναι
επίπονη και χρονοβόρα. Ανάλογα με το πρόβλημα υπάρχουν πολλοί εμπειρικοί κανόνες που βάζουν κάποια όρια
στην αρχιτεκτονική του δικτύου που θα χρησιμοποιηθεί σε μία πρακτική εφαρμογή. Έχει δειχθεί λ.χ. ότι ένα
δίκτυο δεν μπορεί να μάθει περισσότερα παραδείγματα από διπλάσιο του αριθμού των βαρών του.

Όπως φαίνεται και στο Σχήμα 1 οι νευρώνες των διαφορετικών επιπέδων είναι συνδεδεμένοι μεταξύ τους με μία
γραμμή. Στο σημείο αυτό δεν υπάρχει ένας γενικός κανόνας, δηλ. πόσοι και ποιοι νευρώνες είναι συνδεδεμένοι
με ποιους. Σε μία περίπτωση θα μπορούσε κάθε νευρώνας να είναι συνδεδεμένος με όλους τους άλλους
νευρώνες, όλων των επιπέδων (μέγιστος αριθμός συνδέσεων). Σε άλλη περίπτωση θα μπορούσε κάθε νευρώνας
να συνδέεται με έναν μόνο άλλο νευρώνα (ο ελάχιστος αριθμός των συνδέσεων που μπορεί να έχει). Αρκετά
συνηθισμένες οίνε οι ενδιάμεσες περιπτώσεις, όπου συνήθως υπάρχουν μερικές συνδέσεις μεταξύ των νευρώνων
Όπως είναι προφανές ο αριθμός των συνδέσεων, ιδίως για την πλήρη συνδεσμολογία είναι πολύ μεγάλος. Αν
έχουμε Ν νευρώνες, τότε ο αριθμός των συνδέσεων σε πλήρη συνδεσμολογία είναι Ν(Ν-1 )/2.

Η διαδικασία εκπαίδευσης έχει την ίδια φιλοσοφία με αυτή του αισθητήρα, αλλά έχει μερικές ουσιώδεις
διαφορές. Το σήμα s έρχεται σε κάθε νευρώνα του επιπέδου εισόδου ( το πρώτο επίπεδο ). Πολλαπλασιάζεται επί
το αντίστοιχο βάρος w κάθε σύναψης (και στα τεχνητά δίκτυα μπορούμε ελεύθερα να χρησιμοποιήσουμε όρο
σύναψη από τα βιολογικά δίκτυα για να υποδηλώσουμε την σύνδεση μεταξύ νευρώνων). Σε κάθε νευρώνα
αθροίζονται τα γινόμενα Si Wi, με ί = 1,.. .,n, όπου πλήθος των συνδέσεων, τα οποία έρχονται ως είσοδος, και
υπολογίζεται το 5, όπως και στο μοντέλο του αισθητήρα. Εδώ όμως υπάρχει μία ουσιαστική διαφορά. Ενώ στον
αισθητήρα το άθροισμα συγκρίνεται με το θ και συνήθως έχουμε συνάρτηση μεταφοράς με δυαδική μορφή, εδώ
είναι απαραίτητο να χρησιμοποιήσουμε μία συνάρτηση με σιγμοειδή μορφή. Έστω ότι η τιμή της εξόδου θα
είναι ο (προσοχή εδώ, το «ο» είναι το γράμμα όμικρον, και όχι το μηδέν, Ο). Μία συχνά χρησιμοποιούμενη
τέτοια συνάρτηση είναι η
65

Εικόνα 2 , η σιγμοειδής καμπύλη

Η συνάρτηση αυτή φαίνεται στο Σχήμα 2 και έχει τα εξής χαρακτηριστικά. Η τιμή του ο περιορίζεται
πάντοτε στο διάστημα Ο < ο < 1, για οποιαδήποτε τιμή της εισόδου S. Αυτό είναι σημαντικό, διότι έτσι είμαστε
βέβαιοι ότι δεν θα υπάρχουν περιπτώσεις που η έξοδος παίρνει μεγάλες τιμές ή απειρίζεται. Η καμπύλη αυτή
ονομάζεται σιγμοειδής, λόγω του σχήματος που έχει και μοιάζει με ένα τελικό σίγμα. Είναι ιδανική συνάρτηση,
γιατί συμπεριφέρεται καλά για όλα τα μεγέθη τιμών. Για μικρές τιμές του S η κλίση είναι μεγάλη και έτσι η
έξοδος δεν είναι σχεδόν Ο. Ανάλογα, για μεγάλες τιμές του S η κλίση είναι κανονική, ούτως ώστε να μην μπορεί
το δίκτυο να δώσει πολύ μεγάλες τιμές ή άπειρο στην έξοδο του. Μία άλλη ονομασία της συνάρτησης ο είναι
«συμπιέζουσα συνάρτηση», διότι συμπιέζει οποιαδήποτε τιμή του S, όσο μεγάλη και αν είναι, στο διάστημα
μεταξύ Ο και 1. Παρατηρούμε επίσης ότι η συνάρτηση αυτή είναι μη γραμμική, μία απαραίτητη προϋπόθεση για
να μπορεί το δίκτυο να δημιουργήσει αναπαράσταση των σημάτων.
Κάτι άλλο για την σιγμοειδή συνάρτηση που επίσης είναι απαραίτητο στην διαδικασία εκπαίδευσης
είναι ότι πρέπει και η παράγωγός της να συμπεριφέρεται επίσης καλά, δηλ. να έχει τις ίδιες ιδιότητες που είδαμε
παραπάνω. Εύκολα δείχνουμε ότι η παράγωγος αυτή είναι:
66

do
dS =0(1-0)

Ο υπολογισμός της παραγώγου της σιγμοειδούς συνάρτησης απευθείας από την ίδια την συνάρτηση, έχει
σημαντικά υπολογιστικά πλεονεκτήματα και διευκολύνει την υλοποίηση σε hardware.

Η συνολική διαδικασία εκπαίδευσης συνοψίζεται στα εξής 6 βήματα:

1. .Παίρνουμε ένα πρότυπο από τα πολλά που έχει το πρόβλημα μας. Το εισάγουμε στο επίπεδο εισόδου.

2. Υπολογίζουμε την έξοδο χρησιμοποιώντας την σιγμοειδή συνάρτηση.

3. Προωθούμε την έξοδο του πρώτου επιπέδου στο επόμενο επίπεδο (το κρυμμένο) και ακολούθως με τον
ίδιο τρόπο σε όλα τα επίπεδα μέχρι το τελικό επίπεδο εξόδου.

4. Στην έξοδο υπολογίζουμε το σφάλμα.

5. Ανάλογα με το σφάλμα που προκύπτει μεταβάλλουμε τα βάρη, ένα-ένα, και επίπεδο-προς-επίπεδο,


επιστρέφοντας από την έξοδο μέχρι την είσοδο

6. Προχωρούμε στο επόμενο πρότυπο και ακολουθούμε την ίδια διαδικασία για όλα τα πρότυπα.

Τα έξι αυτά βήματα αποτελούν ένα κύκλο, δηλ. ένα πέρασμα από την είσοδο μέχρι την έξοδο, μέσω των
κρυμμένων επιπέδων, και από την έξοδο πίσω στην είσοδο. 'Μετά το τέλος ενός κύκλου διόρθωσης των w
επαναλαμβάνουμε την διαδικασία για πολλούς κύκλους, όσους χρειάζεται, έως ότου διαδοχικά το σφάλμα
φθάσει να είναι αρκετά μικρό. Η ανοχή για το σφάλμα δίδεται εκ των προτέρων και τυπικές τιμές είναι μερικές
% μονάδες, όπως λ.χ. 2 ή 5 %. Αυτό που ακόμη δεν αναφέραμε είναι το πως διορθώνουμε τα βάρη, αλλά η
διαδικασία αυτή θα παρουσιασθεί λεπτομερώς παρακάτω.

Ένα παράδειγμα ζεύγους προτύπου-στόχου δίδεται στο Σχήμα 3, όπου το γράμμα Α έχει σχεδιασθεί σε ένα
πλέγμα. Αν οποιαδήποτε γραμμή ή τμήμα του γράμματος περνάει μέσα σε ένα τετραγωνάκι, τότε η είσοδος στον
αντίστοιχο νευρώνα είναι 1. Διαφορετικά η είσοδος είναι ο. Ως έξοδος μπορεί να είναι ένας αριθμός που παρι-
στάνει το Α, ή ένα άλλο σύνολο από Ο και 1. Για ολόκληρο το αλφάβητο θα χρειαζόμασταν 24 ζεύγη
εκπαίδευσης του δικτύου, ένα ζεύγος για κάθε γράμμα.
Η μέθοδος εκπαίδευσης της οπισθοδιάδοσης του σφάλματος χρησιμοποιεί τις ίδιες γενικές αρχές όπως και ο
κανόνας Δέλτα. Το σύστημα πρώτα παίρνει τις εισόδους του πρώτου προτύπου και με την διαδικασία που
περιγράφτηκε προηγουμένως παράγει την έξοδο. Την τιμή εξόδου την συγκρίνει με την τιμή του στόχου. Εάν δεν
67
υπάρχει διαφορά μεταξύ των δύο, δεν συμβαίνει τίποτα και προχωράμε στο επόμενο πρότυπο. Εάν υπάρχει
διαφορά (που είναι το πιο συνηθισμένο), τότε αλλάζουμε τις τιμές των w με τέτοιο τρόπο ώστε η διαφορά αυτή
να ελαττωθεί

Εικόνα 3, Αναγνώριση προτύπου

4.2 Η μέθοδος εκπαίδευσης για γραμμικούς νευρώνες

Με την μέθοδο αυτή μπορούμε να πετύχουμε αυτό που δεν κατορθώνουμε να κάνουμε με ένα απλό αισθητήρα,
δηλ να λύσουμε περίπλοκα προβλήματα όπως είναι τα γραμμικώς μη-διαχωρίσιμα. Όπως αναφέραμε παραπάνω
το κλειδί στο σημείο αυτό είναι ότι πρέπει να υπάρχει ένα (τουλάχιστον) κρυμμένο επίπεδο. Με τον τρόπο αυτό
δημιουργείται μία εσωτερική αναπαράσταση των προτύπων που παρουσιάζονται στην είσοδο προς τους
νευρώνες του κρυμμένου επιπέδου και με τους οποίους η ομοιότητα των προτύπων στους νευρώνες του
κρυμμένου επιπέδου θα μπορεί να υποστηρίξει την απαιτούμενη αναπαράσταση (ή απεικόνιση) από την είσοδο
στην έξοδο. Εάν λοιπόν έχουμε τις σωστές συνδέσεις και αρκετά μεγάλο αριθμό κρυμμένων μονάδων, θα
μπορούμε πάντοτε να βρίσκουμε την αναπαράσταση αυτή.
68

Εικόνα 4, Ένα δίκτυο στο οποίο εφαρμόζεται η εκπαίδευση με τη μέθοδο της οπισθοδιάδοσης

Στο Σχήμα 4 παρουσιάζουμε ένα τέτοιο δίκτυο, με ένα κρυμμένο επίπεδo που περιέχει ένα νευρώνα μόνον. Οι
αριθμοί στις συνάψεις είναι οι τιμές-των βαρών. Οι αριθμοί που είναι μέσα στους κύκλους είναι οι τιμές του
εσωτερικού βάρους (κατωφλίου) του αντίστοιχου νευρώνα. Δηλαδή, εσωτερικά βάρη έχουμε μόνο τα W6
καιW7, τα οποία για να παράγουν το ζητούμενο γινόμενο (S'W) πολλαπλασιάζονται επί 1. Η τιμή W4 = -2 από
τον κρυμμένο νευρώνα στον νευρώνα εξόδου καθιστά τον νευρώνα εξόδου μη-ενεργό όταν και οι δύο είσοδοι
ταυτόχρονα είναι ενεργοί. Στον νευρώνα του κρυμμένου επίπεδου έχουμε θ = 1,5 διότι έτσι ο νευρώνας αυτός θα
πυροδοτεί μόνον όταν και οι δύο νευρώνες του πρώτου επιπέδου είναι ενεργοί. Η τιμή θ= 0,5 στον νευρώνα
εξόδου καθιστά τον νευρώνα αυτόν ενεργό μόνον όταν λαμβάνει θετικό σήμα μεγαλύτερο από 0,5. Από την
πλευρά του νευρώνα εξόδου ο νευρώνας του κρυμμένου επιπέδου φαίνεται ως μια ακόμα μονάδα εισόδου. Τον
βλέπει δηλαδή σαν να υπήρχαν τρεις τιμές εισόδου. Σε ένα τέτοιο δίκτυο θα αναπτύξουμε την μέθοδο της
οπισθοδιάδοσης αμέσως παρακάτω.
69
Πίνακας 1
Σύμβολα στις εξισώσεις της μεθόδου οπισθοδιάδοσης

Wij Το βάρος που συνδέει τους νευρώνες ί και j


ΔpWjί η αλλαγή στο βάρος W το οποίο συνδέει τους νευρώνες ί και}, μετά από παρουσίαση του προτύπου Ρ
Ερ tpj Ερ είναι το σφάλμα (διαφορά εισόδου-εξόδου) στο πρότυπο Ρ

Opj ο στόχος του νευρώνα j για το πρότυπο Ρ

Χpj η έξοδος του νευρώνα j για το πρότυπο Ρ

δpj το σήμα εισόδου στον νευρώνα ί για το πρότυπο Ρ η διαφορά ( t p j – Ο pj )

Η μέθοδος αυτή βασίζεται στην μαθηματική μέθοδο της ελαχιστοποίησης του σφάλματος με την
τεχνική της πλέον απότομης καθόδου (steepest descent technique) στην επιφάνεια του σφάλματος, ένα πρόβλημα
που ανήκει στη γενικότερη κατηγορία προβλημάτων επικλινούς καθόδου (gradient descent), που έχουν
αναπτυχθεί για προβλήματα Μαθηματικής Φυσικής. Αυτό που επιτελεί είναι να ελαχιστοποιεί το τετράγωνο της
διαφοράς μεταξύ του σήματος που λαμβάνεται στην έξοδο και της επιθυμητής τιμής (στόχος), για όλους τους
νευρώνες εξόδου και για όλα τα πρότυπα. Αυτό σημαίνει ότι η παράγωγος του σφάλματος ως προς κάθε βάρος
W είναι ανάλογος προς την μεταβολή της τιμής του βάρους, όπως δίνεται από τον κανόνα Δέλτα, με αρνητική
σταθερά αναλογίας. Αυτό είναι ανάλογο με την διαδικασία της πιο απότομης καθόδου (steepest descent) πάνω
στην επιφάνεια που βρίσκεται μέσα στον χώρο των βαρών και στον οποίο χώρο το ύψος είναι ίσο με την τιμή
του σφάλματος. Τα παραπάνω ισχύουν για γραμμικές μονάδες νευρώνων. Έτσι έχουμε:

Ερ= ½ Σj(tpj-Opi)
(4.3)

όπου Ερ είναι το σφάλμα (διαφορά εισόδου-εξόδου) στο πρότυπο Ρ, tpj και Opj είναι ο στόχος και η έξοδος του
νευρώνα} για το πρότυπο ρ. Το συνολικό σφάλμα Ε είναι το άθροισμα των σφαλμάτων όλων των προτύπων:

E = ΣρEρ
(4.4)

Παρατηρούμε ότι παίρνουμε το τετράγωνο της διαφοράς και όχι την διαφορά, και επίσης το Υ2 της ποσότητας
αυτής. Ο λόγος είναι ότι χρειαζόμαστε την απόλυτη τιμή του σφάλματος και όχι αν το σφάλμα είναι θετικό ή
αρνητικό. Ο παράγων Υ2 είναιμία αυθαίρετη σταθερά που δεν επηρεάζει την ανάπτυξη. Για γραμμικές μονάδες
εφαρμόζουμε τον κανόνα Δέλτα και ουσιαστικά έχουμε μία επικλινή κάθοδο (gradient descent) στο Ε. Θα
δείξουμε ότι:

69
70

-dερ/ dwjί =dρΧpj


(4.5)

που είναι ποσότητα ανάλογη του ΔρWjί (ΔρWjί είναι η αλλαγή που θα γίνει στο βάρος w το οποίο συνδέει τους
νευρώνες ί και), μετά από παρουσίαση του προτύπου ρ). Όταν δεν υπάρχουν κρυμμένες μονάδες, τότε η
παράγωγος υπολογίζεται αμέσως. Χρησιμοποιούμε τον κανόνα αλυσίδας και γράφουμε την παράγωγο ως
γινόμενο δύο άλλων παραγώγων: μία παράγωγο του σφάλματος ως προς την έξοδο του νευρώνα επί μία
παράγωγο της εξόδου ως προς το βάρος.

dEp/ dWji = (dEp /dOpj )( dOpj /dWji)

(4.6)

Η πρώτη παράγωγος μας λέει πως αλλάζει το σφάλμα ως προς την έξοδο του} νευρώνα, ενώ το δεύτερο τμήμα
μας λέει πόσο η μεταβολή του Wji αλλάζει αυτήν την έξοδο. Έτσι υπολογίζουμε κατευθείαν τις παραγώγους:

dEp /dOpj = (tpj-Opj) = -δpj


(4.7)

Η συνεισφορά του νευρώνα} στο σφάλμα είναι ανάλογη του δρj' Αφού έχουμε γραμμικές μονάδες:

Opj = Σj WjiXpi
(4.8)

καταλήγουμε ότι:
dOpj/dWji=Xpi
(4.9)

Αντικαθιστώντας στην εξίσωση (4.6) βλέπουμε ότι:

-dE/dWji=δpjXpi
(4.10)

όπως ακριβώς θέλουμε. Συνδυάζοντας την τελευταία αυτή εξίσωση με την παρατήρηση ότι

dE/dWji=Σp dE/dWji
(4.11 )

70
71
οδηγούμαστε στο συμπέρασμα ότι η μεταβολή στο Wji μετά από ένα πλήρη κύκλο, όπου παρουσιάζουμε όλα
τα πρότυπα, είναι ανάλογη προς στην παράγωγο αυτή και ως εκ τούτου ο κανόνας Δέλτα εφαρμόζει μία επικλινή
κάθοδο στο Ε. Κανονικά τα βάρη W δεν πρέπει να αλλάζουν κατά την διάρκεια του κύκλου που παρουσιάζουμε
τα διάφορα πρότυπα, ένα-ένα, αλλά μόνο στο τέλος του κύκλου. Αν όμως ο ρυθμός εκπαίδευσης είναι μικρός,
δεν δημιουργείται μεγάλο σφάλμα και ο κανόνας Δέλτα δουλεύει σωστά. Τελικά με τον τρόπο αυτό θα βρούμε
τις τιμές των W που ελαχιστοποιούν την συνάρτηση σφάλματος.

4.3 Η μέθοδος εκπαίδευσης για μη-γραμμικούς νευρώνες

Ο κανόνας Δέλτα επιφέρει επικλινή κάθοδο στο τετράγωνο του αθροίσματος του σφάλματος για
γραμμικές συναρτήσεις ενεργοποίησης. Στην περίπτωση που δεν έχουμε κρυμμένα επίπεδα, η επιφάνεια
σφάλματος είναι σαν μιά κοιλάδα με ένα μόνο ελάχιστο και έτσι η επικλινής κάθοδος πάντοτε θα βρίσκει τις
υπολογίζονται οι παράγωγοι. Η επιφάνεια σφάλματος δεν είναι κοίλη προς τα πάνω και έτσι υπάρχει η
πιθανότητα να βρεθούμε σε ένα τοπικό ελάχιστο. Θα δείξουμε παρακάτω ότι υπάρχει ένας αποτελεσματικός
τρόπος για τον υπολογισμό των παραγώγων, καθώς επίσης και ότι το πρόβλημα των τοπικών ελαχίστων συνήθως
δεν είναι καταστροφικό, αφού πάντα έχουμε τρόπους να το ξεπεράσουμε και τελικά να πετύχουμε την
εκπαίδευση του δικτύου.
Χρησιμοποιούμε εδώ δίκτυα με δομές πολλαπλών επιπέδων και στα οποία το σήμα διαδίδεται πάντοτε
στην ίδια κατεύθυνση, από το επίπεδο εισόδου προς το επίπεδο εξόδου (feedfoιward). Το σήμα έρχεται στο
επίπεδο εισόδου, στο πιο χαμηλό επίπεδο, επεξεργάζεται από το δίκτυο και προωθείται στα κρυμμένα επίπεδα.
Τα κρυμμένα επίπεδα το επεξεργάζονται και το προωθούν στο επίπεδο εξόδου. Η επεξεργασία γίνεται πάντοτε
επίπεδο προς επίπεδο, σε κάθε νευρώνα χωριστά. Υπολογίζεται σε κάθε νευρώνα η συνάρτηση ενεργοποίησης,
χρησιμοποιώντας την μη-γραμμική σιγμοειδή συνάρτηση, παίρνοντας ως είσοδο την έξοδο του προηγούμενου
επιπέδου και δίνοντας ως έξοδο προς το παραπάνω επίπεδο την υπολογιζόμενη τιμή. Για μια τέτοια, μη γραμμική
συνάρτηση η έξοδος είναι:

Spj=ΣWjiOpi
(4.12)

όπου Ορί είναι το σήμα εισόδου του νευρώνα ί. Έτσι θα πρέπει:


Opj=fi(Spj)
(4.13)

όπου η f είναι διαφορίσιμη και αύξουσα συνάρτηση. Γραμμικές συναρτήσεις εδώ δεν επαρκούν, διότι η
παράγωγός τους είναι άπειρη στο κατώφλι και μηδέν στα άλλα σημεία. Θεωρούμε λοιπόν ότι:
ΔρWji ~ - dEp/dWji
(4.14)

όπου ΔρWjί είναι η αλλαγή που θα γίνει στο βάρος W το οποίο συνδέει τους νευρώνες ί και}, μετά από

71
72
παρουσίαση του προτύπου ρ. Επίσης, Ε είναι η συνάρτηση σφάλματος (άθροισμα τετραγώνων). Θέτουμε και
εδώ την παράγωγο αυτή ως γινόμενο δύο παραγώγων: μία που δίνει την μεταβολή του σφάλματος ως προς την
μεταβολή στην τιμή εισόδου και μία που δίνει την μεταβολή στην τιμή εισόδου ως προς την μεταβολή του
βάρους. Έτσι:

-dEp/dWji= dEp/dSpj*dSpj/dWji
(4.15)

Με την εξίσωση (4.12) βλέπουμε ότι:


DSpj/dWji = d/dWji*ΣwjkOpk=Opi
(4.16)

Ορίζουμε ότι:
Δρj=-dEp/dSpj
(4.17)

Ο ορισμός αυτός θα μπορούσε να θεωρηθεί αυστηρά ως αυθαίρετος, αλλά αν προσέξουμε λίγο βλέπουμε ότι
είναι ανάλογος με τον ορισμό της εξίσωσης (4.7), όπου δpj = ( Opj – tpj) , καθόσον Opj = Spj όταν οι νευρώνες
είναι γραμμικοί. Η εξίσωση λοιπόν (4.15) γίνεται τώρα:

-dEp/dWji=δpjOpi
(4.18)

Αυτό δηλώνει ότι για να εφαρμόσουμε την επικλινή κάθοδο ως προς Ε θα πρέπει να κάνουμε τις αλλαγές στα W
ως εξής:
ΔρWji=nδρpjOpi
(4.19)

όπως ακριβώς και στον συνήθη κανόνα Δέλτα. Η μορφή της εξίσωσης (4.19) δίνει τον γενικευμένο «κανόνα
Δέλτα», όπου Δp είναι το Δ του προτύπου p. Τώρα πρέπει να υπολογίσουμε τα σωστά δpj για κάθε νευρώνα του
δικτύου. Θα αποδείξουμε τώρα μία αναδρομική σχέση για αυτά τα δ, με την οποία μπορούμε να προωθήσουμε
το σφάλμα προς τα πίσω, δηλ. από την έξοδο προς την είσοδο. Θέτουμε και εδώ την παράγωγο αυτή ως γινόμενο
δύο παραγώγων: μία που δίνει την μεταβολή του σφάλματος ως συνάρτηση της εξόδου και μία που δίνει την
μεταβολή της εξόδου ως συνάρτηση της μεταβολής της εισόδου. Έτσι έχουμε:

δpj=-dEρ/dSpj= -dEp/dOpj*dOpj/dSpj
(4.20)

72
73
Αλλά από την εξίσωση (4.13) έχουμε ότι:
dOpj/dSpj= f’j(Spj)
(4.21)

που είναι η παράγωγος της συνάρτηση ς ενεργοποίησης για τον νευρώνα j , υπολογιζόμενη στο σήμα εισόδου
SpjJ στο νευρώνα αυτό. Τώρα υπολογίζουμε την πρώτη παράγωγο στην εξίσωση του δpj Εδώ χρειάζεται
προσοχή, είναι το πιο λεπτό σημείο όλης της μεθόδου. Τον παράγοντα αυτόν τον υπολογίζουμε διαφορετικά αν ο
νευρώνας είναι στο επίπεδο εξόδου ή εσωτερικός. Στην περίπτωση που είναι στο επίπεδο εξόδου τότε:
dEp/dOpj=-(tpj-Opj)
(4.22)

που είναι το ίδιο αποτέλεσμα όπως με τον συνήθη κανόνα Δέλτα. Αντικαθιστώντας τους δύο παράγοντες στην
εξίσωση (4.20) παίρνουμε:
δpj= (tpj-Opj)f’(Spj)
(4.23)

για νευρώνες που είναι στο επίπεδο εξόδου. Για νευρώνες που είναι εσωτερικοί υπάρχει το πρόβλημα ότι δεν
έχουμε κανένα tpj δηλ. δεν έχουμε τιμές των στόχων. Στην περίπτωση αυτή χρησιμοποιούμε και πάλι τον κανόνα
αλυσίδας και έχουμε:

Σκ dEp/d(Spk)*d(Spk)/dOpj= Σκ dEp/d(Spk)*d/dOpj*ΣwkiOpi=Σκ dEp/d(Spk)*Wkj=-ΣκδpkWkj


(4.24)

Αντικαθιστώντας παρομοίως στην εξίσωση (4.20) παίρνουμε:

δpj=f’(Spj)Σκ δpkWkj
(4.25)

η οποία εξίσωση αφορά τώρα νευρώνες που δεν είναι στην έξοδο αλλά σε εσωτερικό επίπεδο. Οι εξισώσεις
(4.23) και (4.25) δίνουν τον τρόπο με τον οποίο υπολογίζονται όλα τα δ, για όλους τους νευρώνες στο δίκτυο, και
τα οποία χρησιμοποιούνται για να υπολογίσουμε την μεταβολή στα W σε όλο το δίκτυο. Η διαδικασία αυτή θεω-
ρείται ότι είναι ένας γενικευμένος κανόνας Δέλτα, για μη-γραμμικούς νευρώνες.

Ως περίληψη, η παραπάνω διαδικασία μπορεί να συνοψισθεί σε τρεις εξισώσεις. Πρώτα, εφαρμόζουμε τον
γενικευμένο κανόνα Δέλτα με τον ίδιο τρόπο όπως και τον γενικό κανόνα. Το W σε κάθε επίπεδο αλλάζει κατά
μία ποσότητα που είναι ανάλογη του σήματος σφάλματος δ, και ανάλογος επίσης της εξόδου ο. Δηλαδή,

Δ p W j i = η δpj Οpj

73
74

(4.26)

Οι άλλες δύο εξισώσεις δίδουν το σήμα του σφάλματος. Η διαδικασία του υπολογισμού του σήματος αυτού είναι
μία κυκλική διαδικασία που ξεκινάει από το επίπεδο εξόδου. Για ένα νευρώνα στο επίπεδο εξόδου το σφάλμα
είναι:

δpj = (tpj - Opj ) f’j (Spj)

(4.27)

όπου f ’j (Spj ) είναι η παράγωγος της συνάρτησης ενεργοποίησης. Για νευρώνες στα κρυμμένα επίπεδα δίδεται
από:

δpj = f’j(Spj) Σ δpk Wkj

(4.28)

Οι τρεις αυτές εξισώσεις αποτελούν έναν κύκλο για την εκπαίδευση του δικτύου και επιφέρουν μία αλλαγή μόνο
σε κάθε w. Το σύστημα ακολούθως επαναλαμβάνει τόσους κύκλους όσοι του χρειάζονται για να εκπαιδευτεί.

4.5 Μειονεκτήματα και προβλήματα

Παρά την μεγάλη επιτυχία της μεθόδου της οπισθοδιάδοσης, εν τούτοις υπάρχουν και περιπτώσεις που
η μέθοδος αποτυγχάνει ή δεν δουλεύει άμεσα με επιτυχία. Σε τέτοιες περιπτώσεις συνήθως χρειάζεται να
αλλάξουμε τιμές παραμέτρων, αρχικές συνθήκες κτλ., μέχρις ότου διορθωθεί το πρόβλημα.
Μερικές φορές ο χρόνος εκπαίδευσης είναι υπερβολικά μεγάλος. Χρειάζονται λ.χ. πολλά εκατομμύρια
κύκλοι διόρθωσης μέχρις ότου το σύστημα συγκλίνει ή μπορεί και να μην συγκλίνει ποτέ. Σε τέτοιες περιπτώσεις
πρέπει να αλλάξουμε το μέγεθος του βήματος. Αυτό συμβαίνει διότι τα βάρη μπορεί να πάρουν μεγάλες τιμές.
Αυτό σημαίνει ότι πολλοί νευρώνες δίδουν μεγάλη τιμή εξόδου σε περιοχές όπου η παράγωγος της συνάρτηση ς
εξόδου είναι πολύ μικρή. Καθόσον το σφάλμα που επιστρέφει από την έξοδο προς το κρυμμένο επίπεδο μέσα
στο δίκτυο είναι ανάλογο της παραγώγου αυτής, μπορεί τότε η διαδικασία εκπαίδευσης να «κωλύσει». Τότε
μικραίνουμε το μέγεθος του βήματος, αλλά αυτό έχει ως αποτέλεσμα να μεγαλώσει ο χρόνος εκπαίδευσης.
Ένα άλλο συχνό πρόβλημα είναι αυτό των τοπικών ελαχίστων. Η μέθοδος αυτή, όπως είδαμε
παραπάνω, χρησιμοποιεί την μαθηματική τεχνική της επικλινούς καθόδου. Μία εικονική αναπαράσταση της
καθόδου αυτής δίδεται στο Σχήμα 5 όπου βλέπουμε ότι το σφάλμα στην αρχή είναι μεγάλο αλλά σιγά-σιγά
βρίσκει το ελάχιστο μέσα στον κύβο.

74
75

Εικόνα 5.
Σχηματικό
διάγραμμα της
διαδρομής που
ακολουθεί το
σφάλμα κατά την
εκπαίδευση του
δικτύου , όπου
αρχικά στο επάνω
μέρος του κύβου
το σφάλμα είναι
μεγάλο , αλλά
κατα τη
διαδικασία της
εκπαίδευσης
σταδιακά
ελαττώνεται φτάνοντας στο κάτω μέρος του κύβου

Ακολουθείται η κλίση της επιφάνειας σφάλματος προς τα κάτω, μεταβάλλοντας συνεχώς τα βάρη μέχρι
το σύστημα να φθάσει στο ελάχιστο. Το ελάχιστο αυτό όμως πρέπει να είναι το ολικό ελάχιστο. Η επιφάνεια
μπορεί να έχει πολλά βουνά, λόφους, κοιλάδες, φαράγγια, χαράδρες κτλ Αυτό σημαίνει ότι υπάρχουν πολλά
τοπικά ελάχιστα, που είναι ψηλότερα από το ολικό ελάχιστο και στα οποία μπορεί εύκολα να παγιδευτεί το
δίκτυο στην προσπάθειά του να βρει το ολικό ελάχιστο. Επειδή το σύστημα θέλει να πάει πάντα προς τα κάτω,
αν πέσει σε ένα τοπικό ελάχιστο δεν έχει τρόπο να αποπαγιδευθεί μόνο του και να συνεχίσει τον δρόμο του,
εκτός αν εκπαιδευτεί από την αρχή με νέα αρχικοποίηση. Συνήθως χρησιμοποιούμε στατιστικές μεθόδους
εκπαίδευσης, για να αποφεύγεται το πρόβλημα αυτό .
Το μέγεθος του βήματος επίσης παίζει σημαντικό ρόλο στην ταχύτητα εκμάθησης. Εάν είναι πολύ
μικρό, τότε η εκπαίδευση αργεί υπερβολικά και πρέπει να το αυξήσουμε. Και εδώ η πιο σωστή και ιδανική λύση
βρίσκεται με trial-and-error, δηλ με πολλαπλές δοκιμές μέχρις ότου βρούμε την ιδανική τιμή.
Τέλος, θα πρέπει να θυμίσουμε ότι κατά την διαδρομή της εκπαίδευσης θα πρέπει να παρουσιάσουμε
όλα τα πρότυπα, με ένα από τους δύο τρόπους που αναφέρθηκε παραπάνω, και τα πρότυπα πρέπει να
παραμείνουν σταθερά. Οι αλλαγές των βαρών θα πρέπει επίσης να γίνονται στο δίκτυο μετά την παρουσίαση
όλων των προτύπων. Αν όμως το δίκτυο βρίσκεται σε ένα περιβάλλον το οποίο συνεχώς αλλάζει πρότυπα, τότε η
εκπαίδευση του δικτύου δεν θα συγκλίνει ποτέ και το δίκτυο θα εκπαιδεύεται άσκοπα. Βλέπουμε λοιπόν στο
σημείο αυτό ότι η μέθοδος αυτή δεν μιμείται τα βιολογικά συστήματα, τα οποία έχουν την ικανότητα να

75
76
μαθαίνουν ακόμα καιόταν αλλάζουν τα πρότυπα που παρουσιάζονται, με την ικανότητα που έχουν να τα
ταξινομούν επιλεκτικά και να δίνουν διαφορετικό βάρος στα πρότυπα που τους παρουσιάζονται.

4.6 Εφαρμογές

H μέθοδος της οπισθοδιάδοσης είναι η πιο κοινή και ευρέως χρησιμοποιούμενη μέθοδος σήμερα για εκπαίδευση
νευρωνικών δικτύων. Υπάρχουν πολλές εφαρμογές της όπως αυτές της οπτικής αναγνώρισης χαρακτήρων, της
λήψης αποφάσεων κτλ.
Ένα άλλο παρόμοιο πακέτο, το NetTalk , αναπτύχθηκε από τους Sejnowski και Rosenberg (1987) που
μετατρέπει με μεγάλη επιτυχία κείμενα Αγγλικών κατευθείαν σε ομιλία.
Υπάρχουν επίσης προσπάθειες και προγράμματα για την πιο δύσκολη διαδικασία, την αναγνώριση χειρογράφων
κειμένων. Οι χαρακτήρες κανονικοποιούνται πρώτα ώστε να έχουν όλοι το ίδιο μέγεθος, μετά τοποθετούνται σε
ένα πλέγμα και γίνονται οι προβολές των γραμμών στα τετράγωνα του πλέγματος. Οι προβολές αυτές είναι οι
τιμές εισόδου για το δίκτυο. Η μέθοδος αυτή αναπτύχθηκε από τον Βυrr (1987) και έχει > 99% επιτυχία.

Παρόμοιο πρόγραμμα έχει αναπτύξει και η εταιρία υπολογιστών NEC με ακρίβεια >99%, αλλά η αναγνώριση
γίνεται με άλλες μεθόδους. Το νευρωνικό δίκτυο οπισθοδιάδοσης χρησιμοποιείται για να δώσει επιβεβαίωση των
άλλων μεθόδων , αλλά διαπιστώθηκε ότι ο συνδυασμός αυτός έχει μεγαλύτερο ποσοστό επιτυχίας.

Σύνοψη
Η δομή του δικτύου πρέπει να περιέχει πάντοτε κρυμμένα επίπεδα. Έστω και ένα κρυμμένο επίπεδο
θεωρητικά είναι αρκετό για πολλά προβλήματα, αλλά συνήθως χρειάζονται περισσότερα του ενός Η συνάρτηση
μεταφοράς πρέπει να έχει οπωσδήποτε μορφή σιγμοειδούς συνάρτησης για να παραμένει το δίκτυο σε
πεπερασμένες τιμές. Χρησιμοποιήσαμε την πιο κοινή τέτοια συνάρτηση με την μορφή
1 + exp ( -S ) στον παρανομαστή κλάσματος. Αρχικά οι τιμές των βαρών είναι επιλεγμένες τυχαία και το δίκτυο
εκπαιδεύεται με το να αναπροσαρμόζει τις τιμές αυτές. Η αναπροσαρμογή γίνεται με τον γενικευμένο κανόνα
Δέλτα, ο οποίος ελαχιστοποιεί το τετράγωνο του σφάλματος που προκύπτει από τη διαφορά του στόχου από την
εκάστοτε έξοδο του δικτύου. Η μέθοδος αυτή είναι μία μορφή της μαθηματικής μεθόδου της πλέον απότομης
καθόδου. Κατά την εκπαίδευση το δίκτυο περνά από πολλές τέτοιες αναπροσαρμογές ή κύκλους μέχρις ότου το
σφάλμα γίνει πολύ χαμηλό, όσο είναι ανεκτό στο πρόβλημα μας. Μετά την εκπαίδευση οι τελικές τιμές των
βαρών παραμένουν σταθερές και το δίκτυο μπορεί να χρησιμοποιηθεί για να αναγνωρίσει νέα πρότυπα. Αρκετές
φορές χρειάζεται μεγάλος υπολογιστικός χρόνος για την εκπαίδευση του δικτύου, πολλές χιλιάδες ή εκατομμύρια
κύκλοι. Τέλος, πρέπει να τονισθεί ότι η οπισθοδιάδοση εφαρμόζεται σε δίκτυα των οποίων η δομή είναι
καθορισμένη.

76
77

Εγχειρίδιο χρήσης του προγράμματος neuropean

DATA PREPROCESSING

Για να εφαρμόσουμε το πρόγραμμα neuropean θα πρέπει να κάνουμε μια προετοιμασία πάνω στα
δεδομένα μας .
Το συγκεκριμένο νευρωνικό δίκτυο δέχεται ένα σύνολο δεδομένων (είσοδοι) και μας δίνει το επιθυμητό
αποτέλεσμα (έξοδος) . Η ιδιαιτερότητα του έγκειται στο γεγονός ότι δέχεται και μπορεί να επεξεργαστεί
μόνο αριθμητικά δεδομένα που περιέχονται στο διάστημα [-1,1]. Άρα θα πρέπει να ακολουθήσουμε κάποια
βήματα προετοιμασίας και μετασχηματίζουμε τα δεδομένα σε εκείνον τον τύπο που να είναι αναγνωρίσιμος από
το Neural Network. :
ΣΤΑΔΙΟ Α΄
Εισάγουμε το σύνολο των δεδομένων μας σε ένα φύλλο του Excel. Τα δεδομένα θα
εμφανίζονται με την παρακάτω μορφή (παραθέτουμε μέρος του πίνακα και ομοίως διαμορφώνονται και τα
υπόλοιπα δεδομένα):
dept/equity a year Annual change in
ago:index in the form of sales a year Products-
case-Nr percentage ago:percentage Services(quality)
e1 -2,4 0,214285714 Good
e2 35 1,3 Good
e3 5,691176471 0,161904762 Good
e4 1,6 0,015384615 Good
e5 0,908474576 -0,308855292 Good
e6 2,246129776 0,164726882 Good
e7 0,388235294 0,718072289 Exceptional
e8 0,132141083 0,398132512 Good
e9 0,347826087 -0,020833333 Good
e10 0,433935145 0,187503728 Good
e11 5,880666667 0 Average
e12 6,191780822 0,090753425 Good
e13 2,496524023 0,2093551 Good
e14 13,5 0,269333333 Good
e15 1,546419098 -0,016329705 Exceptional
e16 0 -1 Average
e17 43,03645833 -0,303930393 Average

77
78
e18 5,413630229 0,006355932 Exceptional

ΣΤΑΔΙΟ Β΄ ( MAPPING)
Κατηγορικοί χαρακτηρισμοί των δεδομένων (όπως GOOD, BAD, κτλ )θα πρέπει να γίνουν
αριθμοί . Αν για παράδειγμα έχουμε μια μεταβλητή , έστω Χ1 η οποία περιλαμβάνει τις τρεις τιμές / κατηγορίες
(έστω c) :
c1.good
c2. exceptional
c3. average
τότε το σύνολο των κατηγοριών είναι τρεις (c = 3 ) , άρα κάνω την παρακάτω διαίρεση:

2 / (c-1) = 2 / (3-1) = 2 / 2 =1
Ξεκινώντας από τον αριθμό -1 που αντιστοιχώ στην μια άκρη της κλίμακας αξιολόγησης που έχω εδώ (good=-1),
προσθέτω κάθε φορά το αποτέλεσμα της παραπάνω διαίρεσης και βρίσκω την ποσοτική έκφραση για κάθε
επόμενη κατηγορία. Δηλαδή για την ποσοτικοποίηση του c2 = exceptional θα ισχύει
-1+1=0.
Άρα θα έχουμε την αντιστοιχία του exceptional = 0
Για την ποσοτικοποίηση του average θα έχουμε
0+1 = 1
Άρα θα έχουμε την αντιστοιχία του average =1, και το νέο φύλλο του Excel μετά από αντικατάσταση των
c1.good με -1
c2. exceptional με 0
c3. average με 1
διαμορφώνεται ως εξής :
dept/equity a year Annual change in
ago:index in the form of sales a year Products-
case-Nr percentage ago:percentage Services(quality)
e1 -2,4 0,214285714 0.5
e2 35 1,3 0.5
e3 5,691176471 0,161904762 0.5
e4 1,6 0,015384615 0.5
e5 0,908474576 -0,308855292 0.5
e6 2,246129776 0,164726882 0.5
e7 0,388235294 0,718072289 1,0000
e8 0,132141083 0,398132512 0.5
e9 0,347826087 -0,020833333 0.5

78
79
e10 0,433935145 0,187503728 0.5
e11 5,880666667 0 -0,5000
e12 6,191780822 0,090753425 0.5
e13 2,496524023 0,2093551 0.5
e14 13,5 0,269333333 0.5
e15 1,546419098 -0,016329705 1,0000
e16 0 -1 -0,5000
e17 43,03645833 -0,303930393 -0,5000
e18 5,413630229 0,006355932 1,0000

ΣΤΑΔΙΟ Γ΄
Το πρόγραμμα τεχνητής νοημοσύνης δέχεται μόνο δεδομένα τα οποία περιέχονται στο κλειστό
διάστημα [-1,1].Για το λόγο αυτό χρειάζεται να κάνουμε :
Κανονικοποίηση του συνόλου των δεδομένων στο εύρος [-1,1].
Βήματα:
1. Βγάζω ελάχιστα (min) και μέγιστα (max) για κάθε στήλη του Excel (χρησιμοποιώντας τις
αντίστοιχες συναρτήσεις του Excel).
2. Υπολογίζω το Μέσο Εύρος (midrange) για κάθε στήλη του Excel ,το οποίο δίνεται από τον
τύπο :
MR = (max + min) / 2
3. Υπολογίζω το Εύρος (range) για κάθε στήλη του Excel, το οποίο δίνεται από τον τύπο :
RA = max – min

4. Σε μια νέα σελίδα του Excel ξαναφτιάχνω το σετ δεδομένων ( data set ) όπου κάθε
δεδομένο (κελί) παίρνει νέα τιμή :
Χ νέο = ( Χ παλιό – MR ) / (RA /2)
Τα δεδομένα τώρα παίρνουν την τελική τους μορφή και είναι έτοιμα για επεξεργασία :

79
80
dept/equity a
year ago:index Annual change in
in the form of sales a year Products-
case-Nr percentage ago:percentage Services(quality)
1,00 0,42 0.333 0.5
2,00 1,32 0.333 0.5
3,00 0,38 0.333 0.5
4,00 0,25 0.333 0.5
5,00 -0,01 0.333 0.5
6,00 0,38 0.333 0.5
7,00 0,84 1,00 1,0000
8,00 0,57 0.333 0.5
9,00 0,22 0.333 0.5
10,00 0,40 0.333 0.5
11,00 0,24 -0.333 -0,5000
12,00 0,32 0.333 0.5
13,00 0,41 0.333 0.5
14,00 0,46 0.333 0.5
15,00 0,23 1,00 1,0000
16,00 -0,59 -0.333 -0,5000
17,00 -0,01 -0.333 -0,5000
18,00 0,25 1,00 1,0000

80
81

Neuropean, Artificial Intelligence Programme

Κάνοντας διπλό κλικ, στο παραπάνω εικονίδιο, έχετε θέσει σε εφαρμογή το πρόγραμμα neuropean. Ακολουθείστε
βήμα βήμα τις ενέργειες που απεικονίζονται παρακάτω και θα εκπαιδεύσετε το νευρωνικό σας δίκτυο, ώστε να σας
αποδώσει την βέλτιστη πρόβλεψη :

81
82

Εικόνα 1 Όροι χρήσης του λογισμικού

Μόλις εγκαταστήσετε το πρόγραμμα και θελήσετε να το τρέξετε εμφανίζεται η εικόνα 1 , η οποία είναι μια
τυπική οθόνη που αναφέρει την άδεια χρήσης του λογισμικού (software).
Χρησιμοποιώντας τις μπάρες κύλισης προς τα δεξιά και κάτω μπορείτε να διαβάσετε τους όρους της άδειας και
σε λίγα λεπτά μόλις το κουμπί αποδοχής γίνει έντονο κάνετε κλικ πάνω σε αυτό.
Με αυτόν τον τρόπο αποδέχεστε την άδεια χρήσης και ανοίγει η κύρια οθόνη του προγράμματος.

82
83

Εικόνα 2, Κύρια Οθόνη

Η κύρια οθόνη του προγράμματος , χωρίζεται σε τρία βασικά μέρη, τρία παράθυρα:
‰ Fitness Window.Εμφανίζει σε γράφημα την επιθυμητή έξοδο του νευρωνικού δικτύου, την πραγματική
έξοδο του δικτύου και το σφάλμα του δικτύου.
‰ Data Window. Εμφανίζει τα δεδομένα του προβλήματος , τα οποία είναι περασμένα στο Excel , το
οποίο είναι ήδη ανοιχτό στο background. Τα δεδομένα εμφανίζονται περασμένα σε κελιά του Excel.
‰ Report Window. Εμφανίζει πληροφορίες για όλες τις διεργασίες που γίνονται.

83
84

Εικόνα 3

Πατώντας το φακελάκι στο παράθυρο δεδομένων ( Data Window ), επιλέγουμε να ανοίξουμε ένα αρχείο του
Excel

Εικόνα 4

Στην οθόνη αυτή μπορούμε να επιλέξουμε το format της σελίδας του Excel που θα ανοίξει. Δηλαδή, ένα
παράδειγμα format ( το οποίο είναι και μοναδική επιλογή σε αυτή τη version είναι το Standard(1 Header Row) ,
στο οποίο προτείνεται το πρόγραμμα να αγνοήσει την πρώτη γραμμή της σελίδας του Excel.
Μόλις το επιλέξετε, ανοίγει αυτόματα το αρχείο χωρίς να το δω ακόμη. Πιέστε λοιπόν ok για να συνεχίσετε.

84
85

Εικόνα 6

Πρέπει να προσέξετε ότι το Excel πρέπει να είναι ήδη ανοιχτό. Με ρωτάει λοιπόν τώρα ποιο αρχείο θέλω να
ανοίξω. Επιλέγω το αρχείο που επιθυμώ κάνοντας κλικ πάνω σε αυτό και πατάω ok.

Εικόνα 7

Καλείστε στην συνέχεια να επιλέξετε ποιο Worksheet θέλετε να ανοίξετε.

85
86

Εικόνα 8

Όπότε το παράθυρο δεδομένων γεμίζει με τα data .

Εικόνα 9

Από το μενού , επιλέξτε τις εντολές Network-> Setup Network-> Designer.


Έτσι έχετε εμφανίσει το Network Designer παρακάτω.

86
87

Εικόνα 10

Στο παράθυρο αυτό μπορείτε να σχεδιάσετε το νευρωνικό σας δίκτυο. Από τις κάθετες μπάρες κύλισης μπορείτε
να επιλέξετε τον αριθμό των εισόδων , εξόδων και των βαρών του νευρωνικού δικτύου. Από την οριζόντια
μπάρα κύλισης επιλέξτε των αριθμό των στρωμάτων του δικτύου.

87
88

Εικόνα 11

Επόμενη φάση είναι η επιλογή της διαδικασίας εκπαίδευσης. Κάνοντας δεξί κλικ στο παράθυρο δεδομένων ,
επιλέξτε Define Training Set.

88
89

Εικόνα 12

Εμφανίζεται το παράθυρο διαλόγου Split Sets. Στο παράθυρο αυτό έχουμε τρεις επιλογές. Στο πρώτο κουτί
αναγράφεται ο αριθμός των στηλών των data που έχουμε περάσει στο neuropean. Στο δεύτερο κουτί Train set ,

89
90
είναι ο αριθμός των στηλών (από τις παραπάνω) που θέλουμε να χρησιμοποιήσουμε για να εκπαιδεύσουμε το
νευρωνικό δίκτυο, ενώ Test Set είναι ο αριθμός των στηλών των data που θα χρησιμοποιήσουμε για να πάρουμε
τα αποτελέσματα και να δούμε αν το δίκτυο λειτουργεί προβλεπόμενα.. προτείνεται 3/4 train set και ¼ test set
να χρησιμοποιηθεί του συνόλου των δεδομένων.

Εικόνα 13

Από τις επιλογές του μενού ακολουθώ την εξής πορεία : Network -> Randomize

Εικόνα 14

Εμφανίζεται το παράθυρο διαλόγου Randomize Network στο οποίο καλείστε να αποδώσετε μια τιμή στην
οποία επιθυμείτε να κυμαίνονται τα βάρη των συνδέσμων του δικτύου .

90
91

Weight

Εισάγετε τον αριθμό που επιθυμείτε και πιέστε Randomize.

Προσοχή!!!
Για να γίνει σωστή εκπαίδευση του νευρωνικού δικτύου, θα πρέπει να γίνουν πολλές
δοκιμές. Επαναλάβετε την εκπαίδευση παίζοντας με τις τιμές αλλά ανάμεσα σε κάθε
εκπαίδευση κάντε ξανά Randomize!!!

91
92

Εικόνα 15

Τα αποτελέσματα της προηγούμενης ενέργειας εμφανίζονται στο Fitness Window. Εμφανίζεται επίσης ένα
παράθυρο Weights , το οποίο περιέχει πληροφορίες σχετικά με τα βάρη του νευρωνικού δικτύου.
Στο Fitness Window, εμφανίζεται ένα σχεδιάγραμμα που αποτελείται από τρεις γραμμές :
1. η κόκκινη γραμμή, η οποία αντιπροσωπεύει την κατάσταση που θέλετε να επιτύχετε
2. η πράσινη γραμμή, η οποία είναι αντιπροσωπευτική της ισχύουσας κατάστασης και
3. η μπλε γραμμή, η οποία αντιπροσωπεύει το σφάλμα του νευρωνικού δικτύου που έχετε εκπαιδεύσει.

92
93

Εικόνα 16

Αριστερά και στο επάνω μέρος του Fitness Window υπάρχουν τέσσερα κουτάκια που μπορείτε να επιλέξετε.
Αυτά αντιπροσωπεύουν τις μεθόδους που μπορείτε να χρησιμοποιήσετε για να εκπαιδεύσετε το νευρωνικό
δίκτυο. Αναλυτικότερα :

‰ Β Back propagation. Είναι η μέθοδος οπισθοδιάδοσης του λάθους

‰ Q QuickProp

‰ R RProp

‰ G Genetic Algorithm. Η οποία μέθοδος δεν τρέχει για αυτή τη Version του προγράμματος .

Εικόνα 17

Στο επάνω και κεντρικό μέρος του Fitness Window , υπάρχει ένα κουτί στο οποίο μπορείτε να εισάγετε τον
αριθμό των output (εξόδων) του νευρωνικού δικτύου , οπότε αν έχετε περισσότερες από μία εξόδους μπορείτε να
κάνετε την επιλογή από εδώ.
Η σημασία της εξόδου φαίνεται παρακάτω , όταν π.χ. στα δεδομένα που έχετε εισάγει , όταν η έξοδος είναι μία ,
τότε η τελευταία στήλη είναι η έξοδος.

1 2 3 4 5 6 7 8 9
Train .36 .25 .56 .78 35 .12 .58 .45
Set

93
94
Test .65 .95 .69 .47 .48 .56 .12 .23
Set

Εικόνα 18

Αν πιέσουμε το Β εμφανίζεται το παράθυρο διαλόγου που αντιστοιχεί στον αλγόριθμο οπισθοδιάδοσης του
λάθους και καλείστε να συμπληρώσετε τα χαρακτηριστικά μεγέθη του αλγορίθμου .

94
95

Εικόνα 19

Αν πιέσουμε το Q εμφανίζεται το παράθυρο διαλόγου που αντιστοιχεί στον αλγόριθμο Quick Prop και καλείστε
να συμπληρώσετε τα χαρακτηριστικά μεγέθη του αλγορίθμου .

95
96

Εικόνα 20

Αν πιέσουμε το R εμφανίζεται το παράθυρο διαλόγου που αντιστοιχεί στον αλγόριθμο RProp και καλείστε να
συμπληρώσετε τα χαρακτηριστικά μεγέθη του αλγορίθμου .

96
97

Εικόνα 21

Στο μενού του Fitness Window από την επιλογή Help, εάν κάνετε κλικ πάνω στο About Neuropean, θα πάρετε
πληροφορίες για την συγγραφή και το σκοπό του προγράμματος, ενώ αν κάνετε κλικ στο System Info, θα
πάρετε πληροφορίες συστήματος .

97
98

Εικόνα 22

Αφού έχετε εκπαιδεύσει το νευρωνικό δίκτυο ,μπορείτε να το σώσετε , έτσι ώστε σε επόμενες εφαρμογές να
μπορείτε να το ανοίξετε και να το χρησιμοποιήσετε για άλλες επιλογές.
Στην συγκεκριμένη version δεν είναι δυνατή η αποθήκευση γιατί προσφέρεται μόνο για εκπαιδευτικούς σκοπούς.

Αναλυτική περιγραφή του μενού του Fitness Window

File
Open
Neural Network, Ctrl+S (ανοίγει νευρωνικό δίκτυο το οποίο υπάρχει ήδη αποθηκευμένο,
αρκεί να γνωρίζουμε που είναι αποθηκευμένο ή το ακριβές όνομά του)
Save
Neural Network, Ctrl+O (σώζει το νευρωνικό δίκτυο που κατασκευάσατε ή
επεξεργαστήκατε. Απαραίτητο μετά από εκπαίδευση δικτύου έτσι ώστε να χρησιμοποιηθεί αυτό αργότερα για
άλλα δεδομένα )
Exit (τερματίζει την εφαρμογή)

Network
Setup Network
Designer (Στο παράθυρο αυτό μπορείτε να σχεδιάσετε το νευρωνικό σας δίκτυο. Από τις
κάθετες μπάρες κύλισης μπορείτε να επιλέξετε τον αριθμό των εισόδων , εξόδων και των βαρών του νευρωνικού
δικτύου. Από την οριζόντια μπάρα κύλισης επιλέξτε των αριθμό των στρωμάτων του δικτύου)
Type
Feed Forward
Train (Εμφανίζει τις μεθόδους εκπαίδευσης που είναι διαθέσιμες για το νευρωνικό δίκτυο)
Back Propagation (μέθοδος οπισθοδιάδοσης του λάθους)

98
99
Quick Prop
RProp
Genetic Algorithm (γενετικός αλγόριθμος – μη διαθέσιμος)
Randomize (καλείστε να αποδώσετε μια τιμή στην οποία επιθυμείτε να κυμαίνονται τα βάρη των
συνδέσμων του δικτύου )

Transfer Function
Hyperbolic Tangent
Gaussian
Absolute Sigmoid 0…1
Absolute Sigmoid -1…1
Sigmoid 0…1
Symmetrical Sigmoid -1…1
Sigmoid Gain
Sigmoid Offset

Window
Cascade (εμφανίζει τα τρία παράθυρα το ένα πίσω από το άλλο)
Tile Horizontal (εμφανίζει τα παράθυρα διατεταγμένα οριζόντια)
Tile Vertical (εμφανίζει τα παράθυρα διατεταγμένα κάθετα)
Arrange Icons
1. Report Window (γίνεται αυτόματη μετάβαση στο παράθυρο έκθεσης των αποτελεσμάτων)
2. Data Window (γίνεται αυτόματη μετάβαση στο παράθυρο δεδομένων)
3. Fitness Window (γίνεται αυτόματη μετάβαση στο «παράθυρο ικανοτήτων» )

Help
About Neuropean (εμφανίζει πληροφορίες για την δημιουργία του προγράμματος και πληροφορίες
συστήματος).

99
100

Θεωρητική προσέγγιση Application Credit Scoring

Εφαρμογή τεχνητών νευρωνικών δικτύων (neuropean) στην εξαγωγή κανόνων προς αξιολόγηση
επιχειρήσεων που τηρούν λογιστικά βιβλία Α και Β κατηγορίας, με στόχο την αναγνώριση της
επικινδυνότητας για ενδεχόμενη δανειοδότηση από κάποιο φορέα.

Mε την ολοένα αύξηση των χρηματοοικονομικών συναλλαγών τόσο σε επίπεδο τραπεζικό, όσο και σε
επιχειρησιακό υπάρχει η έντονη ανάγκη για την αυτοματοποίηση διαφόρων διαδικασιών.
Η αυτοματοποίηση, όμως αυτή δεν θα πρέπει να γίνει με τέτοιο τρόπο ώστε να αφήνει μεγάλα περιθώρια
σφάλματος στον χειρισμό των δεδομένων. Οι αποφάσεις οι οποίες θα εξάγονται θα πρέπει να προσεγγίζουν σε
μέγιστο βαθμό τις αποφάσεις τους ειδικού πάνω στο θέμα που καλούμαστε να προσομοιώσουμε. Μια από τις πιο
διαδεδομένες χρηματοοικονομικές συναλλαγές είναι το δάνειο. Το δάνειο αποτελεί μια πρόκληση για
μοντελοποίηση κι αυτό επειδή αφορά τους πάντες. Υποψήφιοι για δάνειο μπορούμε να είμαστε εμείς οι ίδιοι ως
ιδιώτες έως το ίδιο το κράτος. Συνεπώς υπάρχει μια μεγάλη πληθώρα κριτηρίων ανάλογα με την περίπτωση που
μας καθορίζουν τους περιορισμούς και το αποτέλεσμα της απόφασης. Για να γίνεται μια πιο επιστημονική
προσέγγιση στο θέμα έχει αναπτυχθεί εδώ και μερικά χρόνια η έννοια του Credit Scoring. Αυτή η έννοια
αποτελεί και το μέτρο σύγκρισης
αλλά και απόφασης για τον φορέα που καλείται να παρέχει το δάνειο προς τον ενδιαφερόμενο.
Σήμερα δεν υπάρχει κάποιος φορέας που να μην έχει κάποια σχέση με την διαδικασία δανειοδότησης είτε από
την μεριά αυτού που καλείται να παρέχει το δάνειο είτε από την μεριά αυτού που το ζητάει. Στις τράπεζες
ιδιαίτερα που είναι ο κύριος φορέας παροχής δανείων υπάρχει η έντονη ανάγκη για γρήγορη και έγκυρη
αξιολόγηση του ενδιαφερομένου με σκοπό να καθοριστούν ορισμένες αποφάσεις κλειδιά. Μερικές από αυτές
είναι: αν θα πάρει δάνειο ο αιτών, πόσο θα είναι το ύψος του δανείου
αυτού, για πόσο χρονικό διάστημα θα ισχύει, τι περιθώρια αποπληρωμής θα του παρέχει, και όλα αυτά πάντα
διασφαλίζοντας το ελάχιστο δυνατόν επίπεδο κινδύνου για την τράπεζα.
Η ιστορία του Credit Scoring είναι σχετικά πολύ σύντομη και ξεκίνησε από τις Ηνωμένες Πολιτείες της
Αμερικής. Αρκετά στελέχη είχαν κατά καιρούς προσπαθήσει να διαμορφώσουν και να τεκμηριώσουν
επιστημονικά μια αντικειμενική διαδικασία αξιολόγησης του πιστωτικού κινδύνου, με βάση ποσοτικά κριτήρια
αλλά όλες οι προσπάθειες παρέμειναν άκαρπες, μιας και δεν υπήρχαν ηλεκτρονικοί υπολογιστές, τουλάχιστον
στην μορφή που τους ξέρουμε εμείς.
Πρωτοπόρος στον τομέα αυτό μπορεί να θεωρηθεί ο Henry Wells, ανώτατο στέλεχος της Spiegel Inc., ο οποίος
κατά τη διάρκεια του Δεύτερου Παγκόσμιου Πολέμου εκπόνησε με την βοήθεια στατιστικών τεχνικών ένα
σύστημα Credit Scoring, που είχε σκοπό να αντικαταστήσει τους αναλυτές πιστώσεων (Credit Analysts) που

100
101
χρησιμοποιούσαν οι επιχειρήσεις. Κατά καιρούς και άλλο ι ειδικοί ασχολήθηκαν με την ανάπτυξη ανάλογων
μεθόδων, αλλά ως σημείο σταθμός είναι αναμφισβήτητα η εμφάνιση και η δραστηριοποίηση της εταιρίας Fair
Isaak. Οι πρώτοι αποδέκτες των προσπαθειών της εταιρίας αυτής για τη διάδοση της νέας μεθοδολογίας
ποσοτικής εκτίμησης του πιστωτικού κινδύνου που συνδέεται με την χορήγηση σε έναν υποψήφιο πελάτη ενός
προϊόντος καταναλωτικής πίστης ήταν οι χρηματοδοτικοί οργανισμοί. Ακολούθησαν οι μεγάλες επιχειρήσεις
ταχυδρομικών παραγγελιών, με πρωτοπόρο την Montgomery Word and Co., την οποία στην συνέχεια μιμήθηκαν
μεγάλες εταιρίες όπως η R.M.Magy and Co. Inc., Gimbels and Bloomingdale’s, και πολλές άλλες. Σημαντική
ώθηση στη χρησιμοποίηση της μεθόδου αυτής έδωσε η εγκατάσταση από τις παραπάνω εταιρίες, ηλεκτρονικών
υπολογιστών που είχαν ως αποκλειστικό αντικείμενο την κεντρική επεξεργασία των στοιχείων που χρησιμοποιεί
η μέθοδος.
Το πιο βασικό εμπόδιο στην εξέλιξη της μεθοδολογίας του Credit Scoring ήταν να πειστούν τα εξειδικευμένα
στελέχη του πιστωτικού τομέα να μην είναι επιφυλακτικοί και να σταματήσουν να αντιμετωπίζουν το σύστημα
με καχυποψία και σαν κάτι που σαν αποκλειστικό σκοπό είχε να τους παραγκωνίσει. Οι συνθήκες όμως που
ακολούθησαν στις δεκαετίες του ’70 και του ’80, υποχρέωσαν όλους τους σοβαρούς χρηματοοικονομικούς
οργανισμούς να εφαρμόσουν ποσοτικές τεχνικές για την
εκτίμηση του πιστωτικού κινδύνου. Ενδεικτικά αναφέρονται οι παρακάτω συνθήκες :
• η μαζική είσοδος στον τομέα της καταναλωτικής πίστης νέων κατηγοριών πελατείας, σαν αποτέλεσμα
της ανάπτυξης της μεσαίας κοινωνικά τάξης αλλά καιτης νέας πολιτικής κατεύθυνσης του μάρκετινγκ
που υιοθέτησαν πολλοί πιστωτικοί οργανισμοί που στράφηκαν προς την ιδιωτική πελατεία
• η ραγδαία εξάπλωσης της χρήσης ηλεκτρονικών υπολογιστών
• ο οξύτατος ανταγωνισμός στον κλάδο αυτό, που αφορούσε όχι μόνο τους όρους των διαφόρων
προϊόντων αλλά και τις εφαρμοζόμενες διαδικασίες
• τέλος, η άμεσα ή έμμεσα, επιβαλλόμενη από το νόμο ανάγκη εφαρμογής της
• πιστοδοτικής πολιτικής.
Βέβαια, δεν άργησαν να εμφανισθούν τα πρώτα προβλήματα, για την επίλυση των οποίων οι ειδικοί, οι οποίοι
προέρχονταν από τους χώρους της στατιστικής και των μαθηματικών, αναγκάστηκαν να επινοήσουν τις
κατάλληλες μεθόδους. Ένα τέτοιο χαρακτηριστικό πρόβλημα ήταν και η κατά διαστήματα αναθεώρηση του
συστήματος προκειμένου να προσαρμοστεί στις μεταβαλλόμενες συνθήκες αλλά και τις ανακατατάξεις που
σημειώνονται στην σύνθεση του στατιστικού πληθυσμού σαν αποτέλεσμα των κοινωνικών μεταβολών, της
επέκτασης του πεδίου δραστηριότητας των τραπεζών ή των διαφοροποιήσεων στην ακολουθούμενη πολιτική
πιστοδοτήσεων. Ένα πρόβλημα που μέχρι και σήμερα δεν έχει αντιμετωπισθεί ουσιαστικά και με τρόπο κοινά
αποδεκτό είναι η αξιοποίηση κατά την δημιουργία του αλγορίθμου, με βάση τον οποίο υπολογίζεται η
βαθμολογία του πιστωτικού κινδύνου που αντιπροσωπεύει κάθε υποψήφιος πελάτης, των στοιχείων των
αιτήσεων που έχουν απορριφθεί, των οποίων αναγκαστικά δεν ξέρουμε την συμπεριφορά που θα είχαν σε
περίπτωση που είχαν γίνει δεκτές οι αιτήσεις τους.
Για να έρθουμε τώρα στο παρόν, πρέπει να τονίσουμε ότι η άνθηση που βρίσκει η μεθοδολογία αυτή στις μέρες
μας είναι τεράστια. Οι χώροι εφαρμογής της εκτείνονται από τη βασική μέθοδο βαθμολόγησης του πιστωτικού
κινδύνου του υποψήφιου πελάτη με βάση τις πληροφορίες που μπορούμε να έχουμε στην διάθεση μας από την

101
102
αίτηση του έως μια γκάμα προϊόντων που καλύπτουν όλες τις μορφές της καταναλωτικής πίστης και
γενικότερα της δραστηριότητας των αρμόδιων τμημάτων των χρηματοδοτικών οργανισμών καθώς και όλες τις
κατηγορίες πελατών. Στο διαδίκτυο μπορεί να βρει κανείς από εξειδικευμένο λογισμικό για την συγκεκριμένη
εφαρμογή Credit Scoring που θέλει να εφαρμόσει μέχρι οδηγίες για το πως να πετύχει κανείς την απαραίτητη
βαθμολογία για να γίνει η αίτηση του για ένα προϊόν καταναλωτικής πίστης δεκτή.
Στα κεφάλαια που ακολουθούν θα προσπαθήσουμε να δώσουμε μια σαφής εικόνα για την μέχρι τώρα
χρησιμοποιούμενη θεωρία, χωρίς όμως να εμπλακούμε σε πολύ μεγάλη λεπτομέρεια μιας και ο ρόλος της
διπλωματικής είναι η παρουσίαση της εναλλακτικής μεθοδολογίας που προτείνουμε. Για το σκοπό αυτό έγινε μια
σύντομη εισαγωγή, στην θεωρία των τεχνητών νευρωνικών δικτύων που αποτελεί το κλειδί στην όλη εφαρμογή
της εναλλακτικής μεθόδου που θα παρουσιάσουμε.
1. Εισαγωγή
Για να βοηθήσουμε τον αναγνώστη στην κατανόηση του κεφαλαίου αυτού κρίνουμε απαραίτητο να δώσουμε μια
συνοπτική περιγραφή του Application Credit Scoring. Το APC είναι μια διαδικασία, στα πλαίσια της οποίας, με
τη χρήση κατάλληλων ποσοτικών στατιστικών τεχνικών, «βαθμολογούνται», δηλαδή ποσοτικοποιούνται με
συγκεκριμένο συντελεστή οι διάφορες πληροφορίες που έχουμε στην διάθεση μας για ένα πελάτη, είτε αυτές
προέρχονται από την αίτηση που έχει κάνει για το δάνειο μαζί με τα απαραίτητα έγγραφα, είτε από κάποιο
αρχείο που κρατούσε η τράπεζα σχετικά με τις διάφορες δραστηριότητες του πελάτη ή μέσω διαφόρων τραπεζών
πληροφοριών στις οποίες έχουμε πρόσβαση, με απώτερο σκοπό τον υπολογισμό μιας συνολικής βαθμολογίας για
κάθε πελάτη που αντιστοιχεί σε μια ορισμένη πιθανότητα αν συμπεριφερθεί αυτός, με βάση κάποιο σαφώς
καθορισμένο και διατυπωμένο κριτήριο, κατά τρόπο αποδεκτό από την τράπεζα. Το τελικό αποτέλεσμα της όλης
διαδικασίας είναι κατά κανόνα, να εγκριθεί ή να απορριφθεί η αίτηση του πελάτη «αυτόματα», δηλαδή χωρίς να
υπεισέλθει ο ανθρώπινος παράγοντας, αφού ληφθεί υπόψη η συνολική βαθμολογία που συγκέντρωσε ο πελάτης,
μετά από άθροιση των επιμέρους βαθμών και της βάσης αποκοπής που έχει καθοριστεί, με βάση ορισμένες
απαιτήσεις και παραδοχές από την μεριά της τράπεζας. Για να γίνουν όλα τα παραπάνω πιο κατανοητά
παραθέτουμε έναν πίνακα ενός τυχαίου στατιστικού μοντέλου βαθμολόγησης του πιστωτικού κινδύνου, όπου σε
κάθε χαρακτηριστικό υπάρχει παρένθεση με την αντίστοιχη βαθμολογία που συγκεντρώνει.

Χρόνια στο επάγγελμα

< 6 μήνες (5) 6 μήνες - 1½ 1½ - 6 6 – 10 >10 χρόνια


χρόνο (14) χρόνια (20) χρόνια (27) (39)

Ηλικία
18 – 25 26 – 31 32 – 34 35 – 52 – > 61(40)
(19) (14) (22) 51(26) 61(34)

Συνεργασία με τη τράπεζα
Τρέχον λογαριασμός(22) Ταμιευτήριο(17)

102
103
Τρέχον λογ/σμός+Ταμιευτήριο(3 Κανένας
1) λογ/σμός(0)
Επάγγελμα
Συνταξιούχος(4 Επαγγ/τίας Κληρικός Πωλήσεις Υπηρεσίες\ Άλλο
1) (36) (27) (18) (12) (27)

Άλλες πιστωτικές κάρτες


Ναι (27) Όχι (11)

Ιστορικό πελάτη από τράπεζα πληροφοριών


Βεβαρημένο Περιορισμένα Δεν έχει Συνεπής
ιστορικό(-15) δυσμενή κάποια μέχρι Δεν έγινε
στοιχεία(-4) καταγραφή σήμερα έρευνα (0)
στο αρχείο (18)
(-2)

2. Βασικές έννοιες
Η βασική ιδέα στην οποία στηρίζεται η μεθοδολογία APC είναι ότι το εγγύς μέλλον μοιάζει σε μεγάλο βαθμό με
το πρόσφατο παρελθόν. Αυτό φαίνεται και από την καθημερινή μας εμπειρία, αφού κάθε μέρα που αρχίζει, αυτά
που περιμένουμε να μας συμβούν τόσο στην προσωπική όσο και στην επαγγελματική μας ζωή δε διαφέρουν
ουσιαστικά από αυτά που μας συνέβησαν την προηγούμενη ή τις προηγούμενες ημέρες. Αν τώρα ανάγουμε την
παραδοχή αυτή στον τομέα της εκτίμησης του πιστωτικού που αντιπροσωπεύει για μια τράπεζα ή κάποιο άλλο
φορέα η ικανοποίηση κάποιου πιστοδοτικού αιτήματος ενός νέου πελάτη, μπορούμε με μεγάλη πιθανότητα να
διατυπώσουμε την άποψη ότι ο πελάτης θα παρουσιάσει παρεμφερή συναλλακτική συμπεριφορά με αυτή ενός
πελάτη που κατά το πρόσφατο παρελθόν του χορηγήθηκε κάποιο ανάλογο προϊόν καταναλωτικής πίστης, με τη
προϋπόθεση ότι τα δημογραφικά, οικονομικά και περιουσιακά χαρακτηριστικά του τελευταίου παρουσιάζουν
σημαντικές ομοιότητες με τα αντίστοιχα χαρακτηριστικά του πρώτου. Η προβολή αυτή του παρελθόντος στο
εγγύς μέλλον γίνεται μέσα από κατάλληλα στατιστικά μοντέλα, όπως είναι η πολλαπλή παλινδρόμηση –
Multiple Regression ή η διακριτική ανάλυση – Discriminant Analysis, των οποίων τα αποτελέσματα έχουν ισχύ
εφόσον πληρούνται μια σειρά από προϋποθέσεις και κριτήρια. Στις παραγράφους που ακολουθούν
αποσαφηνίζονται οι βασικές έννοιες και η ορολογία των παραπάνω μεθόδων.
2.1 Πληθυσμός (Population)

103
104
Πληθυσμός (Population) είναι το σύνολο των πελατών που έχουν υποβάλει αίτηση για τη χορήγηση
κάποιου προϊόντος καταναλωτικής πίστης ή το σύνολο των υποψηφίων πελατών μιας ορισμένης κατηγορίας.
Ένας πληθυσμός έχει τόσες μονάδες όσοι είναι και οι πελάτες τους οποίους περιλαμβάνει, σύμφωνα με την
οριοθέτηση του, η οποία περιγράφεται από τις ανάγκες τις στατιστικής ανάλυσης.
2.2 Δείγμα (Sample)
Δείγμα (Sample) είναι ένα μέρος των μονάδων του πληθυσμού που επιλέγεται με ένα από τους τρόπους που
υποδεικνύει η στατιστική επιστήμη, όπως είναι η τυχαία, η διαστρωματική και η συστηματική δειγματοληψία,
έτσι ώστε να εξασφαλίζεται η αντιπροσωπευτικότητα του και να είναι δυνατό να συνάγονται από την
επεξεργασία των στοιχείων του στατιστικά συμπεράσματα για ολόκληρο τον αντίστοιχο πληθυσμό.
2.3 Χαρακτηριστικά πελάτη (Characteristics)
Τα χαρακτηριστικά του πελάτη απαρτίζονται από διάφορες πληροφορίες, όπως είναι η ηλικία, το επάγγελμα, η
μορφή της κατοικίας, το εισόδημα, τα χρόνια στο επάγγελμα, η οικογενειακή κατάσταση, η διάρκεια της
πελατειακής σχέσης κ.λ.π., που αντλούνται από την αίτηση του πελάτη, το αρχείο της τράπεζας ή κάποιο
γραφείο πληροφοριών με το οποίο συνεργάζεται. Τα χαρακτηριστικά αυτά, ανεξάρτητες μεταβλητές σύμφωνα με
την ορολογία της στατιστικής επιστήμης, επιλέγονται με βάση τη δυνατότητα τους να διαχωρίζουν του πελάτες
στις επιθυμητές κατηγορίες (Discrimination Power). Οι μεταβλητές αυτές ταξινομούνται σε ποσοτικές, σε αυτές
δηλαδή που είναι μετρίσιμες
και οι τιμές τους μπορούν να εκφραστούν με αριθμούς και χαρακτηριστικά παραδείγματα αποτελούν η ηλικία, το
εισόδημα και η αναλογία του δανείου προς την αξία του αγοραζόμενου αγαθού (Loan-to-value ratio) και σε
ποιοτικές, των οποίων οι τιμές διατυπώνονται με λέξεις όπως είναι η προθυμία προσκόμισης επιπλέον
πληροφοριών (Ναι ή Όχι),η ύπαρξη πληροφοριακού συστήματος στην επιχείρηση (Ναι ή Όχι) και η θέση στην
αγορά (Κυρίαρχη, Καλή, Μέτρια, Κακή).
2.4 Κατηγορίες ή «τάξεις μεγέθους» των τιμών των χαρακτηριστικών
(Attributes)
Οι κατηγορίες ή «τάξεις μεγέθους» των τιμών των χαρακτηριστικών (Attributes) είναι σε απλή γλώσσα οι
απαντήσεις που δίνει ο πελάτης σε ορισμένα ερωτήματα που περιλαμβάνονται στην αίτηση που υποβάλει στην
τράπεζα και τα οποία ονομάσαμε χαρακτηριστικά ή μεταβλητές. Οι τιμές μπορούν να παρουσιάζονται είτε με
την μορφή κλίμακας ή με το καθορισμό διαφόρων ποιοτικών κατηγοριών, στις οποίες ανάλογα ταξινομούνται τα
στοιχεία που έδωσε ο πελάτης.
2.5 Βάση αποκοπής (Cut Off)
Βάση αποκοπής (Cut Off) είναι ένα σύνολο βαθμών που υπολογίζεται με βάση σχετικό αλγόριθμο και
διαχωρίζει τις υποβαλλόμενες αιτήσεις σε «αυτόματα» εγκρινόμενες και «αυτόματα» απορριπτόμενες, ανάλογα
με το εάν η συνολική βαθμολογία που αυτές συγκέντρωσαν είναι μεγαλύτερη ή μικρότερη από αυτό. Ο
προσδιορισμός του αποτελεί κρίσιμο στοιχείο για την επιτυχή λειτουργία του συστήματος Credit Scoring, και θα
αναλυθεί λεπτομερέστερα σε επόμενο κεφάλαιο.
Οι βασικοί παράμετροι καθορισμού της βάσης αποκοπής είναι το ποσοστό των πελατών των οποίων οι
αιτήσεις εγκρίνονται (Acceptance Rate) και του ποσοστού των κακών πελατών στο σύνολο του πληθυσμού
(Bad Rate) που επιλέγει ο χρήστης (τράπεζα), λαμβανομένων υπόψη της πιστοδοτικής πολιτικής του, δηλαδή
εάν είναι επιθετική ή αμυντική όσον αφορά τον πιστωτικό κίνδυνο, και των δεδομένων που υπήρχαν πριν από

104
105
την εφαρμογή του APC και από τα οποία μπορεί να γίνει μια εκτίμηση για την πολιτική και το τρόπο
διαχείρισης των αιτήσεων.
3. Μεθοδολογία ανάπτυξης συστήματος ΑPC
Στην ενότητα αυτή θα παρουσιαστούν με αρκετή λεπτομέρεια τα επιμέρους στάδια τα οποία πρέπει να
ολοκληρωθούν με απώτερο σκοπό την δημιουργία ενός πετυχημένου συστήματος αξιολόγησης του πιστωτικού
κινδύνου.
3.1 Συγκρότηση ομάδας εργασίας του χρήστη
Η συγκρότηση της ομάδας εργασίας του χρήστη, δηλαδή του οργανισμού που θα χρησιμοποιήσει το APC,
αποτελεί θεμελιακής σημασίας στοιχείο για την επίτευξη των στόχων του συστήματος και σε αυτή θα πρέπει να
εκπροσωπούνται όλοι οι τομείς του οργανισμού.
Στην ομάδα αυτή θα πρέπει να συμμετέχουν εξειδικευμένα στελέχη από τον τομέα της πιστωτικής ανάλυσης, του
μάρκετινγκ, της μηχανογράφησης καθώς και από τον τμήμα διεκπεραίωσης των λειτουργικών διαδικασιών. Ο
επικεφαλής της ομάδας θα πρέπει να αναφέρεται απευθείας στο μάνατζμεντ και να είναι το υπεύθυνο στέλεχος
για τη διαχείριση του πιστωτικού κινδύνου.
Τα καθήκοντα της ομάδας εργασίας, που παίζει τον ρόλο συνδέσμου μεταξύ του Εξωτερικού Συμβούλου και του
οργανισμού, είναι τα εξής:
Διαβίβαση στον Εξωτερικό Σύμβουλο όλων των αναγκαίων στοιχείων και παροχή σ’ αυτόν όλων των
απαιτούμενων πληροφοριών και διευκρινήσεων σχετικά με τη ροή των εφαρμοζόμενων διαδικασιών, τις τυχόν
υφιστάμενες ιδιαιτερότητες, το προφίλ των πελατών, τις τυχόν μεταβολές στις πολιτικές του οργανισμού και το
εξωτερικό περιβάλλον που έλαβαν χώρα κατά τη διάρκεια του χρονικού διαστήματος (sample window) από το
οποίο λαμβάνονται τα προς επεξεργασία δεδομένα.
Ενημέρωση σε βάθος της διοίκησης για τις βασικές αρχές του credit scoring και τις αλλαγές που η
εφαρμογή του συνεπάγεται αναφορικά τόσο με την ήδη ακολουθούμενη πιστωτική πολιτική και τις σχέσεις του
οργανισμού με την πελατεία όσο και με το λειτουργικό του κόστος αλλά και την απαραίτητη οργανωτική
υποδομή για την εύρυθμη λειτουργία του.
- Σύνταξη εισηγήσεων προς τη διοίκηση για τη λήψη ορισμένων κρίσιμων αποφάσεων κατά τη φάση της
εγκατάστασης του credit scοring (implementation). Τέτοιες αποφάσεις είναι ο προσδιορισμός του
κριτηρίου διάκρισης των «καλών» από τους «κακούς» λογαριασμούς, των χαρακτηριστικών που τελικά
θα συμπεριληφθούν στον αλγόριθμο βαθμολόγησης και της βάσης της αποκοπής.
- Εκπαίδευση του προσωπικού που θα ασχοληθεί στην λειτουργία του λογισμικού του
- credit scoring.
- Σχεδιασμός των λειτουργικών και μηχανογραφικών διαδικασιών για την εφαρμογή
- του συστήματος.
- Σύνταξη των σχετικών εγκυκλίων οδηγών και κανονισμών λειτουργίας.
3.2 Πληθυσμός (Population)
Η οριοθέτηση του «πληθυσμού» (κατηγορία πελατών) από τον οποίο θα ληφθεί το δείγμα που θα υποστεί
στατιστική επεξεργασία, θα πρέπει να γίνει με απόλυτη σαφήνεια που να μην αφήνει περιθώρια λάθους, δηλαδή
να είναι σαφές για κάθε περίπτωση αν ανήκει ή όχι στον πληθυσμό και να μην υπάρχουν περιπτώσεις όπου
υπάρχει δυσκολία στην απόφαση. Οι ιδανικές προϋποθέσεις που θα πρέπει να συντρέχουν για να προσεγγισθεί ο

105
106
μέγιστος βαθμός αποτελεσματικότητας του credit scoring, και τις οποίες δυστυχώς δεν τις συναντούμε
συχνά, είναι οι εξής:
Ο πληθυσμός πρέπει να είναι ομοιογενής. Εάν η σύνθεση του πληθυσμού, δηλαδή τα διάφορα
χαρακτηριστικά των πελατών που τον απαρτίζουν έχουν ουσιαστικά διαφοροποιηθεί λόγω μιας ευρείας κλίμακας
διαφημιστικής καμπάνιας που είχε αναληφθεί από τον οργανισμό-χρήστη για την προσέλκυση μιας νέας ομάδας
πελατών, π.χ. φοιτητών του Πολυτεχνείου ή κατοίκων των βόρειων προαστίων ή επειδή υιοθετήθηκε κατά τη
διάρκεια της περιόδου στην οποία αναφέρεται ο πληθυσμό μια διαφορετική πολιτική στην έγκριση αιτημάτων
της πελατείας ή στην είσπραξη των σε καθυστέρηση οφειλών ( αυστηρότερη ή χαμηλότερη), τότε θα υπάρξει
αλλοίωση στα στατιστικά συμπεράσματα και θα μειωθεί ανάλογα η δυνατότητα του αλγορίθμου να ξεχωρίζει
τους καλούς από τους κακούς λογαριασμούς (discrimination power).
Στους πελάτες που αποτελούν τον πληθυσμό παρέχεται μόνο ένα προϊόν καταναλωτικής πίστης (π.χ. ή
δάνειο ή πιστωτική κάρτα).
Υπάρχουν ιστορικά στοιχεία για τους λογαριασμούς, που τηρούνται σε μηχανογραφικό αρχείο και που
θα αποτελέσουν τα δεδομένα.
Υπάρχει επαρκής αριθμός ορθά συμπληρωμένων αιτήσεων και είναι δυνατό να εντοπισθούν
τουλάχιστον 1.500 περιπτώσεις που σύμφωνα με το κριτήριο παρουσιάζουν ανεπιθύμητη συμπεριφορά (bad
performance).
3.3 Καθορισμός των «καλών» και «κακών» λογαριασμών (good or bad definition)
Πρέπει να γίνει με τρόπο απόλυτα σαφή, σε στενή συνεργασία μεταξύ του Εξωτερικού Συμβούλου και της
Ομάδας Εργασίας, με βάση ένα κριτήριο που θα εκφρασθεί ποσοτικά, πράγμα αναγκαίο για την κατάρτιση του
σχετικού μηχανογραφικού προγράμματος. Ένα τέτοιο κριτήριο, που συχνά επιλέγεται, είναι η καθυστέρηση 90
ημερών στην εξόφληση κάποιας οφειλής από τον πελάτη, όπως είναι η δόση του δανείου, οι τόκοι και η
‘ελάχιστη καταβολή’ λογαριασμού πιστωτικής κάρτας.
Είναι φανερό ότι οι «κακοί » λογαριασμοί δεν είναι εκείνοι από τους οποίους έχει προκληθεί ζημιά στην τράπεζα
λόγω τελικής αδυναμίας των πελατών να εξοφλήσουν τις υποχρεώσεις τους αλλά εκείνοι των οποίων η
συμπεριφορά είναι μη αποδεκτή από την τράπεζα, αφενός επειδή υπάρχει αυξημένος κίνδυνος (π.χ. πάνω από
50%) να οδηγήσει σε δημιουργία επισφαλούς απαίτησης και αφετέρου επειδή προκαλεί πρόσθετη απασχόληση
(τηλεφωνικές και γραπτές ειδοποιήσεις). Με άλλα λόγια «κακοί» είναι οι πελάτες που η τράπεζα, εάν γνώριζε εκ
των προτέρων τη συμπεριφορά τους, δε θα ενέκρινε το αίτημα τους.
3.4 Συγκρότηση δείγματος
Το δείγμα συνήθως χρησιμοποιείται κατά την ανάπτυξη ενός συστήματος credit scoring αποτελείται από 1.500
«καλούς» και 1.500 «κακούς» λογαριασμούς. Είναι δυνατό, χωρίς αυτό να έχει ιδιαίτερα αρνητικές συνέπειες
στην ποιότητα των αποτελεσμάτων, να αρκεστούμε σε δείγμα 1.000 λογαριασμών από κάθε κατηγορία, πράγμα
που στην πράξη είναι η συνήθης περίπτωση, αν λάβουμε υπόψη μας ότι 200 με 300 λογαριασμοί τελικά δεν
εντάσσονται στο δείγμα λόγω ελλιπούς συμπλήρωσης των αντίστοιχων αιτήσεων, ενώ 200 με 300 λογαριασμοί
κρατούνται για να χρησιμοποιηθούν στην μεταγενέστερη φάση της επικύρωσης (validation). Η επιλογή των
μονάδων του δείγματος εξαρτάται από το χρονικό διάστημα στο οποίο αναφέρεται ο ‘πληθυσμός’ μας.
Το χρονικό αυτό διάστημα δε θα πρέπει να απέχει πολύ από το χρόνο ανάπτυξης του συστήματος. Πρέπει να
είναι δηλαδή σχετικά πρόσφατο έτσι ώστε να μην έχει επέλθει σημαντική αλλοίωση στη σύνθεση του

106
107
πληθυσμού αλλά ούτε και να έχουν μεταβληθεί ουσιαστικά τα εξωτερικά δεδομένα, όπως είναι η οικονομική
συγκυρία, το φορολογικό καθεστώς και τα πρότυπα συμπεριφοράς, που επηρεάζουν την συναλλακτική
συμπεριφορά ενός ατόμου. Ακόμα το υπόψη χρονικό διάστημα, του οποίου η διάρκεια θα πρέπει να είναι
τουλάχιστον ένας χρόνος για να αποφευχθεί η παρουσία εποχιακών φαινομένων, δε θα πρέπει να είναι και
εντελώς πρόσφατο, με την έννοια ότι θα πρέπει να έχει παρέλθει ικανοποιητικός χρόνος (12 με 18 μήνες) κατά
το οποίο θα έχει φανεί από την πράξη αν όντως ο πελάτης ανήκει στην κατηγορία των «καλών» ή των «κακών»
λογαριασμών.
Πιο συγκεκριμένα, εάν από ένα πλήθος 300.000 λογαριασμών που ανοίχθηκαν κατά την διάρκεια του χρονικού
διαστήματος που κάνουμε τις παρατηρήσεις μας έχουν παρατηρηθεί 280.000 «καλοί» λογαριασμοί και οι
υπόλοιποι είναι φυσικά «κακοί», τότε θα επιλέξουμε κάθε 187ο (280.000/1.500) «καλό» λογαριασμό και
αντίστοιχα θα πράξουμε με τους «κακούς». Το δείγμα μας θα περιέχει τους λογαριασμούς αριθμημένους με βάση
την χρονολογική σειρά που ανοίχθηκαν, τα ονόματα των κατόχων τους, καθώς και μια ένδειξη για το αν είναι
«καλός» ή «κακός» λογαριασμός. Βέβαια μέσα σε αυτούς τους λογαριασμούς θα περιέχονται και λογαριασμοί
που θα έχουν ήδη κλείσει είτε λόγω εξόφλησης είτε λόγω καταγγελίας.
Στην συνέχεια συγκεντρώνονται και ταξινομούνται οι αντίστοιχες αιτήσεις που υπέβαλαν οι πελάτες μαζί με τα
έντυπα στο οποία εμφανίζονται οι πληροφορίες για την συναλλακτική συνέπεια τους. Τέλος, για να ολοκληρωθεί
η διαδικασία της δειγματοληψίας είναι απαραίτητο και ένα πλήθος αιτήσεων που έχουν απορριφθεί, για να
μπορέσει να εφαρμοστεί σε ένα μεταγενέστερο στάδιο η διαδικασία της προσαύξησης (augmentation).
3.5 Προεργασία για τη μηχανογραφική επεξεργασία
Σε αυτή τη φάση εξετάζεται το ενδεχόμενο να υπάρχουν διαφορετικοί τύποι αιτήσεων μέσα στο δείγμα.
Ενδέχεται δηλαδή να μην συμπίπτουν τα είδη των πληροφοριών που περιέχει κάθε αίτηση και συνεπώς να πρέπει
να παρθεί κάποια απόφαση για το ποια θα είναι τελικά τα πεδία που θα χρησιμοποιηθούν για την τελική
μηχανογράφηση του συστήματος. Μερικές φορές ακόμα και λεπτομέρειες μπορούν να δημιουργήσουν μεγάλο
πρόβλημα κατά το στάδιο της μηχανογραφικής επεξεργασίας. Για παράδειγμα, ο χώρος που έχει μια αίτηση για
να συμπληρώσει ο ενδιαφερόμενος κάποιες πληροφορίες μπορεί να παίξει τεράστιο ρόλο, αφού σε περίπτωση
που δεν υπάρχει αρκετός τον αναγκάζει να παραλείψει πληροφορίες που για την τράπεζα όμως μπορεί να είναι
μεγίστης σημασίας. Πάντως, σε κάθε περίπτωση ο κανόνας είναι να χρησιμοποιούνται ως πρότυπο οι αιτήσεις
που χρησιμοποιούνται από την τράπεζα κατά την διάρκεια ανάπτυξης του συστήματος.
3.6 Επιλογή χαρακτηριστικών.
Σε αυτό το στάδιο τα μέλη της Ομάδας Εργασίας σε συνεργασία με τα εξειδικευμένα στελέχη του Εξωτερικού
Συμβούλου, βασισμένα στην εμπειρία και το ένστικτο που έχουν αναπτύξει από την πολυετή απασχόληση με το
αντικείμενο, εντοπίζουν στην αίτηση τις πληροφορίες που είναι πιθανότερο να έχουν ‘ερμηνευτική σημασία’,
δηλαδή κατά κάποιο τρόπο να είναι σε θέση να εξηγήσουν την επιθυμητή ή ανεπιθύμητη συμπεριφορά του
πελάτη. Σε επόμενο στάδιο βέβαια με βάση κατάλληλων στατιστικών τεχνικών θα κριθεί η βασιμότητα των
υποθέσεων που έχουν γίνει για την χρησιμοποίηση των συγκεκριμένων μεταβλητών.
Πρέπει να τονίσουμε σε αυτό το σημείο ότι από σχετική έρευνα προέκυψε ότι χρησιμοποιούνται περίπου 20 – 25
χαρακτηριστικά από τα οποία 10 – 15 θεωρούνται ως ανεξάρτητες μεταβλητές στην κάρτα αξιολόγησης. Τέτοιες
μεταβλητές είναι :
- Ηλικία

107
108
- εισόδημα
- οικογενειακή κατάσταση
- τύπος κατοικίας
- επάγγελμα
- χρόνια στο επάγγελμα
- χρόνια διαμονής στην τελευταία διεύθυνση
- χρήση πιστωτικών καρτών
- σχέση πάγιων δαπανών προς εισόδημα
- ποσοστιαία σχέση δανείου και αξίας αγοραζόμενου αγαθού
- τηλέφωνο
- τρόπος εξόφλησης δόσεων
Όσον αφορά τώρα την επιλογή την κλίμακας των τιμών των χαρακτηριστικών, αυτή εξαρτάται σε μεγάλο βαθμό
από το εύρος των πληροφοριών που μπορεί να αντληθούν από την αίτηση του πελάτη. Για να μην υπάρξει ο
κίνδυνος η στατιστική επεξεργασία να δείξει ότι μερικά χαρακτηριστικά είναι τελικά χρήσιμα ενώ εμείς δεν τα
έχουμε συμπεριλάβει πρέπει να είμαστε όσον το δυνατό περισσότερο αναλυτικοί. Πάντως στην τελική
περίπτωση τα χαρακτηριστικά περιέχουν , συνήθως, το πολύ μια κλίμακα 5 – 7 τιμών. Σε κάθε μονάδα του
πληθυσμού πρέπει να δίνουμε τιμή από την επιτρεπτή κλίμακα του χαρακτηριστικού και ότι όλες οι τιμές τις
κλίμακας σαν σύνολο θα πρέπει να εξαντλούν
ολόκληρο το φάσμα των δυνατών περιπτώσεων. Ακόμα θα πρέπει να τονιστεί ότι ορισμένα χαρακτηριστικά δεν
προκύπτουν άμεσα από τις πληροφορίες που περιέχει η αίτηση αλλά αφού πρώτα οι τελευταίες υποστούν κάποια
μετατροπή ή επεξεργασία. Από τα διάφορα χαρακτηριστικά, αυτό που προκαλεί τις περισσότερες δυσχέρειες από
την άποψη του καθορισμού της κλίμακας των τιμών είναι το «επάγγελμα» λόγω της πληθώρας των τιμών που
μπορεί να πάρει. Συνήθως λαμβάνεται υπ’ όψιν η κοινωνική φυσιογνωμία της περιοχής στην οποία
δραστηριοποιείται ο χρήστης και η σύνθεση της πελατείας στην οποία απευθύνεται το συγκεκριμένο προϊόν.
Πρόβλημα ορισμένες φορές δημιουργείται από τον ασαφή ή ασυνήθιστο τρόπο που απαντούν οι πελάτες στα
ερωτήματα που αναφέρονται στην αίτηση. Εάν υπάρχει ένας σημαντικός αριθμός τέτοιων περιπτώσεων, τότε θα
πρέπει να κατασκευαστούν και ανάλογες κλίμακες τιμών, ώστε στο επόμενο στάδιο να μπορούμε να εξάγουμε
στατιστικά αποτελέσματα για την σημασία του είδους αυτών των απαντήσεων αναφορικά με την ερμηνεία την
συναλλακτικής συμπεριφοράς των πελατών. Υπάρχουν ακόμα περιπτώσεις που αφήνεται κενός ο χώρος της
αίτησης που προβλέπεται να συμπληρωθεί με διάφορα στοιχεία. Αυτό συμβαίνει συνήθως όταν πρόκειται για
αιτήσεις που στέλνονται ταχυδρομικά Μερικοί χρήστες προσπαθούν να ερμηνεύσουν την αυτή την μη
συμπλήρωση και άλλοι πάλι όχι. Εάν προκύψει από την σχετική επεξεργασία ότι ένα μεγάλο ποσοστό των
«καλών» λογαριασμών δεν έχει συμπληρώσει το πεδίο ενώ μόνο ένα μικρό ποσοστό των «κακών» το έχει
αφήσει κενό τότε επιβάλλεται να υπάρξει και η τιμή «κενό» ή «δεν απαντώ» στην κλίμακα των τιμών του εν
λόγω χαρακτηριστικού.
Τέλος υπάρχει η ανάγκη να σημειωθεί ότι η ένταξη ορισμένων χαρακτηριστικών στο παραπάνω μοντέλο
ενδέχεται να έρχεται σε αντίθεση με κάποιο άρθρο του νόμου περί προστασίας των προσωπικών δικαιωμάτων ή
να βλάπτει το κύρος του χρήστη. Είναι λοιπόν εποικοδομητικό να συνεργαστούν οι Ομάδα Εργασίας και ο

108
109
Εξωτερικός Σύμβουλος με το Νομικό Τμήμα, το Τμήμα Δημόσιων Σχέσεων και την Διοίκηση για να
αποφευχθούν κάποιες ανεπιθύμητες καταστάσεις.
3.7 Αρχική πινακογράφηση (Initial Enumeration)
Στο στάδιο αυτό γίνεται η καταμέτρηση και πινακογράφηση των ανά χαρακτηριστικών στοιχείων που
αντλούνται από τις αιτήσεις των μονάδων του δείγματος και το αρχείο πληροφοριών. Κατόπιν γίνεται έλεγχος
για το αν υπάρχουν αντιφάσεις σε σχέση με την κοινή αίσθηση που έχουν διαμορφώσει τα μέλη της Ομάδας
Εργασίας, σε περίπτωση την οποία μπορεί να οδηγηθούμε και σε νέα δειγματοληψία, αν αυτό κριθεί αναγκαίο.
Για να αποφευχθεί πάντως το φαινόμενο αυτό, θα πρέπει κατά την εισαγωγή των στοιχείων να προβλεφθούν στο
μηχανογραφικό πρόγραμμα ασφαλιστικές δικλείδες, ώστε να απορρίπτεται αυτόματα η εισαγωγή τέτοιων
στοιχείων.
3.8 Τελική ταξινόμηση ( Classing)
Για να γίνει σαφής η διαδικασία που ακολουθείται σε αυτό το στάδιο κρίνεται απαραίτητο να δοθεί ένα
παράδειγμα. Έστω ο παρακάτω πίνακας για το χαρακτηριστικό «τύπος κατοικίας».

καλοί κακοί
Ιδιοκτησία μονοκατοικίας 150 50

Ιδιοκτησία διαμερίσματος 300 90

Ενοικίαση μονοκατοικίας 50 35

Ενοικίαση διαμερίσματος 300 600

Άλλη περίπτωση 200 225

1000 1000
Πίνακας τύπου κατοικίας

Πριν από τη στατιστική επεξεργασία των στοιχείων που έχουν πινακογραφηθεί εξετάζουμε εάν ορισμένες τιμές
κάποιων χαρακτηριστικών θα πρέπει να ομαδοποιηθούν. Με μια γρήγορη ματιά φαίνεται ότι το ποσοστό των
καλών περιπτώσεων στο σύνολο του πληθυσμού στα χαρακτηριστικά «ιδιοκτησία μονοκατοικίας» και
«ιδιοκτησία διαμερίσματος» συγκλίνουν σημαντικά. Επομένως αυτά μπορούν να ενοποιηθούν κάτω από το
κοινό χαρακτηριστικό «ιδιοκτησία κατοικίας» πράγμα που θα κάνει την στατιστική επεξεργασία που θα
ακολουθήσει πιο εύκολη αφού θα έχουμε μια ομαδοποίηση και συνεπώς τουλάχιστον ένα λιγότερο
χαρακτηριστικό. Επίσης παρατηρούμε ότι οι τιμές του χαρακτηριστικού «ενοικίαση μονοκατοικίας»
αντιπροσωπεύουν ένα πολύ μικρό μέρος των συνολικών
μονάδων του δείγματος, άρα επιβάλλεται η ένταξη τους μαζί με τους πελάτες που είναι ενοικιαστές
διαμερίσματος, σε ένα κοινό χαρακτηριστικό «ενοικίαση κατοικίας», αφού είναι φανερό ότι από μόνο του δεν
προσδίδει κάποιο στοιχείο ικανό να μας δώσει κάποια διαφοροποίηση. Γενικά η ομαδοποίηση επιβάλλεται όταν
η πιθανότητα μια περίπτωση να ανήκει στις «καλές» με βάση το σύνολο του πληθυσμού για δύο τιμές από την

109
110
κλίμακα του χαρακτηριστικού είναι περίπου η ίδια και η άλλη περίπτωση είναι όταν ο αριθμός των
περιπτώσεων που αναλογεί σε μια τιμή του χαρακτηριστικού δεν είναι στατιστικά σημαντική, πράγμα που
σημαίνει με αριθμούς ότι αντιπροσωπεύει ποσοστό μικρότερο από το 5% στο σύνολο των μονάδων του
δείγματος.
3.9 Υλοποίηση του αλγόριθμου και μέτρηση της αποτελεσματικότητας του
Αφού ολοκληρωθεί η διαδικασία του classing το επόμενο στάδιο είναι η επεξεργασία των στοιχείων των
πινάκων των διαφόρων χαρακτηριστικών με τη χρήση διαφόρων στατιστικών τεχνικών όπως είναι η πολλαπλή
γραμμική παλινδρόμηση (multiple regression analysis), η διακριτή ανάλυση (discriminant analysis) και άλλες
μέθοδοι που ανήκουν στην Πολύμεταβλητή Στατιστική (Multivariate Statistics).
3.10 Συνυπολογισμός των πελατών που απορρίφθηκαν (Augmentation)
Για το σωστό υπολογισμό των πιθανοτήτων απαιτείται και μια εκτίμηση σχετικά με το ποσοστό των
απορριφθέντων, των οποίων η συμπεριφορά θα ήταν αποδεκτή σε περίπτωση που το αίτημα τους είχε εγκριθεί.
Για το λόγο αυτό χρησιμοποιείται ένα δείγμα 1.000 περίπου αιτήσεων που έχουν απορριφθεί, τις οποίες με βάση
τα πραγματικά δεδομένα των γνωστών «καλών» και «κακών» λογαριασμών ξεχωρίζουμε, με μια ορισμένη
τεχνική, σε υποθετικά «καλούς» και «κακούς» λογαριασμούς. Στη συνέχεια προσθέτουμε τους υποθετικά
«καλούς» με τους γνωστά «καλούς» και το ίδιο κάνουμε και για τους «κακούς» λογαριασμούς. Πρέπει να
σημειωθεί σε αυτό το σημείο ότι στις απορριφθείσες αιτήσεις που υφίστανται στατιστική ανάλυση δεν πρέπει να
συμπεριλάβουμε και αυτές που έχουν απορριφθεί, χωρίς να γίνει προηγουμένως στάθμιση των στοιχείων τους
από τα αρμόδια στελέχη επειδή δεν κάλυπταν κάποια ελάχιστη προϋπόθεση που έχει θέσει ο χρήστης, δηλαδή
αυτές που απορρίφθηκαν για λόγους μη συμμόρφωσης με την πολιτική του χρήστη.
3.11 Καθορισμός της βάσης αποκοπής
Σκοπός του συστήματος του credit scoring είναι η αξιολόγηση του πιστωτικού κινδύνου που διατρέχει ο χρήστης
από την χορήγηση ενός προϊόντος καταναλωτικής σε κάποιο υποψήφιο πελάτη. Σε κάθε σκορ που πετυχαίνει
κάθε υποψήφιος πελάτης αντιστοιχεί και μια πιθανότητα να είναι «καλός». Με δεδομένο αυτό και λαμβανομένου
υπόψη ότι κάθε οργανισμός έχει σαν ελάχιστη επιδίωξη να αποφύγει τις ζημιές, η βάση αποκοπής θα έπρεπε
θεωρητικά να καθοριστεί σε ένα τέτοιο επίπεδο ώστε η παραπάνω αναλογική σχέση μεταξύ «καλών» και
«κακών» να προσεγγίζει τον αριθμό των «καλών» λογαριασμών που πρέπει να αποκτήσει ο χρήστης ώστε από
τα αντίστοιχα έσοδα να αντισταθμίσει τη ζημιά που υφίσταται από ένα «κακό» λογαριασμό. Η τελευταία σχέση
είναι δύσκολο να υπολογισθεί επειδή προϋποθέτει επεξεργασία στοιχείων που οι περισσότεροι οργανισμοί δε
διαθέτουν. Πέρα από αυτό πολλοί χρήστες δεν είναι διατεθειμένοι να αλλάξουν την πιστοδοτική πολιτική τους
μόνο και μόνο επειδή θα χρησιμοποιήσουν ένα σύστημα credit scoring και γι’ αυτό θέτουν την βάση αποκοπής
σε τέτοιο σημείο ώστε να μην μεταβληθεί το ποσοστό των υποψήφιων πελατών των οποίων η αίτηση γίνεται
τελικά δεκτή. Βέβαια υπάρχει και η κατηγορία των χρηστών που καθορίζει την βάση σύμφωνα με το ποσοστό
των «κακών» λογαριασμών που αναλογεί σε μια συγκεκριμένη βαθμολογία.
Στο παρακάτω διάγραμμα απεικονίζονται οι καμπύλες που μας δίνουν τα ποσοστά απόρριψης και τα ποσοστά
«κακών» που αντιστοιχούν σε διάφορες βαθμολογίες. Φαίνονται δηλαδή όλες οι εναλλακτικές επιλογές που έχει
η διοίκηση αναφορικά με το προσδιορισμό της βάσης αποκοπής. Είναι εμφανές ότι το υψηλό ποσοστό
απόρριψης συμβαδίζει και με χαμηλό ποσοστό «κακών», συντηρητική πολιτική, ενώ χαμηλό ποσοστό
απόρριψης συνεπάγεται και υψηλό ποσοστό «κακών», ριψοκίνδυνη ή επεκτατική πολιτική.

110
111
Οι ποσοτικές επιπτώσεις στα έσοδα και τον τζίρο του χρήστη από την επιλογή μιας συγκεκριμένης βάσης
αποκοπής προκύπτουν από τον παρακάτω πίνακα, ο οποίος παρουσιάζει αθροιστικά τους «καλούς» και τους
«κακούς» λογαριασμούς, καθώς και το ποσοστό εγκρίσεων που αναλογεί σε κάθε επίπεδο βαθμολογίας.

Παρατηρούμε ότι όσο μεγαλύτερο είναι το σκορ που τίθεται ως βάση αποκοπής, τόσο μικρότερο είναι το
ποσοστό των εγκρίσεων στο σύνολο των αιτήσεων και το ποσοστό των «κακών» λογαριασμών στο σύνολο των
εγκρινόμενων. Είναι προφανές ότι εάν η διοίκηση ενδιαφέρεται κυρίως για ένα χαμηλό ποσοστό επισφαλειών θα
προτιμήσει ένα σχετικά υψηλό σημείο για να θέσει την βάση, ενώ εάν, αντίθετα, αποβλέπει κυρίως σε αύξηση
του κύκλου εργασιών, τότε θα επιλέξει σχετικά χαμηλό σημείο για να θέσει την βάση αποκοπής. Για να γίνει πιο
κατανοητή η σημασία της βάσης αποκοπής στον πίνακα που ακολουθεί εμφανίζονται συγκεντρωτικά τα
αποτελέσματα από την εφαρμογή των δύο ακραίων πολιτικών, δηλαδή μιας άκρως συντηρητικής πολιτικής και
μια εντελώς επιθετικής. Το παράδειγμα στηρίζεται στην υπόθεση ότι το ποσοστό αποδοχής είναι 60% και ότι το
ποσοστό των «κακών» λογαριασμών στο σύνολο του πληθυσμού είναι 6%.
Η πρώτη στρατηγική είναι συντηρητική. Η βελτίωση των αποτελεσμάτων του χρήστη επιτυγχάνεται με τη
μείωση των «κακών» λογαριασμών κατά 73, που σημαίνει ανάλογο περιορισμό ζημιών από επισφάλειες και
διοικητικών δαπανών για την είσπραξη καθυστερημένων οφειλών. Στη δεύτερη περίπτωση, που είναι η
επιθετική, ενώ το ποσοστό των «κακών» λογαριασμών παραμένει στα ίδια επίπεδα που υπήρχαν και πριν την
εφαρμογή του credit scoring, ο τζίρος αυξάνεται κατά 10,2 %, αύξηση κατά 614 «καλούς» λογαριασμούς.
3.12 Κατώτερη και ανώτερη βάση αποκοπής
Η πρακτική του καθορισμού δύο βάσεων αποκοπής, μιας ανώτερης και μιας κατώτερης έχει σαν στόχο τη
μείωση της δαπάνης που απαιτείται για τη λήψη πληροφοριών σχετικά με το συναλλακτικό παρελθόν του
υποψήφιου πελάτη από κάποιο γραφείο πληροφοριών με το οποίο συνεργάζεται ο χρήστης. Συγκεκριμένα αν
έχει καθοριστεί η κανονική βάση αποκοπής στις 230 μονάδες και η ανώτερη δυνατή βαθμολογία για το
χαρακτηριστικό ‘συναλλακτικό ιστορικό’ του πελάτη είναι 30 μονάδες, τότε θα τεθεί ως κατώτερη βάση
αποκοπής το 200. Οι πελάτες που θα βαθμολογηθούν, με βάση όλα τα χαρακτηριστικά, κάτω από 200 δεν έχουν
καμιά δυνατότητα να ξεπεράσουν την βάση αποκοπής, όσο καλές και αν είναι οι πληροφορίες που θα ληφθούν.
Έτσι η αίτηση απορρίπτεται χωρίς να ζητηθούν πληροφορίες και ο χρήστης απαλλάσσεται από το σχετικό
κόστος. Είναι ευνόητο, ότι εάν ο πελάτης ξεπεράσει το κατώφλι των 200 μονάδων τότε θα ζητηθούν επιπλέον
πληροφορίες. Επίσης, υπάρχει και ένας άλλος τρόπος να εξοικονομηθεί κόστος λήψης πληροφοριών από κάποιο
εξωτερικό φορέα μέσω εκτέλεσης διαδοχικών δοκιμών με στόχο τον προσδιορισμό μιας ανώτερης ειδικής βάσης
αποκοπής. Πιο συγκεκριμένα, καθορίζεται μια πολύ υψηλή βάση, ιδιαίτερα για εκείνους τους πελάτες που
έχουμε σε βάρος τους ‘δυσμενή στοιχεία’. Αντί να απορριφθεί το αίτημα τους, με βάση τη μέχρι τώρα ισχύουσα
πολιτική, ακολουθείται η τακτική της χορήγησης του αιτούμενου προϊόντος στους πελάτες της κατηγορίας
αυτής. Η πρακτική αυτή εφαρμόζεται για ένα εύλογο χρονικό διάστημα μέσα στο οποίο είναι δυνατή η
συγκέντρωση ενός επαρκούς αριθμού τέτοιων περιπτώσεων. Αν υπολογισθεί η αναλογική σχέση «καλών» και
«κακών» και διαπιστωθεί ότι αυτή ξεπερνάει τις πιθανότητες που αντιστοιχούν στην βάση αποκοπής, τότε στο
εξής θα μπορούμε να εγκρίνουμε το αίτημα των πελατών που είναι πάνω από την ειδική βάση αποκοπής χωρίς
να πάρουμε παραπάνω δεδομένα και γλιτώνοντας έτσι και το σχετικό κόστος. Την ίδια διαδικασία την

111
112
επαναλαμβάνουμε διαδοχικά με όλο και μικρότερη ειδική βάση αποκοπής, μέχρι να βρεθεί κάποιο όριο,
οπωσδήποτε μεγαλύτερο της βάσης αποκοπής, στο οποίο οι πιθανότητες προσεγγίζουν αυτές της βάσης.
3.13 Καθορισμός πιστωτικών ορίων και ύψους δανείων
Το credit scoring αποσκοπεί στην εκτίμηση του πιστωτικού κινδύνου και όχι της πιστοληπτικής ικανότητας ενός
πελάτη. Βέβαια όσο μεγαλύτερος είναι ο βαθμός που ο πελάτης πετυχαίνει, τόσο μικρότερη είναι η πιθανότητα
να μην ανταποκριθεί στις συμβατικές του υποχρεώσεις. Αυτό σημαίνει ότι η βαθμολόγηση του κινδύνου του
πελάτη αποτελεί μια σημαντική παράμετρο αλλά όχι και την αποκλειστική για τον καθορισμό του πιστωτικού
ορίου ή γενικότερα του ύψους της πιστοδότησης του. Οι περισσότεροι οργανισμοί είναι φυσικό να θέτουν ένα
ανώτατο όριο στον κίνδυνο που είναι διατεθειμένοι να αναλάβουν με ένα πελάτη από την χορήγηση ενός
προϊόντος σύμφωνα με την κατηγορία εισοδήματος που ο πελάτης ανήκει.
4. Έγκριση αιτημάτων πελατών με βαθμολογία κάτω από την βάση αποκοπής και απόρριψη αιτημάτων
πελατών με βαθμολογία πάνω από την βάση αποκοπής (overrides)
Ορισμένες φορές εμφανίζονται περιπτώσεις που επιβάλλεται η λήψη αποφάσεων από τα αρμόδια στελέχη
σχετικά με το αίτημα ενός πελάτη σε αντίθετη κατεύθυνση από εκείνη που υποδεικνύεται από το σύστημα του
credit scoring, δηλαδή η έγκριση αιτημάτων πελατών με βαθμολογία κάτω από την βάση αποκοπής (low side
overrides) και η απόρριψη αιτημάτων πελατών με βαθμολογία πάνω από την βάση αποκοπής (high side
overrides). Διακρίνουμε τα παρακάτω είδη overrides :
Εκείνα που βασίζονται σε πρόσθετες πληροφορίες που διαθέτει το στέλεχος που αποφασίζει σχετικά με το
αίτημα του πελάτη (informational overrides). Τέτοια περίπτωση έχουμε όταν προκύψει κάποιο εξαιρετικά καλό
στοιχείο για τον πελάτη που πριν είχε βαθμολογηθεί κάτω από την βάση ή όταν παρουσιαστούν δυσμενή
στοιχεία και το αντίστοιχο χαρακτηριστικό δεν είχε ενταχθεί στην κάρτα υπολογισμού της βαθμολογίας, γιατί
απλά κατά την χρονική στιγμή της συμπλήρωσης της η εν λόγω πληροφορία δεν ήταν προσιτή. Εκείνα που
προκύπτουν σαν αποτέλεσμα της πολιτικής του οργανισμού (policy overrides). Πιο συγκεκριμένα ο χρήστης
μπορεί να καθορίσει ότι τα αιτήματα μιας
συγκεκριμένης κατηγορίας πελατών θα εγκρίνονται ακόμα και αν βαθμολογηθούν Χ μονάδες κάτω από την
βάση αποκοπής. Αυτό γίνεται κυρίως επειδή ο χρήστης αποβλέπει στη δημιουργία δεσμού με αυτή την ειδική
κατηγορία πελατών, που αργότερα θα αξιοποιηθεί για τη διεύρυνση των εργασιών του. Εκείνα που επιτρέπονται
στα πλαίσια σχετικών ρυθμίσεων που προβλέπονται από τον εσωτερικό κανονισμό που αφορά τη λειτουργία
του credit scoring. Ορισμένοι χρήστες παρέχουν σε αρμόδια όργανα την ευχέρεια να αποφασίζουν στην αντίθετη
κατεύθυνση από εκείνη που υποδεικνύει η βαθμολογία ενός πελάτη, εφόσον αυτή δεν απέχει περισσότερο από
10 μονάδες από την βάση αποκοπής. Επισημαίνεται ότι πρέπει να γίνεται συνετή χρήση μιας τέτοιας
δυνατότητας για έγκριση overrides, μιας και ο λόγος εισαγωγής ενός συστήματος credit scoring αφορά ακριβώς
αυτές τις οριακές περιπτώσεις που προκαλούν προβληματισμό για το αν θα πρέπει να εγκριθούν ή να
απορριφθούν.
5. Επικύρωση (Validation)
Για την διαδικασία της επικύρωσης (Validation) χρησιμοποιείται το μέρος του αρχικού δείγματος που
αποτελείται από 200-300 «καλούς» και 200-300 «κακούς» λογαριασμούς οι οποίοι δεν έχουν υποστεί στατιστική
επεξεργασία. Στην φάση αυτή ελέγχουμε την δυνατότητα του συστήματος να ξεχωρίζει στον αναμενόμενο
βαθμό τους «καλούς» από τους «κακούς» λογαριασμούς.

112
113
Το κριτήριο του ελέγχου αυτή τη φορά είναι η διαφορά μεταξύ του μέσου όρου βαθμολογίας των «καλών»
και του μέσου όρου της βαθμολογίας των «κακών» λογαριασμών. Δεν πρέπει να αναμένεται να συμπέσει
απόλυτα η διαφορά αυτή με την αντίστοιχη διαφορά που μετρήθηκε με βάση τη βαθμολόγηση των μονάδων του
δείγματος. Εάν όμως, η απόκλιση που βρεθεί κριθεί ότι είναι σημαντική, οπωσδήποτε αυτό είναι ένα θέμα που
θα πρέπει να απασχολήσει τον Εξωτερικό Σύμβουλο και τα μέλη της Ομάδας Εργασίας. Αξίζει να σημειωθεί ότι
το δείγμα στο οποίο βασίζεται η διαδικασία της επικύρωσης μπορεί να ληφθεί και από μεταγενέστερο χρονικό
διάστημα, αρκεί να έχει εξασφαλιστεί ότι έχει επέλθει σημαντικός χρόνος για τον καθορισμό της κατηγορίας του
λογαριασμού, δηλαδή για το αν ανήκει στους «καλούς» ή τους «κακούς» λογαριασμούς. Ακόμα σπάνια έχει
παρουσιασθεί, σύμφωνα με τα εμπειρικά δεδομένα πάντα, η ανάγκη αναθεώρησης της κάρτας βαθμολόγησης
σαν αποτέλεσμα της διαδικασίας επικύρωσης

113
114
Αναλυτικό παράδειγμα χρήσης του neuropean στην επίλυση της
αναγνώρισης της επικινδυνότητας για ενδεχόμενη δανειοδότηση
από κάποιο φορέα

11. Συγκεκριμένα
Σε αυτό το κεφάλαιο θα ασχοληθούμε με το πρόβλημα αυτό καθ’ αυτό. Με άλλα λόγια θα γίνει μια αναλυτική
παρουσίαση του προβλήματος της ενδεχόμενης δανειοδότησης, του χώρου εφαρμογής του και τέλος θα γίνει
παρουσίαση των πεδίων που θα αποτελέσουν τα δεδομένα τα οποία θα μας οδηγήσουν στην επίλυση. Στην
διάρκεια της εμφάνισης πεδίων των δεδομένων, όπου κρίνεται απαραίτητο υπάρχει και μια περιγραφή της
σημασίας του πεδίου και του τρόπου υπολογισμού του. Επίσης στα πεδία που έχουν ένα πεπερασμένο πλήθος
τιμών παρουσιάζονται όλες με την λογική σειρά που χρησιμοποιήθηκε και κατά την επεξεργασία τους.
11.1 Περιγραφή του προβλήματος
Το πρόβλημα το οποίο επιλέξαμε να αντιμετωπίσουμε με την βοήθεια μεθόδων υπολογιστικής νοημοσύνης
έγκειται στην απόφαση που καλείται να πάρει μια τράπεζα για το αν θα δώσει δάνειο σε μια επιχείρηση και τι
είδους σιγουριά πρέπει να έχει ως προς την χορήγηση αυτού του δανείου με βάση μόνο τα δεδομένα τα οποία
μπορεί να συλλέξει από την αίτηση του πελάτη.
Η ALPHA Τράπεζα Πίστεως από την οποία πήραμε τα δεδομένα ζητάει από τις υποψήφιες επιχειρήσεις να τις
προσκομίσουν τα παρακάτω:
- Συμπληρωμένη μια αίτηση την οποία την δίνει το υποκατάστημα και περιέχει μερικά γενικά στοιχεία
για την επιχείρηση, όπως το όνομα, η νομική μορφή, το είδος των δραστηριοτήτων της, αν έχει
μηχανοργάνωση, πόσα άτομα απασχολεί σε κάθε τμήμα του και άλλες πληροφορίες τις οποίες δεν
μπορεί να συλλέξει μέσα από τον ισολογισμό και την κατάσταση αποτελεσμάτων χρήσεως.
- Ισολογισμό
- Κατάσταση αποτελεσμάτων χρήσεως
- Επίσης με την επιστροφή των παραπάνω εγγράφων το αρμόδιο στέλεχος που ασχολείται με την
συγκεκριμένη αίτηση συμπληρώνει ορισμένα επιπλέον πεδία, συλλέγοντας πληροφορίες από αρμόδια
γραφεία πληροφοριών. Τέτοιου είδους πληροφορίες είναι η θέση που κατέχει στην αγορά η
συγκεκριμένη επιχείρηση, το πώς διαγράφεται το μέλλον της επιχείρησης, την ικανότητα των στελεχών
της και άλλες ποιοτικές πληροφορίες.
Όπως είναι ήδη φανερό τα δεδομένα μας προέρχονται συνολικά από 4 πηγές και περιέχουν τόσο αριθμητικά
δεδομένα με την μορφή ποσοστών, δεικτών, απλών αριθμών, όσο και ποιοτικά δεδομένα τα οποία
αποτυπώνονται με λεκτικούς όρους τους οποίους στην συνέχεια το κλασσικό σύστημα που χρησιμοποιεί η
τράπεζα τα μεταφράζει σε αριθμητικά δεδομένα με διάφορες κλίμακες που έχει θεσπίσει. Εδώ βρίσκεται και ένα
από τα μεγάλα μειονεκτήματα της μεθοδολογίας αυτής, μιας και επιχειρεί να προσδώσει σε λεκτικές έννοιες μια
συγκεκριμένη αριθμητική τιμή και συνεπώς χάνει ένα ποσοστό των εννοιών και της σημασίας τους..

114
115
Μέχρι σήμερα αρκετές τράπεζες εφαρμόζουν το κλασσικό στατιστικό μοντέλο του Application Credit
Scoring. Όμως πιστεύουμε ακράδαντα ότι η κατάσταση αυτή θα αρχίσει να αλλάζει δραματικά τα επόμενα
χρόνια και ότι θα δούμε όλο και περισσότερες εφαρμογές βασισμένες στην τεχνητή νοημοσύνη για τους
παρακάτω λόγους :
- Η ευκολία μοντελοποίησης του προβλήματος με ασαφή λογική
- Η ευελιξία τέτοιων συστημάτων στην αναπροσαρμογή σε νέα δεδομένα
- Η αδυναμία του στατιστικού μοντέλου να διαχειριστεί ποιοτικά δεδομένα και κυρίως
- λεκτικές μεταβλητές
- Η αύξηση της υπολογιστικής ικανότητας των ηλεκτρονικών υπολογιστών που δίνουν την δυνατότητα
υλοποίησης βαρειών εφαρμογών που όμως χρειάζονται ελάχιστο, αν όχι μηδαμινό χρόνο, για να
δώσουν ένα αποτέλεσμα από την στιγμή της εισαγωγής όλων των απαραίτητων δεδομένων

Η δυνατότητα που παρέχουν τέτοια συστήματα για κατανόηση του τρόπου λειτουργίας του συστήματος λήψης
αποφάσεων, αφού όλοι οι κανόνες έχουν την μορφή των λογικών προτάσεων ΕΑΝ ... ΤΟΤΕ ... ΑΛΛΙΩΣ . Ο
σχετικά πολύ μικρότερος χρόνος που απαιτείται για την υλοποίηση ενός συστήματος που θα κάνει την εν λόγω
κατηγοριοποίηση και θα δίνει ικανοποιητικά αποτελέσματα
11.2 Χώρος εφαρμογής
Όσον αφορά τώρα τον χώρο εφαρμογής, αυτός δεν είναι άλλος από το αρμόδιο τμήμα του οποιοδήποτε
πιστοδοτικού οργανισμού ο οποίος ασχολείται με την χορήγηση δανείων σε επιχειρήσεις. Στον χώρο αυτό
εμπλέκονται στελέχη του οργανισμού τα οποία έχουν σαφή γνώση του αντικειμένου, δηλαδή της δανειοδότησης
επιχειρήσεων που τηρούν λογιστικά βιβλία Α & Β κατηγορίας, και αρκετή πείρα. Ακόμα απαραίτητη είναι και η
ύπαρξη μηχανογράφησης που θα περιλαμβάνει μια κεντρική υπολογιστική μονάδα η οποία θα είναι η βάση
δεδομένων και ένα πλήθος ηλεκτρονικών υπολογιστών που θα επεξεργάζονται τις αιτήσεις που εκκρεμούν. Όλα
τα υπολογιστικά συστήματα θα συνδέονται φυσικά μεταξύ τους μέσω τοπικού δικτύου (LAN) με απώτερο
σκοπό την εύκολη, ασφαλή και γρήγορη διακίνηση των δεδομένων
11.3 Τα δεδομένα
Για να μπορέσουμε να υλοποιήσουμε μια εφαρμογή υπολογιστικής νοημοσύνης θα πρέπει πρώτα απ’ όλα να
έχουμε στην διάθεση μας ένα σύνολο δεδομένων που να ικανοποιεί τις παρακάτω προϋποθέσεις :
1. να είναι αντιπροσωπευτικά του γενικού πληθυσμού
2. να είναι ομοιογενείς
3. να είναι όσο το δυνατόν απαλλαγμένα από θόρυβο
4. να μην υπάρχουν ελλείψεις σε ορισμένα πεδία
5. να υπάρχει ικανοποιητικός αριθμός περιπτώσεων
6. να καλύπτονται όλες οι δυνατές περιπτώσεις
Έχοντας λάβει όλα τα παραπάνω υπ’ όψιν καταλήξαμε στην απόφαση να συλλέξουμε τα δεδομένα που είχαν
σχέση με την απόφαση της ΑLPHA Τράπεζας Πίστεως για την χορήγηση δανείου σε επιχειρήσεις που τηρούν
λογιστικά βιβλία Α & Β κατηγορίας. Το υποκατάστημα της τράπεζας στην Ρόδο, που βρίσκεται στην Πλατεία
Κύπρου, και από όπου συλλέξαμε τα δεδομένα ήδη χρησιμοποιούσε ένα σύστημα APC και υπήρχαν 130
λογαριασμοί που τηρούσαν τις παραπάνω προϋποθέσεις. Τα δεδομένα συλλέχθηκαν ένα-ένα από τις εκτυπώσεις

115
116
του συστήματος του APC, και η όλη διάρκεια συλλογής τους διάρκεσε γύρω στους 2 μήνες. Πρέπει να
τονιστεί εδώ η καλή διάθεση των ανθρώπων της τράπεζας και η προθυμία τους να μας λύσουν κάθε απορία
σχετικά με το ήδη χρησιμοποιούμενο σύστημα και τα δεδομένα.
Το σύστημα είχε αρκετό χρόνο λειτουργίας και όπως μας διαβεβαίωσαν τα στελέχη της τράπεζας είχε περάσει
από πολλά στάδια αναπροσαρμογής πριν φτάσει στο στάδιο που εμείς το είδαμε, το οποίο σύμφωνα με την μέχρι
τότε εμπειρία τους δούλευε παραπάνω από τις προσδοκίες τους. Συνεπώς τα πεδία που εμπεριείχε ήταν και τα
πλέον σημαντικά από το σύνολο των πεδίων της αίτησης της κάθε επιχείρησης για την κατάταξη της σε κάποια
από τις κατηγορίες πιστωτικού κινδύνου. Επίσης η έξοδος του συστήματος, δηλαδή η κατηγορία που ανέθετε σε
κάθε επιχείρηση, είχε πολύ μικρή απόκλιση από την πραγματική κατηγορία της επιχείρησης και αυτό σε λιγοστό
αριθμό περιπτώσεων.
Τα πεδία τα οποία αποτελούν τα δεδομένα μας είναι :
1. Περίπτωση: Αύξοντας αριθμός των περιπτώσεων

2. Μεταβολή πωλήσεων 1 έτος πριν POLIS_1

3. Ποιότητα Προϊόντα - Υπηρεσίες: Μέτρια, Καλή, Εξαιρετική. POIOTITA

4. Περιθώριο κέρδους προ αποσβέσεων κλάδου, για το προηγούμενο έτος PK_KLADOU

5. Περιθώριο κέρδους προ αποσβέσεων 1 έτος πριν PK_1

6. Έτη λειτουργίας ETI_LEITOURGIAS

7. Γεωγραφική κάλυψη: Τοπική, Ευρύτερη Τοπική, Ορισμένες Περιοχές, Πανελλαδική GEO

8. Διάδοχος κατάσταση: Απούσα Επαρκής, Επαρκής, Υψηλών Προδιαγραφών MELLON

9. Καθαρό πλεόνασμα-έλλειμμα 1 έτος πριν SECTOR

10. Κλάδος Α: Αποθέματα κλάδου για το προηγούμενο έτος KLADOS_A

11. Κλάδος ΔΔΕ: Δείκτης δανειακής επιβάρυνσης κλάδου για το προηγούμενο έτος KLADOS_DDE

12. Περιθώριο ασφαλείας 2 έτη πριν MARGIN_2

13. Κλάδος Απ: Απαιτήσεις κλάδου για το προηγούμενο έτος KLADOS_AP

14. Πλήθος προϊόντων ARITHM.P

15. Απαιτήσεις 1 έτος πριν APAIT_1

16. Ειδική ρευστότητα 3 έτη πριν: Συνεχής αριθμός που εξάγεται από την αίτηση του πελάτη και πιο
συγκεκριμένα από την κατάσταση αποτελεσμάτων χρήσης. Είναι το αποτέλεσμα της διαίρεσης του
Κυκλοφορούν Ενεργητικού μείον τα Αποθέματα με το Βραχυπρόθεσμο Παθητικό και μας δείχνει ότι
και η γενική ρευστότητα, αλλά επιχειρεί ταυτόχρονα να περιορίσει μερικές αδυναμίες του, πράγμα που
το πετυχαίνει με το να συμπεριλαμβάνει μόνο άμεσα ρευστοποιήσιμα κυκλοφοριακά στοιχεία
REUST_1

17. Κατηγορία κινδύνου: Είναι η έξοδος: ΧΩΡΙΣ ΚΙΝΔΥΝΟ, ΑΠΟΔΕΚΤΟΥ ΚΙΝΔΥΝΟΥ, ΜΕΣΟΥ
ΚΙΝΔΥΝΟΥ, ΥΠΟ ΠΑΡΑΚΟΛΟΥΘΗΣΗ, ΥΨΗΛΟΥ ΚΙΝΔΥΝΟΥ, ΣΕ ΑΔΥΝΑΜΙΑ,
ΑΝΕΠΙΔΕΚΤΟΣ ΕΙΣΠΡΑΞΕΩΣ (Επισφαλής) CR.RISK

116
117

Ανάλυση του συγκεκριμένου σετ δεδομένων με τη βοήθεια


στατιστικών πακέτων (SPSS)

Διαχωριστική Ανάλυση (Discriminant Analysis,Grouping Variable: credit risk (scale : 0,1))

Mean
CR2
not accepted accepted Total n
DDE 4,292 8,296 6,909
POLIS_1 ,013 ,194 ,131
PK_KLADO ,072 ,074 ,073
PK_1 ,009 ,114 ,078
ETI_LEIT 6,250 5,807 5,961
MELLON -,455 -,205 -,291
SECTROR -39,941 59,082 24,775
KLADOS_A 70,525 67,250 68,384
KLAD_DDE 2,389 2,151 2,234
MARGIN_2 ,037 -,010 ,006
KLAD_AP 91,281 91,326 91,310
ARITHM.P 8,773 10,771 10,079
APAIT_1 76,890 58,019 64,557
REUST_1 ,610 1,547 1,222
POIOTITA ,557 ,687 ,642
GEO -,193 -,187 -,189

Από τον πίνακα πάνω δεν παρατηρούμε διαφορές στις μέσες τιμές των δύο ομάδων για τις μεταβλητές :
1. PK_KLADO
2. MARGIN_2

117
118
3. KLADOS_AP
4. GEO

Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.


DDE ,992 1,069 1 125 ,303
POLIS_1 ,930 9,347 1 125 ,003
PK_KLADO ,999 ,078 1 125 ,780
PK_1 ,837 24,329 1 125 ,000
ETI_LEIT 1,000 ,035 1 125 ,851
MELLON ,962 4,881 1 125 ,029
SECTROR ,906 12,900 1 125 ,000
KLADOS_A ,999 ,090 1 125 ,764
KLAD_DDE ,991 1,194 1 125 ,277
MARGIN_2 ,999 ,104 1 125 ,747
KLAD_AP 1,000 ,000 1 125 ,994
ARITHM.P ,982 2,270 1 125 ,134
APAIT_1 ,991 1,172 1 125 ,281
REUST_1 ,987 1,640 1 125 ,203
POIOTITA ,963 4,869 1 125 ,029
GEO 1,000 ,003 1 125 ,958

Κρίνονται στατιστικά σημαντικές οι μεταβλητές με την παρακάτω φθίνουσα σειρά :


1. PK_1
2. SECTOR
3. POLIS_1
4. POIOTITA
5. MELLON
6. ARITHM.P
Άρα την επεξεργασία και ανάλυση των παραπάνω μεταβλητών θα επιδιώξουμε.

Eigenvalues

Canonical
Function Eigenvalue % of Variance Cumulative % Correlation
1 ,546a 100,0 100,0 ,594
a. First 1 canonical discriminant functions were used in the
analysis.

Η συσχέτιση μεταξύ της ομάδας 1 με την ομάδα 2 είναι 0,546 ενώ η συσχέτιση μεταξύ των 2 ομάδων είναι
0,594.

118
119

Wilks' Lambda

Test of Function(s) Wilks' Lambda Chi-square df Sig.


1 ,647 50,955 16 ,000

Το ποσοστό της διακύμανσης που δεν εξηγείτε από την ομάδα 1 στην ομάδα 2 είναι 64,7%.

Functions at Group Centroids

Function
CR2 1
not accepted -1,007
accepted ,534
Unstandardized canonical discriminant
functions evaluated at group means

Η μέση τιμή για τις εταιρίες που δεν κρίθηκαν ικανές δανειοδότησης έχει αρνητική τιμή και είναι –1,007 , ενώ
για τις εταιρίες που κρίθηκαν ικανές πιστοληπτικής ικανότητας έχει θετική τιμή και είναι 0,534.

Standardized Canonical Discriminant Function Coefficients


Structure Matrix
Function
Function
1
DDE ,178 1
PK_1 ,597
POLIS_1 ,478
SECTROR ,435
PK_KLADO -,590
POLIS_1 ,370
PK_1 ,685
MELLON ,267
ETI_LEIT ,158
POIOTITA ,267
MELLON ,272
ARITHM.P ,182
SECTROR ,388
REUST_1 ,155
KLADOS_A -,081
KLAD_DDE -,132
KLAD_DDE -,366
APAIT_1 -,131
MARGIN_2 ,146
DDE ,125
KLAD_AP ,391
MARGIN_2 -,039
ARITHM.P ,177
KLADOS_A -,036
APAIT_1 -,182
PK_KLADO ,034
REUST_1 ,206
ETI_LEIT -,023
POIOTITA ,146
GEO ,006
GEO ,107
KLAD_AP ,001

Οι παρακάτω μεταβλητές έχουν τις υψηλότερες συσχετίσεις με την Function 1:


1. PK_1
2. POLIS_1
3. KLADOS_AP
4. SECTOR

119
120
5. MELLON
6. REUST_1
7. ARITHM.P
8. DDE

Classification Function Coefficients

CR2
not accepted accepted
DDE -,006 ,007
POLIS_1 -,478 1,845
PK_KLADO 85,063 65,510
PK_1 ,502 9,795
ETI_LEIT ,023 ,043
MELLON -2,808 -2,116
SECTROR -,004 ,000
KLADOS_A -,001 -,003
KLAD_DDE 2,576 2,093
MARGIN_2 ,489 ,773
KLAD_AP ,063 ,083
ARITHM.P ,136 ,174
APAIT_1 ,007 ,004
REUST_1 ,117 ,198
POIOTITA 6,501 7,212
GEO -,258 -,007
(Constant) -13,200 -13,867
Fisher's linear discriminant functions

Οι παρακάτω μεταβλητές έχουν τις υψηλότερες συσχετίσεις με την Function 1:


1. PK_1
2. POLIS_1
3. KLADOS_AP
4. SECTOR
5. MELLON
6. REUST_1
7. ARITHM.P
8. DDE
Οπότε έχουμε :
Wo = -13,200 + 0,502PK_1 – 0,478POLIS_1 +0,063KLADOS_AP – 0,004SECTOR –2,808MELLON
+REUST_1 +0,136ARITHM.P – 0,006DDE.

W1 = -13867 + 9,795PK_1 +1,845POLIS_1 +0,083 KLAD_AP –2,116MELLON +0,198REUST_1


+0,174ARITHM.P + 0,007DDE.

120
121
Classification Resultsa

Predicted Group Membership


not accepted accepted Total
CR2 Count % Count % Count %
Original not accepted 35 79,5 9 20,5 44 100,0
accepted 14 16,9 69 83,1 83 100,0
a. 81,9% of original grouped cases correctly classified.

35 επιχειρήσεις που τελικά κρίθηκαν ανίκανες πιστοληπτικής ικανότητας ή ποσοστό 79,5% προβλέφθηκαν
σωστά. Η ανάλυση μας έδωσε 9 από αυτές σαν ικανές δανειοδότησης .

69 επιχειρήσεις οι οποίες τελικά κρίθηκαν ικανές δανειοδότησης ή ποσοστό 83,1% προβλέφθηκαν σωστά. Η
ανάλυση μας έδωσε 14 από αυτές τις επιχειρήσεις ως μη αποδεκτές για δανειοδότηση.

Συνολικά το 81,9% των περιπτώσεων αναλύθηκε σωστά το οποίο σημαίνει ότι έχουμε μια αρκετά καλή ανάλυση
και πρόβλεψη.

121
122

Λογιστική Παλινδρόμηση(Logistic Regression1)

Dependent Variable Encoding

Original Value Internal Value


not accepted 0
accepted 1

1
Διενεργείτε λογιστική παλινδρόμηση όπου η Υ είναι η πιστοληπτική ικανότητα σε δίτιμη μορφή
(έγκριση=1,απόρριψη=0). Χρησιμοποιείτε η μέθοδος enter.

Omnibus Tests of Model Coefficients

Chi-square df Sig.
Step 1 Step 71,837 20 ,000
Block 71,837 20 ,000
Model 71,837 20 ,000

Ηο : β1=0
M1 : logit(p) = bo + b1x +…+ bnx
M0 : logit(p) = bo
Επειδή το pvalue είναι 0,000 απορρίπτω την Ηο, άρα m1 είναι διάφορο του m0, άρα το μοντέλο πρόβλεψης που
περιλαμβάνει όλες τις μεταβλητές είναι καλύτερο από το σταθερό μοντέλο.

Model Summary

-2 Log Cox & Snell Nagelkerke R


Step likelihood R Square Square
1 89,916 ,435 ,601

ΕΛΕΓΧΟΣ ΚΑΛΗΣ ΠΡΟΣΑΡΜΟΓΗΣ

-2loglikelihood = 89,916. Αυτή τη τιμή θέλω να την συγκρίνω με το Χ 2 n-pm ,όπου n = 126 και pm = 22.
Result = 0,95 > 0,05

Κάνοντας Transform-Compute-IDFCHISQR βρέθηκε το χ τετράγωνο


Χ2 114 = 139,92 > 89,916 = -2loglikelihood
άρα αποδεχόμαστε την Ηο, όπου
Ηο : το μοντέλο προσαρμόζεται καλά στα δεδομένα(deviance:απόκλιση μοντέλου από τα δεδομένα).
Άρα το μοντέλο πρόβλεψης της πιστοληπτικής ικανότητας προσαρμόζεται καλά στα δεδομένα.
Hosmer and Lemeshow Test

Step Chi-square df Sig.


1 10,462 8 ,234

1
Διενεργείτε λογιστική παλινδρόμηση όπου η Υ είναι η πιστοληπτική ικανότητα σε δίτιμη μορφή
(έγκριση=1,απόρριψη=0). Χρησιμοποιείτε η μέθοδος enter.

122
123
Contingency Table for Hosmer and Lemeshow Test

CR2 = not accepted CR2 = accepted


Observed Expected Observed Expected Total
Step 1 1 12 12,625 1 ,375 13
2 12 10,092 1 2,908 13
3 9 7,851 4 5,149 13
4 3 5,335 10 7,665 13
5 3 3,294 10 9,706 13
6 1 2,089 12 10,911 13
7 1 1,127 12 11,873 13
8 2 ,492 11 12,508 13
9 0 ,092 13 12,908 13
10 0 ,002 9 8,998 9

Classification Tablea

Predicted

CR2
Percentage
Observed not accepted accepted Correct
Step 1 CR2 not accepted 32 11 74,4
accepted 6 77 92,8
Overall Percentage 86,5
a. The cut value is ,500

Στη διαγώνιο (32,77) οι προβλέψεις γίνονται σωστά. Στα εκτός διαγωνίου η πρόβλεψη είναι λάθος.

Overall percentage = 109/126 =}


Overall percentage = 0,865

Άρα αν χρησιμοποιήσουμε το μοντέλο που φτιάξαμε , θα μας δώσει ποσοστό επιτυχίας 86,5%, το οποίο
είναι ένα αρκετά καλό ποσοστό πρόβλεψης.

123
124
Variables in the Equation

95,0% C.I.for EXP(B)


B S.E. Wald df Sig. Exp(B) Lower Upper
Step 1a DDE ,021 ,017 1,452 1,000 ,228 1,021 ,987 1,056
POLIS_1 1,978 1,080 3,356 1,000 ,067 7,228 ,871 59,988
PK_KLADO -22,728 9,298 5,975 1,000 ,015 ,000 ,000 ,011
PK_1 16,039 4,759 11,360 1,000 ,001 9242023,5 822,458 1,04E+11
ETI_LEIT ,020 ,027 ,546 1,000 ,460 1,020 ,968 1,075
SECTROR ,010 ,004 5,976 1,000 ,015 1,010 1,002 1,018
KLADOS_A ,001 ,007 ,030 1,000 ,864 1,001 ,987 1,016
KLAD_DDE -,297 ,306 ,940 1,000 ,332 ,743 ,408 1,354
MARGIN_2 ,232 ,619 ,141 1,000 ,708 1,261 ,375 4,240
KLAD_AP ,011 ,014 ,695 1,000 ,404 1,012 ,985 1,039
ARITHM.P ,000 ,043 ,000 1,000 ,993 1,000 ,920 1,088
APAIT_1 -,006 ,003 4,581 1,000 ,032 ,994 ,989 1,000
REUST_1 ,389 ,314 1,537 1,000 ,215 1,476 ,798 2,732
GCERAIN(1) ,159 ,819 ,038 1,000 ,846 1,172 ,236 5,833
GLOCAL(1) ,878 ,718 1,493 1,000 ,222 2,405 ,589 9,830
GNATION(1) -6,229 42,239 ,022 1,000 ,883 ,002 ,000 1,77E+33
M_INSUFF(1) 1,573 1,576 ,997 1,000 ,318 4,822 ,220 105,766
M_ADEQUA(1) 1,496 1,178 1,613 1,000 ,204 4,463 ,444 44,886
P_AVERAG(1) 9,580 25,014 ,147 1,000 ,702 14469,199 ,000 2,83E+25
P_EXCEPT(1) ,509 ,605 ,708 1,000 ,400 1,663 ,508 5,444
Constant -5,621 49,157 ,013 1,000 ,909 ,004
a. Variable(s) entered on step 1: DDE, POLIS_1, PK_KLADO, PK_1, ETI_LEIT, SECTROR, KLADOS_A, KLAD_DDE,
MARGIN_2, KLAD_AP, ARITHM.P, APAIT_1, REUST_1, GCERAIN, GLOCAL, GNATION, M_INSUFF, M_ADEQUA,
P_AVERAG, P_EXCEPT.

Το μοντέλο πρόβλεψης της πιστοληπτικής ικανότητας σύμφωνα με την λογιστική παλινδρόμηση και την μέθοδο
enter είναι το εξής :

LOG p/1-p= -5,621 -,509P_EXCEPTIONAL +9,580P_AVERAGE +1,496M_ADEQUATE


+1,573M_INSUFFICIENT – 6,229GNATION +,878GLOCAL +,159GCERTAIN +,,389REUST_1
-,006APAIT_1 +,0003ARITHM.P +,011KLAD_AP +,232MARGIN_2 - ,297KLAD_DDE +,001KLADOS_A
+,010SECTOR +,020ETI_LEIT +16,039PK_1 –22,728PK_KLADOU +1,978POLIS_1 +,021DDE.

ΕΡΜΗΝΕΙΑ
I. -5,621 : Αν όλες οι μεταβλητές είναι ίσες με μηδέν τότε log ODDS = -5,621.
Άρα η πιθανότητα (το ODDS) να έχουμε χαρακτηρισμό της επιχείρησης ως ικανή για πιστοληπτική
ικανότητα(έγκριση αίτησης δανειοδότησης) είναι 0,004 φορές την πιθανότητα να έχουμε χαρακτηρισμό της
επιχείρησης ως ανίκανη πιστοληπτικής ικανότητας (απόρριψη αίτησης δανειοδότησης) , δεδομένου ότι όλες
οι μεταβλητές που υπάρχουν στο μοντέλο είναι ίσες με μηδέν.
II. Κάνοντας Save Probabilities στα δεδομένα δημιουργείτε μια νέα στήλη pre_1, η οποία αποτελεί την
πιθανότητα να εγκριθεί η αίτηση δανειοδότησης. Έτσι θέτοντας μηδέν όλες τις υπόλοιπες
μεταβλητές συμπεραίνουμε ότι η πιθανότητα να χαρακτηριστεί ως ικανή πιστοληπτικής ικανότητας
η επιχείρηση είναι 0,27%.

124
125
III. e ,389 = 1,476 Η πιθανότητα του να εγκριθεί η αίτηση δανειοδότησης [(1,476-1)*100)= 47,6%]
αυξάνεται κατά 47,6% για κάθε μοναδιαία αύξηση της ειδικής ρευστότητας 1χρόνο πριν.
IV. e -,006 = ,994 Η πιθανότητα του να εγκριθεί η αίτηση δανειοδότησης [(0,994-1)*100)= 6%]
μειώνεται κατά 6% για κάθε μοναδιαία αύξηση στις απαιτήσεις κλάδου 1χρόνο πριν.
V. e ,0003 = 1 Η πιθανότητα του να εγκριθεί η αίτηση δανειοδότησης [(1-1)*100)= 0] δεν εξαρτάται
από τον αριθμό των προϊόντων που παράγει η κάθε επιχείρηση.
VI. e ,011 = 1,012 Η πιθανότητα του να εγκριθεί η αίτηση δανειοδότησης [(1,012-1)*100)= 1,2%]
αυξάνεται κατά 1,2% για κάθε μοναδιαία αύξηση στις απαιτήσεις κλάδου 1 χρόνο πριν.
VII. e ,232 = 1,261 Η πιθανότητα του να εγκριθεί η αίτηση δανειοδότησης [(1,262-1)*100)= 26,2%]
αυξάνεται κατά 26,2% για κάθε μοναδιαία αύξηση στο περιθώριο ασφαλείας 2 χρόνια πριν.
VIII. e -,297 = ,743 Η πιθανότητα του να εγκριθεί η αίτηση δανειοδότησης [(0,743-1)*100)= 25,7%]
μειώνεται κατά 25,7%% για κάθε μοναδιαία αύξηση στο δείκτη δανειακής επιβάρυνσης κλάδου για
το προηγούμενο έτος.
IX. e ,001 = 1,001 Η πιθανότητα του να εγκριθεί η αίτηση δανειοδότησης [(1,001-1)*100)= 1%]
αυξάνεται κατά 26,2% για κάθε μοναδιαία αύξηση στα αποθέματα κλάδου για το προηγούμενο έτος.
X. e ,010 = 1,010 Η πιθανότητα του να εγκριθεί η αίτηση δανειοδότησης [(1,010-1)*100)= 10%]
αυξάνεται κατά 10% για κάθε μοναδιαία αύξηση στο πλεόνασμα / έλλειμμα κλάδου για το
προηγούμενο έτος.
XI. e 0,20 = 1,020 Η πιθανότητα του να εγκριθεί η αίτηση δανειοδότησης [(1,020-1)*100)= 20%]
αυξάνεται κατά 20% για κάθε επιπλέον χρονιά λειτουργίας της επιχείρησης.
XII. e 16,039 = ,001 Η πιθανότητα του να εγκριθεί η αίτηση δανειοδότησης [(,001-1)*100)= 99,9%]
αυξάνεται κατά 99,9% για κάθε μοναδιαία αύξηση στο περιθώριο κέρδους προ αποσβέσεων κλάδου
1 έτος πριν.

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ

Zβ1 = 0,708 το οποίο ανήκει στο (-2,2) άρα δεν απορρίπτουμε την Ηο:β1=0, δηλαδή η πιθανότητα μια
επιχείρηση με προϊόντα εξαιρετικής ποιότητας να χαρακτηριστεί ικανή πιστοληπτικής ικανότητας είναι 50%.
Zβ2 = 0,147 το οποίο ανήκει στο (-2,2) άρα δεν απορρίπτουμε την Ηο:β2=0, δηλαδή η πιθανότητα μια
επιχείρηση με προϊόντα μέσης ποιότητας να χαρακτηριστεί ικανή πιστοληπτικής ικανότητας είναι 50%.
Zβ3 = 0,030 το οποίο ανήκει στο (-2,2) άρα δεν απορρίπτουμε την Ηο:β3=0, δηλαδή η πιθανότητα μια
επιχείρηση με εξαιρετική διάδοχο κατάσταση να χαρακτηριστεί ικανή πιστοληπτικής ικανότητας είναι 50%.
Zβ4 = 0,022 το οποίο ανήκει στο (-2,2) άρα δεν απορρίπτουμε την Ηο:β4=0, δηλαδή η πιθανότητα μια
επιχείρηση με μέση διάδοχο κατάσταση να χαρακτηριστεί ικανή πιστοληπτικής ικανότητας είναι 50%.
Zβ5 = 0,022 το οποίο ανήκει στο (-2,2) άρα δεν απορρίπτουμε την Ηο:β5=0, δηλαδή η πιθανότητα μια
επιχείρηση με μη επαρκή διάδοχο κατάσταση να χαρακτηριστεί ικανή πιστοληπτικής ικανότητας είναι 50%.
Zβ= 11,360 το οποίο δεν ανήκει στο (-2,2) άραν απορρίπτουμε την Ηο:β=0, δηλαδή στη πιθανότητα μια
επιχείρηση να χαρακτηριστεί ικανή πιστοληπτικής ικανότητας , υπάρχει διαφορά για τις διαφορετικές τιμές του
περιθωρίου κέρδους 1 έτος πριν.
Ομοίως και για τα υπόλοιπα.

125
126
ΣΥΜΠΕΡΑΣΜΑ ΛΟΓΙΣΤΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ:

ΣΤΗΝ ΔΙΑΔΙΚΑΣΙΑ ΑΞΙΟΛΟΓΗΣΗΣ ΤΗΣ ΠΙΣΤΟΛΗΠΤΙΚΗΣ ΙΚΑΝΟΤΗΤΑΣ ΕΜΠΛΕΚΟΝΤΑΙ ΠΟΛΛΕΣ


ΜΕΤΑΒΛΗΤΕΣ. ΩΣΤΟΣΟ ΟΙ ΣΗΜΑΝΤΙΚΟΤΕΡΕΣ ΒΡΕΘΗΚΑΝ ΝΑ ΕΙΝΑΙ ΤΑ ΕΤΗ ΛΕΙΤΟΥΡΓΙΑΣ ΤΗΣ
ΕΠΙΧΕΙΡΗΣΗΣ , Η ΕΙΔΙΚΗ ΡΕΥΣΤΟΤΗΤΑ ΠΡΙΝ ΑΠΟ 1 ΧΡΟΝΟ ΚΑΙ ΤΟ ΠΕΡΙΘΩΡΙΟ ΑΣΦΑΛΕΙΑΣ ΠΡΙΝ
ΑΠΟ ΔΥΟ ΧΡΟΝΙΑ. ΔΙΑΠΙΣΤΩΘΗΚΕ ΟΤΙ ΥΠΑΡΧΕΙ ΣΧΕΣΗ ΜΕΤΑΞΥ ΤΗΣ ΕΙΔΙΚΗΣ ΡΕΥΣΤΟΤΗΤΑΣ
ΚΑΙ ΤΟΥ ΠΕΡΙΘΩΡΙΟΥ ΑΣΦΑΛΕΙΑΣ. ΩΣΤΟΣΟ ΤΟ ΧΡΟΝΙΚΟ ΔΙΑΣΤΗΜΑ ΠΟΥ ΛΕΙΤΟΥΡΓΕΙ Η
ΕΠΙΧΕΙΡΗΣΗ ΔΕΝ ΕΠΗΡΕΑΖΕΙ ΚΑΘΟΛΟΥ ΤΟΝ ΑΡΙΘΜΟ ΤΩΝ ΠΡΟΪΟΝΤΩΝ ΠΟΥ ΠΑΡΑΓΟΝΤΑΙ.
ΜΕΤΑΞΥ ΤΩΝ ΜΕΤΑΒΛΗΤΩΝ ΔΙΑΔΟΧΟΣ ΚΑΤΑΣΤΑΣΗ ΚΑΙ ΠΙΣΤΟΛΗΠΤΙΚΗ ΙΚΑΝΟΤΗΤΑ
ΥΠΑΡΧΕΙ ΣΧΕΣΗ.

ΤΟ ΜΟΝΤΕΛΟ ΠΡΟΒΛΕΨΗΣ ΕΙΝΑΙ ΤΟ ΕΞΗΣ :

LOG p/1-p= -5,621 -,509P_EXCEPTIONAL +9,580P_AVERAGE +1,496M_ADEQUATE


+1,573M_INSUFFICIENT – 6,229GNATION +,878GLOCAL +,159GCERTAIN +,,389REUST_1
-,006APAIT_1 +,0003ARITHM.P +,011KLAD_AP +,232MARGIN_2 - ,297KLAD_DDE +,001KLADOS_A
+,010SECTOR +,020ETI_LEIT +16,039PK_1 –22,728PK_KLADOU +1,978POLIS_1 +,021DDE.

ΑΡΑ ΔΕΔΟΜΕΝΟΥ ΟΤΙ ΟΛΕΣ ΟΙ ΜΕΤΑΒΛΗΤΕΣ ΕΙΝΑΙ ΜΗΔΕΝ, Η ΠΙΘΑΝΟΤΗΤΑ ΝΑ ΧΑΡΑΚΤΗΡΙΣΤΕΙ


ΩΣ ΙΚΑΝΗ ΠΙΣΤΟΛΗΠΤΙΚΗΣ ΙΚΑΝΟΤΗΤΑΣ Η ΕΠΙΧΕΙΡΗΣΗ ΕΙΝΑΙ 0,27%.

126
127
Συμπεράσματα εφαρμογής του τεχνητού νευρωνικού δικτύου στο
συγκεκριμένο πρόβλημα

Το πρόβλημα που αναλύεται παραπάνω καλούμαστε τώρα να επιλύσουμε με το συγκεκριμένο πρόβλημα


υπολογιστικής νοημοσύνης .

Για την επίλυση του προβλήματος και για να βρούμε την βέλτιστη λύση ακολουθήσαμε ένα σύνολο δοκιμών,
όσον αφορά την επεξεργασία των δεδομένων και την εκπαίδευση του τεχνητού νευρωνικού δικτύου.

Ύστερα από πολλές δοκιμές βρέθηκε ένα μοντέλο που μας προσφέρει avg. Error στην έξοδο ίσο με
2,95657552785544 Ε –15. Για το μοντέλο αυτό λοιπόν έχουμε :

Network Designer

Inputs : 16
Hidden Layer 1 : 20
Hidden Layer 2 : 15
Hidden Layer 3 : 4
Outputs : 1

Αριθμό εισόδων ίσο με 16 μεταβλητές οι οποίες επηρεάζουν την απόφαση δανειοδότησης ή μη. 3 κρυμμένα
επίπεδα στα οποία διενεργείτε η εκπαίδευση του δικτύου και μία μόνο δίτιμη έξοδο η οποία αποτελεί την
μεταβλητή credit risk (απόρριψη vs έγκριση).

Training Set

Train Set : 95
Test Set : 31
Total : 126

Στο σύνολο των 126 γραμμών που έχουμε εισάγει από το excel περιλαμβάνονται 126 περιπτώσεις επιχειρήσεων
από τις οποίες εξορύξαμε τα δεδομένα. Τα ¾ των επιχειρήσεων (95 περιπτώσεις) αυτών χρησιμοποιούνται για
την εκπαίδευση του δικτύου, ενώ το υπόλοιπο ¼ (31 περιπτώσεις) χρησιμοποιείται για να γίνει δοκιμή της
ικανότητας πρόβλεψης του δικτύου.

Ακολουθώντας πιστά το εγχειρίδιο χρήσης του προγράμματος φτάσαμε στο στάδιο της εκπαίδευσης του
νευρωνικού δικτύου έτσι ώστε να καταφέρουμε να εξάγουμε το μεγαλύτερο ποσοστό ορθής πρόβλεψης. Έγιναν
πολλές δοκιμές και αποφασίστηκε να χρησιμοποιηθεί ο αλγόριθμος οπισθοδιάδοσης του λάθους .
Παρατηρήσαμε ότι για χαμηλότερους ρυθμούς μάθησης το νευρωνικό δίκτυο δίνει καλύτερα αποτελέσματα. Το
τελικό μονοπάτι που επιφέρει τα καλύτερα αποτελέσματα είναι η σειρά των εκπαιδεύσεων που παρουσιάζεται
παρακάτω :

Μέθοδος Randomization Learning Avg.


A/A Momentum Epochs
εκπαίδευσης weight Rate Error

1 Backprop 0,7 0,2 0,2 1000 9,55E-07


2 Backprop 0,7 0,2 0,7 1000 1,51E-07

127
128
3 Backprop 0,5 0,2 0,9 1000 9,34E-08
4 Backprop 0,5 0,2 0,8 1000 2,55E-08
5 Backprop 0,5 0,2 0,7 1000 8,16E-08
6 Backprop 0,9 0,2 0,9 1000 8,66E-08
7 Backprop 0,9 0,2 0,8 1000 4,46E-07
8 Backprop 0,9 0,2 0,7 1000 4,63E-07
9 Backprop 0,7 0,2 0,9 1000 1,08E-07
10 Backprop 0,7 0,2 1 1000 1,63E-04
11 Backprop 0,7 0,2 0,9 1000 2,36E-07
12 Backprop 0,7 0,3 0,9 1000 2,51E-08
13 Backprop 0,7 0,4 0,9 1000 6,83E-08
14 Backprop 0,7 0,5 0,9 1000 2,96E-15
sum 1,66E-04

Στο στάδιο 14, το πρόγραμμα μας δίνει το παρακάτω γράφημα. Έχουμε βρει το μικρότερο δυνατό σφάλμα
(χωρίς να έχουμε εξαντλήσει όλες τις επιλογές) .

1.η κόκκινη γραμμή, η οποία αντιπροσωπεύει την κατάσταση που θέλετε να επιτύχετε
2.η πράσινη γραμμή, η οποία είναι αντιπροσωπευτική της ισχύουσας κατάστασης και
3.η μπλε γραμμή, η οποία αντιπροσωπεύει το σφάλμα του νευρωνικού δικτύου που έχετε εκπαιδεύσει

Βρέθηκε λοιπόν το μέσο σφάλμα του νευρωνικού δικτύου ίσο με 2,96 Ε –15(0,000000000000002,96)2.
Σημειώνεται ότι έχει γίνει στρογγυλοποίηση του αποτελέσματος .

Συμπέρασμα :

Το μέσο σφάλμα είναι πάρα πολύ μικρό και άρα η πρόβλεψη έγκρισης ή απόρριψης της υποψήφιας αίτησης
επιχείρησης που κρατάει λογιστικά βιβλία Α’ και Β’ κατηγορίας είναι πάρα πολύ καλή.

2
Σημειώνεται ότι έχει γίνει στρογγυλοποίηση του αποτελέσματος . Το ακριβές μέσο σφάλμα είναι
2,95687552785544 Ε-15.

128
129

Βιβλιογραφία

1. http://www.cacs.usl.edu/~manaris/ai-education-repository/neural-n-tutorial.html

2. http://psyche.cs.monash.edu.au/v2/phyche-2-06-moravec.html

3. http://www.csa.ru/ai/faq/sarle/FAQ2.html

4. “Credit Scoring using the hybrid neural discriminant technique.” Tian-Shyug Leea,*, Chih-Chou Chiub,
Chi-Jie Luc, I-Fei Chend
5. «Εfficiency of multi-layered feed-forward neural networks on classification in relation to linear
discriminant analysis, quadratic discriminant analysis and regularized discriminant analysis M.S.
S5nchez” *, L.A. Sarabia, Department of Mathematical Analysis, Faculty of Science and Food
Technology and Chemistry, University of Burgos, Pza. Misael Bafiuelos s/n, 09001 Burgos, Spain

6. «A survey of credit and behavioural scoring: forecasting financial risk of lending to consumers.»
Lyn C. Thomas Department of Business Studies ,University of Edinburgh ,William Robertson Building ,
50George Square , Edinburgh EH 8 9JY ,UK International Journal of Forecasting 16 (2000) 149–172

7. «Neural network credit scoring models» , David West*,Department of Decision Sciences, College of
Business Administration, East Carolina University, Greenville, NC 27836, USA Computers &
Operations Research 27 (2000) 1131-1152

8. «A survey of credit and behavioural scoring: forecasting financial risk of lending to consumers», Lyn C.
Thomas, Department of Business Studies ,University of Edinburgh ,William Robertson Building ,
50George Square , Edinburgh EH 8 9JY ,UK, International Journal of Forecasting 16 (2000) 149–172,

9. «Theory and Methodology, A comparison of neural networks and linear scoring models in the credit
union environment», V i j a y S. Desai a, *, Jonathan N. Crook b, George A. O v e r s t r e e t , Jr. a a
Mclntire School of Commerce, University of Virginia, Charlottesville, VA 22 903, USA ,b Department of
Business Studies, University of Edinburgh, 50 George Square, Edinburgh, EH89JY, UK , European
Journal of Operational Research 95 (1996) 24-37

10. «Μελέτη και Αξιολόγηση εφαρμογών Feed-Forward ΤΝΔ με χρήση Αλγόριθμων Back-Propagation με
Momentum».Χάρης Γεωργίου, Γιάννης Κούτσιας. Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών,
Τμήμα Πληροφορικής, Μεταπτυχιακό Πρόγραμμα Σπουδών,Διδάσκων :Ν.Θεοφάνους,
Κ.Καλουπτσίδης, Κ.Κουτρουμπάς. Ιούνιος 1995.

11. «Μέθοδοι εκπαίδευσης και μοντέλα τεχνητών νευρωνικών δικτύων.» Χ.Γεωργίου, Σ.Μελισσόβας,
Δ.Παπαδόπουλος, Διδάσκων: Νικόλαος Γλυνός, Πανεπιστήμιο Ιωαννίνων, Τμήμα Πληροφορικής,
Ιωάννινα 1995

12. «Εφαρμογή ασαφών συνόλων στην εξαγωγή κανόνων προς αξιολόγηση επιχειρήσεων που τηρούν
λογιστικά βιβλία Α και Β κατηγορίας, με στόχο την αναγνώριση της επικινδυνότητας για ενδεχόμενη
δανειοδότηση από κάποιο φορέα», Δημήτρης Χάτας , Χανιά 2000, Πολυτεχνείο Κρήτης , Τμήμα
Μηχανικών Παραγωγής και Διοίκησης .

129
130
13. «Συστήματα Αξιολόγησης Πιστοληπτικής Ικανότητας». Οικονομική Ενημέρωση , Τεύχος 7, Ιούλιος –
Σεπτέμβριος 1997
14. «Τεχνητή Νοημοσύνη», Βλαχάβας εκδόσεις Γαρταγάνης Αριστοτέλειο Πανεπιστήμιο , 2002
15. «Τεχνητή Νοημοσύνη – Εφαρμογές», Τόμος Α’, Β’, Γ’, Ε.Κεραυνού, Π. Αργυράκης, Σ. Λυκοθανάσης
αντίστοιχα. ΕΑΠ 2001

130

You might also like