Professional Documents
Culture Documents
Ε. Μαρκάκης
Αναπλ. Καθηγητής
Αντικείμενο μαθήματος
• Θεωρία Αποφάσεων: Προβλήματα απόφασης υπό συνθήκες
αβεβαιότητας
– Στόχος: βελτιστοποίηση ωφέλειας για 1 αποφασίζοντα (decision-
maker)
• Θεωρία Παιγνίων: Αλληλεπίδραση μεταξύ πολλών
οντοτήτων (παικτών)
– Στόχος: Κατανόηση των αλληλεπιδράσεων και πρόβλεψη της
συμπεριφοράς των παικτών
Χρονοδιάγραμμα:
• Θεωρία Αποφάσεων: 8 διαλέξεις (4 εβδομάδες)
• Θεωρία Παιγνίων: 16-17 διαλέξεις (8-9 εβδομάδες)
2
Περιεχόμενα – Θεματικές ενότητες
• Βασικά προβλήματα απόφασης
– Δέντρα αποφάσεων
– Ανάλυση με βάση το αναμενόμενο κέρδος
– Συναρτήσεις ωφέλειας, παραδείγματα
– Ανάλυση με βάση την αναμενόμενη ωφέλεια
• Προβλήματα επιλογής χαρτοφυλακίου
– Μοντελοποίηση προβλημάτων επιλογής επενδύσεων
– Εύρεση βέλτιστου χαρτοφυλακίου μέσω μεγιστοποίησης
αναμενόμενης ωφέλειας
4
Περιεχόμενα – Θεματικές ενότητες
• Δημοπρασίες
– Μοντελοποίηση δημοπρασιών ως παίγνια
– Μηχανισμοί 1ης και 2ης τιμής
– Φιλαλήθεις μηχανισμοί
Βιβλιογραφία
Κύρια συγγράμματα
• Ε. Μαγείρου, “Παίγνια και Αποφάσεις: Μια εισαγωγική προσέγγιση”,
Εκδόσεις Κριτική (2η έκδοση)
– Καλύπτει πλήρως την ύλη της θεωρίας αποφάσεων και μέρος της
ύλης στη θεωρία παιγνίων
2
Προβλήματα απόφασης
• Τι είναι ένα πρόβλημα απόφασης;
• Οποιαδήποτε κατάσταση όπου μια οντότητα
καλείται να πάρει μια απόφαση
– Η απόφαση θα έχει συνέπειες που αφορούν κάποιο
πιθανό κέρδος ή ζημιά για την οντότητα
– Η οντότητα είναι «rational»: Με βάση τις προτιμήσεις της,
επιθυμεί να διαλέξει την έκβαση που μεγιστοποιεί την
ωφέλειά της ή ελαχιστοποιεί την ζημιά
Προβλήματα απόφασης
Παράδειγμα 1: Εισαγωγή νέου προϊόντος στην αγορά
• Έστω ότι ένας πάροχος κινητής τηλεφωνίας θέλει να εισάγει ένα νέο
πρόγραμμα ομιλίας/μηνυμάτων
• Ή μια αλυσίδα εστιατορίων θέλει να εισάγει ένα νέο πιάτο στο μενού της
• Βλέποντας τα υπάρχοντα στατιστικά στοιχεία (π.χ. για τον χρόνο ομιλίας
από τους χρήστες κινητών τηλεφώνων ή για τις διατροφικές συνήθειες),
υπάρχουν χονδρικά 3 βασικές επιλογές για την εταιρεία
– Να απορρίψει την εισαγωγή του νέου προϊόντος
– Να δεχτεί να βγει κατευθείαν στην αγορά
– Να κάνει μια έρευνα αγοράς με σκοπό τη συλλογή παραπάνω πληροφοριών
• Έρευνα αγοράς:
– Πιθανότατα θα μειώσει την αβεβαιότητα που υπάρχει
– Μειονεκτήματα: Κόστος (πρέπει να δοθεί δωρεάν το προϊόν σε πελάτες,
πληρωμή υπαλλήλων για την διοργάνωση της έρευνας, κτλ), χρονική
καθυστέρηση για την εισαγωγή του προϊόντος (κρίσιμο αν υπάρχει
ανταγωνιστικό προϊόν)
4
Προβλήματα απόφασης
Παράδειγμα 1: Εισαγωγή νέου προϊόντος στην αγορά
Προβλήματα απόφασης
Παράδειγμα 2: Αποφάσεις για έργα υποδομής
• Έστω ότι μια μεγάλη τεχνική εταιρεία θέλει να κάνει
γεωτρήσεις σε συγκεκριμένη περιοχή
• Συμβουλευόμενοι τα υπάρχοντα στοιχεία για το υπέδαφος,
υπάρχουν και πάλι 3 βασικές επιλογές
– Να απορριφθεί η γεώτρηση
– Να γίνει η γεώτρηση
– Να γίνει περαιτέρω έρευνα για την μορφολογία του εδάφους (μέσω
σεισμικών πειραμάτων) και την πιθανότητα ύπαρξης φυσικού αερίου
6
Προβλήματα απόφασης
Παράδειγμα 3: Επιλογή χαρτοφυλακίου (επενδύσεων)
• Μετά από μελέτη στατιστικών και υποδείξεις ειδικών, ένας επενδυτής
σκέφτεται να αγοράσει μετοχές μιας συγκεκριμένης εταιρείας και/ή
ομόλογα συγκεκριμένης (μη χρεωκοπημένης) χώρας
• Απόδοση ομολόγων: σταθερή 7%
• Απόδοση μετοχής: 2% με πιθ/τα 0.4 και 10% με πιθ/τα 0.6
• Πώς πρέπει να γίνει η επένδυση?
• Το πλήθος των επιλογών του αποφασίζοντα είναι άπειρο
– Επειδή πρέπει να αποφασίσουμε ποιο ποσοστό του κεφαλαίου θα
επενδυθεί στις μετοχές και ποιο στα ομόλογα
Προβλήματα απόφασης
Κοινά χαρακτηριστικά στα προβλήματα της θεωρίας
αποφάσεων
1. Υπάρχει μια οντότητα (αποφασίζων, decision-maker) που καλείται να
πάρει μια απόφαση
2. Η απόφαση λαμβάνεται υπό συνθήκες αβεβαιότητας
3. Προτιμήσεις του αποφασίζοντα: δοσμένες
– Πρέπει να γνωρίζουμε την ωφέλεια που αποκομίζει από κάθε πιθανή
έκβαση (θα δούμε πώς στη συνέχεια)
– η βελτιστοποίηση πρέπει να γίνει ως προς τις προτιμήσεις
8
Προβλήματα απόφασης
Στόχοι
Συνθήκες αβεβαιότητας
Πώς μοντελοποιούμε την αβεβαιότητα;
• Με χρήση θεωρίας πιθανοτήτων (δεν ξέρουμε άλλη
εναλλακτική!)
• Στα δεδομένα των προβλημάτων που θα δούμε:
– Είτε θα δίνονται οι πιθανότητες να συμβούν κάποια σχετικά
ενδεχόμενα
– Είτε θα δίνονται πληροφορίες για να υπολογίσουμε τις πιθανότητες
που θέλουμε
• Αρκετές φορές θα χρειαστεί να υπολογίσουμε την μέση τιμή
τυχαίων μεταβλητών
10
Συνθήκες αβεβαιότητας
Διακριτές τυχαίες μεταβλητές
• Έστω μια τ.μ. Χ όπου
• Παραδείγματα
11
Συνθήκες αβεβαιότητας
Συνεχείς τυχαίες μεταβλητές
• Έστω μια τυχαία μεταβλητή που κατανέμεται στο διάστημα
[a, b]
• Τότε θα χρειαστεί να μας δοθεί ή να υπολογίσουμε την
συνάρτηση πυκνότητας πιθανότητας
• Αν f(x) = σ.π.π. της Χ, τότε
12
Ένα απλό πρόβλημα απόφασης
Αγορές λαχείων/λαχνών
• Έστω ένα λαχείο που έχει κόστος 5 ευρώ
• Το κέρδος για τον νικητή είναι 100,000 ευρώ
• Έχουν εκδοθεί 106 διαφορετικοί αριθμοί, δηλαδή η
πιθανότητα να κερδίσει κάποιος είναι 10-6
• Θα το αγοράζατε?
13
• Παρατηρήσεις
– Αρκετός κόσμος είναι πρόθυμος να αγοράζει λαχεία παρά το γεγονός
ότι το μέσο κέρδος είναι αρνητικό (παίρνουν ρίσκο)
– Οι αγορές λαχείων εκμεταλλεύονται την ριψοκίνδυνη συμπεριφορά
που παρατηρείται όταν το κόστος αγοράς είναι χαμηλό!
14
Μοντελοποίηση προβλημάτων απόφασης
Αγορές λαχείων/λαχνών
• Πρόβλημα απόφασης: πρέπει να αγοράσω το λαχείο ή όχι;
• Θα μετατρέψουμε το πρόβλημα σε μια πιο τυποποιημένη
μορφή
• Στόχος: Αναπαράσταση του προβλήματος απόφασης με
τρόπο που να φαίνεται η χρονική αλληλουχία των ενεργειών
που μπορεί να συμβούν
• Πώς το κάνουμε αυτό; Με χρήση δέντρων απόφασης
15
Δέντρα απόφασης
• Δέντρα που δείχνουν την χρονική εξέλιξη όλης της
διαδικασίας
• 3 είδη κόμβων
– Κόμβοι απόφασης: κόμβοι όπου ο αποφασίζων πρέπει να κάνει μια
επιλογή
– Κόμβοι τύχης: κόμβοι όπου συμβαίνει ένα πείραμα τύχης
– Κόμβοι-φύλλα: σημεία όπου τερματίζεται η διαδικασία
• Κλήρωση του ΟΠΑΠ από την οπτική του αποφασίζοντα:
10-6 1-10-6
105 0
16
Δέντρα απόφασης
• Μπορούμε να μοντελοποιήσουμε ολόκληρο το πρόβλημα της
αγοράς λαχείου σαν δέντρο απόφασης:
• Συμβάσεις: α1: δεν αγοράζω
– Κόμβοι απόφασης: ☐ α2: αγοράζω
– Κόμβοι τύχης: ○
– Κόστος αγοράς: πάνω στην αντίστοιχη πλευρά
α1 α2
-5
0
10-6 1-10-6
105 0
17
18
Ένα βασικό πρόβλημα απόφασης
• Θα αναλύσουμε ένα μεγάλο εκπαιδευτικό παράδειγμα που εμπεριέχει
όλα τα βασικά ζητήματα στην ανάλυση προβλημάτων απόφασης
• Θεωρήστε ότι βρίσκεστε σε μια αποθήκη που περιέχει 1000 σφραγισμένα
κουτιά με μπίλιες
– Τα 800 έχουν την ετικέτα θ1
– Τα 200 έχουν την ετικέτα θ2
• Περιεχόμενο κουτιών:
– θ1: 4 κόκκινες μπίλιες και 6 μαύρες μπίλιες
– θ2: 9 κόκκινες μπίλιες και 1 μαύρη μπίλια
• Ένα κουτί επιλέγεται τυχαία και του αφαιρείται η ετικέτα
• Ο αποφασίζων καλείται να μαντέψει τι ετικέτα είχε το κουτί
• Επιλογές
– α1: μαντεύω ότι είναι θ1
– α2: μαντεύω ότι είναι θ2
– α3: δεν συμμετέχω
19
20
Ανάλυση χωρίς δειγματοληψία
Σχεδιάζουμε πρώτα το δέντρο απόφασης
α1 α3
α2
0
θ1 θ2 θ1 θ2
21
Κριτήρια απόφασης
Το κριτήριο Minimax (ή Maximin ή Murphy’s law)
• Εκφράζει πολύ συντηρητικές συμπεριφορές
• Έστω Κ(αi, θj) = κέρδος αν διαλέξω αi και η ετικέτα ήταν θj
– Όπου για το παράδειγμά μας, i ∈ {1, 2, 3} και j ∈ {1, 2}
• Οι πιο συντηρητικοί αποφασίζοντες σκέφτονται ότι θα συμβεί
πάντα το χειρότερο δυνατό σενάριο
• Δηλαδή σε μια πιθανή επιλογή αi σκέφτονται ότι θα κερδίσουν την
ποσότητα minj Κ(αi, θj)
• Στο παράδειγμά μας
– Αν διαλέξω α1: minj Κ(α1, θj) = -2000
– Αν διαλέξω α2: minj Κ(α2, θj) = -500
– Αν διαλέξω α3: minj Κ(α3, θj) = 0
• Άρα με βάση το κριτήριο Minimax, πρέπει να επιλέξουμε το α3
22
Κριτήρια απόφασης
Το κριτήριο Minmax Regret (ή του διαφύγοντος κέρδους)
• Εκφράζει πολύ ριψοκίνδυνες συμπεριφορές
• Στηρίζεται στην αξιολόγηση της μετάνοιας (regret) μιας επιλογής
• Έστω ότι διαλέγω αi και η ετικέτα ήταν θj
• R(αi, θj) = μετάνοια που επέλεξα αi = πόσο παραπάνω θα έπαιρνα
αν διάλεγα κάτι άλλο
R(αi, θj) = maxt {K(αt, θj)} - K(αi, θj)
• Μέγιστο πιθανό regret της επιλογής αi: maxj R(αi, θj)
• Oι πιο ριψοκίνδυνοι αποφασίζοντες δεν θέλουν να δουν εκ των
υστέρων ότι υπήρχε καλύτερη επιλογή (δλδ θέλουν να
ελαχιστοποιήσουν το μέγιστο regret)
• Συνεπώς, θέλουν να επιλέξουν μια απόφαση σύμφωνα με τον
τύπο
mini maxj R(αi, θj)
23
Κριτήρια απόφασης
Το κριτήριο Minmax Regret (ή του διαφύγοντος κέρδους)
Στο παράδειγμά μας
• Αν διαλέξω α1:
– R(α1, θ1) = 0, R(α1, θ2) = 10,000 – (-2000) = 12,000
– Μέγιστο regret του α1 = 12,000
• Αν διαλέξω α2:
– R(α2, θ1) = 4000 – (-500) = 4500, R(α2, θ2) = 0
– Μέγιστο regret του α2 = 4500
• Αν διαλέξω α3:
– R(α3, θ1) = 4000, R(α3, θ2) = 10,000
– Μέγιστο regret του α3 = 10,000
• Άρα με βάση το κριτήριο Minmax regret, επιλέγουμε το α2
24
Κριτήρια απόφασης
• Τα κριτήρια που είδαμε μέχρι τώρα εκφράζουν τα 2 άκρα του
φάσματος προτιμήσεων
• Δεν λαμβάνουν υπόψη την κατανομή πιθανότητας για τις
ετικέτες
• Τι βρίσκεται στη μέση του φάσματος?
• Η βελτιστοποίηση του μέσου κέρδους
25
Κριτήρια απόφασης
Το κριτήριο του Bayes (ή μεγιστοποίησης της αναμενόμενης
αξίας)
• Επιλέγω την επιλογή που μεγιστοποιεί την μέση χρηματική
αξία
• Πότε έχει νόημα το κριτήριο του Bayes;
– Για αποφασίζοντες που δεν έχουν διάθεση ούτε για ρίσκο ούτε για
συντηρητική συμπεριφορά
– Για σενάρια όπου η ίδια διαδικασία επαναλαμβάνεται πολλές φορές
– Όταν ένα πείραμα επαναλαμβάνεται ισχύει ο νόμος των μεγάλων
αριθμών
– Έστω Χ1,…, ΧΝ το κέρδος που παρατηρώ από Ν εκτελέσεις της ίδιας
διαδικασίας, διαλέγοντας πάντα την ίδια επιλογή (π.χ. α1)
– Αν μ = Ε[Χi], τότε το μέσο εμπειρικό κέρδος (Σi Χi/N) θα είναι πολύ
κοντά στο μ με πολύ μεγάλη πιθανότητα
26
Κριτήρια απόφασης
Το κριτήριο του Bayes (ή μεγιστοποίησης της αναμενόμενης
αξίας)
Στο παράδειγμά μας
• Αν διαλέξω α1:
– Εθ [Κ(α1, θ)] = P(θ1) Κ(α1, θ1) + P(θ2) Κ(α1, θ2) = 0.8 ⋅ 4000 + 0.2 ⋅ (-2000)
= 2800
• Αν διαλέξω α2:
– Εθ [Κ(α2, θ)] = P(θ1) Κ(α2, θ1) + P(θ2) Κ(α2, θ2) = 0.8 ⋅ (-500) + 0.2 ⋅ 10,000
= 1600
• Αν διαλέξω α3:
– Εθ [Κ(α3, θ)] = 0
• Άρα επιλέγουμε το α1
27
28
Προς τα πίσω επαγωγή
Επίλυση με βάση το κριτήριο του Bayes
• Ξεκινάω από τα φύλλα του δέντρου και ανεβαίνω μέχρι να
φτάσω στη ρίζα
• Όταν βλέπω κόμβο τύχης:
– Υπολογίζω (αν δεν την γνωρίζω ήδη) την πιθανότητα κάθε πλευράς
που ξεκινάει από τον κόμβο τύχης
– Υπολογίζω την μέση χρηματική αξία για το υποδέντρο που ξεκινά από
τον κόμβο αυτό
• Όταν βλέπω κόμβο απόφασης:
– Επιλέγω την απόφαση που δίνει την μεγαλύτερη χρηματική αξία
29
Δειγματοληψία 1 μπίλιας
Σχετικό (υπο)δέντρο απόφασης
εA α3
-900 ε1
ε2 ε0
-800 0
-1200
2800
Μ Κ
α1 α2 α1 α2
θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2
Υπολογισμός πιθανοτήτων
Πρέπει να υπολογίσουμε τις πιθανότητες
– P(M), P(K)
– P[θ1\Μ], P[θ1\Κ], P[θ2\Μ], P[θ2\Κ]
– Οι δεσμευμένες πιθανότητες εκφράζουν την αναθεώρηση που
κάνουμε για την αβεβαιότητα, με βάση την πληροφορία που
βλέπουμε
Θεώρημα 1: Για 2 τυχαία ενδεχόμενα Α, Β, με P(A)⧧0,
(i) P(B) = P(B∩A) + P(B∩Ā)
(ii) P(B\A) = P(A∩B)/P(A)
32
Υπολογισμός πιθανοτήτων
• Υπολογίζουμε πρώτα τις P(M), P(K)
• Χρησιμοποιώντας τις ιδιότητες (i), (ii):
– P(M) = P(M∩θ1) + P(Μ∩θ2) = P(Μ\θ1)P(θ1) + P(Μ\θ2)P(θ2) = 0.6 ⋅ 0.8 +
0.1 ⋅ 0.2 = 0.5
– P(K) = 1 – P(M) = 0.5
• Συνεχίζουμε με τις δεσμευμένες πιθανότητες
– P(θ1\Μ) = P(M∩θ1)/P(M) = P(Μ\θ1)P(θ1)/P(M) = (0.6 ⋅ 0.8)/0.5 = 0.96
– Άρα P(θ2\Μ) = 1 - P(θ1\Μ) = 0.04
– P(θ1\K) = P(K∩θ1)/P(K) = P(K\θ1)P(θ1)/P(K) = (0.4 ⋅ 0.8)/0.5 = 0.64
– Άρα P(θ2\K) = 1 - P(θ1\K) = 0.36
• Παρατηρήσεις
– Όταν βλέπουμε μαύρη μπίλια, γινόμαστε ακόμα πιο σίγουροι ότι το
κουτί είναι τύπου θ1, ενώ με κόκκινη αυξάνεται η αβεβαιότητα
33
Γενικεύσεις
• Aν είχαμε 3 ή περισσότερα ενδεχόμενα για τα κουτιά (θ1, θ2, θ3,…);
• Πρέπει να χρησιμοποιήσουμε τις γνωστές γενικεύσεις από την θεωρία
πιθ/των
• Έστω δειγματικός χώρος Ω και B1, B2,…,Bn ξένα, μη κενά ενδεχόμενα που
καλύπτουν όλο τον χώρο:
– Β1 ∪ Β2 ∪ … ∪ Βn = Ω, και P(Bi) > 0 για κάθε i
– Bi ∩ Bj = ∅, για κάθε ζεύγος i, j
Θεώρημα 2 (Θεώρημα ολικής πιθανότητας): Για κάθε ενδεχόμενο Α, ισχύει ότι
$ $
𝑃 𝐴 = % 𝑃 𝐴 ∩ 𝐵! = % 𝑃 𝐴\𝐵! 𝑃(𝐵! )
!"# !"#
Θεώρημα 3 (Θεώρημα του Bayes): Για κάθε ενδεχόμενο Α με P(A) > 0, και για
κάθε k ∈ {1, 2, …, n}, ισχύει ότι
𝑃 𝐴\𝐵% 𝑃(𝐵% ) 𝑃 𝐴\𝐵% 𝑃(𝐵% )
𝑃 𝐵% \A = = $
𝑃(𝐴) ∑!"# 𝑃 𝐴\𝐵! 𝑃(𝐵! )
34
Δειγματοληψία 1 μπίλιας
• Πλέον μπορούμε να ολοκληρώσουμε την ανάλυση
• Στον κόμβο τύχης (ε1, Μ, α1):
– Μέση χρηματική αξία: P(θ1\Μ) ⋅ 4000 + P(θ2\Μ) ⋅ (-2000) = 3760
• Στον κόμβο τύχης (ε1, Μ, α2):
– Μέση χρηματική αξία: P(θ1\Μ) ⋅ (-500) + P(θ2\Μ) ⋅ (10,000) = -80
• Στον κόμβο απόφασης (ε1, Μ):
– Επιλέγουμε το α1, με κέρδος 3760
• Ομοίως αναλύουμε το υποδέντρο για το κόκκινο δείγμα
• Στον κόμβο απόφασης (ε1, Κ):
– Επιλέγουμε το α2, με κέρδος 3280
35
Δειγματοληψία 1 μπίλιας
• Στον κόμβο τύχης ε1:
– Μέση χρηματική αξία: P(Μ) ⋅ 3760 + P(Κ) ⋅ 3280 = 3520
• Δεν πρέπει να ξεχάσουμε όμως και το κόστος
• Αν επιλέξουμε ε1:
– Τελικό μέσο κέρδος: 3520 – 800 = 2720
• Μεταξύ ε0 και ε1 μας συμφέρει περισσότερο η ε0
– Εξαιτίας του «ακριβού» κόστους για το δείγμα 1 μπίλιας
36
Δειγματοληψία 1 μπίλιας
Ενημέρωση δέντρου
εA α3
-900 ε1
ε2 ε0
-800 0
-1200
2800
Μ Κ
α1 α2 α1 α2
θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2
Δειγματοληψία με 2 μπίλιες
Σχετικό (υπο)δέντρο απόφασης
εA α3
-900 ε2 ε1
ε0 0
2720
-1200 -800
2800
3520
ΜΜ ΚΜ ή ΚΚ
MK
α1 α2 α1 α2 α1 α2
θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2
4000 -2000 -500 10,000 4000 -2000 -500 10,000 4000 -2000 -500 10,000
38
Υπολογισμός πιθανοτήτων
• Πρέπει να υπολογίσουμε τις πιθανότητες
– P(MM), P(KK), P(KM∪MK)
– P[θ1\ΜM], P[θ2\MM]
– P[θ1\KK], P[θ2\ΚK]
– P[θ1\KM∪MK], P[θ2\KM∪MK]
• Χρησιμοποιούμε ακριβώς την ίδια μεθοδολογία
39
Υπολογισμός πιθανοτήτων
• Ξεκινάμε με τις μη δεσμευμένες πιθανότητες
• Χρησιμοποιώντας τα θεωρήματα που είδαμε:
– P(MΜ) = P(MΜ∩θ1) + P(ΜΜ∩θ2) = P(ΜΜ\θ1)P(θ1) + P(ΜΜ\θ2)P(θ2)
= (6/10) ⋅ (5/9) ⋅ 0.8 + 0 (επειδή P(ΜΜ\θ2)=0)
= 4/15
– P(ΚK) = P(ΚΚ\θ1)P(θ1) + P(ΚΚ\θ2)P(θ2)
= (4/10) ⋅ (3/9) ⋅ 0.8 + (9/10) ⋅ (8/9) ⋅ 0.2 = 4/15
– P(KM∪MK) = 1 – P(MM) – P(KK) = 7/15
40
Υπολογισμός πιθανοτήτων
• Συνεχίζουμε με τις δεσμευμένες πιθανότητες
– P(θ1\ΜΜ) = 1 (αν δω 2 μαύρες μπίλιες γνωρίζω την αλήθεια)
– Άρα P(θ2\ΜΜ) = 0
– P(θ1\KΚ) = P(KΚ∩θ1)/P(KΚ) = [P(ΚK\θ1) ⋅ P(θ1)]/P(KΚ)
= [(4/10) ⋅ (3/9) ⋅ 0.8]/(4/15) = 2/5
– Άρα P(θ2\KK) = 1 - P(θ1\KK) = 3/5
• Βλέποντας 2 κόκκινες, ενισχύεται η πεποίθησή μας ότι το κουτί είναι θ2
– P(θ1\KM∪MK) = [P(KM∪MK\θ1) ⋅ P(θ1)]/P(KM∪MK)
= [(1 - P(MM\θ1) - P(KK\θ1)) ⋅ P(θ1)]/P(KM∪MK)
= [(1 – (6/10)⋅(5/9) - (4/10)⋅(3/9)) ⋅ 0.8]/(7/15) = 32/35
– Άρα P(θ1\KM∪MK) = 3/35
• Βλέποντας έστω και 1 μαύρη μας αυξάνει την πεποίθηση ότι το κουτί είναι θ1
41
Δειγματοληψία με 2 μπίλιες
Ανάλυση του υποδέντρου
• Στον κόμβο απόφασης (ε2, ΜΜ):
– Εδώ γνωρίζω με πιθ/τα 1 ότι το κουτί είναι τύπου θ1, άρα επιλέγω α1
– Μέση χρηματική αξία: P(θ1\ΜΜ) ⋅ 4000 + 0 = 4000
• Στον κόμβο τύχης (ε2, ΚΚ, α1):
– Μέση χρηματική αξία: P(θ1\ΚΚ) ⋅ (4000) + P(θ2\ΚΚ) ⋅ (-2000) = 400
• Στον κόμβο τύχης (ε2, ΚΚ, α2):
– Μέση χρηματική αξία: P(θ1\ΚΚ) ⋅ (-500) + P(θ2\ΚΚ) ⋅ (10,000) = 5800
• Στον κόμβο απόφασης (ε2, ΚΚ):
– Επιλέγουμε το α2, με κέρδος 5800
42
Δειγματοληψία με 2 μπίλιες
Ανάλυση του υποδέντρου
• Στον κόμβο τύχης (ε2, ΚΜ ή ΜΚ, α1):
– Μέση χρηματική αξία: P(θ1\KM∪MK) ⋅ (4000) + P(θ2\KM∪MK) ⋅ (-2000)
= 32/35(4000) + 3/35(-2000) = 3486
• Στον κόμβο τύχης (ε2, ΚΜ ή ΜΚ, α2):
– Μέση χρηματική αξία: P(θ1\KM∪MK) ⋅ (-500) + P(θ2\KM∪MK) ⋅ (10,000)
= 400
• Στον κόμβο απόφασης (ε2, ΚΜ ή ΜΚ):
– Επιλέγουμε το α1, με κέρδος 3486
43
Δειγματοληψία με 2 μπίλιες
• Στον κόμβο τύχης ε2:
– Μέση χρηματική αξία: P(ΜΜ) ⋅ 4000 + P(ΚΚ) ⋅ 5800 + P(KM∪MK) ⋅
3486 = 4240
• Αφαιρούμε μετέπειτα και το κόστος του ε2
• Αν επιλέξουμε ε2:
– Τελικό μέσο κέρδος: 4240 – 1200 = 3040
• Μεταξύ ε0, ε1 και ε2 μας συμφέρει περισσότερο η ε2
– Εξαιτίας του σχετικά πιο «φτηνού» κόστους για το δείγμα με 2 μπίλιες
44
Δειγματοληψία με 2 μπίλιες
Ενημέρωση δέντρου
εA α3
-900 ε2 ε1
ε0 0
2720
-1200 -800
2800
3520
ΜΜ ΚΜ ή ΚΚ
MK
α1 α2 α1 α2 α1 α2
θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2
4000 -2000 -500 10,000 4000 -2000 -500 10,000 4000 -2000 -500 10,000
45
Ακολουθιακή δειγματοληψία
Σχετικό (υπο)δέντρο απόφασης
α3
ε0
εΑ -900 ε2 ε1
Μ Κ
Συνεχ. με Stop
Συνεχ. Stop Συνεχ. με Συνεχ.
επανατ.
χωρίς -450 επανατ. χωρίς -450 Ίδιο με
-450 Ίδιο με (ε1, Κ)
-450
(ε1, Μ)
. . . . . .
Μ Κ
Κ
Μ
α1 α2 α1 α2
Ίδιο με Ίδιο με
(ε2, ΜΜ) (ε2, ΚΜ∪MK)
θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2
46
4000 -2000 -500 10,000 4000 -2000 -500 10,000
Υπολογισμός πιθανοτήτων
• Θα αναλύσουμε το υποδέντρο που ξεκινά από τον κόμβο
(εΑ, Μ)
• Πρέπει να υπολογίσουμε τις πιθανότητες
– P(1η μπίλια M)
– Με επανατοποθέτηση:
• P(2η μπίλια M\1η μπίλια Μ)
• P(2η μπίλια Κ\1η μπίλια Μ)
• P[θ1\ΜM], P[θ2\MM]
• P[θ1\ΜK], P[θ2\ΜK]
– Τα ίδια χωρίς επανατοποθέτηση
• Οι ακριβώς συμμετρικοί υπολογισμοί πρέπει να γίνουν για
το υποδέντρο που ξεκινά από το (εΑ, Κ)
47
Υπολογισμός πιθανοτήτων
• P(1η μπίλια M) = P(M) = ½ (ισχύει ό,τι είδαμε στο ε1 για το 1ο δείγμα)
• Χωρίς επανατοποθέτηση:
– P(2η μπίλια Μ\1η μπίλια Μ) = P(MΜ)/P(Μ)
= 2 ⋅ [P(ΜΜ\θ1)P(θ1) + P(ΜΜ\θ2)P(θ2)] = 2 ⋅ (6/10) ⋅ (5/9) ⋅ 0.8 = 8/15
– Άρα P(2η μπίλια Κ\1η μπίλια Μ) = 7/15
48
Ακολουθιακή δειγματοληψία
Ανάλυση του υποδέντρου
Με επανατοποθέτηση
• Στον κόμβο τύχης (εΑ, Μ, Συνεχ. με επανατ., Μ, α1):
– Μέση χρηματική αξία: 144/145 ⋅ (4000) + 1/145 ⋅ (-2000) = 3959
• Στον κόμβο τύχης (εΑ, Μ, Συνεχ. με επανατ., Μ, α2):
– Η μέση χρηματική αξία είναι αρνητική
• Στον κόμβο απόφασης (εΑ, Μ, Συνεχ. με επανατ., Μ):
– Επιλέγουμε το α1, με κέρδος 3959
Ακολουθιακή δειγματοληψία
Ανάλυση του υποδέντρου
Με επανατοποθέτηση
• Στον κόμβο τύχης (εΑ, Μ, Συνεχ. με επανατ., Κ, α1):
– Μέση χρηματική αξία: 32/35 ⋅ (4000) + 3/35 ⋅ (-2000) = 3486
• Στον κόμβο τύχης (εΑ, Μ, Συνεχ. με επανατ., Κ, α2):
– Μέση χρηματική αξία: 32/35 ⋅ (-500) + 3/35 ⋅ (10,000) = 400
• Στον κόμβο απόφασης (εΑ, Μ, Συνεχ. με επανατ., Κ):
– Επιλέγουμε το α1, με κέρδος 3486
• Τελικά, στον κόμβο τύχης (εΑ, Μ, Συνεχ. με επανατ.):
– Ότι κι αν είναι το 2ο δείγμα, θα επιλέξω πάντα α1
– Κέρδος επανατοποθέτησης:
P(2η μπίλια Μ\1η μπίλια Μ) ⋅ 3959 + P(2η μπίλια Κ\1η μπίλια Μ) ⋅ 3486
= 3759
50
Ακολουθιακή δειγματοληψία
Ανάλυση του υποδέντρου
Χωρίς επανατοποθέτηση
• Στον κόμβο απόφασης (εΑ, Μ, Συνεχ. χωρίς επανατ., Μ):
– Ίδιο με τον κόμβο (ε2, ΜΜ), μέση χρηματική αξία: 4000
• Στον κόμβο απόφασης (εΑ, Μ, Συνεχ. χωρίς επανατ., Κ):
– Ίδιο με τον κόμβο (ε2, ΚΜ ή ΜΚ), μέση χρηματική αξία: 3486
• Στον κόμβο τύχης (εΑ, Μ, Συνεχ. χωρίς επανατ.):
– Ότι κι αν είναι το 2ο δείγμα, θα επιλέξω πάντα α1
– Κέρδος μη επανατοποθέτησης:
P(2η μπίλια Μ\1η μπίλια Μ) ⋅ 4000 + P(2η μπίλια Κ\1η μπίλια Μ) ⋅ 3486
= 3760
51
Ακολουθιακή δειγματοληψία
Τελικά στον κόμβο (εΑ, Μ):
α3
• Επιλέγω να μην πάρω 2ο δείγμα
ε0
εΑ -900
ε2 ε1
Μ Κ
Συνεχ. με Stop
Συνεχ. Stop Συνεχ. με Συνεχ.
επανατ.
χωρίς επανατ. χωρίς -450 Ίδιο με
-450 Ίδιο με (ε1, Κ)
-450
-450 (ε1, Μ)
3759 3760 3760 . . . . . .
Μ Κ Μ Κ
. . . . . . . . . . . .
• Μέση χρηματική αξία στον κόμβο απόφασης (εΑ, Μ): 3760
• (Homework) Αναλύστε το 2ο υποδέντρο του εΑ και επιβεβαιώστε ότι η
μέση αξία στον κόμβο (εΑ, Κ) = 4270
52
Ακολουθιακή δειγματοληψία
• Στον κόμβο τύχης εA:
– Μέση χρηματική αξία: P(Μ) ⋅ 3760 + P(Κ) ⋅ 4270 = 4015
• Αφαιρούμε μετέπειτα και το κόστος του εA
– Αφαιρούμε μόνο τα 900 για το 1ο δείγμα
– Το κόστος του 2ου δείγματος έχει ήδη αφαιρεθεί όπου έχει
χρειαστεί στην ανάλυση που έγινε
• Αν επιλέξουμε εΑ:
– Τελικό μέσο κέρδος: 4015 – 900 = 3115
• Μεταξύ όλων των επιλογών, μας συμφέρει
περισσότερο η εΑ
53
Τελικά συμπεράσματα
• Προτεινόμενη στρατηγική με βάση το κριτήριο του Bayes
• Επιλέγουμε ακολουθιακή δειγματοληψία (εΑ) και
πληρώνουμε 900 ευρώ για το 1ο δείγμα
– Αν το 1ο δείγμα είναι Μ, σταματάμε και μαντεύουμε α1
– Αν το 1ο δείγμα είναι Κ, ζητάμε και 2ο δείγμα, χωρίς
επανατοποθέτηση, με κόστος 450 ευρώ
• Αν το 2ο δείγμα είναι Μ, μαντεύουμε α1
• Αν το 2ο δείγμα είναι Κ, μαντεύουμε α2
• Τελική μέση χρηματική αξία: 3115
54
Ακολουθιακή δειγματοληψία
Ενημέρωση δέντρου
α3
ε0
εΑ -900 ε2 ε1
Μ Κ
Συνεχ. με Stop
Συνεχ. Stop Συνεχ. με Συνεχ.
επανατ.
χωρίς -450 επανατ. χωρίς -450 Ίδιο με
-450 Ίδιο με (ε1, Κ)
-450
(ε1, Μ)
. . . . . .
Μ Κ
Κ
Μ
α1 α2 α1 α2
Ίδιο με Ίδιο με
(ε2, ΜΜ) (ε2, ΚΜ∪MK)
θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2
55
4000 -2000 -500 10,000 4000 -2000 -500 10,000
Επανατοποθέτηση ή όχι?
• Ίσως φαίνεται να συμφέρει πάντα η μη επανατοποθέτηση
– Γιατί με την επανατοποθέτηση επαναφέρουμε το σύστημα στην
αρχική κατάσταση
• Κάποιες φορές όμως χρειάζεται επανατοποθέτηση
• Παράδειγμα: έστω 2 κουτιά με τις εξής συνθέσεις
– θ1: 2Κ, 1Μ
– θ2: 101Κ, 100Μ
• Έστω ότι το 1ο δείγμα ήταν Κ
• Τότε χωρίς επανατοποθέτηση, τα 2 κουτιά δεν μπορούν να
μας δώσουν διαφορετική πληροφορία από ένα 2ο δείγμα!
56
Μέση αξία πληροφόρησης
57
58
Αξία τέλειας πληροφόρησης
• To EVPI μας δίνει ένα άνω όριο για το πόσο πρέπει να
κοστίζει οποιοδήποτε άλλο πείραμα
• Στο δικό μας παράδειγμα:
– EVPI = 2400
– Άρα ένα πείραμα που εξαφανίζει πάντα την αβεβαιότητα δεν
πρέπει να κοστίζει παραπάνω από 2400
– Συνεπώς, και τα πειράματα ε1, ε2, εΑ που δεν προσφέρουν πλήρη
βεβαιότητα, δεν θα έπρεπε να κοστίζουν πάνω από 2400
• Ο υπολογισμός του EVPI μπορεί να βοηθήσει στην αποκοπή
κάποιων υποδέντρων στην ανάλυση (αν δούμε ότι έχουν
μεγάλο κόστος)
59
Αξία πειραμάτων
• Με τον ίδιο τρόπο μπορούμε να υπολογίσουμε τη μέση αξία
ενός πειράματος
Μέση αξία πειράματος =
Μέσο κέρδος αν γίνει το πείραμα – μέσο κέρδος χωρίς
πειράματα
• Στο παράδειγμά μας:
– Μέση αξία του ε1 = μέσο κέρδος στον κόμβο ε1 - 2800 = 3520 - 2800 =
720
– Προσοχή: Στον υπολογισμό της μέσης αξίας δεν λαμβάνω υπόψη το
κόστος του πειράματος
– Μέση αξία του ε2 = μέσο κέρδος στον κόμβο ε2 – 2800 = 1440
60
Αξία πειραμάτων
• Η μέση αξία του πειράματος μας δείχνει πότε είναι αποδεκτό
το κόστος του
• Στο παράδειγμά μας:
– Μέση αξία του ε1 = 720
– Αν το κόστος για το δείγμα 1 μπίλιας ήταν μικρότερο από 720, τότε το
ε1 μας συμφέρει σε σχέση με το ε0
– Στην ανάλυσή μας απορρίψαμε το ε1 επειδή είχε ακριβό κόστος (800)
– Μέση αξία του ε2 = 1440, κόστος = 1200
– Σε σχέση με το ε0 μας συμφέρει γιατί το κόστος είναι αρκετά
μικρότερο από την αξία του
61
Αξία πειραμάτων
• Η αξία της τέλειας πληροφόρησης (και όλων των
πειραμάτων) μπορεί να μεταβάλλεται στο χρόνο
• Στο παράδειγμά μας:
– Πριν ξεκινήσει η διαδικασία, EVPI = 2400
• Δηλαδή είμαστε πρόθυμοι να πληρώσουμε μέχρι 2400 για να μάθουμε
την αλήθεια
– Αξία τέλειας πληροφόρησης στον κόμβο (ε1, Κ)
• Αν μπορούσα να μαντέψω πάντα σωστά:
μέσο κέρδος = P(θ1\K) ⋅ 4000 + P(θ2\K) ⋅ 10,000
= 0.64 ⋅ 4000 + 0.36 ⋅ 10,000 = 6160
• Χωρίς περαιτέρω πειράματα, μέσο κέρδος στον κόμβο (ε1, Κ) = 3280
• Άρα EVPI στον κόμβο (ε1, Κ) = 6160 – 3280 = 2880
– 2880 > αρχικό EVPI
– Είμαστε πρόθυμοι να πληρώσουμε περισσότερο αν δούμε κόκκινη
μπίλια (γιατί έχει αυξηθεί η αβεβαιότητα)
62
Αξία πειραμάτων
• Η αξία της τέλειας πληροφόρησης (και όλων των πειραμάτων)
μπορεί να μεταβάλλεται στο χρόνο
– Αξία τέλειας πληροφόρησης στον κόμβο (ε1, Μ)
• Αν μπορούσα να μαντέψω πάντα σωστά:
μέσο κέρδος = P(θ1\M) ⋅ 4000 + P(θ2\M) ⋅ 10,000
= 0.96 ⋅ 4000 + 0.04 ⋅ 10,000 = 4240
• Χωρίς περαιτέρω πειράματα, μέσο κέρδος στον κόμβο (ε1, M) = 3760
• Άρα EVPI στον κόμβο (ε1, M) = 4240 – 3760 = 480
– 480 < αρχικό EVPI
– Δεν είμαστε πρόθυμοι να πληρώσουμε πολλά αν δούμε μαύρη μπίλια
(γιατί έχει μειωθεί πολύ η αβεβαιότητα)
• Το EVPI μπορεί να αυξομειώνεται καθώς εξελίσσεται η
διαδικασία των πειραμάτων, ανάλογα με τις διαθέσιμες
πληροφορίες που έχουμε για την αβεβαιότητα
63
1/2 1/2
1000 0
3
Επιστροφή στα κριτήρια απόφασης
• Λύση με προς τα πίσω επαγωγή: Ξεκινάμε όπως και πριν από
τα φύλλα
– Σε κόμβο τύχης: Ρωτάμε τον αποφασίζοντα για το αντίστοιχο CME
– Σε κόμβο απόφασης: ό,τι κάναμε και πριν
• Εμφανή μειονεκτήματα:
– Μπορεί να χρειαστούμε πάρα πολλές ερωτήσεις
– Ο υπολογισμός του CME δεν είναι πάντα εύκολος
5
Ανάλυση με βασικές κληρώσεις
• Ιδέα: θα αντικαταστήσουμε όλους τους κόμβους τύχης με
κάποια μορφή «κανονικοποιημένων» κληρώσεων
• Έστω ένα δέντρο απόφασης όπου τα διαφορετικά ποσά στα
φύλλα του δέντρου είναι τα
Xmin = X1 ≤ X2 ≤ … ≤ Xn = Xmax
• Ορισμός: Μια βασική κλήρωση με παράμετρο π είναι μια
κλήρωση της μορφής:
π 1-π
Χmax Χmin
π(X) 1 – π(Χ) ∼ X
Χmax Χmin
• Δηλαδή, σε κάθε χρηματικό ποσό μπορούμε να αντιστοιχίσουμε μια
ισοδύναμη βασική κλήρωση (το Χ είναι το CME της κλήρωσης)
• Ειδικά για τα Xmin και Xmax έχουμε π(Xmin) = 0, π(Xmax) = 1
0.1
0.3 0.6 0.2 0.3
0.5
100 1000 300
400 500 300
Βήμα 1:
• Βρίσκουμε τα διαφορετικά χρηματικά ποσά
• Xmin = X1 = 100, X2 = 300, X3 = 400, X4 = 500, X5 = Xmax = 1000
Παράδειγμα 1
α1 α2
0.1
0.3 0.6 0.2 0.3
0.5
100 1000 300
400 500 300
Βήμα 2:
• Ρωτάμε τον αποφασίζοντα για την παράμετρο της ισοδύναμης βασικής
κλήρωσης για κάθε ποσό εκτός των Xmin, Xmax
• Έστω εδώ ότι οι απαντήσεις που παίρνουμε είναι ότι
– π(300) = 0.4, π(400) = 0.5, π(500) = 0.7
• Προσοχή: καλό είναι εδώ να ελέγχουμε ότι για Χi < Xj, έχουμε π(Χi) ≤ π(Xj)
– Αλλιώς δεν έχουμε λογικό αποφασίζοντα 9
Παράδειγμα 1
α1 α2
0.1
0.3 0.6 0.2 0.3
0.5
100 1000 300
400 500 300
Βήμα 3:
• Αντικαθιστούμε όλα τα χρηματικά ποσά με τις ισοδύναμες βασικές
κληρώσεις.
• Μπορεί έτσι να μεγαλώσει το δέντρο αλλά τώρα τα ποσά που
εμφανίζονται στο δέντρο είναι μόνο τα Xmin, Xmax
10
Παράδειγμα 1
α1 α2
0.1
0.3 0.6 0.2 0.3
0.5
100 1000 300
400 500 300
Βήμα 4:
• Έτοιμοι για προς τα πίσω επαγωγή
• Όλοι οι κόμβοι τύχης σταδιακά θα αντικατασταθούν με βασικές κληρώσεις
• Σε κόμβους απόφασης επιλέγουμε την απόφαση που μας δίνει την βασική
κλήρωση με την μεγαλύτερη παράμετρο
11
Παράδειγμα 1
• Εν τέλει, προκύπτει ότι το αρχικό δέντρο είναι ισοδύναμο με:
α1 α2
π1 1-π1 π2 1-π2
Όπου
• π1 = 0.1 ⋅ 0 + 0.3 ⋅ 1 + 0.6 ⋅ 0.4 = 0.54
• π2 = 0.2 ⋅ 0.5 + 0.5 ⋅ 0.7 + 0.3 ⋅ 0.4 = 0.57
• Άρα επιλέγουμε α2
12
13
Ανάλυση με βασικές κληρώσεις
• Παρατήρηση 1: Στο εξής, όταν υπάρχει κόστος
δειγματοληψίας, πρέπει να το συνυπολογίζουμε στους
τελικούς κόμβους (επειδή η π(Χ) δεν είναι πάντα γραμμική)
• Παρατήρηση 2: Η ίδια μεθοδολογία μπορεί να εφαρμοστεί
αν οι τελικοί κόμβοι δεν έχουν μόνο χρηματικά ποσά
• Π.χ. μπορούμε να έχουμε έναν συνδυασμό από χρηματικά
ποσά και αγαθά, αρκεί να:
– Υπάρχει από τον αποφασίζοντα μια διάταξη για όλες τις τελικές
εκβάσεις (για να μπορούμε να κάνουμε συγκρίσεις και να
προσδιορίσουμε τα Xmin, Xmax)
– Μπορούμε για κάθε αγαθό να αντιστοιχίσουμε μια βασική
κλήρωση, κι έτσι να συνεχίσει να ισχύει η Παραδοχή 1
14
Παράδειγμα 2
α1 α2
G1
α3 α4
α5 α6
1/3 2/3
300 G2 300 100 400
1/2 1/2
Όπου:
100 G3 • G1= Macbook Air
• G2 = ipod
• G3 = Μηνιαία κάρτα ΟΑΣΑ
15
Παράδειγμα 2
• Θα πρέπει αρχικά να μας δοθεί η διάταξη (σειρά προτίμησης) για τα ποσά
και τα αγαθά
• Έστω ότι η διάταξη είναι:
G1 400 300 G2 100 G3
π 1-π
G1 G3
16
Παράδειγμα 2
• Ερωτήσεις προς τον αποφασίζοντα: π(100), π(G2), π(300), π(400)
• Έστω ότι οι απαντήσεις είναι:
– π(100) = 0.2
– π(G2) = 0.55
– π(300) = 0.6
– π(400) = 0.9
• Μπορούμε τώρα να ξεκινήσουμε προς τα πίσω επαγωγή
• Π.χ. η επιλογή α3 είναι ισοδύναμη με μια βασική κλήρωση με παράμετρο
½ π(100) + ½ π(G3) = 0.1
• H α4 ισοδυναμεί με βασική κλήρωση παραμέτρου π(300) = 0.6
• Άρα μεταξύ α3, α4, επιλέγω α4
• Μεταξύ α5, α6, επιλέγω α6 (τα 300 ευρώ είναι προτιμότερα του G2)
• Άσκηση: συνεχίστε την ανάλυση και βρείτε την απόφαση στην ρίζα του
δέντρου
17
Συναρτήσεις ωφέλειας
18
19
Ιδιότητες της συνάρτησης π(Χ)
• Τι είδους συναρτήσεις περιμένουμε σε σχέση με την
συμπεριφορά του κάθε αποφασίζοντα?
π(Χ)
Χmin Χmax Χ
20
π(X) 1 – π(Χ) ∼ X
Χmax Χmin
21
Συνέχιση απόδειξης Θ. 1
• Θέλουμε να δείξουμε ότι για κάθε Χ, π(Χ) = αΧ + β, για
κάποιες σταθερές α, β
• Κάθε κόμβος τύχης όμως για τέτοιους αποφασίζοντες
είναι ισοδύναμος με το μέσο κέρδος του κόμβου
• Άρα:
Ø Χ = π(Χ) ⋅ 300 + (1 – π(Χ)) ⋅ 50
Ø Χ = 250 ⋅ π(Χ) + 50
Ø π(Χ) = (1/250) ⋅ Χ – 1/5
Ø Η π(Χ) είναι γραμμική με α = 1/250, β = -1/5
22
Α Β
• Ένας συντηρητικός αποφασίζων προτιμά ένα βέβαιο
ποσό από το να ρισκάρει για ένα υψηλότερο μέσο κέρδος
• Ανάλογα ορίζεται και η ριψοκίνδυνη συμπεριφορά
23
Ιδιότητες της συνάρτησης π(Χ)
Θεώρημα 2:
(i) Για συντηρητικούς αποφασίζοντες, η π(Χ) είναι κοίλη
(concave)
(ii) Για ριψοκίνδυνους, η π(Χ) είναι κυρτή (convex)
Υπενθύμιση:
• Μια συνάρτηση f είναι κοίλη αν για κάθε Χ, Υ, και κάθε λ∈[0, 1],
έχουμε ότι
f(λΧ + (1-λ)Y) ≥ λf(X) + (1-λ)f(Y)
• ή διαφορετικά, f’’(X) ≤ 0 για κάθε Χ
• Παραδείγματα: √x, xc με c < 1, ln(x) (και οποιοσδήποτε
άλλος λογάριθμος)
• Για κυρτές συναρτήσεις πρέπει f(λΧ + (1-λ)Y) ≤ λf(X) + (1-λ)f(Y)
• ή ότι f’’ ≥ 0 για κάθε Χ
• Παραδείγματα: 2x, ex, xc με c > 1
24
Απόδειξη Θ. 2
• Έστω 2 ποσά X, Y, στο διάστημα [Xmin, Xmax] σε ένα
οποιοδήποτε πρόβλημα απόφασης
• Έστω C η CME τιμή της παρακάτω κλήρωσης:
λ 1–λ ∼ C
X Y
26
27
Υπολογισμός της συνάρτησης π(Χ)
Μια μέθοδος προσέγγισης της π(Χ)
• Ερώτηση 1 (προς τον αποφασίζοντα): Ποιο είναι το ισοδύναμο
ποσό με την εξής κλήρωση
1/2 1/2
∼ ?
Χmax Χmin
• Έστω ότι η απάντηση είναι Χ1
• Τότε θα ισχύει ότι: π(Χ1) = 1/2 ⋅ π(Χmax) + 1/2 ⋅ π (Χmin) = ½
• Άρα βρήκαμε άλλο ένα σημείο της γραφικής παράστασης
28
π(Χ)
1/2
Χmin Χ1 Χmax Χ
29
Υπολογισμός της συνάρτησης π(Χ)
Μια μέθοδος προσέγγισης της π(Χ)
• Ερώτηση 2: Ποιο είναι το ισοδύναμο ποσό με την εξής κλήρωση
1/2 1/2
∼ ?
Χ1 Χmax
• Έστω ότι η απάντηση είναι Χ2
• Τότε θα ισχύει ότι: π(Χ2) = 1/2 ⋅ π(Χ1) + 1/2 ⋅ π (Χmax) = 3/4
• Άρα βρήκαμε κι άλλο ένα σημείο της γραφικής παράστασης
30
π(Χ)
1
´
3/4 ´
1/2 ´
´Χ
min
Χ1 Χ2 Χmax Χ
31
Υπολογισμός της συνάρτησης π(Χ)
Μια μέθοδος προσέγγισης της π(Χ)
• Μπορώ να συνεχίσω έτσι για όσο χρειαστεί
• Ερώτηση 3: Ποιο είναι το ισοδύναμο ποσό με την εξής κλήρωση
1/2 1/2
∼ ?
Χmin Χ1
• Έστω ότι η απάντηση είναι Χ3
• Τότε θα ισχύει ότι: π(Χ3) = 1/2 ⋅ π(Χmin) + 1/2 ⋅ π (Χ1) = 1/4
33
Συναρτήσεις ωφέλειας
• Αναφέρονται και ως συναρτήσεις χρησιμότητας
• Είναι οποιαδήποτε συνάρτηση που προσδιορίζει με
κάποιο τρόπο την ωφέλεια του αποφασίζοντα σε κάθε
έκβαση [D. Bernoulli, 1738]
• Η χρήση τους ξεκίνησε με αφορμή το παράδοξο του St.
Petersburg [Ν. Bernoulli, 1713] (ψάξτε το!)
• Πλέον οι συναρτήσεις ωφέλειας χρησιμοποιούνται σε
όλη την μικροοικονομική θεωρία ως ο ενδεδειγμένος
τρόπος για την περιγραφή των προτιμήσεων μιας
οντότητας
• Η π(Χ) αποτελεί ένα παράδειγμα έκφρασης
προτιμήσεων, αφού μπορούμε να συγκρίνουμε
αποφάσεις με βάση την παράμετρο π (Παραδοχή 2)
34
Συναρτήσεις ωφέλειας
• Όταν ψάχνουμε να υπολογίσουμε την π(Χ), θέλουμε
πάντα να ισχύει η κανονικοποίηση π(Xmin) = 0, π(Xmax) = 1
35
Συναρτήσεις ωφέλειας
• Θεώρημα: Σε ένα δέντρο απόφασης, οι αποφάσεις
μένουν ίδιες είτε χρησιμοποιήσουμε την π(Χ) είτε την
u(X) = απ(Χ) + β, με α>0, και β οποιαδήποτε σταθερά
• Πόρισμα: Δεν είναι ανάγκη να χρησιμοποιούμε πάντα
την κανονικοποιημένη π(Χ)
Ø Π.χ. αν μας δώσουν την u(X) = 3log(X), δεν χρειάζεται να την
φέρουμε σε μορφή που να ισχύει u(Xmin) = 0
• Το u(X) δεν χρειάζεται να αντιστοιχεί σε πιθανότητα
Ø Εκφράζει απλά μια ποσότητα ωφέλειας
Ø u(X) = ωφέλεια που αποκομίζει ο αποφασίζων όταν έχει Χ ευρώ
• Κάποιες φορές είναι πιο εύκολο να έχουμε μια μη
κανονικοποιημένη u(X) αντί να σκεφτόμαστε ισοδυναμίες
με βασικές κληρώσεις για να φτιάξουμε την π(Χ)
36
Συναρτήσεις ωφέλειας
• Τελικά: Μπορούμε να κάνουμε την ανάλυση με
οποιαδήποτε συνάρτηση είναι συνεπής με τις
προτιμήσεις του αποφασίζοντα
• Όταν μας δίνεται μια συνάρτηση u(X),
Ø εφαρμόζουμε την ίδια μεθοδολογία με προς τα πίσω
επαγωγή
Ø Σε κάθε κόμβο τύχης, βρίσκουμε την μέση τιμή της
u(X)
Ø Σε κάθε κόμβο απόφασης, παίρνουμε την απόφαση
που μεγιστοποιεί την μέση τιμή της u(X)
• Δηλαδή αντί για υπολογισμό μέσου χρηματικού κέρδους
που κάναμε στις πρώτες διαλέξεις, υπολογίζουμε τώρα
μέσες τιμές της u(X)
37
Συναρτήσεις ωφέλειας
• Οι μόνοι έλεγχοι που χρειάζεται να κάνουμε όταν μας
δίνεται μια συνάρτηση ωφέλειας u(X) είναι ότι πρέπει
Ø Να είναι αύξουσα (συνήθως, περισσότερα χρήματα
φέρνουν μεγαλύτερη ή ίση ωφέλεια)
Ø Να είναι γραμμική για αποφασίζοντες που θέλουν το
κριτήριο μεγιστοποίησης μέσου χρηματικού κέρδους
Ø Να είναι κοίλη όταν ξέρουμε ότι έχουμε συντηρητικό
αποφασίζοντα
Ø Να είναι κυρτή όταν ξέρουμε ότι έχουμε ριψοκίνδυνο
αποφασίζοντα
38
Παραδείγματα ανάλυσης με
συναρτήσεις ωφέλειας
39
Παράδειγμα 1 (πώς κερδοφορούν οι
ασφαλιστικές εταιρείες)
α1 α2
-Χ
α1: δεν ασφαλίζομαι
-Χ
α2: ασφαλίζομαι
10-5 1-10-5
-100 0
1000 0
• Έστω ότι έχετε ένα λαχείο στην κατοχή σας που κερδίζει 1000 ευρώ με
πιθ/τα 1/2
• Σε τι τιμή θα δεχόσασταν να πουλήσετε το λαχείο (δλδ να παραιτηθείτε
των δικαιωμάτων σας σε πιθανό κέρδος)
• Παρόμοιο δίλημμα αντιμετωπίζει κάποιος που σκέφτεται να πουλήσει τα
δικαιώματα μιας νέας startup εταιρείας
43
Παράδειγμα 2 – Αγοραπωλησίες λαχείων
α1 α2
α1: δεν πουλάω
Χ
α2: πουλάω
1/2 1/2
1000 0
44
• Άρα αν κάποιος μας προσφέρει από 250 ευρώ και άνω, θα πρέπει να
δεχθούμε την προσφορά, διαφορετικά την απορρίπτουμε
• Επαληθεύεται ότι πρόκειται για συντηρητική συμπεριφορά
Ø Είμαστε οκ με 250 ευρώ ενώ η μέση τιμή του λαχείου είναι 500
45
Παράδειγμα 2α – Αγοραπωλησίες λαχείων
α1 α2
-Χ α1: αγοράζω
0
α2: δεν αγοράζω
1/2 1/2
1000-Χ -Χ
• Έστω τώρα ότι το ίδιο λαχείο δεν το έχετε στην κατοχή σας αλλά θέλετε να
το αγοράσετε
• Σε τι τιμή θα δεχόσασταν να το αγοράσετε αν έχετε την ίδια συνάρτηση
ωφέλειας?
46
47
Αγοραπωλησίες λαχείων
• Τι περιμένουμε για τα ΧΑ, ΧΠ όταν η συνάρτηση ωφέλειας είναι γραμμική?
• Τότε δεν υπάρχει διαφορά μεταξύ αγοράς και πώλησης, θα έχουμε ΧΑ = ΧΠ
Θεώρημα:
(i) Αν μια συνάρτηση ωφέλειας είναι γραμμική, τότε ΧΑ = ΧΠ για κάθε
λαχείο
(ii) Έστω ότι για έναν αποφασίζοντα, ΧΑ = ΧΠ για κάθε λαχείο. Τότε η
συνάρτηση ωφέλειάς του είτε είναι γραμμική, είτε u(X) = 1 – e-λX
48
106 -Χ -Χ
49
Παράδειγμα 3 (πώς κερδοφορεί ο ΟΠΑΠ)
• Έστω ΧΑ η μέγιστη τιμή αγοράς που είναι συμφέρουσα
• Για το ΧΑ πρέπει να ισχύει:
10-5 ⋅ u(106 - ΧΑ) + (1-10-5) ⋅ u(-ΧΑ) = u(0)
• Για να αντικαταστήσουμε το u(106 - ΧΑ), πρέπει να δούμε ποιον
κλάδο της συνάρτησης θα χρησιμοποιήσουμε
• Περιμένουμε ότι 106 – ΧΑ > 104, άρα u(106 - ΧΑ) = 106sqrt(106 - ΧΑ)
• Άρα:
50
51
Γενικεύσεις
• Είναι πιο ακριβές σε μια αγορά ή μια επένδυση να λαμβάνουμε υπόψη και
το αρχικό διαθέσιμο κεφάλαιο για την επένδυση
• Έστω Π το αρχικό κεφάλαιο και έστω ένα επενδυτικό στοιχείο με την
παρακάτω αβεβαιότητα:
λ 1-λ
Κ 0
52
53
Αποφυγή και διάθεση για ρίσκο
• Μέχρι τώρα, έχουμε βρει έναν τρόπο να κατηγοριοποιήσουμε την
συντηρητική και την ριψοκίνδυνη συμπεριφορά
• Κοίλες συναρτήσεις ⇒ συντηρητική συμπεριφορά
• Κυρτές συναρτήσεις ⇒ ριψοκίνδυνη συμπεριφορά
• Μπορούμε να ποσοτικοποιήσουμε την διάθεση για ρίσκο?
– Π.χ. πότε μπορούμε να πούμε ότι ένας αποφασίζων είναι πιο ριψοκίνδυνος από έναν
άλλο?
• Θα πρέπει να δούμε περαιτέρω χαρακτηριστικά των συναρτήσεων
ωφέλειας
• Προσοχή: η διάθεση για ρίσκο θα πρέπει να είναι ίδια για την u(X) και για
οποιαδήποτε άλλη συνάρτηση της μορφής αu(X) + β, με α>0
– Αναλλοίωτη ποσότητα ως προς γραμμικούς μετασχηματισμούς
54
55
Αποφυγή και διάθεση για ρίσκο
• Ο συντελεστής αποφυγής κινδύνου (ή συντελεστής Arrow-pratt)
τ(x) = -u’’(x)/u’(x)
• Το τ(x) μπορεί να κυμαίνεται από -∞ ως +∞
• Πόσο είναι το τ(x) όταν έχουμε το κριτήριο μεγιστοποίησης μέσου
χρηματικού κέρδους?
– Τότε έχουμε δει ότι η u(x) είναι γραμμική, u(x) = αx + β
– u’(x) = α, u’’(x) = 0
– Άρα τ(x) = 0
• Οι γραμμικές συναρτήσεις είναι ακριβώς στη μέση του φάσματος από
έντονη διάθεση για ρίσκο έως έντονη διάθεση για αποφυγή ρίσκου
56
57
Παραδείγματα υπολογισμού του τ(x)
• Σε κοίλες συναρτήσεις τ(x) ≥ 0
• Παράδειγμα 3: u(x) = 1 – e-λx με λ>0, στο διάστημα (- ∞, +∞)
– u’(x) = (-1) ⋅ (-λ) ⋅ e-λx = λ ⋅ e-λx
– u’’(x) = λ ⋅ (-λ) ⋅ e-λx = -λ2 ⋅ e-λx
– Άρα τ(x) = λ>0 για κάθε x
• Πώς ερμηνεύουμε συναρτήσεις ωφέλειας με τ(x) = θετική σταθερά για
κάθε x?
– Πεισματικά σταθερή συντηρητική διάθεση χωρίς καμία μεταβολή
– Αντίστοιχα για ριψοκίνδυνους με τ(x) = -c για κάποια σταθερά c>0
• Ποιες συναρτήσεις ωφέλειας έχουν σταθερό συντελεστή τ(x) = γ για
κάθε x?
– Είναι όλες της μορφής u(x) = α – βe-γx
– Οι παράμετροι α, β, γ μπορούν να είναι και 0
– Προκύπτει από την επίλυση της διαφορικής εξίσωσης τ(x) = γ
58
59
Θεωρία Παιγνίων και
Αποφάσεων
2
Παράδειγμα 1
• Έστω Κ = 104 το αρχικό κεφάλαιο
• Μετά από μελέτη στατιστικών και υποδείξεις ειδικών, ένας επενδυτής
σκέφτεται να αγοράσει μετοχές μιας συγκεκριμένης εταιρείας, και
ομόλογα συγκεκριμένης (μη χρεωκοπημένης) χώρας
• Απόδοση ομολόγων: σταθερή 7%
• Απόδοση μετοχής: 2% με πιθ/τα 0.37 και 10% με πιθ/τα 0.63
• Έστω ότι η συνάρτηση ωφέλειας είναι u(x) = sqrt(x)
• Πώς πρέπει να γίνει η επένδυση?
Παράδειγμα 1
• Προσοχή: Δεν μπορώ να σχεδιάσω δέντρο απόφασης για τέτοια
προβλήματα!
• Το πλήθος των επιλογών του αποφασίζοντα είναι άπειρο
– Επειδή πρέπει να αποφασίσουμε ποιο ποσοστό του κεφαλαίου Κ θα επενδυθεί στις
μετοχές και ποιο στα ομόλογα
• Είναι ένα δέντρο με άπειρο πλήθος ακμών από τη ρίζα
• Θα κάνουμε και πάλι μεγιστοποίηση της μέσης ωφέλειας, όπως και πριν,
αλλά με διαφορετικό τρόπο
• Ζητούμενο: το ποσοστό του Κ που θα επενδυθεί στις μετοχές
4
Παράδειγμα 1
Ανάλυση:
• Έστω s το ποσοστό που θα επενδυθεί στις μετοχές
– Συνολικό ποσό επένδυσης στις μετοχές: s ⋅ K
– Στα ομόλογα: (1-s) ⋅ K
• Τελικό χρηματικό ποσό από ομόλογα: m = 1.07 ⋅ (1-s) ⋅ K
• Τελικό χρηματικό ποσό από μετοχή:
– Με πιθ/τα 0.37: m1 = 1.02 ⋅ s ⋅ K
– Με πιθ/τα 0.63: m2 = 1.1 ⋅ s ⋅ K
• Τελικό χρηματικό ποσό:
– Με πιθ/τα 0.37: m + m1 = 1.07 ⋅ (1-s) ⋅ K + 1.02 ⋅ s ⋅ K = K ⋅ (1.07 – 0.05s)
– Με πιθ/τα 0.63: m + m2 = 1.07 ⋅ (1-s) ⋅ K + 1.1 ⋅ s ⋅ K = K ⋅ (1.07 + 0.03s)
• Μέση ωφέλεια: 0.37u(m+m1) + 0.63u(m+m2)
Παράδειγμα 1
Ανάλυση:
• Η μέση ωφέλεια του επενδυτή είναι:
• Εξίσωση 1 μεταβλητής
– Υψώνουμε στο τετράγωνο και κάνουμε πράξεις
6
Παράδειγμα 1
Ανάλυση:
• Μετά από πράξεις:
632 ⋅ 32 ⋅ (1.07 – 0.05s) = 372 ⋅ 52 ⋅ (1.07 + 0.03s)
• Από όπου προκύπτει ότι s = 0.569
• Επίσης f’’(s) < 0 για s = 0.569, άρα έχουμε μέγιστο
• Τελική στρατηγική επένδυσης:
– 5690 ευρώ επενδύονται στις μετοχές
– 4310 ευρώ επενδύονται στα ομόλογα
Παράδειγμα 2
• Αν έχουμε συνεχείς τυχαίες μεταβλητές για την απόδοση?
• Έστω ότι πάλι Κ = 104 είναι το αρχικό κεφάλαιο και η συνάρτηση
ωφέλειας είναι u(x) = sqrt(x)
• Ένας επενδυτής σκέφτεται να επενδύσει σε μετοχές και ομόλογα με τις
εξής αποδόσεις
• Απόδοση ομολόγων: σταθερή 8.5%
• Απόδοση μετοχής: Ομοιόμορφα κατανεμημένη στο διάστημα [0.02, 0.15]
– Δηλαδή κυμαίνεται από 2% ως 15% με ομοιόμορφη κατανομή
– Η ίδια ανάλυση ισχύει και για οποιαδήποτε άλλη κατανομή
• Πώς πρέπει να γίνει η επένδυση?
8
Παράδειγμα 2
Θα ξεκινήσουμε με τον ίδιο τρόπο
• Έστω s το ποσοστό που θα επενδυθεί στις μετοχές
– Συνολικό ποσό επένδυσης στις μετοχές: s ⋅ K
– Στα ομόλογα: (1-s) ⋅ K
• Έστω r η απόδοση της μετοχής (τυχαία μεταβλητή)
• Τελικό χρηματικό ποσό από ομόλογα: m = 1.085 ⋅ (1-s) ⋅ K
• Τελικό χρηματικό ποσό από μετοχή: m’ = (1+r) ⋅ s ⋅ K
• Τελικό χρηματικό ποσό:
– m + m’ = K ⋅ [1.085 ⋅ (1-s) + (1+r) ⋅ s] = K ⋅ [s ⋅ (r - 0.085) + 1.085]
• Ωφέλεια με απόδοση r: u(m+m’)
– Εξαρτάται από το ποσοστό s και την απόδοση r
• Για να υπολογίσουμε την μέση ωφέλεια, χρειαζόμαστε την συνάρτηση
πυκνότητας πιθανότητας της r
Παράδειγμα 2
• Για ομοιόμορφες κατανομές στο [a, b], η σ.π.π. είναι η g(r) = 1/(b-a)
• Άρα η μέση ωφέλεια είναι:
10
Παράδειγμα 2
• Χρησιμοποιώντας γνωστούς τύπους για τον υπολογισμό ολοκληρωμάτων
έχουμε ότι η μέση ωφέλεια είναι:
11
Επιλογή χαρτοφυλακίου
• Στα προηγούμενα παραδείγματα εν τέλει καταλήξαμε να
ψάχνουμε την λύση σε μια εξίσωση 1 μεταβλητής
– Της εξίσωσης f’(s) = 0
• Αν βρούμε το s, ξέρουμε κατευθείαν τι ποσό θα επενδύσουμε
στις μετοχές και τι στα ομόλογα
• Αν είχαμε 3 επενδυτικές επιλογές?
– Π.χ., μετοχές της εταιρείας Α, μετοχές της εταιρείας Β, και ομόλογα?
• Θα είχαμε πρόβλημα με 2 μεταβλητές
– Ποσοστό για τις μετοχές Α, και ποσοστό για τις μετοχές Β
• Αν έχουμε n επενδυτικές επιλογές?
12
Επιλογή χαρτοφυλακίου
Το γενικό πρόβλημα επιλογής βέλτιστου χαρτοφυλακίου
• Έστω αρχικό κεφάλαιο Κ
• Και n+1 επενδυτικές επιλογές Μ0, Μ1,…, Μn
– Συνήθως το Μ0 αντιστοιχεί σε κάποια επιλογή για ομόλογα με
σταθερή απόδοση, και τα Μ1,…, Μn σε μετοχές διαφορετικών
εταιρειών
• Έστω r = (r0, r1, r2,…, rn) το διάνυσμα των αποδόσεων
– ri η τυχαία μεταβλητή για την απόδοση του Μi
– Μπορεί να πάρει και αρνητικές τιμές
• Ζητούμενο: το ποσοστό που θα επενδύσουμε στην κάθε
επιλογή, σύμφωνα με κάποια δοσμένη συνάρτηση ωφέλειας
u(x) του επενδυτή
13
Επιλογή χαρτοφυλακίου
Το γενικό πρόβλημα επιλογής βέλτιστου χαρτοφυλακίου
• Ψάχνουμε να βρούμε ένα διάνυσμα s = (s0, s1, s2,…, sn)
– Όπου si το ποσοστό που επενδύεται στο στοιχείο Μi
• Συνολικό χρηματικό κέρδος στο τέλος
– s0 ⋅ K ⋅ (1+r0) από το Μ0
– s1 ⋅ K ⋅ (1+r1) από το Μ1
– …
– sn ⋅ K ⋅ (1+rn) από το Μn
• Ωφέλεια του επενδυτή όταν οι αποδόσεις δίνονται από το r:
– u(s, r) = u(Σi si ⋅ K ⋅ (1+ri))
• Μέση ωφέλεια: παίρνουμε μέση τιμή ως προς τις αποδόσεις
– f(s) = Er [u(Σi si ⋅ K ⋅ (1+ri))]
14
Επιλογή χαρτοφυλακίου
Το γενικό πρόβλημα επιλογής βέλτιστου χαρτοφυλακίου
• Τελικά ο επενδυτής πρέπει να λύσει ένα πρόβλημα
βελτιστοποίησης υπό περιορισμούς:
max f(s) = Er [u(Σi si ⋅ K ⋅ (1+ri))]
Υπό τους περιορισμούς
Σi si =1
si ≥ 0, για κάθε i = 0, 1, …,n
15
Επιλογή χαρτοφυλακίου
• Για να μπορέσουμε να λύσουμε το πρόβλημα, πρέπει να
υπολογιστεί η μορφή της f(s)
• Περίπτωση 1: οι αποδόσεις είναι συνεχείς τυχαίες μεταβλητές
– Τότε θα πρέπει να μας δοθεί (ή να καθοριστεί από στατιστικά στοιχεία) η από
κοινού σ.π.π. των αποδόσεων
– Έστω p(r0, r1, …, rn) η από κοινού σ.π.π.
– H f(s) θα μας δίνεται από ένα πολλαπλό ολοκλήρωμα, γενικεύοντας το
Παράδειγμα 2
– Άρα το πρόβλημα γίνεται:
16
Επιλογή χαρτοφυλακίου
• Για να μπορέσουμε να λύσουμε το πρόβλημα, πρέπει να
υπολογιστεί η μορφή της f(s)
• Περίπτωση 2: οι αποδόσεις είναι διακριτές τυχαίες μεταβλητές
– Τότε θα πρέπει να μας δοθεί (ή να καθοριστεί από στατιστικά στοιχεία) η από
κοινού σ.μ.π. των αποδόσεων (συνάρτηση μάζας πιθανότητας)
– Έστω p(r0, r1, …, rn) η από κοινού σ.μ.π.
– Έστω επίσης Ci το πεδίο τιμών της ri
– H f(s) θα μας δίνεται από ένα πολλαπλό άθροισμα, γενικεύοντας το
Παράδειγμα 1
17
Επιλογή χαρτοφυλακίου
• Πώς μπορούμε να λύνουμε τέτοια μεγάλα προβλήματα
βελτιστοποίησης?
• Υπάρχουν αρκετές μέθοδοι με καλές επιδόσεις, υλοποιημένες
σε διάφορα εμπορικά πακέτα λογισμικού
• Π.χ., μπορεί κανείς να χρησιμοποιήσει τις συνθήκες ΚΚΤ
– Βλ. μαθήματα επιχειρησιακής έρευνας
• Η συνάρτηση Lagrange ενός τέτοιου συστήματος είναι:
– L(s, λ) = f(s) + λ(1 - Σi si)
• Η βέλτιστη λύση πρέπει να ικανοποιεί τις ΚΚΤ συνθήκες και
συγκεκριμένα θα πρέπει ÑL(s, λ) = 0
– Αυτό δίνει n+2 εξισώσεις με n+2 μεταβλητές
– Συνήθως όχι γραμμικό σύστημα, αλλά σε αρκετές περιπτώσεις μπορεί να
λυθεί
18
Παράδειγμα 3
• Έστω Κ = 104 το αρχικό κεφάλαιο και u(x) = x2
• Επιλογές: Ομόλογα, Μετοχές εταιρείας Α, Μετοχές εταιρείας Β
• Απόδοση ομολόγων: σταθερή 5%
• Απόδοση μετοχής Α: 20% με πιθ/τα 0.4 και -10% με πιθ/τα 0.6
• Απόδοση μετοχής Β: 10% με πιθ/τα 0.5 και -5% με πιθ/τα 0.5
• Πώς πρέπει να γίνει η επένδυση?
19
Παράδειγμα 3
• Έστω s = (s0, s1, s2) το διάνυσμα με τα ποσοστά επένδυσης
– Συνολικό ποσό επένδυσης s0 ⋅ K στα ομόλογα, s1 ⋅ K στις μετοχές Α, s2 ⋅ K στις μετοχές Β
• Τελικό χρηματικό κέρδος:
– Με πιθ/τα 0.2: m1 = 1.05 ⋅ s0 ⋅ K + 1.2 ⋅ s1 ⋅ K + 1.1 ⋅ s2 ⋅ K
– Με πιθ/τα 0.2: m2 = 1.05 ⋅ s0 ⋅ K + 1.2 ⋅ s1 ⋅ K + 0.95 ⋅ s2 ⋅ K
– Με πιθ/τα 0.3: m3 = 1.05 ⋅ s0 ⋅ K + 0.9 ⋅ s1 ⋅ K + 1.1 ⋅ s2 ⋅ K
– Με πιθ/τα 0.3: m4 = 1.05 ⋅ s0 ⋅ K + 0.9 ⋅ s1 ⋅ K + 0.95 ⋅ s2 ⋅ K
• Μέση ωφέλεια:
– f(s) = Er [u(s, r)] = 0.2 ⋅ u(m1) + 0.2 ⋅ u(m2) + 0.3 ⋅ u(m3) + 0.3 ⋅ u(m4)
= 0.2 ⋅ (1.05 ⋅ s0 ⋅ K + 1.2 ⋅ s1 ⋅ K + 1.1 ⋅ s2 ⋅ K)2 + 0.2(m2)2 + 0.3(m3)2 + 0.3(m4)2
– Η συνάρτηση θα έχει τετραγωνικούς όρους και γινόμενα μεταβλητών (π.χ. s1 ⋅ s2)
20
Παράδειγμα 3
• Η μορφή του προβλήματος βελτιστοποίησης θα είναι:
max f(s)
Υπό τους περιορισμούς
s0 + s1 + s2 = 1
si ≥ 0, για i = 0, 1, 2
• Παρατήρηση: Οι παράγωγοι της συνάρτησης Lagrange θα δώσουν
γραμμικές εξισώσεις
- 4 γραμμικές εξισώσεις με 4 μεταβλητές
- Επειδή ξεκινήσαμε με τετραγωνική συνάρτηση ωφέλειας
• Άσκηση: Προσπαθήστε να το λύσετε και να βρείτε τα βέλτιστα
ποσοστά
21
Επιλογή χαρτοφυλακίου
Κάποιες παραλλαγές του γενικού προβλήματος
• Μπορούμε να βάλουμε σαν περιορισμό ότι Σi si ≤ 1 αντί για Σi
si = 1
– Ίσως να μην θέλουμε απαραίτητα να επενδύσουμε όλο το ποσό
• Μπορούμε επίσης να επιτρέψουμε ότι κάποιο si είναι < 0
– Αφαίρεση του περιορισμού si ≥ 0
– Αντιστοιχεί σε πώληση περιουσιακών στοιχείων αντί για αγορά
– Π.χ. αν έχουμε ήδη μετοχές κάποιας εταιρείας, μπορούμε είτε να
αγοράσουμε είτε να πουλήσουμε
22
Επιλογή χαρτοφυλακίου
• Τι συναρτήσεις μπορούμε να χρησιμοποιήσουμε στην πράξη?
• Συνήθως στη χρηματοοικονομική και σε προβλήματα
επενδύσεων, μελετώνται συγκεκριμένες οικογένειες
συναρτήσεων με ελευθερία επιλογής κάποιων παραμέτρων
– Τετραγωνικές συναρτήσεις: u(x) = αx2 + βx + γ (αρκετά δημοφιλείς,
για διάφορες τιμές των παραμέτρων)
– Λογαριθμικές: u(x) = log(x + β)
– Ειδικές εκθετικές: u(x) = eβ/x
– Τετραγωνική ρίζα και άλλες υπογραμμικές: u(x) = (x – x0)β με β < 1
– Αντίστροφη εφαπτομένης: u(x) = arctan(x + β)
23
24
Κριτήρια ανάλυσης
• Ξεκινήσαμε στις πρώτες διαλέξεις με το κριτήριο μεγιστοποίησης μέσου
χρηματικού κέρδους
– Χρήση προς τα πίσω επαγωγής, με υπολογισμό μέσου κέρδους σε κάθε κόμβο τύχης
• Στη συνέχεια, περάσαμε σε αποφασίζοντες που μπορεί να είναι
συντηρητικοί ή ριψοκίνδυνοι
– Πάλι προς τα πίσω επαγωγή όταν έχουμε πεπερασμένο αριθμό επιλογών σε κάθε
κόμβο απόφασης
– Σε κάθε κόμβο τύχης, κάνουμε μεγιστοποίηση μέσης ωφέλειας
• Ακόμα κι αν έχουμε άπειρες επιλογές και δεν μπορούμε να έχουμε δέντρο
αποφάσεων, πάλι μεγιστοποίηση της μέσης ωφέλειας κάνουμε
• Συμπέρασμα: για την ανάλυση που κάνουμε, βασική υπόθεση σε όλες τις
κατηγορίες προβλημάτων που είδαμε είναι ότι οι προτιμήσεις
εκφράζονται από κάποια συνάρτηση ωφέλειας
Είναι πάντα ρεαλιστική αυτή η υπόθεση?
25
26
Το παράδοξο του Allais
• Και ποια στο παρακάτω δέντρο?
27
28
Το παράδοξο του Allais
• Ας αναλύσουμε τους ανθρώπους που προτίμησαν
– Το α1 στο δέντρο Δ1
– Και το α3 στο δέντρο Δ2
• Διαλέξτε αυθαίρετα έναν τέτοιο αποφασίζοντα
• Έστω ότι σε αυτόν αντιστοιχεί κάποια συνάρτηση ωφέλειας u(x)
• Άρα θα αντιστοιχεί και κάποια κανονικοποιημένη συνάρτηση π(x)
– Θυμηθείτε την Παραδοχή 1 σε προηγούμενες διαλέξεις
• Ας αναλύσουμε τότε τα δέντρα με βάση την π(x)
– Και στα 2 δέντρα: Xmax = 5 ⋅ 106 > 106 > Χmin = 0
– Άρα π(Xmax) = 1, π(Χmin) = 0 κι έστω π(106) = π1
29
30
Τελικά συμπεράσματα
• Η θεωρία ωφελιμότητας (utility theory) και οι συναρτήσεις ωφέλειας μας
δίνουν ένα πολύ χρήσιμο εργαλείο για να αναλύουμε προβλήματα
απόφασης
• Μας βοηθάνε να εκφράσουμε μαθηματικά τα προβλήματα απόφασης, ως
κατάλληλα προβλήματα βελτιστοποίησης
• Υπάρχουν όμως και όρια στις προσεγγίσεις αυτές
• Δεν μπορούμε πάντα να εκφράζουμε την ωφέλεια ενός αποφασίζοντα με
κάποια συνάρτηση
• Επίσης, σε διαφορετικά προβλήματα η συμπεριφορά ενός ανθρώπου
μπορεί να αλλάζει
• Στο παράδοξο του Allais, όταν κάποιος προτιμά το α1 στο Δ1 δείχνει
συντηρητική συμπεριφορά
• Αν προτιμήσει το α3 στο Δ2 δείχνει πιο ριψοκίνδυνος (ενώ τα χρηματικά
ποσά που διακυβεύονται είναι ίδια και στα 2 δέντρα)
31
• Στόχοι:
– Μαθηματικά μοντέλα για να περιγράψουμε τον τρόπο που
αλληλεπιδρούν μεταξύ τους οι διαφορετικές οντότητες
– Πρόβλεψη (δεδομένου ενός μοντέλου) για το πώς θα αποφάσιζε ένας
rational decision maker
3
Λίγη ιστορία
• Πρώτες ιδέες:
– Μοντέλα για τον ανταγωνισμό μεταξύ εταιρειών: Cournot (1838), Bertrand
(1883)
– 0-sum games: τέλος 19ου αιώνα (Zermelo), και αρχές 20ου (Borel)
• Το θεώρημα minmax για 0-sum games: von Neumann, 1928
• Τα θεμέλια και το 1ο βιβλίο: Theory of Games and Economic Behavior, von
Neumann and Morgenstern, 1944
• Η έννοια του σημείου ισορροπίας (Nash equilibrium): Nash, 1950
• Παίγνια διαδοχικών κινήσεων και παίγνια κατά Bayes (Selten, 1965 και
Harsanyi 1967)
• Βραβείο Νόμπελ Οικονομικών 1994: Harsanyi, Nash, Selten
• Πεδία εφαρμογών:
– Μικρο-οικονομική θεωρία
– Πολιτικές επιστήμες
– Εξελικτική Βιολογία
– Επιστήμη Υπολογιστών
– ...
Killer applications
• Δημοπρασίες επιδοτούμενης αναζήτησης (sponsored search
auctions)
– Χρησιμοποιούνται ευρέως από τις μηχανές αναζήτησης στις
περισσότερες χώρες (Google, Baidu, Yandex,...)
– Σημαντικό μέρος των εσόδων μιας μηχανής αναζήτησης
• Δημοπρασίες φάσματος (spectrum auctions)
– Κρατικές δημοπρασίες για την ανάθεση συχνοτήτων
• Προγράμματα ταιριάσματος
– Για το ταίριασμα γιατρών σε νοσοκομεία, δασκάλων σε σχολεία, κτλ
(κυρίως σε Αγγλία και Η.Π.Α.)
• Μηχανισμοί για δωρεά νεφρών
– Για την εύρεση συμβατού δότη για μεταμόσχευση νεφρού
• Και πολλές άλλες ...
5
Μοντέλα Παιγνίων
Τι ειναι ένα παίγνιο?
Μοντέλα Παιγνίων
Κατηγορίες
• Συνεργατικά ή μη συνεργατικά
• Επαναλαμβανόμενα ή μη
• Άπειρα ή πεπερασμένα
7
Παίγνια σε κανονική μορφή
(Normal-Form Games)
• Πλήρους πληροφόρησης
– Οι παίκτες γνωρίζουν τις προτιμήσεις των άλλων παικτών (όχι ομως την
απόφαση που θα πάρουν)
• Ταυτόχρονων κινήσεων
– Οι παίκτες δεν αποφασίζουν απαραίτητα ταυτόχρονα αλλά τη στιγμή
που κάθε παίκτης κάνει την επιλογή του, δεν γνωρίζει και δεν μπορεί να
παρατηρήσει την επιλογή των άλλων παικτών
9
Παίγνια σε κανονική μορφή
Ορισμός: Ένα παίγνιο σε κανονική μορφή
αποτελείται από
– ένα σύνολο παικτών N = {1, 2,..., n}
– Για κάθε παίκτη i, ένα σύνολο διαθέσιμων στρατηγικών
Si
– Για κάθε παίκτη i, μια συνάρτηση ωφέλειας
ui: S1 x ... x Sn → R
• Προφίλ στρατηγικών: Κάθε διάνυσμα της μορφής
(s1, ..., sn), με si Î Si
– Κάθε προφίλ αντιστοιχεί σε μια έκβαση του παιγνίου
– Η συνάρτηση ωφέλειας περιγράφει το όφελος που
αποκομίζει ένας παίκτης από την τελική έκβαση
10
12
u1(s1, t1), u2(s1, t1) ..., ... ..., ... ..., ... u1(s1, tm), u2(s1, tm)
u1(s2, t1), u2(s2, t1) ..., ... ..., ... ..., ... ..., ...
..., ... ..., ... ..., ... ..., ... u1(sn, tm), u2(sn, tm)
13
Παίγνια 2 παικτών σε κανονική μορφή
Εναλλακτική αναπαράσταση:
Θα μπορούσαμε να χρησιμοποιήσουμε μια διάταξη
των εκβάσεων ως προς τις προτιμήσεις του κάθε παίκτη
Π.χ.
(s1, t2) >1 (s2, t3) σημαίνει ότι ο παίκτης 1 θεωρεί καλύτερη την
έκβαση που προκύπτει από το προφίλ (s1, t2) σε σχέση με την
έκβαση του προφίλ (s2, t3)
• Πιθανό θέμα: ισοπαλίες στην ωφέλεια διαφορετικών προφίλ
14
15
Παράδειγμα 1: Prisoner’s Dilemma
• Παίκτες N = {1, 2}
• Διαθέσιμες στρατηγικές:
– S1 = S2 = {Δεν ομολογώ (C), Ομολογώ (D)}
• Πιθανές εκβάσεις
– (C, C) = μισό χρόνο φυλακή και οι 2
– (C, D) = 5 χρόνια ο π.1, ελεύθερος ο π. 2
– (D, C) = ελεύθερος ο π.1, 5 χρόνια ο π. 2
– (D, D) = 3 χρόνια και οι 2
17
Παράδειγμα 1: Prisoner’s Dilemma
Προτιμήσεις παικτών:
• Για τον παίκτη 1:
(D, C) >1 (C, C) >1 (D, D) >1 (C, D)
• Για τον παίκτη 2:
(C, D) >2 (C, C) >2 (D, D) >2 (D, C)
18
Prisoner’s Dilemma:
Αναπαράσταση σε μορφή πινάκων
C D
C 3, 3 0, 4
D 4, 0 1, 1
20
21
The Duopoly Model
• Δύο εταιρείες παράγουν ένα προϊόν παρόμοιας ποιότητας
• Η κάθεμια θέλει να αποφασίσει αν θα θέσει υψηλή ή χαμηλή
τιμή
• Κάθε εταιρεία προτιμά να θέσει η ίδια χαμηλή τιμή και ο
ανταγωνιστής υψηλή τιμή
• Στρατηγικές:
– S1 = S2 = {Υψηλή τιμή (H), Χαμηλή τιμή (L)}
– Προτιμήσεις π. 1: (L, H) >1 (H, H) >1 (L, L) >1 (H, L)
• Το παίγνιο και πάλι είναι ισοδύναμο με το δίλημμα του
φυλακισμένου!
22
Arms Race
• Επίκαιρο στην αρχή του ψυχρού πολέμου
• Δύο χώρες (σκεφτείτε Αμερική και Ρωσία μετά το τέλος του Β
παγκοσμίου πολέμου) θέλουν να αποφασίσουν αν θα
αναπτύξουν νέα πυρηνικά όπλα
• Κάθε χώρα φυσικά προτιμά να αναπτύξει η ίδια πυρηνικά και
να μην αναπτύξει η άλλη χώρα
• Στρατηγικές:
– S1 = S2 = {Δεν αναπτύσσω πυρηνικά όπλα, αναπτύσσω πυρηνικά}
– Και πάλι οι προτιμήσεις είναι όπως στο δίλημμα του φυλακισμένου
23
Παράδειγμα 2: Bach or Stravinsky
(BoS)
vs
24
S 0, 0 1, 2
q Είναι αποδεκτή οποιαδήποτε αναπαράσταση στην οποία
• u1(Β, Β) > u1(S, S)
• u1(S, S) > u1(S, B), u1(S, S) > u1(B, S)
• Αντίστοιχα και για τον π. 2
• Είναι αδιάφορο (για την ώρα) αν τα u1(Β, S) και u1(S, B) είναι ίσα ή όχι,
αρκεί να είναι μικρότερα του u1(S, S)
q Το παίγνιο είναι γνωστό και ως “Battle of the Sexes”
25
Παράδειγμα 3: The Hawk-Dove game
vs
26
(2, 2) (0, 4)
(4, 0) (-1, -1)
vs
T -1, 1 1, -1
Παράδειγμα 5: Δημοπρασίες
32
Άσκηση
• Ψάξτε μόνοι σας για τις συνεισφορές στη θεωρία
παιγνίων και για τις ζωές των John von Neumann και
John Nash
33
Θεωρία Παιγνίων - Ενότητα 2
Έννοιες λύσεων (solution concepts) και
απλοποιήσεις παιγνίων
Λύσεις παιγνίων
2
Επιλέγοντας στρατηγική...
• Δεδομένου ενός παιγνίου, τι στρατηγική πρέπει να
επιλέξει κάθε παίκτης?
– Υπενθύμιση: υποθέτουμε ότι κάθε παίκτης γνωρίζει τις
προτιμήσεις του άλλου παίκτη αλλά όχι το τι θα επιλέξει
Prisoner’s Dilemma:
The Rational Outcome
• Ας επανέλθουμε στο δίλημμα του φυλακισμένου
• Συλλογισμός του π. 1: C D
– Αν ο π. 2 δεν ομολογήσει, C 3, 3 0, 4
με συμφέρει να ομολογήσω
– Αν ο π. 2 ομολογήσει, D 4, 0 1, 1
με συμφέρει να ομολογήσω
• Ομοίως για τον π. 2
• Αποτέλεσμα: θα ομολογήσουν και οι 2 και θα πάνε φυλακή 3
χρόνια και οι 2
– Παρατήρηση: Αν είχαν διαλέξει και οι 2 να μην ομολογήσουν, θα
πήγαιναν μόνο μισό χρόνο φυλακή και θα είχαν καλύτερη ωφέλεια
4
Κυρίαρχες στρατηγικές
• Ιδανικά σε ένα παίγνιο θα θέλαμε μια στρατηγική που να δίνει
το καλύτερο αποτέλεσμα ανεξαρτήτως του τι διαλέγει ο άλλος
παίκτης
• Ορισμός: Μια στρατηγική si του π. 1 ονομάζεται κυρίαρχη
(dominant) αν
u1 (si, tj) ≥ u1 (s’, tj)
για κάθε στρατηγική s’ Î S1 και για κάθε στρατηγική tj Î S2
• Ομοίως για τον π. 2, μια στρατηγική tj είναι κυρίαρχη αν
u2 (si, tj) ≥ u2 (si, t’)
για κάθε στρατηγική t’ Î S2 και για κάθε στρατηγική si Î S1
Κυρίαρχες στρατηγικές
Ακόμα καλύτερα:
• Ορισμός: Μια στρατηγική si του π. 1 ονομάζεται αυστηρά κυρίαρχη
(strictly dominant) αν
u1 (si, tj) > u1 (s’, tj)
για κάθε στρατηγική s’ Î S1 και για κάθε στρατηγική tj Î S2
• Ομοίως για τον π. 2
• Στο δίλημμα του φυλακισμένου η στρατηγική D (ομολογώ) είναι
αυστηρά κυρίαρχη
Παρατηρήσεις:
• Μπορεί να υπάρχουν περισσότερες από μια κυρίαρχες στρατηγικές για έναν
παίκτη, αν δίνουν την ίδια ωφέλεια σε όλα τα προφίλ
• Κάθε παίκτης μπορεί να έχει το πολύ μια αυστηρά κυρίαρχη στρατηγική
• Μια αυστηρά κυρίαρχη στρατηγική είναι και κυρίαρχη
6
Ύπαρξη κυρίαρχων στρατηγικών
Επιλογή στρατηγικών
• Παραμένει το ερώτημα για το πώς πρέπει να επιλέξουν
στρατηγική οι παίκτες, όταν δεν υπάρχουν κυρίαρχες
στρατηγικές
• Model of rational choice: θεωρούμε ότι αν ένας παίκτης ξέρει
ή έχει κάποια πεποίθηση για την επιλογή του άλλου, τότε θα
διαλέξει την στρατηγική που μεγιστοποιεί την ωφέλειά του
• Έστω ότι κάποιος (π.χ. ένας σύμβουλος) προτείνει στους 2
παίκτες το προφίλ (s, t)
• Πότε θα ήταν πρόθυμοι οι 2 παίκτες να παίξουν σύμφωνα με
αυτό?
– Για να είναι σύμφωνος ο π. 1 θα πρέπει
u1(s, t) ≥ u1(s’, t) για κάθε άλλη στρατηγική s’ του π. 1
– Για να είναι σύμφωνος ο π. 2 θα πρέπει
u2(s, t) ≥ u2(s, t’) για κάθε στρατηγική t’ του π. 2
8
Σημεία ισορροπίας κατά Nash
(Nash Equilibrium)
• Ορισμός (Nash 1950): Ένα προφίλ στρατηγικών (s, t) είναι
σημείο ισορροπίας κατά Nash (Nash equilibrium), αν
κανένας παίκτης δεν έχει κίνητρο να αλλάξει από μόνος
του την στρατηγική του, βλέποντας την επιλογή του άλλου
παίκτη
• Δηλαδή πρέπει να ισχύουν ταυτόχρονα οι συνθήκες:
1. u1(s, t) ≥ u1(s’, t) για κάθε στρατηγική s’ Î S1
2. u2(s, t) ≥ u2(s, t’) για κάθε στρατηγική t’ Î S2
Σχηματικά:
t
( , ) ( , ) (x1, ) ( , ) ( , )
( , ) ( , ) (x2, ) ( , ) ( , )
( , ) ( , ) (x3, ) ( , ) ( , )
s ( ,y1) ( ,y2) (x, y) ( ,y4) ( ,y5)
( , ) ( , ) (x5, ) ( , ) ( , )
Για να είναι το προφίλ (s, t) σημείο ισορροπίας:
• Το x πρέπει να είναι μεγαλύτερο ή ίσο από όλα τα xi στην στήλη t
• Το y πρέπει να είναι μεγαλύτερο ή ίσο από όλα τα yj στην γραμμή s
10
Σημεία ισορροπίας κατά Nash
(Nash Equilibrium)
Ιδιότητες και παρατηρήσεις
• Τα σημεία ισορροπίας αποτελούν «σταθερά» σημεία του
παιγνίου
– Κάθε παίκτης σκέφτεται ότι αν ο άλλος παίκτης δεν αλλάξει, τότε
ούτε και ο ίδιος θέλει να αλλάξει
• Δηλαδή, κανένας παίκτης δεν «μετανιώνει» για την
επιλογή του σε ένα σημείο ισορροπίας (s, t)
– Αν παιχτεί το προφίλ (s, t), ο π. 1 βλέπει ότι έπραξε το καλύτερο
δυνατό απέναντι στην στρατηγική t του π. 2,
– Ομοίως, ο π. 2 βλέπει ότι έπραξε το καλύτερο δυνατό απέναντι
στην στρατηγική s του π. 1
• Προσοχή: Αν ταυτόχρονα αλλάξουν και οι 2, τότε μπορεί
να υπάρχουν καλύτερες εκβάσεις
11
12
Παράδειγμα 1: Prisoner’s Dilemma
Σε μικρά παίγνια, μπορούμε να εξετάσουμε όλα τα προφίλ
• (C, C): και οι 2 παίκτες έχουν κίνητρο C D
να αλλάξουν στρατηγική
• (C, D): Έχει κινητρο ο π. 1 C 3, 3 0, 4
• (D, C): Έχει κίνητρο ο π. 2
• (D, D): Κανένας δεν έχει κίνητρο D 4, 0 1, 1
S 0, 0 1, 2
2 σημεία ισορροπίας:
• (Β, Β) και (S, S)
• Και τα 2 παράγουν την ίδια συνολική ωφέλεια (3 μονάδες)
• Κάθε παίκτης όμως προτιμά διαφορετικό σημείο
ισορροπίας
14
Παράδειγμα 2α: Παίγνια συντονισμού
Παραλλαγή του
Bach or Stravinsky B S
B 2, 2 0, 0
S 0, 0 1, 1
Πάλι 2 σημεία ισορροπίας:
• (Β, Β) και (S, S)
• Τωρα όμως το (B, B) είναι προτιμότερο και για τους 2 παίκτες
• Παρ’ όλα αυτά, στο προφίλ (S, S) κανένας παίκτης δεν έχει κίνητρο να
αλλάξει
• Θα πρέπει να αλλάξουν και οι 2 για να οδηγηθούν σε καλύτερη
κατάσταση από το (S, S)
15
2, 2 0, 4
4, 0 -1, -1
17
18
Αυστηρά σημεία ισορροπίας
Σε κάποια παίγνια, μπορούμε να ικανοποιήσουμε μια πιο
αυστηρή παραλλαγή του αρχικού ορισμού
• Ορισμός: Ένα προφίλ στρατηγικών (s, t) είναι αυστηρό σημείο
ισορροπίας κατά Nash (strict Nash equilibrium), αν η ωφέλεια
κάθε παίκτη γίνεται αυστηρά μικρότερη όταν αλλάζει την
στρατηγική του
• Δηλαδή πρέπει να ισχύουν ταυτόχρονα οι συνθήκες:
1. u1(s, t) > u1(s’, t) για κάθε στρατηγική s’ Î S1, s’ ≠ s
2. u2(s, t) > u2(s, t’) για κάθε στρατηγική t’ Î S2, t’ ≠ t
19
t1 t2 t3
s1 1, 1 1, 0 0, 1
s2 1, 0 0, 1 1, 0
20
Σημεία ισορροπίας: Ανακεφαλαίωση
1. Δεν έχουν όλα τα παίγνια σημείο ισορροπίας
2. Στα παίγνια που υπάρχει σημείο ισορροπίας, δεν
είναι πάντα μοναδικό
– Κάποια παίγνια μπορεί να έχουν πολλά σημεία
ισορροπίας
3. Δεν παρέχουν απαραίτητα όλα τα σημεία
ισορροπίας την ίδια ωφέλεια
- Ούτε στον καθε παίκτη χωριστά, αλλά ούτε και
αθροιστικά
21
22
Παράδειγμα
L C R
T 2, 5 3, 3 6, 3
M 2, 7 4, 5 2, 7
B 1, 4 5, 4 2, 1
24
Πίσω στο παράδειγμα
L C R
T 2 *, 5 * 3, 3 6 *, 3
M 2 *, 7 * 4, 5 2, 7 *
B 1, 4 * 5*, 4 * 2, 1
t1 t2 t3
s1 1, 2 2, 1 1, 0
s2 2, 1 0, 1 0, 0
s3 0, 1 0, 0 1, 2
27
Άπειρα παίγνια
• Τι κανουμε αν σε ένα παίγνιο κάποιος παίκτης
έχει άπειρο αριθμό διαθέσιμων στρατηγικών?
• Παραδείγματα στρατηγικών που είναι άπειρες το
πλήθος:
– Πόσο χρόνο να διαθέσω στην εκπόνηση μιας
εργασίας?
– Τι ποσό να προσφέρω σε μια δημοπρασία?
– Τι ποσό να επενδύσω στο χρηματιστήριο?
– Σε ποια τοποθεσία να εγκαινιάσω ένα νέο μαγαζί μιας
αλυσίδας καταστημάτων?
• Δεν μπορούμε να έχουμε αναπαράσταση με
μορφή πινάκων
28
Άπειρα παίγνια
• Πώς αναλύουμε τέτοια παίγνια?
• Χρησιμοποιώντας τις συναρτήσεις βέλτιστης
απόκρισης
• Δεν έχουμε άλλον τρόπο
29
31
32
Γραφική αναπαράσταση
• Βέλτιστη απόκριση του π. 1 στο y: (c+y)/2
• Βέλτιστη απόκριση του π. 2 στο x: (c+x)/2
• (c, c) είναι το μοναδικό σημείο ισορροπίας
x
1
B2(x)
c Β1(y)
c/2
c/2 c 1 y 33
Ανάλυση με τη γραφική
αναπαράσταση
• Κάνουμε τη γραφική παράσταση της B1(y) του π. 1, ως προς
τον άξονα y
• Κάνουμε τη γραφική παράσταση της B2(x) του π. 2, ως προς
τον άξονα x
• Τα σημεία τομής είναι ακριβώς τα σημεία ισορροπίας
• Η ίδια ανάλυση μπορεί να γίνει αν οι 2 παίκτες είχαν
διαφορετική τιμή για την σταθερά c
– Π.χ. c1 και c2 αντίστοιχα
34
Παράδειγμα 2: Ολιγοπώλια Cournot
• Μάλλον η πρώτη κατηγορία παιγνίων που μελετήθηκαν
[Cournot 1838]
• Απόπειρα να μοντελοποιηθεί ο ανταγωνισμός μεταξύ
εταιρειών που παράγουν παρόμοια προϊόντα
• Για απλότητα, έστω ότι έχουμε 2 εταιρείες
• Βασικές υποθέσεις:
– Κόστος παραγωγής: αν η εταιρεία i παράγει qi μονάδες του προϊόντος,
τότε το κόστος παραγωγής είναι Ci(qi), για i=1, 2
– H Ci είναι αύξουσα
– Tιμή προϊόντος: εξαρτάται από την συνολική παραγωγή των 2
εταιρειών, q1 + q2
• Ισχύει π.χ. για αγροτικά προϊόντα, και όχι μόνο
– Συνάρτηση τιμής: P(q1 + q2), φθίνουσα (όσο αυξάνεται η
διαθεσιμότητα του προϊόντος, η τιμή πέφτει)
– Θεωρούμε επίσης ότι όλη η παραγόμενη ποσότητα θα πουληθεί
35
36
Παράδειγμα 2: Ολιγοπώλια Cournot
• Θα αναλύσουμε το πρόβλημα για συγκεκριμένες μορφές της
συνάρτησης κόστους και της συνάρτησης τιμής
• Έστω ότι Ci(qi) = c ⋅ qi, για i = 1, 2
– Γραμμικό κόστος παραγωγής, με κλίση c
– Μπορούμε να έχουμε και διαφορετική κλίση ανά παίκτη
• Συνάρτηση τιμής:
– Γραμμική, φθίνουσα που εν τέλει μηδενίζεται
όταν η παραγωγή φτάσει σε πολύ υψηλά επίπεδα
– Στην πράξη δεν μηδενίζεται, αλλά γίνεται πολύ χαμηλή
α – Q, αν Q ≤ α
P(Q) =
0, αν Q > α
37
q1 ⋅ (α – c – q1 – q2), αν q1 + q2 ≤ α
=
– c ⋅ q 1, αν q1 + q2 > α
38
Παράδειγμα 2: Ολιγοπώλια Cournot
Εύρεση βέλτιστης απόκρισης του π. 1
• Έστω q2 μια στρατηγική του π. 2
• Θέλουμε να βρούμε το Β1(q2)
• Περίπτωση 1: q2 < α - c
– Τότε ο άνω κλάδος της συνάρτησης ωφέλειας είναι
q1 ⋅ (α – c – q1 – q2) = (α – c – q2) ⋅ q1 – (q1)2
39
B2(q1)
(α-c)/2
(α-c)/3 Β1(q2)
(α-c)/2 α-c q2
41
42
Παίγνια πολλών παικτών
43
44
Παίγνια σε κανονική μορφή
Ορισμός: Ένα παίγνιο σε κανονική μορφή αποτελείται
από
– ένα σύνολο παικτών N = {1, 2,..., n}
– Για κάθε παίκτη i, ένα σύνολο διαθέσιμων στρατηγικών Si
– Για κάθε παίκτη i, μια συνάρτηση ωφέλειας
ui: S1 x ... x Sn → R
• Προφίλ στρατηγικών: Κάθε διάνυσμα της μορφής (s1,
..., sn), με si Î Si
– Κάθε προφίλ αντιστοιχεί σε μια έκβαση του παιγνίου
45
Ορολογία
• Δεδομένου ενός διανύσματος s = (s1, ..., sn),
συμβολίζουμε με s–i το διάνυσμα στο οποίο έχουμε
αφαιρέσει την i-οστή συντεταγμένη (αν το s είναι
προφίλ στρατηγικών, αφαιρούμε απλά την στρατηγική
του π. i):
s–i = (s1, ..., si-1, si+1, ..., sn)
• Π.χ. αν s = (3, 5, 7, 8), τότε
– s-3 = (3, 5, 8)
– s-1 = (5, 7, 8)
• Το αρχικό προφίλ s μπορούμε να το γράφουμε και
ως s = (si, s–i)
Κυρίαρχες στρατηγικές
• Μια στρατηγική si του π. i ονομάζεται κυρίαρχη (dominant) αν
ui (si, s-i) ≥ ui (s’, s-i)
για κάθε στρατηγική s’ Î Si και για κάθε προφίλ s-i των υπόλοιπων παικτών
• Μια στρατηγική si του π. i ονομάζεται αυστηρά κυρίαρχη (strictly dominant)
αν
ui (si, s-i) > ui (s’, s-i)
για κάθε στρατηγική s’ Î Si και για κάθε προφίλ s-i των υπόλοιπων παικτών
48
Πολυπλοκότητα εύρεσης
Με μια πρώτη ματιά:
• Μπορούμε να δοκιμάσουμε με brute force όλα τα προφίλ
• Έστω ότι έχουμε n παίκτες
• Και έστω m επιλογές για κάθε παίκτη: |Si|= m
• Θα πρέπει να ελέγξουμε mn προφίλ!
• Αρκετά πιο δύσκολο πρόβλημα από ότι στην περίπτωση
των 2 παικτών
• Σε πολλές περιπτώσεις όμως μπορούμε να
εκμεταλλευτούμε συμμετρίες ή άλλες ιδιότητες και να
μειώσουμε την πολυπλοκότητα
49
● B ●
s t
● B ●
s t
• Έστω n = 5 παίκτες
• Για κάθε παίκτη i, Si = {A, B, C}
• Πιθανά προφίλ: 35 = 243
• Ωφέλειες: αυξάνονται όταν μειώνεται η καθυστέρηση
• Στο προφίλ s = (A, C, A, B, A}
• u1(s) = -15, u2(s) = -10, u3(s) = -15, u4(s) = -7.5, u5(s) = -15
51
● B ●
s t
C
• Δεν είναι ανάγκη να εξετάσουμε και τα 243 προφίλ
• Συμμετρία:
– Σε κάθε διαδρομή, η καθυστέρηση δεν εξαρτάται από το ποιοι την
επέλεξαν, αλλά μόνο από το πόσοι την επέλεξαν
• Η συμμετρία μειώνει σημαντικά την αναζήτηση
• Μπορούμε να εκμεταλλευτούμε κι άλλες ιδιότητες
• Π.χ. Δεν υπάρχει σημείο ισορροπίας όπου κάποια διαδρομή δεν
χρησιμοποιείται από κανέναν παίκτη
Άσκηση: βρείτε (αν υπάρχουν) τα σημεία ισορροπίας
52
Παράδειγμα 2: Το δίλημμα των απεργών
53
55
Prisoner’s Dilemma
• Ας επανέλθουμε στο δίλημμα του φυλακισμένου
• Είχαμε δει ότι η στρατηγική D είναι κυρίαρχη C D
• Συλλογισμός του π. 1: C 3, 3 0, 4
– Αν ο π. 2 δεν ομολογήσει,
με συμφέρει να ομολογήσω D 4, 0 1, 1
– Αν ο π. 2 ομολογήσει,
με συμφέρει να ομολογήσω
• Ομοίως για τον π. 2
• Κάθε παίκτης πιστεύει ότι δεν έχει νόημα να επιλέξει την
στρατηγική C
• Η στρατηγική C “κυριαρχείται” από την D
56
Αυστηρά κυριαρχούμενες στρατηγικές
• Ορισμός: Μια στρατηγική si του π. i κυριαρχεί
αυστηρά μια άλλη στρατηγική s’ αν για οποιοδήποτε
προφιλ s-i των υπόλοιπων παικτών, ισχύει ότι
ui(si, s-i) > ui(s’, s-i)
• H στρατηγική s’ θα λέγεται αυστηρά κυριαρχούμενη
57
58
Επαναλαμβανόμενη αφαίρεση
αυστηρά κυριαρχούμενων στρατηγικών
• Η B του π. 1 κυριαρχείται από L M R
την T και την C
T (4, 4) (4, 1) (3, 0)
• Οι στρατηγικές του π. 2
δεν κυριαρχούνται C (3, 1) (3, 4) (4, 0)
• Αν ο π. 1 είναι λογικός,
δεν θα επιλέξει την B B (2, 0) (2, 0) (2, 6)
Δεν πρέπει να
επιλέξω την B
59
Δεν παίζω
την B
L M R
Άρα δεν
επιλέγω R T (4, 4) (4, 1) (3, 0)
61
Επαναλαμβανόμενη αφαίρεση
αυστηρά κυριαρχούμενων στρατηγικών
Πώς τρέχουμε τον αλγόριθμο επαναλαμβανόμενης
αφαίρεσης:
• Δεδομένου ενός παιγνίου n παικτών
– Διαλέγουμε έναν παίκτη i που έχει τουλ. 1 αυστηρά
κυριαρχούμενη στρατηγική
– Διαγράφουμε μία από τις αυστηρά κυριαρχούμενες
στρατηγικές του π. i
– repeat until: δεν υπάρχει παίκτης που να έχει αυστηρά
κυριαρχούμενη στρατηγική
62
Επαναλαμβανόμενη αφαίρεση αυστηρά
κυριαρχούμενων στρατηγικών
• Παρατήρηση: Οι στρατηγικές που επιβιώνουν αυτή
την διαδικασία δεν εξαρτώνται από την σειρά με
την οποία κάνουμε την αφαίρεση
– δλδ, δεν έχει σημασία ποιον παίκτη θα διαλέγουμε σε
καθε βήμα
64
Ασθενώς κυριαρχούμενες στρατηγικές
L R L R
T 1, 1 0, 0 T 2, 2 3, 0
B 0, 0 0, 0 B 0, 3 3, 3
66
Επαναλαμβανόμενη αφαίρεση αυστηρά
κυριαρχούμενων στρατηγικών
• Θεώρημα: Σε κάθε παίγνιο, υπάρχει πάντα
τουλάχιστον 1 σημείο ισορροπίας που επιβιώνει
όταν κάνουμε επαναλαμβανόμενη αφαίρεση
ασθενώς κυριαρχούμενων στρατηγικών
– επομένως: αν μας νοιάζει απλά να βρούμε ένα σημείο
ισορροπίας, μπορούμε να απλοποιήσουμε το παίγνιο,
χωρίς να μας απασχολεί η σειρά αφαίρεσης
67
3
Παράδειγμα χωρίς σημεία
ισορροπίας: Matching Pennies
H T
H 1, -1 -1, 1
T -1, 1 1, -1
5
Matching Pennies: Πιθανοτικές
στρατηγικές
½ ½ • Κύρια ιδέα: Ας επιτρέψουμε στους
H T παίκτες να επιλέγουν πιθανοτικά (αν
θέλουν) τις στρατηγικές τους
½H 1, -1 -1, 1 • Π.χ. Έστω ότι και οι 2 παίκτες
αποφασίζουν να επιλέξουν
• H με πιθ/τα 1/2
½T -1, 1 1, -1 • T με πιθ/τα 1/2
• Τότε κάθε έκβαση είναι ισοπίθανη με
πιθ/τα ¼
• Για τον π. 1:
– P[να κερδίσω] = P[να χάσω] = ½
– Μέση ωφέλεια = 0
• Ομοίως για τον π. 2
6
7
Matching Pennies: Πιθανοτικές
στρατηγικές
½ ½
• Αν ο π. 1 επιλέξει να παίξει H με πιθ/τα
H T p, και T με πιθ/τα 1-p, όπου p Î [0, 1], οι
εκβάσεις θα είναι:
H 1, -1 -1, 1
– (H, H) με πιθ/τα p/2,
– (T, H) με πιθ/τα (1-p)/2,
T -1, 1 1, -1
– (H, T) με πιθ/τα p/2,
– (T, T) με πιθ/τα (1-p)/2
• Ωφέλεια π. 1 = (+1) [p/2 + (1-p)/2] + (-1)
[p/2 + (1-p)/2] = 0
Επιλογή στρατηγικών
Συνοψίζοντας:
• Έστω ότι ο π. 2 επιλέγει πιθανοτικά με βάση την
ομοιόμορφη κατανομή (H με πιθ/τα 1/2, T με πιθ/τα 1/2)
• Πώς πρέπει να παίξει ο π. 1?
– Κάθε στρατηγική του π. 1 δίνει την ίδια μέση ωφέλεια
– Όμως, αν παίξει ντετερμινιστικά H, δημιουργείται κίνητρο στον
αντίπαλο να παίζει T και να κερδίζει πάντα
– Ομοίως αν παίξει ντετερμινιστικά T
– Αν ο π. 1 παίξει πιθανοτικά, επιλέγοντας π.χ. Η με πιθ/τα p < 1/2,
ο π. 2 έχει κίνητρο να επιλέξει H, και να κερδίζει με μεγαλύτερη
πιθανότητα
• Τελικό συμπέρασμα: Η μόνη λογική επιλογή για τον π. 1
είναι να επιλέξει και αυτός την ομοιόμορφη κατανομή
9
Μεικτές στρατηγικές
• Ορισμός: Μια μεικτή στρατηγική (mixed strategy) ενός
παίκτη είναι μια κατανομή πιθανότητας πάνω στο σύνολο
των διαθέσιμων επιλογών του
• Αν S = {s1, s2,..., sn} οι διαθέσιμες στρατηγικές ενός παίκτη,
μια μεικτή στρατηγική είναι ένα διάνυσμα της μορφής
p = (p1, ..., pn), όπου
pi ≥ 0 για i=1, ..., n, και p1 + ... + pn = 1
• pi = πιθανότητα να επιλέξει ο παίκτης την i-οστή
στρατηγική του
• Θα το γράφουμε και ως: pi = p(si) = πιθ/τα να επιλεγεί η si
• Matching pennies: Η ομοιόμορφη κατανομή γράφεται ως
p = (1/2, 1/2) ή p(H) = p(T) = ½
10
Μεικτές στρατηγικές
• Πότε έχουν νόημα οι μεικτές στρατηγικές?
• Όταν το παίγνιο παίζεται επαναλαμβανόμενα
• Όταν μας ενδιαφέρει ως κριτήριο είτε η μέση ωφέλεια είτε
κάποια άλλη συνάρτηση που παίρνει υπόψη τις πιθανότητες
• Μπορούμε να σκεφτόμαστε ότι ο παίκτης επιλέγει να ρίξει ένα
νόμισμα για να αποφασίσει τι θα παίξει
• Εναλλακτική θεώρηση μεικτών στρατηγικών: κάθε παίκτης του
παιγνίου εκπροσωπείται από διαφορετικά μέλη ενός πληθυσμού
– Π.χ. Στο Survivor, π. 1 = Μαχητές, π. 2 = Διάσημοι
– Η επίδοση στην ταχύτητα του π. 1 εξαρτάται από το ποιος εκπροσωπεί
τους Μαχητές σε κάθε γύρο
– Στην επιλογή «να τρέξω ή να πάω πιο αργά» οι Μαχητές παίζουν μια
μεικτή στρατηγική, όπου ένα ποσοστό των παικτών είναι αργοί
– Ομοίως στην εκτέλεση πέναλτυ: η ομάδα εκπροσωπείται από παίκτες
– Η συνολική στρατηγική της ομάδας είναι μια κατανομή πιθανότητας
πάνω στους πιθανούς τρόπους εκτέλεσης (αρ. γωνία, κέντρο, δεξιά
γωνία)
11
Αμιγείς και μεικτές στρατηγικές
• Στο εξής, οι αρχικές διαθέσιμες επιλογές θα αναφέρονται ως
αμιγείς στρατηγικές
• Για 2 παίκτες με S1 = {s1, s2,..., sn} και S2 = {t1, t2,..., tm}
• O π. 1 έχει n αμιγείς στρατηγικές
• Ο π. 2 έχει m αμιγείς στρατηγικές
• Κάθε αμιγής μπορεί να αναπαρασταθεί και σαν μεικτή που
δίνει πιθανότητα 1 μόνο σε μια επιλογή
• Π.χ. η αμιγής στρατηγική s1 γράφεται και σαν την μεικτή
(1, 0, 0, ..., 0)
• Πιο γενικά: η στρατηγική si γράφεται σε διανυσματική μορφή
ως η μεικτή στρατηγική ei = (0, 0, ..., 1, 0, ..., 0)
– Με 1 στην θέση i, 0 στις υπόλοιπες
– Συχνά είναι πιο βολικό να χρησιμοποιούμε για την i-οστή αμιγή
στρατηγική το μοναδιαίο διάνυσμα ei
12
13
Μέση ωφέλεια (για 2 παίκτες)
• Έστω ένα n x m παίγνιο
• Αμιγείς στρατηγικές π. 1: S1 = {s1, s2,..., sn}
• Αμιγείς στρατηγικές π. 2: S2 = {t1, t2,..., tm}
• Έστω p = (p1, ..., pn) μια μεικτή στρατηγική του π. 1
• και q = (q1, ..., qm) μια μεικτή στρατηγική του π. 2
• Μέση ωφέλεια του π. 1:
Παράδειγμα
B S • Έστω p = (4/5, 1/5),
2, 1 0, 0 q = (1/2, 1/2)
B
• u1(p, q) = 4/5 x 1/2 x 2 +
S 0, 0 1, 2 1/5 x 1/2 x 1 = 0.9
• u2(p, q) = 4/5 x 1/2 x 1 +
1/5 x 1/2 x 2 = 0.6
• Πότε μπορούμε να έχουμε
ισορροπία με μεικτές
στρατηγικές?
15
Σημεία ισορροπίας με μεικτές
στρατηγικές
• Ορισμός: Ένα προφίλ μεικτών στρατηγικών (p, q) είναι
σημείο ισορροπίας κατά Nash αν
– u1(p, q) ≥ u1(p’, q) για κάθε άλλη μεικτή στρατηγική p’ του π. 1
– u2(p, q) ≥ u2(p, q’) για κάθε άλλη μεικτή στρατηγική q’ του π. 2
16
17
Σημεία ισορροπίας με μεικτές
στρατηγικές
Υπάρχει πιο εύκολος τρόπος?
• Παρατήρηση: Μια μεικτή στρατηγική γράφεται σαν κυρτός συνδυασμός
(convex combination) από αμιγείς στρατηγικές:
• Έστω ότι σε ένα προφίλ (p, q), ο π. 1 έχει κίνητρο να επιλέξει μια μεικτή
στρατηγική p’ που του δίνει μεγαλύτερη ωφέλεια, απέναντι στην
στρατηγική q του π. 2
19
Παράδειγμα
B S • Στο Bach-or-Stravinsky, έστω p =
(4/5, 1/5), q = (1/2, 1/2)
2, 1 0, 0 • u1(p, q) = 4/5 x 1/2 x 2 + 1/5 x 1/2 x 1
B = 0.9
• u2(p, q) = 4/5 x 1/2 x 1 + 1/5 x 1/2 x 2
S 0, 0 1, 2 = 0.6
• Για να δούμε αν το προφίλ (p, q)
είναι σημείο ισορροπίας, πρέπει να
επαληθεύσουμε τις ανισότητες
– u1(p, q) ≥ u1(B, q)
– u1(p, q) ≥ u1(S, q)
– u2(p, q) ≥ u2(p, B)
– u2(p, q) ≥ u2(p, S)
• Είναι το (p, q) σημείο ισορροπίας?
20
21
Σημεία ισορροπίας για παίγνια n
παικτών
• Ορισμός: Ένα προφίλ p = (p1, ..., pn) είναι σημείο ισορροπίας
με μεικτές στρατηγικές αν για κάθε παίκτη i και κάθε αμιγή
στρατηγική ei του π. i, ισχύει ότι
ui(p) ≥ ui(ei, p-i)
22
Παραδείγματα
• Στο δίλημμα του φυλακισμένου, και στο Bach-or-Stravinsky,
υπάρχει ήδη σημείο ισορροπίας με αμιγείς στρατηγικές
– Το θεώρημα του Nash εδώ δεν προσθέτει κάποια πληροφορία. Ίσως
όμως υπάρχουν και επιπλέον σημεία ισορροπίας με μεικτές
στρατηγικές, ίσως όχι
• Για το Πέτρα-Ψαλίδι-Χαρτί?
25
Θεωρία Παιγνίων - Ενότητα 4
Εύρεση σημείων ισορροπίας σε παίγνια
μηδενικού αθροίσματος
Περίληψη
• Παίγνια μηδενικού αθροίσματος
– Pessimistic play
– Αμιγείς max-min και min-max στρατηγικές
– Μεικτές max-min και min-max στρατηγικές
• Υπολογισμός σημείων ισορροπίας σε παίγνια
μηδενικού αθροίσματος
– Το θεώρημα του von Neumann
– Αλγόριθμοι για 2x2 παίγνια
– 2xn παίγνια
– nxm 0-sum παίγνια μέσω γραμμικού προγραμματισμού
2
Σημεία ισορροπίας: Ύπαρξη
• Το θεώρημα του Nash εξασφαλίζει ΜΟΝΟ την
ύπαρξη και όχι την εύρεση σημείων ισορροπίας
• Απόδειξη βασισμένη σε fixed point theorems
– Brouwer’s fixed point theorem
• Η απόδειξη του θεωρήματος δεν «υποδεικνύει»
κάποιον γρήγορο αλγόριθμο υπολογισμού σημείων
ισορροπίας
• Μπορούμε να έχουμε αποδοτικούς αλγορίθμους για
παίγνια 2 παικτών?
– Για παίγνια περισσότερων παικτών?
3
4
Παίγνια μηδενικού αθροίσματος
(0-sum games)
• Μια ειδική περίπτωση παιγνίων κανονικής μορφής
• Είναι παίγνια όπου σε κάθε προφίλ αμιγών 4 2
στρατηγικών (s, t) με s Î S1, t Î S2
u1(s, t) + u2(s, t) = 0
• Η ωφέλεια του ενός παίκτη ισούται με την απώλεια
1 3
του άλλου
• Αναφέρονται και ως πλήρως ανταγωνιστικά παίγνια
(strictly competitive)
• Αν γνωρίζουμε τον πίνακα ωφέλειας του ενός
παίκτη, τότε ξέρουμε και τον πίνακα του άλλου
• Σύμβαση: για την αναπαράσταση τέτοιων παιγνίων
θα χρησιμοποιούμε τον πίνακα Α του π. 1
– Ο πίνακας του π. 2 είναι ο -Α
Παράδειγμα 1
• Η τιμή v1 είναι η ελάχιστη ωφέλεια που
μπορεί να εγγυηθεί ο π. 1 ανεξαρτήτως
του τι θα επιλέξει ο π. 2
4 2
• Ομοίως η v2 είναι η μέγιστη ζημιά που
μπορεί να εγγυηθεί ο π. 2 ανεξαρτήτως 1 3
του τι θα επιλέξει ο π. 1
• Υπολογισμός του v1 για τον π. 1:
– Αν διαλέξω την γραμμή 1, στη χειρότερη
περίπτωση παίρνω 2
– Αν διαλέξω τη γραμμή 2, στη χειρότερη
περίπτωση παίρνω 1
– Άρα v1 = 2
• Ομοίως για το v2 του π. 2:
– v2 = 3 8
Παράδειγμα 1
• v1 = 2 < v2 = 3
• Μια στρατηγική που εγγυάται ωφέλεια
τουλάχιστον v1 ονομάζεται max-min
στρατηγική για τον π. 1 4 2
• Αντίστοιχα για τον π. 2, μια min-max
στρατηγική εγγυάται απώλεια το πολύ v2 1 3
• Αν οι παίκτες ακολουθήσουν τις max-min και
min-max στρατηγικές τους, τελικό προφίλ =
1η γραμμή κ 2η στήλη
• Είναι σημείο ισορροπίας αυτό το προφίλ?
– Όχι
• Έχει σημεία ισορροπίας με αμιγείς
στρατηγικές το παίγνιο?
– Οχι 9
Παράδειγμα 2
• Υπολογισμός του v1 για τον π. 1:
– Γραμμή 1, min = 4 t1 t2 t3 t4
– Γραμμή 2, min = 1 s1 4 5 6 4
– Γραμμή 3, min = 0
s2 2 6 1 3
– Γραμμή 4, min = 4
– v1 = max {4, 1, 0, 4} = 4 s3 1 0 0 2
10
Παράδειγμα 2
• Σε αντίθεση με το Παράδειγμα 1, εδώ
έχουμε v1 = v2 t1 t2 t3 t4
• Προτεινόμενες στρατηγικές: s1 4 5 6 4
– s1 ή s4 για τον π. 1 s2 2 6 1 3
– t1 ή t4 για τον π. 2
s3 1 0 0 2
• To pessimistic play εδώ οδηγεί σε 4
πιθανά προφίλ s4 4 4 7 4
• Παρατήρηση:
i. Ίδιες ωφέλειες και στα 4 προφίλ
ii. Και τα 4 προφίλ είναι σημεία
ισορροπίας!
iii. Δεν υπάρχει κανένα άλλο σημείο
ισορροπίας
11
Παράδειγμα 3
• Υπολογισμός του v1 για τον π. 1:
– Γραμμή 1, min = 4 t1 t2 t3
– Γραμμή 2, min = 0 s1 4 6 5
– Γραμμή 3, min = 1
s2 2 1 0
– v1 = max {4, 0, 1} = 4
• Υπολογισμός του v2 για τον π. 2: s3 1 3 1
– Στήλη 1, max = 4
– Στήλη 2, max = 6
– Στήλη 3, max = 5
– v2 = min {4, 6, 5} = 4
• Και εδώ έχουμε v1 = v2
12
Παράδειγμα 3
• Προτεινόμενο προφίλ: (s1, t1)
t1 t2 t3
• To pessimistic play εδώ οδηγεί στο
s1 4 6 5
μοναδικό σημείο ισορροπίας του
παιγνίου! s2 2 1 0
• Σύμπτωση? s3 1 3 1
13
14
Σημεία ισορροπίας με αμιγείς
στρατηγικές
• Πόρισμα: Σε παίγνια όπου v1 < v2, δεν υπάρχει σημείο
ισορροπίας με αμιγείς στρατηγικές
• Σε αρκετά παίγνια μηδενικού αθροίσματος, έχουμε ότι
maxi minj Αij ≠ minj maxi Αij
• Άρα το pessimistic play με αμιγείς στρατηγικές δεν οδηγεί
πάντα σε σημείο ισορροπίας
• Ιδέα (von Neumann): Να χρησιμοποιήσουμε pessimistic
play με μεικτές στρατηγικές!
15
16
Επιστροφή στο Παράδειγμα 1
• Υπενθύμιση:
• v1 = 2 < v2 = 3
• Θα βρούμε πρώτα το w1 = maxp minq u1(p, q) 4 2
• Πρέπει να ψάξουμε για μια στρατηγική p =
(p1, p2) = (p1, 1 – p1) του π. 1 1 3
• Λήμμα: Δεδομένης στρατηγικής p του π. 1, η
ποσότητα minq u1(p, q) ελαχιστοποιείται σε
αμιγή στρατηγική του π. 2
– Δλδ, δεν χρειάζεται να γίνουν και οι 2
βελτιστοποιήσεις (max κ min) ως προς μεικτές
στρατηγικές
17
Ανάλυση Παραδείγματος 1
• Άρα ο υπολογισμός απλουστεύεται
ως εξής: 4 2
w1 = maxp minq u1(p, q)
= maxp min{ u1(p, e1), u1(p, e2) } 1 3
= maxp1 min{ 4p1 + 1-p1, 2p1 + 3(1-p1) }
= maxp1 min{ 3p1 + 1, 3 – p1 }
18
Ανάλυση Παραδείγματος 1
• w1 = maxp1 min { 3p1 + 1, 3 – p1 }
• Χρειάζεται να μεγιστοποιήσουμε το
minimum 2 γραμμών 4 2
1 3
0 1/2 1 p1 19
Ανάλυση Παραδείγματος 1
• w1 = maxp1 min { 3p1 + 1, 3 – p1 }
• Χρειάζεται να μεγιστοποιήσουμε το
minimum 2 γραμμών 4 2
1 3
0 1/2 1 p1 20
Ανάλυση Παραδείγματος 1
Συνοψίζοντας:
• w1 = maxp minq u1(p, q) = maxp1 min { 3p1 + 1,
3 – p1 } = 3*1/2 + 1 = 5/2 4 2
• Άρα ο π. 1 αρκεί να παίξει τη στρατηγική
p = (1/2, 1/2) για να εγγυηθεί μέση ωφέλεια 1 3
5/2 ανεξαρτήτως της επιλογής του π. 2
• Με μεικτές στρατηγικές, ο π. 1 μπορεί να
εγγυηθεί καλύτερη ωφέλεια (αφού v1 = 2)
21
Ανάλυση Παραδείγματος 1
Αν κάνουμε παρόμοια ανάλυση για τον π. 2:
w2 = minq maxp u1(p, q)
= minq max{ u1(e1, q), u1(e2, q) } 4 2
= minq1 max{ 4q1 + 2(1-q1), q1 + 3(1-q1) }
1 3
= minq1 max{ 2q1 + 2, 3 – 2q1 }
22
Ανάλυση Παραδείγματος 1
• w2 = minq1 max{ 2q1 + 2, 3 – 2q1 }
• Και πάλι η μια ευθεία είναι αύξουσα και η
άλλη φθίνουσα 4 2
1 3
0 1/4 1 q1 23
Ανάλυση Παραδείγματος 1
• w2 = minq1 max{ 2q1 + 2, 3 – 2q1 }
• Και πάλι η μια ευθεία είναι αύξουσα και η
άλλη φθίνουσα 4 2
1 3
0 1/4 1 q1 24
Ανάλυση Παραδείγματος 1
Τελικά συμπεράσματα:
• Στρατηγικές των 2 παικτών
• p = (1/2, 1/2), q = (1/4, 3/4) 4 2
• w1 = w2 = 5/2
• Άρα με μεικτές στρατηγικές, και οι 2 παίκτες 1 3
εγγυώνται κάτι καλύτερο στον εαυτό τους
• Επίσης, ενώ με αμιγείς στρατηγικές
maxi minj Αij ≠ minj maxi Αij
• Με μεικτές έχουμε ισότητα
maxp minq u1(p, q) = minq maxp u1(p, q)
• Τέλος, το προφίλ που βρήκαμε είναι και
σημείο ισορροπίας! (ελέγξτε το)
25
26
Σημεία ισορροπίας με μεικτές
στρατηγικές
Συμπεράσματα από το Θεώρημα του von Neumann
27
28
Παράδειγμα 4
t1 t2 t3 t4
s1 6 5 3 5
s2 1 2 6 4
Παράδειγμα 4
t1 t2 t3 t4
s1 6 5 3 5
s2 1 2 6 4
30
Παράδειγμα 4
t1 t2 t3 t4
s1 6 5 3 5
s2 1 2 6 4
31
Παράδειγμα 4
– f1(p1) = 5p1 + 1,
– f2(p1) = 3p1 + 2,
– f3(p1) = 6 – 3p1,
– f4(p1) = p1 + 4
f3
6
5
f4
4
3
f2
2
1 f1
0 1/2 2/3 1 p1 32
Παράδειγμα 4
– f1(p1) = 5p1 + 1,
– f2(p1) = 3p1 + 2,
– f3(p1) = 6 – 3p1, • To min{ f1(p1), f2(p1), f3(p1), f4(p1) }
– f4(p1) = p1 + 4 αντιστοιχεί σε μια τεθλασμένη
γραμμή
- Ξεκινά με την f1, μετά με την
f3
6 f2 και μετά με την f3
• Η max-min στρατηγική του π. 1
5
αντιστοιχεί στο μέγιστο σημείο
f4
4 της τεθλασμένης
• Άρα στο σημείο τομής
3 f2(p1) = f3(p1) Þ p1 = 2/3
f2
2
1 f1
0 1/2 2/3 1 p1 33
Παράδειγμα 4
t1 t2 t3 t4
s1 6 5 3 5
s2 1 2 6 4
s2 1 2 6 4
35
Παράδειγμα 4
t1 t2 t3 t4
s1 6 5 3 5
s2 1 2 6 4
36
Παράδειγμα 4
• w2 = minq2 max{ 2q2 + 3, 6 – 4q2 }
• Από εδώ υπάρχουν 2 ισοδύναμοι τρόποι για να συνεχίσουμε
1. Κάνουμε την ανάλυση για τον π. 2 με την γραφική παράσταση όπως
ακριβώς στο παράδειγμα 1
2. Χρησιμοποιώντας το θεώρημα του von Neumann
- Ξέρουμε από το θεώρημα ότι w1 = w2
- Άρα w2 = 4
- Το w2 επιτυγχάνεται με την 2η κ 3η στήλη του π. 2
- Άρα μπορούμε να λύσουμε την εξίσωση 2q2 + 3 = 4 ή την εξίσωση 6 – 4q2 = 4
- Και οι 2 δίνουν ως λύση την q2 = ½
• Τελικό συμπέρασμα:
- w1 = w2 = 4
- Τελικό προφίλ στρατηγικών: ((2/3, 1/3), (0, 1/2, 1/2, 0))
- Το προφίλ αυτό είναι και το μοναδικό σημείο ισορροπίας του παιγνίου
37
Παίγνια nxm
• Μπορούμε να γενικεύσουμε t1 t2 t3 t4
αυτή τη μεθοδολογία σε nxm s1 6 5 3 5
παίγνια με n ≥ 3 και m ≥ 3?
s2 1 2 6 4
• Πρέπει να ψάξουμε για
στρατηγική του π. 1 στη μορφή s3 3 8 3 2
p = (p1, p2, p3, 1 – p1 – p2 – p3) s4 5 4 2 0
• Αν ξεκινήσουμε με την ίδια
μεθοδολογία:
w1 = maxp minq u1(p, q)
= maxp min{ u1(p, e1), u1(p, e2) , u1(p, e3) , u1(p, e4) }
= maxp1,p2,p3 min{ 6p1 + p2 + 3p3 + 5(1 – p1 – p2 – p3), 5p1 + 2p2 + 8p3 + 4(1 –
p1 – p2 – p3), ..., ...}
Γραμμικός προγραμματισμός
• Τι είναι ένα γραμμικό πρόγραμμα?
• Οποιοδήποτε πρόβλημα βελτιστοποίησης όπου
– Η αντικειμενική συνάρτηση είναι γραμμική
– Οι περιορισμοί είναι επίσης γραμμικοί
-∞
41
Πρωτεύον ΓΠ Δυικό ΓΠ 42
Παράδειγμα 5
t1 t2 t3 t4
s1 6 5 3 5
s2 1 2 6 4
s3 3 8 3 2
• v1 = 3, v2 = 5
• Αναγκαστικά θα χρησιμοποιήσουμε γραμμικό
προγραμματισμό
• Ψάχνουμε για στρατηγικές
p = (p1, p2, p3) και q = (q1, q2, q3, q4)
43
Παράδειγμα 5
Λύνοντας τα 2 γραμμικά t1 t2 t3 t4
προγράμματα με
οποιοδήποτε σχετικό
s1 6 5 3 5
πακέτο λογισμικού, s2 1 2 6 4
βρίσκουμε το σημείο
ισορροπίας s3 3 8 3 2
Πρωτεύον ΓΠ Δυικό ΓΠ
max w min w
s.t. s.t.
w ≤ 6p1 + p2 + 3p3 w ≥ 6q1 + 5q2 + 3q3 + 5q4
w ≤ 5p1 + 2p2 + 8p3 w ≥ q1 + 2q2 + 6q3 + 4q4
w ≤ 3p1 + 6p2 + 3p3 w ≥ 3q1 + 8q2 + 3q3 + 2q4
w ≤ 5p1 + 4p2 + 2p3 q1 + q2 + q3 + q4 = 1
p1 + p2 + p3 = 1 q1, q2, q3, q4 ≥ 0
p1, p2, p3 ≥ 0
44
Ανακεφαλαίωση
• Υπάρχει πάντα σημείο ισορροπίας σε 0-sum παίγνια, όταν
επιτρέπουμε μεικτές στρατηγικές
• w1 = w2 = αξία του παιγνίου
• Αν υπάρχουν πολλά σημεία ισορροπίας, όλα έχουν την ίδια
ωφέλεια για τους παίκτες (w1 για τον π. 1 και -w1 για τον π. 2)
• Η αξία του παιγνίου, καθώς και οι max-min και min-max
στρατηγικές μπορούν να υπολογιστούν σε πολυωνυμικό χρόνο
45
46
0-sum παίγνια και βελτιστοποίηση
Η κλάση P 0-sum παίγνια
47
• Γιατί?
• Μπορούμε να αφαιρέσουμε από τον πίνακα του π. 1 το c σε κάθε
κελί και να το μετατρέψουμε έτσι σε 0-sum παίγνιο
• Τέτοιοι μετασχηματισμοί δεν αλλοιώνουν το σύνολο των σημείων
ισορροπίας
48
Θεωρία Παιγνίων - Ενότητα 5
Εύρεση σημείων ισορροπίας σε γενικά
παίγνια
2
Απλοποιήσεις παιγνίων:
Αυστηρή και ασθενής κυριαρχία με
μεικτές στρατηγικές
4
Αυστηρά κυριαρχούμενες στρατηγικές
• Μια αυστηρά κυριαρχούμενη στρατηγική δεν
χρησιμοποιείται σε κανένα σημείο ισορροπίας
Επαναλαμβανόμενη αφαίρεση
αυστηρά κυριαρχούμενων στρατηγικών
Αλγόριθμος επαναλαμβανόμενης αφαίρεσης:
• Δεδομένου ενός παίγνίου n παικτών
– Διαλέγουμε έναν παίκτη i που έχει τουλ. 1 αυστηρά
κυριαρχούμενη στρατηγική
– Διαγράφουμε μία από τις αυστηρά κυριαρχούμενες
στρατηγικές του π. i
– repeat until: δεν υπάρχει παίκτης που να έχει αυστηρά
κυριαρχούμενη στρατηγική
8
Επαναλαμβανόμενη αφαίρεση αυστηρά
κυριαρχούμενων στρατηγικών
• Παρατήρηση: Οι στρατηγικές που επιβιώνουν αυτή την
διαδικασία δεν εξαρτώνται από την σειρά με την οποία
κάνουμε την αφαίρεση
– δλδ, δεν έχει σημασία ποιον παίκτη θα διαλέγουμε σε καθε βήμα
10
Επαναλαμβανόμενη αφαίρεση ασθενώς
κυριαρχούμενων στρατηγικών
• Όταν αφαιρούμε ασθενώς κυριαρχούμενες στρατηγικές,
μπορεί να χάσουμε κάποια σημεία ισορροπίας
• Μπορούμε να τρέξουμε τον ίδιο αλγοριθμο αφαίρεσης όπως
με τις αυστηρά κυριαρχούμενες στρατηγικές
• ΟΜΩΣ: Η σειρά με την οποία αφαιρούμε έχει σημασία
• Διαφορετικές σειρές αφαίρεσης μπορεί να αφαιρέσουν
διαφορετικά σημεία ισορροπίας
11
Άσκηση
t1 t2
s1 3, 2 2, 2
s2 1, 1 0, 0
s3 0, 0 1, 1
• Εκτελέστε επαναλαμβανόμενη αφαίρεση αυστηρά
κυριαρχούμενων στρατηγικών
• Εκτελέστε όλους τους δυνατούς τρόπους
επαναλαμβανόμενη αφαίρεσης ασθενώς
κυριαρχούμενων στρατηγικών. Χάνονται σημεία
ισορροπίας με αυτή τη διαδικασία?
12
Επαναλαμβανόμενη αφαίρεση ασθενώς
κυριαρχούμενων στρατηγικών
• Υπάρχει περίπτωση να χάσουμε όλα τα σημεία
ισορροπίας με αυτή την διαδικασία?
• Θεώρημα: Σε κάθε παίγνιο, υπάρχει πάντα
τουλάχιστον 1 σημείο ισορροπίας που επιβιώνει
όταν κάνουμε επαναλαμβανόμενη αφαίρεση
ασθενώς κυριαρχούμενων στρατηγικών
– επομένως: αν μας νοιάζει απλά να βρούμε ένα σημείο
ισορροπίας, μπορούμε να απλοποιήσουμε το παίγνιο,
χωρίς να μας απασχολεί η σειρά αφαίρεσης
13
14
Συναρτήσεις βέλτιστης απόκρισης
• Θα μας χρειαστούν ξανά οι συναρτήσεις βέλτιστης
απόκρισης
– Τώρα όμως επιτρέπουμε και μεικτές στρατηγικές
• Συνάρτηση βέλτιστης απόκρισης του π.1:
B1(q) = {p: u1(p, q) ≥ u1(p’, q) για κάθε p’}
• Ομοίως ορίζεται η συνάρτηση για τον π. 2
B2(p) = {q: u2(p, q) ≥ u2(p, q’) για κάθε q’}
15
16
Σημεία ισορροπίας και βέλτιστες
αποκρίσεις
• Ανάλυση 2x2 παιγνίων
• Ας δούμε ξανά το Matching Pennies
H T
H 1, -1 -1, 1
T -1, 1 1, -1
17
18
Βέλτιστες αποκρίσεις στο Matching
Pennies
(0, 1), αν q1 < 1/2
B1(q) = (p1, 1-p1), p1Î [0,1], αν q1 = 1/2
(1, 0), αν q1 > 1/2
1/2 1 p1
Bach or Stravinsky (BoS)
B S
B 2, 1 0, 0
S 0, 0 1, 2
21
B1(q1)
1/3
Άσκηση: Επαληθεύστε ότι το
διάγραμμα των βέλτιστων
B2(p1) αποκρίσεων είναι σωστό
2/3 1 p1
22
Παίγνια μεγαλύτερων διαστάσεων
• Για να εξετάσουμε μεγαλύτερα παίγνια, πρέπει να
κατανοήσουμε καλύτερα τις ιδιότητες των σημείων
ισορροπίας
• Ξεκινώντας από τις ωφέλειες των παικτών
• Ορισμός: Σε μια μεικτή στρατηγική p = (p1, p2,..., pn), το
support της p είναι οι αμιγείς στρατηγικές που έχουν θετική
πιθανότητα
Supp(p) = {i: pi > 0}
• Π.χ. αν p = (2/7, 0, 0, 3/7, 0, 2/7), τότε Supp(p) = {1, 4, 6}
– Για τον π. 1 μας δείχνει ποιες γραμμές του πίνακα έχουν πιθανότητα
να επιλεγούν όταν ο παίκτης παίζει με βάση μια μεικτή στρατηγική
– Αντίστοιχα για τον π. 2, μας δείχνει τις στήλες
23
24
Σημεία ισορροπίας και support
στρατηγικών
• Έστω (p, q) ένα σημείο ισορροπίας και έστω ότι i, j Î
Supp(p)
– pi > 0, pj > 0
• Πώς συνδέονται οι ποσότητες u1(ei, q) και u1(ej, q)?
• Αν u1(ei, q) > u1(ej, q), έχει κίνητρο ο π. 1 να μειώσει την
πιθ/τα pj και να αυξήσει την πιθ/τα pi
– Τότε όμως το (p, q) δεν θα ήταν σημείο ισορροπίας
– Ομοίως και αν είχαμε u1(ei, q) < u1(ej, q)
– Μόνη επιλογή είναι να έχουμε ισότητα μεταξύ τους
• Αν i Î Supp(p) και j Ï Supp(p)?
– Τότε αναγκαστικά πρέπει u1(ei, q) ≥ u1(ej, q), αλλιώς το (p, q) δεν
είναι σημείο ισορροπίας
– Δηλαδή για κάθε i Î Supp(p), η στρατηγική i είναι βέλτιστη
25
απόκριση απέναντι στην q του π. 2
26
Σημεία ισορροπίας και support
στρατηγικών
Με λόγια:
– Αν σε ένα σημείο ισορροπίας χρησιμοποιείται μια αμιγής
στρατηγική με θετική πιθ/τα, θα πρέπει να είναι βέλτιστη απόκριση,
απέναντι στην στρατηγική του άλλου παίκτη
– 2 αμιγείς στρατηγικές με θετική πιθ/τα σε ένα σημείο ισορροπίας
πρέπει να δίνουν την ίδια ωφέλεια, απέναντι στην στρατηγική του
άλλου παίκτη
• To θεώρημα μας δίνει έναν νέο τρόπο να ελέγχουμε αν ένα
προφίλ είναι σημείο ισορροπίας
– Και μας βοηθάει να κατανοήσουμε γιατί κάποια προφίλ δεν μπορούν να είναι σημεία
ισορροπίας
27
Παράδειγμα
Ελέγξτε αν το προφίλ (p, q) με p = (3/4, 0, 1/4), και
q = (0, 1/3, 2/3) είναι σημείο ισορροπίας στο
παρακάτω παίγνιο
t1 t2 t3
s1 1, 2 3, 3 1, 1
s2 3, 2 0, 1 2, 5
s3 2, 4 5, 1 0, 7
28
Εύρεση σημείων ισορροπίας
Πόρισμα: Αν γνωρίζουμε τα support ενός σημείου ισορροπίας,
τότε μπορούμε να υπολογίσουμε το προφίλ σε πολυωνυμικό
χρόνο
Απόδειξη:
– Έστω ότι καποιος μαντεύει σωστά τα support και για
τους 2 παίκτες
– Όλες οι συνθήκες του θεωρήματος είναι γραμμικοί
περιορισμοί ως προς τις μεταβλητές p1, p2,..., pn, q1,
q2,...,qm
– Άρα μπορούμε μέσω γραμμικού προγραμματισμού να
βρούμε όλες τις πιθανότητες
29
31
S 0, 0 1, 2
Για να υπάρχει σημείο ισορροπίας στη μορφή ((p1, 1-p1), (q1, 1-q1)), με p1, q1 Î (0, 1), θα
πρέπει να ισχύει
• 2q1 = 1- q1 Þ q1 = 1/3
• p1 = 2(1- p1) Þ p1 = 2/3
• Οι συνθήκες για τον π. 1 μας δίνουν την στρατηγική του π. 2
• Ομοίως από τις συνθήκες για τον π. 2 βρίσκουμε τη στρατηγική του π. 1
• Έτσι βρίσκουμε το προφίλ ((2/3, 1/3), (1/3, 2/3))
Προσοχή: Με τον τρόπο αυτό δεν θα βρούμε τις ισορροπίες με αμιγείς στρατηγικές
Για αμιγείς ψάχνουμε ξεχωριστά, όπως έχουμε δει παλιότερα
32
2xn παίγνια
t1 t2 t3 t4
s1 3, -2 1, 2 4, 6 2, 8
s2 1, 12 5, 10 2, 4 3, -4
2xn παίγνια
t1 t2 t3 t4
s1 3, -2 1, 2 4, 6 2, 8
s2 1, 12 5, 10 2, 4 3, -4
34
Ανάλυση 2xn παιγνίων
Βήμα 2: Γραφική παράσταση
– f1(p1) = -14p1 + 12,
12 f
1 – f2(p1) = -8p1 + 10,
10 – f3(p1) = 2p1 + 4
f2
8 – f4(p1) = 12p1 - 4
6
f3
4
0
f4
1/3 3/5 4/5 1 p1
-2
-4
35
0
f4
1/3 3/5 4/5 1 p1
-2
-4
36
Ανάλυση 2xn παιγνίων
t1 t2 t3 t4
s1 3, -2 1, 2 4, 6 2, 8
s2 1, 12 5, 10 2, 4 3, -4
s2 1, 12 5, 10 2, 4 3, -4
s2 1, 12 5, 10 2, 4 3, -4
39
s2 1, 12 5, 10 2, 4 3, -4
40
Ανάλυση 2xn παιγνίων
t1 t2 t3 t4
s1 3, -2 5, 2 4, 6 2, 8
s2 1, 12 1, 10 2, 4 3, -4
41
Τροποποιημένο παράδειγμα
t1 t2 t3 t4
s1 3, -2 5, 2 4, 6 2, 8
s2 1, 12 1, 10 2, 4 3, -4
s2 1, 12 1, 10 2, 4 3, -4
Τροποποιημένο παράδειγμα
t1 t2 t3 t4
s1 3, -2 5, 2 4, 6 2, 8
s2 1, 12 1, 10 2, 4 3, -4
45
Flip?
• Γυρίστε τον δίσκο έτσι
ώστε η πάνω όψη να
βρεθεί από κάτω
• Συνεχής συνάρτηση
• Ο δίσκος είναι κυρτό και
συμπαγές σύνολο
• Όλα τα σημεία στον
κατακόρυφο άξονα είναι
σταθερά σημεία
47
48
Αλγόριθμοι για nxm παίγνια
• Είναι NP-complete αν προσθέσουμε κι άλλους περιορισμούς
– Π.χ. βρες το σημείο ισορροπίας που μεγιστοποιεί το άθροισμα των
ωφελειών [Gilboa, Zemel ’89, Conitzer, Sandholm ’03]
– Διαφορετικό πρόβλημα από το να βρούμε απλά ένα σημείο ισορροπίας
– Δεν συνεπάγεται κάτι για την δυσκολία υπολογισμού απλά ενός σημείου
ισορροπίας
• Περαιτέρω ζητήματα: πιθανό πρόβλημα αναπαράστασης
– Υπάρχουν παίγνια με ακέραιες ωφέλειες, όπου οι πιθανότητες των
σημείων ισορροπίας είναι άρρητοι αριθμοί [Nash ’51]
– Άρα δεν μπορούμε με πεπερασμένο αριθμό από bits να εκφράσουμε τις
στρατηγικές
49
H κλάση PPAD
• Τι άλλα προβλήματα ανήκουν σε αυτή την κλάση?
• Προβλήματα όπου υπάρχει πάντα λύση και η ύπαρξη της λύσης
αποδεικνύεται με χρήση συγκεκριμένων parity arguments
Nash, 1949-50
So what? Βρήκες ακόμα
μια εφαρμογή των fixed
point theorems
54
Μια γρήγορη σύνοψη
Χμμ…Όρισα αυτή την περίεργη
κλάση, την PPAD, αλλά δεν είμαι
σίγουρος ακόμα. Είναι PPAD-
Papadimitriou,
complete το πρόβλημά μας?
1994
56
Προσεγγιστικά σημεία ισορροπίας
• Αφού το πρόβλημα είναι δύσκολο, μπορούμε να εξετάσουμε αν
είναι πιο εύκολο να υπολογίζουμε προσεγγιστικές λύσεις
• Υπενθύμιση ορισμού σημείων ισορροπίας: Ένα προφίλ μεικτών
στρατηγικών (p, q) είναι σημείο ισορροπίας κατά Nash αν
– u1(p, q) ≥ u1(ei, q) για κάθε αμιγή στρατηγική ei του π. 1
– u2(p, q) ≥ u2(p, ej) για κάθε αμιγή στρατηγική ej του π. 2
57
S 0, 0 1/3, 2/3
60
Μεικτές στρατηγικές σε παίγνια
πολλών παικτών
61
Πολυπλοκότητα εύρεσης
• Σε παίγνια με πολλούς παίκτες, η εύρεση σημείων
ισορροπίας με μεικτές στρατηγικές είναι γενικά δύσκολο
πρόβλημα
• Τουλάχιστον τόσο δύσκολο όσο και στα παίγνια 2 παικτών
– Και κάποιες φορές αρκετά πιο δύσκολο
• Όμως: σε πολλές περιπτώσεις μπορούμε να
εκμεταλλευτούμε συμμετρίες για να μειώσουμε την
πολυπλοκότητα
• Το θεώρημα για τα support γενικεύεται και μπορεί να μας
βοηθήσει
62
Σημεία ισορροπίας και support
στρατηγικών
Γενίκευση του support theorem:
63
Παράδειγμα εφαρμογής
• (προ καραντίνας) μια παρέα από n φοιτητές που
πηγαίνουν στον ίδιο προορισμό, περιμένουν στη
στάση του λεωφορείου μετά από μια κουραστική
μέρα στο ΟΠΑ
• Όταν έρθει το λεωφορείο, για να κάνει στάση πρέπει
τουλάχιστον ένας φοιτητής να σηκώσει το χέρι του
• Αν κανείς δεν σηκώσει το χέρι του, το λεωφορείο
φεύγει χωρίς να σταματήσει
• Διαθέσιμες στρατηγικές: {Σηκώνω το χέρι, Δεν
σηκώνω το χέρι} = {Σ, Δ} για κάθε παίκτη
Παράδειγμα εφαρμογής
Υποθέσεις:
• Όταν το λεωφορείο κάνει στάση, κάθε φοιτητής έχει μια ωφέλεια v
– Γιατί επιβιβάζεται και εν τέλει θα πάει στον προορισμό του
• Όταν ένας φοιτητής σηκώνει το χέρι του, υπάρχει ένα κόστος c για
τον ίδιο
– Εξαιτίας της απροθυμίας να σηκώσει το χέρι του
– Είναι κουρασμένος, βαριέται, προτιμά να ασχολείται με το κινητό του,
κι ελπίζει κάποιος άλλος να το σηκώσει
– Θεωρούμε ότι c < v (δεν είναι τόσο μεγάλο το κόστος!)
Συνάρτηση ωφέλειας:
• Αν κανένας δεν σηκώνει το χέρι του, το λεωφορείο δεν σταματά
και η ωφέλεια κάθε παίκτη είναι 0
• Σε προφίλ όπου τουλάχιστον ένας σηκώνει το χέρι του, τότε η
τελική ωφέλεια είναι
– v για αυτούς που δεν σήκωσαν το χέρι τους
– v-c για αυτούς που σήκωσαν το χέρι τους
• Κανένας από τους 38 ενοίκους που ήταν στο κτήριο δεν κάλεσε
την αστυνομία, ούτε και προσπάθησε να σταματήσει το
έγκλημα, ενώ είχε ακούσει τις φωνές
S 0, 0 1, 2
S 0, 0 1, 2
T 1, 1 0, 0 T 2, 2 3, 0
B 0, 0 0, 0 B 0, 3 3, 3
6
Bach or Stravinsky (BoS)
B S
B 2, 1 0, 0
S 0, 0 1, 2
Έχουμε συνολικά 3 σημεία ισορροπίας:
• (Β, Β)
- SW(B, B) = 3
• (S, S)
- SW(S, S) = 3
• (p, q) = ((2/3, 1/3), (1/3, 2/3))
- SW(p, q) = 2/3 x 1/3 x 3 + 1/3 x 2/3 x 3 = 12/9 = 4/3
7
8
Το Τίμημα της Αναρχίας
(Price of Anarchy)
D 4, 0 1, 1
Παράδειγμα 2
t1 t2 t3
s1 4, 3 3, 2 5, 1
s2 3, 2 24, 4 4, 2
s3 1, 8 2, 8 37, 5
• 2 σημεία ισορροπίας με αμιγείς στρατηγικές:
(s1, t1), (s2, t2)
• SW(s1, t1) = 7, SW(s2, t2) = 28
• Βέλτιστο κοινωνικό όφελος: 42 στο (s3, t3)
12
Το τίμημα της αναρχίας
[Koutsoupias, Papadimitriou ’99]
• Τι επιπτώσεις έχει η στρατηγική συμπεριφορά στο
κοινωνικό καλό?
• Μπορούμε να ποσοτικοποιήσουμε τη «ζημιά» που
προέρχεται από την εγωιστική συμπεριφορά?
• Χειρότερο σενάριο: σημείο ισορροπίας με το χειρότερο
κοινωνικό όφελος
• Μπορούμε να μετράμε πόσο απέχει το χειρότερο σημείο
ισορροπίας ενός παιγνίου από το βέλτιστο κοινωνικό
όφελος
13
Παράδειγμα 2
t1 t2 t3
s1 4, 3 3, 2 5, 1
s2 3, 2 24, 4 4, 2
s3 1, 8 2, 8 37, 5
• 2 σημεία ισορροπίας με αμιγείς στρατηγικές: (s1, t1),
(s2, t2)
• SW(s1, t1) = 7, SW(s2, t2) = 28
• Βέλτιστο κοινωνικό όφελος: 42 στο (s3, t3)
• Άρα για αμιγείς στρατηγικές, PoA = 42/7 = 6
16
Παράδειγμα 3
t1 t2 t3
s1 0, 0 3, 0 5, 0
s2 0, 2 24, 4 4, 2
s3 0, 8 2, 9 37, 5
• 2 σημεία ισορροπίας με αμιγείς στρατηγικές: (s1, t1), (s2, t2)
• SW(s1, t1) = 0, SW(s2, t2) = 28
• Βέλτιστο κοινωνικό όφελος: 42 στο (s3, t3)
• Άρα για αμιγείς στρατηγικές, PoA = 42/0 = +∞
– Πολύ κακό σημείο ισορροπίας το (s1, t1)
17
S 0, 0 1, 2
18
Bach or Stravinsky (BoS)
B S
B 2, 1 0, 0
S 0, 0 1, 2
Με αμιγείς στρατηγικές:
• Βέλτιστο κοινωνικό όφελος = 3
• PoA = 3/3 = 1
• Όλα τα σημεία ισορροπίας με αμιγείς στρατηγικές επιτυγχάνουν
βέλτιστο όφελος!
• Ό,τι καλύτερο μπορούσαμε να ελπίζουμε
19
S 0, 0 1, 2
Με μεικτές στρατηγικές:
• Βέλτιστο κοινωνικό όφελος = 3
• Πρέπει να δούμε το όφελος στο σημείο (p, q) = ((2/3, 1/3), (1/3,
2/3))
- SW(p, q) = 2/3 x 1/3 x 3 + 1/3 x 2/3 x 3 = 12/9 = 4/3
PoA = 3/(4/3) = 9/4
20
Συμπεράσματα
• Στο Bach-or-Stravinsky το σημείο ισορροπίας με μεικτές
στρατηγικές είναι υποδεέστερο αναφορικά με το κοινωνικό
όφελος
• Πιο γενικά, όταν υπάρχουν ισορροπίες και με μεικτές και με
αμιγείς στρατηγικές:
PoA για αμιγείς ≤ PoA για μεικτές
21
Εφαρμογές
• Η ανάλυση του τιμήματος της αναρχίας έχει χρησιμοποιηθεί
εκτενώς σε πολλές κατηγορίες παιγνίων (ειδικά στο χώρο
των Δικτύων)
– Παίγνια δρομολόγησης (routing games)
– Παίγνια διαμοιρασμού κόστους δικτύων (network cost-sharing
games
– Παίγνια τοποθέτησης (location games)
– Δημοπρασίες
• Η αρχική εργασία των [Koutsoupias, Papadimitriou ’99] έχει
λάβει πάνω από 1000 αναφορές (citations)
• Ιούλιος 2019: Workshop on the 20 years of PoA in Greece!
– https://20poa.github.io/
22
Εφαρμογές
• Παίγνια δρομολόγησης (routing games)
– Κάθε παίκτης θέλει να στείλει μια ποσότητα ροής/πληροφορίας από
μια αφετηρία σε έναν προορισμό σε ένα κατευθυνόμενο γράφημα
– Μοντελοποιούν οδικά δίκτυα, δίκτυα υπολογιστών, δίκτυα
τηλεπικοινωνιών,…
• Q: Τι συμπεράσματα προκύπτουν όταν το Price of Anarchy
είναι υψηλό σε ένα παίγνιο δρομολόγησης;
• Πώς μπορεί να μειωθεί το PoA σε τέτοια παίγνια?
– Σε οδικά δίκτυα: χρήση διοδίων, δημιουργία κυκλικών κόμβων, και
άλλες επεμβάσεις από τον σχετικό δήμο ή το κράτος…
23
Δημοπρασίες
1 μη διαιρετό
αγαθό
Σύνολο παικτών
3
N = {1, 2, …, n}
Δημοπρασίες
• Μέσο συνδιαλλαγής από την αρχαιότητα
• Πρώτες αναφορές στην Βαβυλωνία, και στην αρχαία
Αθήνα
• Σύγχρονες εφαρμογές:
• Έργα τέχνης
• Γραμματόσημα
• Άδειες συχνοτήτων
• Δικαιώματα για ρύπους
• Δημοπρασίες λουλουδιών (Ολλανδία)
• Google ads (δείτε διαφάνειες στο τέλος της ενότητας)
• eBay
• Τίτλοι ομολόγων
4
• ...
Δημοπρασίες
• Παλιότερα, τα πιο δημοφιλή είδη δημοπρασιών ήταν
• Η αγγλική δημοπρασία
• Η τιμή αυξάνεται με μικρά βήματα
• Σταδιακά οι παίκτες αποσύρονται μέχρι να μείνει μόνο ένας
νικητής
• Η ολλανδική δημοπρασία
• Η τιμή ξεκινάει από το +∞ (δλδ από καποια πολύ μεγάλη τιμή)
και μειώνεται με μικρά βήματα
• Μέχρι να βρεθεί κάποιος πρόθυμος να προσφέρει αυτά τα
λεφτά
• Υπάρχουν διάφορες παραλλαγές για την πρακτική
υλοποίησή τους
• Και στα 2 είδη, είναι δυνατόν οι παίκτες να εξάγουν
πληροφορία για την ωφέλεια άλλων παικτών 5
Δημοπρασίες με ενσφράγιστες
προσφορές (sealed bid auctions)
• Ενσφράγιστες προσφορές: Κάθε παίκτης υποβάλει την
προσφορά του σε ένα φάκελο, χωρίς να την βλέπουν οι
άλλοι παίκτες
• Στη συνέχεια ο δημοπράτης πρέπει να αποφασίσει:
- Ποιος κερδίζει το αγαθό?
• Εύκολο! Ο παίκτης με την υψηλότερη προσφορά
- Πόσο πρέπει να πληρώσει ο νικητής?
• Όχι τόσο ξεκάθαρο
7
Δημοπρασία 1ης τιμής
(first price auction)
Κανόνες της δημοπρασίας
•Έστω b = (b1, b2,..., bn) το διάνυσμα με τις προσφορές όλων
των παικτών
•Νικητής: Ο παίκτης με την υψηλότερη προσφορά
• Σε ισοβαθμίες: υποθέτουμε ότι κερδίζει ο παίκτης με τον μικρότερο
δείκτη (όχι πολύ σημαντικό για την ανάλυση)
• Π.χ. Αν ισοβαθμίσουν ο π. 2 και ο π. 4, κερδίζει ο π. 2
•Πληρωμή νικητή: η προσφορά που δήλωσε
•Συνάρτηση ωφέλειας π. i,
vi – bi , αν o i νίκησε
ui(b) =
0, διαφορετικά 8
9
Μηχανισμοί δημοπρασιών
Θέλουμε να εξερευνήσουμε εναλλακτικούς τρόπους
πληρωμής, με καλύτερες ιδιότητες
Επιθυμητές ιδιότητες
•Όσοι δεν κερδίζουν δεν πληρώνουν τίποτα
•Αν ο νικητής είναι ο παίκτης i, η πληρωμή του δεν θα υπερβεί το bi
(εγγύηση ότι δεν πληρώνει κανείς παραπάνω από αυτό που δήλωσε)
10
Μηχανισμοί δημοπρασιών
Κίνητρα
•Ιδανικά, θέλουμε μηχανισμούς που δεν δίνουν κίνητρα στους
παίκτες για στρατηγική συμπεριφορά
•Πώς το μοντελοποιούμε αυτό μαθηματικά?
Μια απόπειρα:
Ορισμός: Ένας μηχανισμός ονομάζεται φιλαλήθης (truthful ή
strategyproof) αν για κάθε παίκτη i, και για κάθε προφίλ των
υπόλοιπων παικτών b-i έχουμε
ui(vi, b-i) ≥ ui(b’, b-i) για κάθε b’ ≠ vi
Δηλαδή: είναι κυρίαρχη στρατηγική για κάθε παίκτη i να δηλώσει την
πραγματική του ωφέλεια vi
11
Μηχανισμοί δημοπρασιών
12
Συνδυαστικές Δημοπρασίες
17
Το μοντέλο
Σύνολο παικτών Σύνολο μη διαιρετών αγαθών
N = {1, 2, …, n} M = {1, 2, …, m}
18
Συνδυαστικές δημοπρασίες
• Δημοπρασίες με πολλά αγαθά προς πώληση
• Οι παίκτες μπορούν να εκφράζουν προσφορές σε
συνδυασμούς από αγαθά
• Στην πράξη αρκετές εφαρμογές κατά τα τελευταία 10-15
έτη
• Spectrum licences
• The FCC incentive auction:
• https://www.fcc.gov/about-fcc/fcc-
initiatives/incentive-auctions
• Transportation routes
• Logistics
19
Συνδυαστικές δημοπρασίες
• Στην πράξη φαίνεται να εξάγεται μεγαλύτερο κέρδος από
ότι αν γινόταν μια ξεχωριστή δημοπρασία για κάθε
αγαθό
• Κύρια ερωτήματα/προκλήσεις:
• Αλγοριθμικά: Πώς θα αναθέσουμε τα αγαθά στους
παίκτες (ειδικά αν επικαλύπτονται τα σύνολα που
θέλουν περισσότερο)?
• Παιγνιο-θεωρητικά: Πόσο θα χρεώσουμε κάθε
αγαθό? Φιλαλήθεις μηχανισμοί?
20
Συναρτήσεις ωφέλειας
• Στις δημοπρασίες με 1 αγαθό, κάθε παίκτης i είχε μια
ωφέλεια vi, για την απόκτηση του αγαθού
• Τώρα θα θεωρήσουμε ότι κάθε παίκτης έχει μια
συνάρτηση ωφέλειας, ορισμένη σε όλα τα υποσύνολα
αγαθών
• vi : P(M) ® R
• όπου P(M) = το δυναμοσύνολο του M
• Για κάθε S Í M, vi(S) = ωφέλεια για τον π. i αν
αποκτήσει το υποσύνολο S
21
Παραδείγματα συναρτήσεων ωφέλειας
Προσθετικές (additive) συναρτήσεις
•Για κάθε S Í M, vi(S) = ΣjÎS vij
• όπου vij = ωφέλεια από την απόκτηση του αγαθού j
•Άρα η συνάρτηση μπορεί να καθορισθεί πλήρως από το
διάνυσμα (vi1, vi2, ..., vim)
•Σε τέτοιες περιπτώσεις, τα αγαθά ουσιαστικά δεν
σχετίζονται μεταξύ τους
• Η απόκτηση ενός αγαθού δεν επηρεάζει την αξία που
έχει ένας παίκτης για κάποιο άλλο αγαθό
22
Συναρτήσεις ωφέλειας
• Στην πράξη πολλές φορές τα αγαθά προς πώληση
σχετίζονται μεταξύ τους και οι ωφέλειες δεν μπορούν να
εκφραστούν από προσθετικές συναρτήσεις
• Η αξία τους για έναν παίκτη μπορεί να εξαρτάται από τα
υπόλοιπα αγαθά που έχει ήδη ο παίκτης
• Τα αγαθά μπορεί να εμφανίζουν
• Συμπληρωματικότητα (complementarity): κάποια αγαθά μπορεί
να έχουν αξία μόνο όταν πωλούνται μαζί με άλλα (π.χ. αριστερό
και δεξιό παπούτσι)
• Δυνατότητα αντικατάστασης (substitutability): κάποια αγαθά
μπορεί να έχουν παρόμοια αξία με άλλα αγαθά της
δημοπρασίας και να μην πρέπει να πουληθούν μαζί στον ίδιο
παίκτη (π.χ. 2 αυτοκίνητα με ίδια χαρακτηριστικά)
23
Παραδείγματα συναρτήσεων ωφέλειας
Υποπροσθετικές (subadditive) συναρτήσεις
•Για κάθε 2 ξένα υποσύνολα S Í M, T Í M,
vi(S È T) ≤ vi(S) + vi(T)
24
´
´ ´
Decreasing marginal values
Αριθμός
μπουκαλιών
25
Παραδείγματα συναρτήσεων ωφέλειας
• Οι υπομετρικές συναρτήσεις είναι ειδική κατηγορία των
υποπροσθετικών συναρτήσεων
• Άρα κι εδώ δεν έχουμε συμπληρωματικότητα
• Διαδραματίζουν σημαντικό ρόλο στην μικρο-οικονομική
θεωρία
• Εκφράζουν το γεγονός ότι η ωφέλεια έρχεται σε
«κορεσμό» όταν συνεχίζουμε και δίνουμε αγαθά προς
τον ίδιο παίκτη
26
28
General
Subadditive
Submodular
Symmetric
Additive
Submodular
29
Μηχανισμοί για συνδυαστικές
δημοπρασίες
Πώς περιγράφουν οι παίκτες την συνάρτηση ωφέλειας στον
δημοπράτη?
•Για μια γενική συνάρτηση, χρειαζόμαστε το vi(S), για κάθε
S Í M (2m αριθμοί, απαγορευτικό!)
§2 περιπτώσεις
1. Κάποιες συναρτήσεις μπορούν να περιγραφούν με
έναν μικρό αριθμό παραμέτρων
• Π.χ. προσθετικές ή symmetric submodular
(αρκούν m παράμετροι)
2. Αν αυτό δεν είναι εφικτό, ο δημοπράτης μπορεί να
ρωτήσει τους παίκτες για συγκεκριμένα υποσύνολα
• Δεν είναι ανάγκη να μάθει ολόκληρη τη συνάρτηση
30
48 41 11 0
35 10 50 5
45 20 10 25
34
Ο μηχανισμός VCG
Συμπερασματικά:
•Κάθε παίκτης παίρνει τα αγαθά που του αντιστοιχούν στην
βέλτιστη ανάθεση (ως προς το κοινωνικό όφελος)
•Η πληρωμή του καθορίζεται από τις δηλώσεις των άλλων
παικτών, όπως και στη δημοπρασία Vickrey
35
Υλοποίηση του μηχανισμού VCG
Προσθετικές συναρτήσεις
• Input: n x m πίνακας
• Λύση του προβλήματος SWM: Εύκολη, greedy αλγόριθμος
• Για κάθε αγαθό j: δώσε το στον παίκτη με την υψηλότερη
αξία
• Υλοποίηση του VCG:
• Αρκεί να λύσουμε n+1 φορές το SWM πρόβλημα
• 1 για τον αλγόριθμο ανάθεσης
• n φορές για τον αλγόριθμο πληρωμών (με 1 διαφορετικό
παίκτη απόντα κάθε φορά)
36
48 41 11 0
35 10 50 5
45 20 10 25
37
Υλοποίηση του μηχανισμού VCG
Παράδειγμα με προσθετικές συναρτήσεις
•3 παίκτες, 4 αγαθά
48 41 11 0
35 10 50 5
45 20 10 25
Πληρωμές:
• p1 = SW-1* - Σj≠1 vj(Sj) = 140 – (50+25) = 65
• p2 = SW-2* - Σj≠2 vj(Sj) = 125 – (89+25) = 11
• Ομοίως p3 = 5 38
Πόρισμα:
Για προσθετικές συναρτήσεις ωφέλειας, ο μηχανισμός
VCG είναι ισοδύναμος με την εκτέλεση μιας ανεξάρτητης
δημοπρασίας Vickrey για κάθε αγαθό 39
Υλοποίηση του μηχανισμού VCG
Υπομετρικές συναρτήσεις?
• Ο μηχανισμός VCG μπορεί να υλοποιηθεί σε
πολυωνυμικό χρόνο με συμμετρικές υπομετρικές
συναρτήσεις
- Σκεφτείτε πώς!
Αλλά:
• για γενικές υπομετρικές συναρτήσεις το SWM
πρόβλημα είναι NP-complete
• Το ίδιο και για υποπροσθετικές, αλλά και για
υπερπροσθετικές
40
42
43
What is sponsored search?
Advertising slots
44
Πώς δουλεύει?
• Για κάθε πιθανό search term (e.g. ipod)
– n υποψήφιοι διαφημιζόμενοι
– k slots (συνήθως k << n)
– Εκτελείται μια δημοπρασία σε κάθε αναζήτηση του όρου
– Κάθε διαφημιζόμενος ενδιαφέρεται να προβληθεί σε ένα
από τα slots
• Και συνήθως προτιμούν όσο πιο ψηλά γίνεται
– Ίδια δημοπρασία και για σχετικούς όρους (e.g. “buy ipod”,
“cheap ipod”, “ipod purchase”, …)
• Ο διαφημιζόμενος μπορεί να καθορίσει σε ποιες δημοπρασίες θα
συμμετέχει
45
Πώς δουλεύει?
– Οι διαφημιζόμενοι μπορούν να υποβάλουν ένα αρχικό
προϋπολογισμό που μπορούν να τον ανανεώνουν κάθε
εβδομάδα ή κάθε μήνα
– Υποβάλουν επίσης και μια προσφορά (bid) που επίσης
μπορούν να προσαρμόζουν όποτε επιθυμούν
– Η δημοπρασία επιλέγει τους νικητές που θα προβληθούν
– Μοντέλα χρέωσης: Pay Per Click, Pay Per Impression, Pay Per
Transaction
– Πιο δημοφιλές το Pay Per Click
– Χρέωση ενός διαφημιζόμενου προς τη Google γίνεται μόνο αν
κάποιος χρήστης κάνει κλικ στη διαφήμιση του παίκτη
46
Εμπλεκόμενες οντότητες
• Η μηχανή αναζήτησης:
– Θελει να έχει κέρδος από τις δημοπρασίες
– Ταυτόχρονα, θέλει οι χρήστες να βλέπουν χρήσιμες/σχετικές
διαφημίσεις και να μην χρεώνει πάρα πολύ τους
διαφημιζόμενους
• Οι διαφημιζόμενοι:
– Θέλουν να καταλάβουν όσο πιο υψηλό slot και να πληρώσουν
όσο το δυνατόν λιγότερο
• Οι χρήστες:
– Όσοι ψάχνουν για να αγοράσουν κάτι, θέλουν να βρουν
διαφημίσεις με προϊόντα υψηλής ποιότητας
47
Analyzing sponsored search
auctions
• Θα δούμε την πλευρά των διαφημιζόμενων
• Παράμετροι για τον παίκτη i
– Private information: vi = μέγιστο ποσό που είναι διατεθειμένος να
πληρώσει ο παίκτης i = ωφέλεια που παράγεται για τον παίκτη i
αν πάρει ένα κλικ
– Ο παίκτης i υποβάλει μια προσφορά bi (το bi μπορεί να διαφέρει
από το vi)
– Θα αγνοήσουμε τον προϋπολογισμό
• Σε πολλές περιπτώσεις είναι αρκετά μεγάλος οπότε δεν παίζει ρόλο στο
παίγνιο
48
49
Analyzing sponsored search
auctions
• Πώς θα υλοποιούσαμε τον VCG μηχανισμό εδώ?
• Πρέπει να λύσουμε το SWM πρόβλημα
• Αλγόριθμος ανάθεσης: for i=1 to k, δώσε στον i-οστό
υψηλότερο bidder το i-οστό καλύτερο slot
– Οι υπόλοιποι παίκτες δεν κερδίζουν τίποτα
• Έστω ότι έχουμε διατάξει τους παίκτες έτσι ώστε, b1 ≥ b2
≥ b3 ≥ ... ≥ bn
• Μέση τιμή του κοινωνικού οφέλους: Σi αivi
• Πώς θα υπολογίσουμε τις πληρωμές?
50
51
Sponsored search auctions in practice
• Στην πράξη ο μηχανισμός VCG χρησιμοποιείται στις
διαφημίσεις της Facebook
• Οι μηχανές αναζήτησης εφαρμόζουν διαφορετικό κανόνα
– Αλλά με τον ίδιο αλγόριθμο ανάθεσης
• Generalized Second Price Mechanism (GSP) – αρχική
εκδοχή:
– Διατάζουμε τους παίκτες έτσι ώστε: b1 ³ b2 ³ … ³ bn
– δώσε στον i-οστό υψηλότερο bidder το i-οστό
υψηλότερο slot
– Όταν έχουμε κλικ στο slot i, ο π. i πληρώνει bi+1
52
54
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ
Θεωρία Παιγνίων και Αποφάσεων
Διδάσκων: Ε. Μαρκάκης
Λύση.
1. Αν κάνουμε γεώτρηση, το μέσο κέρδος είναι 0.3·1000+0.7·0 = 300. Από αυτό αφαιρώ τα
180 που πρέπει να πληρώσω αν κάνω τη γεώτρηση (αυτό το πληρώνω ανεξάρτητα από
το αν υπάρχει ή όχι πετρέλαιο), επομένως το μέσο χρηματικό κέρδος είναι 300 − 180 =
120. Αν δεν κάνω τη γεώτρηση, τότε το μέσο χρηματικό κέρδος είναι απλά 0, επομένως
η αρχική απόφαση της επιχείρησης είναι να γίνει η γεώτρηση.
2. Τα κέρδη K(ai , θj ) συνοψίζονται στον παρακάτω πίνακα:
Με βάση το κριτήριο Minimax, αν γίνει η επένδυση τότε το ελάχιστο κέρδος που μπορεί
να προκύψει είναι −180 (ελάχιστο 1ης στήλης). Αν δεν γίνει η γεώτρηση, το ελάχιστο
κέρδος είναι 0 (ελάχιστο 2ης στήλης). Άρα η απόφαση θα ήταν να μην γίνει η γεώτρηση.
1
3. Τα διαφυγόντα κέρδη ∆(ai , θj ) = maxk {K(ak , θj ) − K(ai , θj )} συνοψίζονται στον παρα-
κάτω πίνακα:
Αν γίνει η γεώτρηση, το μέγιστο regret (μέγιστο διαφυγόν κέρδος) είναι 180 (στην
περίπτωση που δεν υπάρχει πετρέλαιο). Αν δεν γίνει η γεώτρηση, το μέγιστο πιθανό
regret είναι 820 (στην περίπτωση που υπήρχε πετρέλαιο). Άρα η απόφαση με βάση το
κριτήριο Min-Max-Regret είναι να γίνει η γεώτρηση.
4. Αν κάποιος μου έλεγε την αλήθεια εκ των προτέρων, τότε με πιθανότητα 0.7 το κέρδος
μου θα ήταν 0 ενώ με πιθανότητα 0.3 θα είχα κέρδος 1000 − 180 = 820. Τώρα που
δεν ξέρουμε την αλήθεια, το μέσο κέρδος από τη βέλτιστη τωρινή απόφαση είναι 120.
Επομένως η αναμενόμενη αξία της τέλειας πληροφόρησης (expected value of perfect
information – EVPI) είναι:
Άρα P (A) = 0.52. Στη συνέχεια, χρησιμοποιώντας τον κανόνα του Bayes, υπολογίζουμε
τις υπόλοιπες πιθανότητες ως εξής:
Συνεπώς P (∆Y |Θ) = 7/16. Με παρόμοιο τρόπο παίρνουμε ότι P (Y |A) = 3/52 και
P (∆Y |A) = 49/52.
Έχοντας υπολογίσει όλες τις πιθανότητες μπορούμε να εφαρμόσουμε την προς τα πίσω
επαγωγή και να δούμε ότι το τελικό μέσο κέρδος αν κάνουμε έρευνα (αφαιρώντας και
τα 70 εκ. ευρώ του κόστους) είναι 113.6 < 120. Άρα μας συμφέρει να μην κάνουμε την
έρευνα (θα μας συνέφερε αν είχε χαμηλότερο κόστος).
2
a2 = δεν κάνω
γεωτρηση
a3 = a1 = κάνω
έρευνα γεώτρηση 0
-180
-70
Y ΔΥ
(= υπάρχει (= δεν υπάρχει
Θ Α πετρέλαιο) πετρέλαιο)
1000 0
a1 a2 a1 a2
-180 -180
0 0
Y ΔΥ Υ ΔΥ
1000 0 1000 0
3
1 ∑ 1
6
ln(4, 000) + ln(10, 000 + 1500(i − 5)) .
20 i=3
9−i
Κάνοντας τις πράξεις, αυτό βγαίνει ίσο με 9, 116. Επομένως δεν μας συμφέρει να επεν-
δύσουμε.
4
Φροντιστήριο 2: Λύσεις ασκήσεων Εαρινό εξάμηνο 2022
Πρόβλημα 1. Σε μια πρωτοχρονιάτικη εκδήλωση για την κοπή της πίτας, ο διοργανωτής αποφασίζει να
πουλήσει 100 λαχνούς, με χρηματικό βραβείο 300 ευρώ. Σε κάθε λαχνό αναγράφεται ένας μοναδικός ακέραιος
αριθμός από το 1 ως το 100, και κατόπιν γίνεται κλήρωση όπου συμμετέχουν όλοι αυτοί οι αριθμοί, επομένως
νικητής μπορεί να είναι το πολύ ένας. Ο διοργανωτής πιστεύει ότι οι συμμετέχοντες συμπεριφέρονται με βάση
την εξής συνάρτηση χρησιμότητάς: {
x2 , x ≥ 0
u(x) =
−x2 , x < 0
1. Ποια είναι η μέγιστη τιμή στην οποία θα μπορούσε να πουλήσει τους λαχνούς?
2. Έστω ότι ο διοργανωτής θα ήθελε να βγάλει κέρδος 1000 ευρώ από τους λαχνούς για να καλύψει τα έξοδα
της εκδήλωσης. Η εκτίμησή του είναι πως ακόμα κι αν οι λαχνοί είναι σε τιμή που θα θεωρηθεί προσιτή
από τους συμμετέχοντες (τιμή δηλαδή που με βάση τη συνάρτηση χρησιμότητας, οι συμμετέχοντες δεν
θα έχουν πρόβλημα να αγοράσουν), θα πουλήσει μόνο τους μισούς. Μπορεί να εγγυηθεί υπό αυτή την
υπόθεση ότι θα βγάλει τα 1000 ευρώ? Θα μπορούσε να εγγυηθεί ότι θα βγάλει 1200 ευρώ?
Λύση.
1. Η μέγιστη τιμή στην οποία θα μπορούσε να πουλήσει τους λαχνούς είναι η μέγιστη τιμή στην
οποία θα ήταν διατεθειμένοι να αγοράσουν οι συμμετέχοντες. Άρα αν συμβολίσουμε με x αυτή
την τιμή θα πρέπει να ισχύει ότι:
1 99
u(300 − x) + u(−x) = u(0) = 0 .
100 100
(Στην πραγματικότητα, αναζητούμε τη μέγιστη τιμή της x έτσι ώστε η μέση χρησιμότητα να είναι
τουλάχιστον όσο η χρησιμότητα χωρίς αγορά λαχείου, δηλαδή 1001
u(300 − x) + 100
99
u(−x) ≥ u(0).
Για τη μέγιστη τιμή της x όμως ισχύει η ισότητα.)
Δηλαδή πρέπει να ισχύει:
1 99 2
(300 − x)2 − x = 0.
100 100
Κάνοντας τις πράξεις καταλήγουμε στην εξίσωση: 0.98x2 + 6x − 900 = 0. Λύνοντας την εξίσωση
(η μία λύση απορρίπτεται αφού βγαίνει −33, 52) παίρνουμε ότι x = 27.4.
2. Η εκτίμηση του διοργανωτή είναι ότι ακόμα κι αν η τιμή πώλησης των λαχνών είναι μικρότερη
από την τιμή στην οποία θα ήταν διατεθειμένοι να αγοράσουν οι συμμετέχοντες, δηλαδή το 27.4
που υπολογίσαμε πριν, τότε μόνο οι μισοί λαχνοί θα πουληθούν (γιατί απλά δεν αρέσει σε όλους
να συμμετέχουν σε τέτοιες κληρώσεις). Θεωρεί λοιπόν ότι αν θέσει ως τιμή του λαχνού κάποια
τιμή μικρότερη ή ίση του 27.4 τότε θα πουλήσει 50 λαχνούς. Για να βγάλει κέρδος 1000 ευρώ, θα
πρέπει συνολικά τα έσοδα του να είναι 1300 ευρώ στη χειρότερη περίπτωση (για να πληρώσει
και το νικητή). Άρα χρειάζεται να κοστολογήσει τους λαχνούς στα 130050 = 26 ευρώ. Αυτό είναι
εφικτό αφού 26 < 27.4. Αν ήθελε να βγάλει 1200 ευρώ, θα χρειαζόταν να πουλήσει τους λαχνούς
σε τιμή 1500
50 = 30 ευρώ, κάτι που δεν είναι εφικτό για τους συγκεκριμένους συμμετέχοντες.
1
Πρόβλημα 2. Σε αντιστοιχία με τα παραδείγματα που είδαμε στο μάθημα με χρήση συναρτήσεων χρησι-
μότητας, όπου η αβεβαιότητα εκφραζόταν μέσω διακριτών τυχαίων μεταβλητών, μπορούμε να εφαρμόσουμε
παρόμοια ανάλυση και σε περιπτώσεις όπου η αβεβαιότητα εκφράζεται με συνεχείς τυχαίες μεταβλητές αντί για
διακριτές. Έστω για παράδειγμα μια ασφαλιστική εταιρεία, η οποία θέλει να αποφασίσει πώς θα κοστολογήσει
τα ετήσια ασφάλιστρα που προσφέρει για την ασφάλιση αυτοκινήτων.
1. Έστω ότι το κόστος της ζημιάς που μπορεί να συμβεί μέσα σε ένα έτος σε ένα αυτοκίνητο μεγάλου
κυβισμού ακολουθεί εκθετική κατανομή με συνάρτηση πυκνότητας πιθανότητας f (x) = e−1 e
λe−λx στο
διάστημα [0, 10] με λ = 0.1 (όπου x σε χιλιάδες ευρώ). Αν ένας υποψήφιος πελάτης κρίνει με βάση το
μέσo χρηματικό κόστος, πόσο θα ήταν διατεθειμένος να πληρώσει για να ασφαλιστεί?
2. Έστω τώρα ότι το κόστος της ζημιάς ακολουθεί ομοιόμορφη κατανομή στο διάστημα [0, 5] (πάλι σε
χιλιάδες ευρώ). Αν η συνάρτηση χρησιμότητας του αποφασίζοντα είναι u(x) = ln(x + 15), πόσο θα ήταν
διατεθειμένος να πληρώσει για να ασφαλιστεί?
Λύση.
∫ 10
1. Παρατηρήστε πρώτα από όλα ότι η f (x) είναι μια έγκυρη σ.π.π. αφού 0 f (x)dx = 1. Για την
κλασική εκθετική κατανομή, που είναι συνήθως στο διάστημα [0, ∞), η σ.π.π. είναι η g(x) =
λe−λx . Εμείς όμως εδώ έχουμε μία τυχαία μεταβλητή X που παίρνει τιμές στο διάστημα [0, 10]
και για αυτό η f (x) προκύπτει με κατάλληλη κανονικοποίηση από την g(x) (με τον παράγοντα
e/e − 1).
Αν ένας υποψήφιος πελάτης κρίνει με βάση το μέσo χρηματικό κόστος, θα ήταν διατεθειμένος
να πληρώσει τη μέση τιμή της X σε χιλιάδες ευρώ, που είναι
∫ 10 ∫ 10
e e
E[X] = xf (x)dx = 0.1xe−0.1x dx = · 2, 642 = 4, 180
0 e − 1 0 e − 1
(όπου το ολοκλήρωμα μπορείτε να το υπολογίσετε είτε κάνοντας τις πράξεις με το χέρι είτε
μέσω Matlab, Scilab, κτλ.)
2. Εδώ η συνάρτηση πυκνότητας πιθανότητας για το κόστος είναι f (x) = 1/5. Αν ο αποφασίζων
δεν ασφαλιστεί, τότε η μέση χρησιμότητα που προκύπτει για τον αποφασίζοντα θα είναι η μέση
τιμή της u(−x) όταν το x κατανέμεται ομοιόμορφα στο [0, 5] (βάζουμε αρνητικό πρόσημο αφού
εδώ το x συμβολίζει ζημιά). Επομένως, αυτή είναι ίση με:
∫ 5
1
E[u(−x)] = ln (−x + 15)dx
0 5
Κάνοντας τις πράξεις για να υπολογίσουμε το ολοκλήρωμα παίρνουμε ότι η μέση χρησιμότητα
είναι 2, 519.
Αν ασφαλιστεί, τότε ο αποφασίζων πληρώνει ένα ποσό XA και δεν χρειάζεται να ανησυχεί για
το τι ζημιά θα συμβεί. Άρα η χρησιμότητα του θα είναι u(−XA ) = ln (−XA + 15). Θα πρέπει
λοιπόν να ισχύει ότι:
Πρόβλημα 3. Έχετε ένα αρχικό κεφάλαιο 10000 ευρώ και σκέφτεστε να κάνετε επενδύσεις στο χρηματι-
στήριο. Ένας χρηματιστηριακός σύμβουλος σας προτείνει να επενδύσετε 5000 ευρώ από αυτό το κεφάλαιο σε
μετοχές κάποιας εταιρείας. Όταν μελετάτε τα υπάρχοντα στατιστικά στοιχεία, διαπιστώνετε ότι με πιθανότητα
1/4 η επένδυση αυτή θα σας αποφέρει καθαρό κέρδος 10000 ευρώ, με πιθανότητα 1/4 δεν θα υπάρξει ούτε
κέρδος ούτε ζημιά και με πιθανότητα 1/2 θα χάσετε όλο το ποσό που επενδύσατε. Έστω ότι η συνάρτηση
χρησιμότητάς σας είναι u(x) = ln x.
2
1. Θα πραγματοποιήσετε αυτό που σας προτείνει ο σύμβουλος?
2. Ποιος είναι ο συντελεστής αποφυγής κινδύνου τ (x) και τι συνεπάγεται για την συμπεριφορά ως προς την
διάθεση για ρίσκο?
Λύση.
1. Αν δεν επενδύσουμε, τότε η τελική μας χρησιμότητα είναι ln(10000) ≈ 9, 21. Αν επενδύσουμε,
τότε με πιθανότητα 1/4 το τελικό κεφάλαιο θα είναι 20.000, με πιθανότητα 1/4 θα είναι όσο ήταν
και πριν, ενώ με πιθανότητα 1/2 χάνουμε 5.000 και θα μας μείνουν τα υπόλοιπα 5.000 που δεν
επενδύσαμε. Επομένως η αναμενόμενη χρησιμότητα είναι
1 1 1
ln(20.000) + ln(10.000) + ln(5.000) ≈ 9, 036 < 9, 21.
4 4 2
Συνεπώς μας συμφέρει να μην επενδύσουμε.
2. Ο συντελεστής είναι τ (x) = −u′′ (x)/u′ (x) = 1/x > 0. To γεγονός ότι είναι θετικός σημαίνει ότι ο
αποφασίζων είναι συντηρητικός.
3
Φροντιστήριο 3: Λύσεις ασκήσεων Εαρινό εξάμηνο 2020
Πρόβλημα 1. [Το παιχνίδι chicken ή αλλιώς το παιχνίδι που παίζουμε με τους ”θεσμούς”.] Το παιχνίδι
chicken μοντελοποιεί ένα βασικό τύπο διλήμματος που συναντάται σε διάφορες εφαρμογές και δια-
πραγματεύσεις. Δύο παίκτες με σιδερένια νεύρα αποφασίζουν να παίξουν το εξής παιχνίδι/στοίχημα.
Τοποθετούν τα αυτοκίνητά τους σε κάποια απόσταση και αρχίζουν να επιταχύνουν με κατεύθυνση
το ένα προς το άλλο. Επομένως η σύγκρουση είναι αναπόφευκτη εκτός κι αν κάποιος υποχωρήσει
(”chickens out”, π.χ. στρίψει λίγο δεξιά το τιμόνι πριν γίνει η σύγκρουση). Για κάθε παίκτη, η καλύτερη
έκβαση είναι να υποχωρήσει ο άλλος παίκτης ενώ ο ίδιος να παραμείνει στην ίδια πορεία (θεωρείται
έτσι πιο θαρραλέος από τον άλλο). Η δεύτερη καλύτερη έκβαση είναι να υποχωρήσουν και οι δύο
παίκτες. Αμέσως μετά στις προτιμήσεις του κάθε παίκτη είναι να υποχωρήσει ο ίδιος ενώ ο άλλος θα
παραμείνει στην πορεία του. Και τέλος, η χειρότερη έκβαση είναι να μην υποχωρήσει κανένας, οπότε
και συμβαίνει η σύγκρουση. Επιδείξτε ένα 2 × 2 παίγνιο που εκφράζει τις παραπάνω προτιμήσεις και
βρείτε τα σημεία ισορροπίας με αμιγείς στρατηγικές.
Λύση. Οι 2 διαθέσιμες στρατηγικές των 2 παικτών είναι η C (για chicken out) και η D (για drive
straight). Σύμφωνα με την εκφώνηση έχουμε ότι για τον παίκτη 1
Παρόμοια παίρνουμε ανάλογες σχέσεις για τον παίκτη 2. Επομένως μία πιθανή αναπαράσταση του
παιγνίου σε κανονική μορφή είναι η εξής:
C D
C 2, 2 0, 4
D 4, 0 −1, −1
Εύκολα βλέπουμε ότι τα σημεία ισορροπίας κατά Nash με αμιγείς στρατηγικές είναι τα (C, D) και
(D, C). Δηλαδή ισορροπία μπορούμε να έχουμε μόνο όταν ο ένας από τους 2 παίκτες υποχωρήσει και
ο άλλος ρισκάρει να μην αλλάξει πορεία. Μένει να δούμε αν γίνει το ίδιο και στις διαπραγματεύσεις...
Πρόβλημα 2. Παίγνια Cournot. Θεωρήστε το εξής παίγνιο δυοπωλίου κατά Cournot, που είναι
παρόμοιο με το παίγνιο Cournot που είδαμε και στο μάθημα: δύο εταιρείες παράγουν το ίδιο προϊόν.
Αν η πρώτη παράγει ποσότητα q1 και η δεύτερη παράγει ποσότητα q2 τότε η τιμή του προϊόντος θα
είναι P (q1 , q2 ) = 5/(q1 + q2 ). Αν το κόστος παραγωγής για την πρώτη είναι C1 (q1 ) = 8q1 + 4 και για τη
δεύτερη είναι C2 (q2 ) = 2q2 +1, υπολογίστε την τιμή του προϊόντος και τις ποσότητες που θα παράγουν
οι εταιρείες αν επικρατήσει ισορροπία κατά Nash.
Λύση. Καταρχήν μπορούμε να δούμε ότι το σημείο (0, 0) δεν είναι σημείο ισορροπίας καθώς τότε η
τιμή γίνεται +∞ και κάθε παίκτης έχει κίνητρο να παράγει κάτι αντί να παράγει 0. Οπότε εξετάζουμε
μόνο σημεία (q1 , q2 ) με q1 + q2 > 0.
Αν η πρώτη εταιρεία παράγει ποσότητα q1 και η δεύτερη παράγει ποσότητα q2 , η χρησιμότητα για
την πρώτη εταιρεία είναι:
5
u1 (q1 , q2 ) = q1 − 8q1 − 4
q1 + q2
1
ενώ για τη δεύτερη είναι:
5
u2 (q1 , q2 ) = q2 − 2q2 − 1
q1 + q2
Για να βρούμε ποια είναι η βέλτιστη απόκριση της πρώτης εταιρείας όταν η δεύτερη παράγει q2 ,
κοιτάμε πού μηδενίζεται η παράγωγος του u1 ως προς q1 :
∂u1
=0
∂q1
5(q1 + q2 ) − 5q1
− 8 = 0 ⇔ 5q2 = 8(q1 + q2 )2 (1)
q1 + q2
Ομοίως τώρα αν κάνουμε το ίδιο για τη δεύτερη εταιρεία, θα δούμε ότι η βέλτιστη απόκριση όταν η
πρώτη επιλέγει q1 , πρέπει να ικανοποιεί:
Από τις (1) και (2) βρίσκουμε (αν τις διαιρέσουμε) ότι q2 = 4q1 . Αν αντικαταστήσουμε το q2 σε μία από
τις εξισωσεις παίρνουμε 2 λύσεις, τις (q1 , q2 ) = (0.1, 0.4) και (q1 , q2 ) = (0, 0). Η δεύτερη απορρίπτεται
σύμφωνα με τα παραπάνω. Επομένως το μοναδικό σημείο ισορροπίας θα είναι να παράγει η πρώτη
εταιρεία 0.1 μονάδες και η δεύτερη 0.4 μονάδες του προϊόντος. Η τιμή του προϊόντος θα είναι ίση με
5/(0.1 + 0.4) = 10.
Λύση. Εύκολα βλέπουμε ότι οι γραμμές 2 και 3 κυριαρχούνται αυστηρά από την 1η γραμμή. Επομένως
αν κάνουμε επαναλαμβανόμενη αφαίρεση αυστηρά κυριαρχούμενων στρατηγικών θα μείνουμε με ένα
παίγνιο 1 × 2, όπου και τα 2 εναπομείναντα προφίλ (πρώτη γραμμή) αποτελούν σημεία ισορροπίας.
Στη συνέχεια, επαναλαμβάνουμε την διαδικασία επιτρέποντας όμως και την αφαίρεση ασθενώς
κυριαρχούμενων στρατηγικών με δύο τρόπους.
Ο πρώτος τρόπος είναι ο εξής: αφαιρούμε την δεύτερη γραμμή και στο εναπομείναν 2 × 2 παίγνιο
αφαιρούμε την πρώτη στήλη (ασθενώς κυριαρχούμενη στρατηγική). Τέλος, στο εναπομείναν 2 × 1
παίγνιο αφαιρούμε την δεύτερη γραμμή (αυστηρώς κυριρχούμενη) και απομένει μόνο το προφίλ με
χρησιμότητες (2, 2). Παρατηρήστε πως επιτρέποντας την απαλοιφή ασθενώς κυριαρχούμενων στρα-
τηγικών, διαγράψαμε ένα σημείο ισορροπίας κατά Nash: το προφίλ με χρησιμότητες (3, 2).
Ο δεύτερος τρόπος είναι ο εξής: στο αρχικό παίγνιο αφαιρούμε την τρίτη γραμμή και στο ενα-
πομείναν 2 × 2 παίγνιο αφαιρούμε την δεύτερη στήλη (ασθενώς κυριαρχούμενη στρατηγική). Τέλος,
στο εναπομείναν 2 × 1 παίγνιο αφαιρούμε την δεύτερη γραμμή (αυστηρώς κυριρχούμενη) και απο-
μένει μόνο το προφίλ με χρησιμότητες (3, 2). Παρατηρήστε πως αυτή τη φορά χάσαμε το προφίλ με
χρησιμότητες (2, 2).
2
Φροντιστήριο 4: Λύσεις ασκήσεων Εαρινό εξάμηνο 2020
t1 t2
s1 a b
s2 c d
Έστω ότι όλοι οι αριθμοί παραπάνω είναι διακριτοί, δηλαδή διαφορετικοί μεταξύ τους, και ότι οι
a, d είναι οι 2 μεγαλύτεροι, χωρίς να ξέρουμε ποιος από τους 2 είναι ο μεγαλύτερος.
1. Μπορεί να έχει ένα τέτοιο παίγνιο σημεία ισορροπίας με αμιγείς στρατηγικές? Αν ναι δείξτε ένα
παράδειγμα, αν όχι δικαιολογήστε την απάντησή σας.
2. Δείξτε ότι αν υπάρχει σημείο ισορροπίας με μεικτές στρατηγικές, τότε η πιθανότητα π να παίξει
ο παίκτης 1 την 1η γραμμή στο σημείο ισορροπίας θα είναι:
d−c
π=
(a − b) + (d − c)
Λύση.
1. Δεν γίνεται να υπάρχει σημείο ισορροπίας με αμιγείς στρατηγικές διότι στα προφίλ (s1 , t1 ) και
(s2 , t2 ) έχει κίνητρο να αποκλίνει ο παίκτης 2, ενώ στα προφίλ (s1 , t2 ) και (s2 , t1 ) έχει κίνητρο να
αποκλίνει ο παίκτης 1.
2. Δείξτε ότι αν υπάρχει σημείο ισορροπίας με μεικτές στρατηγικές, τότε η πιθανότητα π να παίξει
ο παίκτης 1 την 1η γραμμή στο σημείο ισορροπίας θα είναι:
d−c
π=
(a − b) + (d − c)
Με βάση την απάντηση στο προηγούμενο ερώτημα, ξέρουμε ότι σίγουρα θα υπάρχει σημείο
ισορροπίας με μεικτές στρατηγικές. Έστω ότι ο π. 1 παίζει μία μεικτή στρατηγική της μορφής
(π, 1 − π). Δουλεύοντας όπως και στο πρόβλημα 4, αυτό που μας ενδιαφέρει είναι η ποσότητα:
Από τα δεδομένα του προβλήματος, ξέρουμε ότι οι f1 και f2 είναι 2 διακριτές ευθείες, η μία
αύξουσα και η άλλη φθίνουσα. Επoμένως η βελτιστοποίηση γίνεται στο σημείο τομής τους, από
όπου και προκύπτει η ζητούμενη φόρμουλα, αν λύσουμε ως προς π.
1
3. Εκφράστε την αξία του παιγνίου v̄ ως συνάρτηση των a, b, c, d.
Αρκεί να αντικαταστήσω στην f1 την τιμή της π. Από εκεί προκύπτει ότι
d−c (a − c)(d − c) ad − bc
v̄ = (a − c) +c= +c=
(a − b) + (d − c) (a − b) + (d − c) (a − b) + (d − c)
Πρόβλημα 2. Παίγνια μηδενικού αθροίσματος μπορούν να οριστούν και για σενάρια με παραπάνω
από 2 παίκτες. Π.χ. ένα παίγνιο με 3 παίκτες είναι μηδενικού αθροίσματος αν για οποιεσδήποτε
στρατηγικές x, y, z των 3 παικτών ισχύει ότι: u1 (x, y, z) + u2 (x, y, z) + u3 (x, y, z) = 0. Για 2 παίκτες
είδαμε ότι μπορούμε να βρούμε σε πολυωνυμικό χρόνο ένα σημείο ισορροπίας σε πεπερασμένα παί-
γνια μηδενικού αθροίσματος, μέσω γραμμικού προγραμματισμού. Δείξτε ότι αν υπήρχε πολυωνυμικός
αλγόριθμος για την επίλυση παιγνίων μηδενικού αθροίσματος 3 παικτών, αυτό θα συνεπαγόταν την
ύπαρξη πολυωνυμικού αλγορίθμου για γενικά παίγνια 2 παικτών μη μηδενικού αθροίσματος.
Λύση.
Αρκεί να παρατηρήσουμε ότι οποιοδήποτε γενικό παίγνιο 2 παικτών (μη μηδενικού αθροίσματος)
μπορεί εύκολα να μετατραπεί σε παίγνιο μηδενικού αθροίσματος 3 παικτών. Έστω u1 και u2 οι
συναρτήσεις χρησιμότητας του αρχικού παιγνίου. Τότε ορίζουμε τις συναρτήσεις χρησιμότητας u′1 , u′2
και u′3 ως εξής: u′1 (x, y, z) = u1 (x, y), u′2 (x, y, z) = u2 (x, y), και u′3 (x, y, z) = −u1 (x, y) − u2 (x, y), όπου τα
x, y ανήκουν στα σύνολα των δυνατών στρατηγικών για τους παικτες 1 και 2 στο αρχικό παίγνιο και z
είναι η μία και μοναδική στρατηγική του παίκτη 3 στο νέο παίγνιο. Ουσιαστικά δηλαδή προσθέτουμε
ένα τρίτο “dummy” παίκτη και βάζουμε την χρησιμότητά του να είναι απλά το αντίθετο από τις
χρησιμότητες των 2 παικτών για να γίνει η μετατροπή σε παίγνιο μηδενικού αθροίσματος.
Η αναγωγή αυτή προφανώς γίνεται σε πολυωνυμικό χρόνο, οπότε αν υπήρχε πολυωνυμικός αλγό-
ριθμος για την επίλυση παιγνίων μηδενικού αθροίσματος 3 παικτών, σε συνδυασμό με την παραπάνω
αναγωγή, θα έδινε πολυωνυμικό αλγόριθμο για γενικά παίγνια 2 παικτών.
και αφετέρου το χειρότερο όφελος σε σημείο ισορροπίας, SW ∗ , θα είναι το πολύ ίσο με το όφελος στο
συγκεκριμένο σημείο ισορροπίας (x, y) που βρήκαμε, άρα:
∑∑ 1 1 1 1
SW ∗ ≤ SW (x, y) = (Aij + Bij )xi yj = 28 + 29 + 25 + 22.5 = 25.5
6 3 6 3
i j
2
Άρα P oA = SWmax
SW ∗ ≥ 141
25.5 ≈ 5, 53.
Πρόβλημα 4. Δείξτε ότι αν σε ένα 2 × 2 παίγνιο υπάρχουν ακριβώς 3 σημεία ισορροπίας με αμιγείς
στρατηγικές, τότε υπάρχουν άπειρα το πλήθος σημεία ισορροπίας με μεικτές στρατηγικές.
Λύση. Έστω το παίγνιο
A B
A a1 , a 2 b1 , b2
B c1 , c2 d1 , d2
Μπορούμε να υποθέσουμε (αναδιατάσσοντας ενδεχομένως τις γραμμές και τις στήλες) ότι τα
σημεία ισορροπίας είναι τα (Α, Α), (Α, Β), (Β, Β). Αυτό σημαίνει a2 = b2 , b1 = d1 , a1 ≥ c1 και d2 ≥ c2 .
Θα δείξουμε ότι και τα προφίλ μικτών στρατηγικών ((1, 0), (p, 1 − p)) είναι σημεία ισορροπίας για
κάθε p ∈ (0, 1).
Έχουμε x = (1, 0), y = (p, 1 − p), δηλαδή Supp(x) = {1} και Supp(y) = {1, 2}. Για να είναι το (x, y)
σημείο ισορροπίας θα πρέπει u1 (e1 , y) ≥ u1 (e2 , y) και u2 (x, e1 ) = u2 (x, e2 ).
Πράγματι, έχουμε u1 (e1 , y) ≥ u1 (e2 , y) ⇔ a1 p + b1 (1 − p) ≥ c1 p + d1 (1 − p) ⇔ a1 ≥ c1 που ισχύει, και
u2 (x, e1 ) = u2 (x, e2 ) ⇔ a2 ≥ b2 , που επίσης ισχύει. Επομένως, το προφίλ (x, y) είναι σημείο ισορροπίας.
Συμπεραίνουμε ότι υπάρχουν άπειρα το πλήθος σημεία ισορροπίας με μεικτές στρατηγικές.
3
Φροντιστήριο 5: Λύσεις ασκήσεων Εαρινό εξάμηνο 2020
α. Ας παρατηρήσουμε ότι στο προφίλ (v1 , v2 , v3 , ..., vn ) η τιμή που πληρώνει ο νικητής (παίκτης 1)
είναι v3 . O παίκτης 2 έχει κίνητρο να δηλώσει b2 > v1 ώστε να κερδίσει και να αυξήσει τη
χρησιμότητα του από 0 σε v2 − v3 > 0. Άρα το προφίλ δεν είναι σημείο ισορροπίας.
β. Το προφίλ (v1 , v1 , v1 , v4 , v5 , ..., vn ) είναι ένα σημείο ισορροπίας (όχι το μοναδικό, υπάρχουν άπειρα).
Ας παρατηρήσουμε ότι όλοι οι παίκτες έχουν χρησιμότητα 0. Ο παίκτης 1 δεν μπορεί να αλλάξει
τη χρησιμότητά του ανεξαρτήτως προσφοράς. Οι παίκτες 2 και 3 αν αυξήσουν την προσφορά
τους θα έχουν αρνητική χρησιμότητα (v2 − v1 < 0 ή v3 − v1 < 0 αντίστοιχα) ενώ αν μειώσουν την
προσφορά τους θα εξακολουθήσουν να έχουν χρησιμότητα 0. Οι υπόλοιποι παίκτες αν αυξήσουν
λίγο την προσφορά τους, ή αν την μειώσουν, θα εξακολουθήσουν να έχουν χρησιμότητα 0 ενώ αν
αν αυξήσουν την προσφορά τους αρκετά (δηλαδή πάνω από v1 ) θα έχουν αρνητική χρησιμότητα
vi − v1 < 0.
γ. Ας διακρίνουμε περιπτώσεις για τον παίκτη i. Αν παίζοντας bi = vi χάνει, τότε μειώνοντας την
προσφορά του ποτέ δεν αυξάνεται η χρησιμότητά του (βασικά παραμένει ίση με 0). Αν παίζοντας
bi = vi κερδίζει, τότε έχει μη αρνητική χρησιμότητα αφού η τιμή πάντοτε είναι το πολύ ίση με
τη νικητήρια προσφορά. Μειώνοντας την προσφορά του ποτέ δεν αυξάνεται η χρησιμότητά του
(για όσο εξακολουθεί να κερδίζει παραμένει ίδια και έπειτα γίνεται ίση με 0). Επομένως, η
στρατηγική bi = vi κυριαρχεί ασθενώς οποιαδήποτε άλλη χαμηλότερη προσφορά.
Από την άλλη, πάντοτε υπάρχουν προφίλ που αν ο παικτης i αυξήσει την προσφορά του σε σχέση
με το vi , θα αυξήσει και τη χρησιμότητά του. Για παράδειγμα, ας θεωρήσουμε ένα προφίλ όπου
το bi = vi είναι η δεύτερη μεγαλύτερη προσφορά, με την μεγαλύτερη να είναι ίση με vi + ϵ, ϵ > 0
και την 3η μεγαλύτερη να είναι μικρότερη από vi . Τότε ο i έχει κίνητρο να κάνει προσφορά
vi + 2ϵ και να κερδίσει. Εφόσον το ϵ μπορεί να πάρει οποιαδήποτε θετική τιμή, συμπεραίνουμε
ότι η στρατηγική bi = vi δεν κυριαρχεί καμία από τις υψηλότερες προσφορές.
1
από τους {2, 3}. Το παιχνίδι τελειώνει όταν το άθροισμα των αριθμών φτάσει ή υπερβεί το 8. Αν
υπερβεί το 8, τότε χάνει ο παίκτης που έπαιξε τελευταίος. Αν το άθροισμα φτάσει το 8 χωρίς να το
υπερβεί, τότε έχουμε ισοπαλία. Αν ο παίκτης Ι παίζει πρώτος, σχεδιάστε το δέντρο του παιγνίου με
τις αντίστοιχες χρησιμότητες στα φύλλα του δέντρου και βρείτε όλα τα υποπαιγνιακά τέλεια σημεία
ισορροπίας. Υπάρχει στρατηγική για κάποιον από τους 2 παίκτες με την οποία να μπορεί εγγυημένα
να νικήσει?
Λύση. Στο σχήμα βλέπουμε πως προκύπτουν τα SPE με προς τα πίσω επαγωγή. Επειδή ο παίκτης 2
είναι αδιάφορος για την κίνηση που θα κάνει στον κόμβο B, τελικά έχουμε 2 SPE, συγκεκριμένα τα:
(A2 E3 F2 G2 H2 I2 , B2 C3 D3 K2 ) και (A2 E3 F2 G2 H2 I2 , B3 C3 D3 K2 )
Ο παίκτης 1 έχει στρατηγική με την οποία να μπορεί εγγυημένα να νικήσει: Στον κόμβο A παίζει
2 ενώ στους κόμβους E και F παίζει 3 και 2 αντίστοιχα.
Πρόβλημα 3.
Θεωρούμε την εξής παραλλαγή του ultimatum game που είδαμε στο μάθημα: Θέλουμε να μοι-
ράσουμε μία χρηματική μονάδα μεταξύ 2 παικτών. Το παίγνιο ξεκινά με τον παίκτη Ι, που κάνει
μία προσφορά της μορφής (x, 1 − x) στον παίκτη ΙΙ (η προσφορά δηλαδή είναι να πάρει x ο παίκτης
Ι και 1 − x ο παίκτης ΙΙ, με x ∈ [0, 1]). Ο παίκτης ΙΙ είτε δέχεται, οπότε και πραγματοποιείται η
προσφορά, είτε αρνείται οπότε κανένας από τους παίκτες δεν παίρνει τίποτα. Έστω ότι η συνάρτηση
χρησιμότητας είναι της μορφής xi − βxj , όταν το ποσό που παίρνει ο παίκτης είναι xi και το ποσό που
παίρνει ο άλλος παίκτης είναι xj (β > 0). Εδώ το β εκφράζει τη ζήλεια που νιώθει ένας παίκτης για το
ποσό που παίρνει ο άλλος. Βρείτε τα υποπαιγνιακά τέλεια σημεία ισορροπίας. Σημείωση: Αν και το
παίγνιο έχει άπειρο αριθμό στρατηγικών για τον παίκτη Ι, μπορούμε και εδώ να κάνουμε τα βήματα
της προς τα πίσω επαγωγής (ίσως όμως σε κάποια σημεία να μην υπάρχει η βέλτιστη απόκριση).
Λύση. Κάνοντας ανάλυση με backward induction όπως κάναμε και στην τάξη προκύπτει ότι το μο-
ναδικό SPE του παιγνίου είναι να προσφέρει ο παίκτης 1 την μοιρασιά (1/(1 + β), 1 − 1/(1 + β)) και
ο παίκτης 2 να παίξει την στρατηγική: Δέχομαι αν η μοιρασιά (x, 1 − x) ικανοποιεί x ≤ 1/(1 + β) και
αρνούμαι διαφορετικά.