You are on page 1of 254

Θεωρία Παιγνίων και Αποφάσεων

Ε. Μαρκάκης
Αναπλ. Καθηγητής

Αντικείμενο μαθήματος
• Θεωρία Αποφάσεων: Προβλήματα απόφασης υπό συνθήκες
αβεβαιότητας
– Στόχος: βελτιστοποίηση ωφέλειας για 1 αποφασίζοντα (decision-
maker)
• Θεωρία Παιγνίων: Αλληλεπίδραση μεταξύ πολλών
οντοτήτων (παικτών)
– Στόχος: Κατανόηση των αλληλεπιδράσεων και πρόβλεψη της
συμπεριφοράς των παικτών

Χρονοδιάγραμμα:
• Θεωρία Αποφάσεων: 8 διαλέξεις (4 εβδομάδες)
• Θεωρία Παιγνίων: 16-17 διαλέξεις (8-9 εβδομάδες)

2
Περιεχόμενα – Θεματικές ενότητες
• Βασικά προβλήματα απόφασης
– Δέντρα αποφάσεων
– Ανάλυση με βάση το αναμενόμενο κέρδος
– Συναρτήσεις ωφέλειας, παραδείγματα
– Ανάλυση με βάση την αναμενόμενη ωφέλεια
• Προβλήματα επιλογής χαρτοφυλακίου
– Μοντελοποίηση προβλημάτων επιλογής επενδύσεων
– Εύρεση βέλτιστου χαρτοφυλακίου μέσω μεγιστοποίησης
αναμενόμενης ωφέλειας

Περιεχόμενα – Θεματικές ενότητες


• Παίγνια κανονικής μορφής
– Λύσεις παιγνίων: κυριάρχες στρατηγικές και σημεία
ισορροπίας κατά Nash
– Σημεία ισορροπίας με αμιγείς στρατηγικές
– Σημεία ισορροπίας με μεικτές στρατηγικές: Θεωρήματα von
Neumann και Nash

• Αλγόριθμοι υπολογισμού σημείων ισορροπίας


– Αλγόριθμοι για παίγνια μηδενικού αθροίσματος
– Αλγόριθμοι για γενικά παίγνια κανονικής μορφής
– Προσεγγιστικά σημεία ισορροπίας

4
Περιεχόμενα – Θεματικές ενότητες
• Δημοπρασίες
– Μοντελοποίηση δημοπρασιών ως παίγνια
– Μηχανισμοί 1ης και 2ης τιμής
– Φιλαλήθεις μηχανισμοί

• Αλγοριθμική θεωρία παιγνίων


– Συνδυαστικές δημοπρασίες
– Το τίμημα της αναρχίας (Price of Anarchy), εφαρμογές σε
παίγνια δρομολόγησης

• Παίγνια σε εκτεταμένη μορφή


– Υποπαιγνιακά τέλεια σημεία ισορροπίας
– Προς τα πίσω επαγωγή και υπολογισμός σημείων ισορροπίας
5

Βιβλιογραφία
Κύρια συγγράμματα
• Ε. Μαγείρου, “Παίγνια και Αποφάσεις: Μια εισαγωγική προσέγγιση”,
Εκδόσεις Κριτική (2η έκδοση)
– Καλύπτει πλήρως την ύλη της θεωρίας αποφάσεων και μέρος της
ύλης στη θεωρία παιγνίων

• M. Osborne, “Εισαγωγή στη Θεωρία Παιγνίων”, Εκδόσεις Κλειδάριθμος


– Καλύπτει πολύ μεγάλο μέρος της ύλης της θεωρίας παιγνίων
Άλλα βοηθητικά συγγράμματα
• Χ. Αλιπράντης, S. Chakrabarti, “Παίγνια και Λήψη Αποφάσεων”, Ελληνική
Μαθηματική Εταιρεία
– Καλύπτει μεγάλο μέρος της θεωρίας αποφάσεων και τις βασικές
έννοιες θεωρίας παιγνίων
• R. Gibbons, “A Primer in Game Theory”, Pearson Education Limited
– Για τις βασικές έννοιες θεωρίας παιγνίων
• Για συγκεκριμένες ενότητες υπάρχουν και κάποιες βοηθητικές
σημειώσεις στο eclass
7
Θεωρία Παιγνίων και
Αποφάσεων

Δέντρα αποφάσεων και κριτήρια


επιλογής

Θεωρία Αποφάσεων - Εισαγωγή

2
Προβλήματα απόφασης
• Τι είναι ένα πρόβλημα απόφασης;
• Οποιαδήποτε κατάσταση όπου μια οντότητα
καλείται να πάρει μια απόφαση
– Η απόφαση θα έχει συνέπειες που αφορούν κάποιο
πιθανό κέρδος ή ζημιά για την οντότητα
– Η οντότητα είναι «rational»: Με βάση τις προτιμήσεις της,
επιθυμεί να διαλέξει την έκβαση που μεγιστοποιεί την
ωφέλειά της ή ελαχιστοποιεί την ζημιά

Προβλήματα απόφασης
Παράδειγμα 1: Εισαγωγή νέου προϊόντος στην αγορά
• Έστω ότι ένας πάροχος κινητής τηλεφωνίας θέλει να εισάγει ένα νέο
πρόγραμμα ομιλίας/μηνυμάτων
• Ή μια αλυσίδα εστιατορίων θέλει να εισάγει ένα νέο πιάτο στο μενού της
• Βλέποντας τα υπάρχοντα στατιστικά στοιχεία (π.χ. για τον χρόνο ομιλίας
από τους χρήστες κινητών τηλεφώνων ή για τις διατροφικές συνήθειες),
υπάρχουν χονδρικά 3 βασικές επιλογές για την εταιρεία
– Να απορρίψει την εισαγωγή του νέου προϊόντος
– Να δεχτεί να βγει κατευθείαν στην αγορά
– Να κάνει μια έρευνα αγοράς με σκοπό τη συλλογή παραπάνω πληροφοριών
• Έρευνα αγοράς:
– Πιθανότατα θα μειώσει την αβεβαιότητα που υπάρχει
– Μειονεκτήματα: Κόστος (πρέπει να δοθεί δωρεάν το προϊόν σε πελάτες,
πληρωμή υπαλλήλων για την διοργάνωση της έρευνας, κτλ), χρονική
καθυστέρηση για την εισαγωγή του προϊόντος (κρίσιμο αν υπάρχει
ανταγωνιστικό προϊόν)

4
Προβλήματα απόφασης
Παράδειγμα 1: Εισαγωγή νέου προϊόντος στην αγορά

Προβλήματα απόφασης
Παράδειγμα 2: Αποφάσεις για έργα υποδομής
• Έστω ότι μια μεγάλη τεχνική εταιρεία θέλει να κάνει
γεωτρήσεις σε συγκεκριμένη περιοχή
• Συμβουλευόμενοι τα υπάρχοντα στοιχεία για το υπέδαφος,
υπάρχουν και πάλι 3 βασικές επιλογές
– Να απορριφθεί η γεώτρηση
– Να γίνει η γεώτρηση
– Να γίνει περαιτέρω έρευνα για την μορφολογία του εδάφους (μέσω
σεισμικών πειραμάτων) και την πιθανότητα ύπαρξης φυσικού αερίου

6
Προβλήματα απόφασης
Παράδειγμα 3: Επιλογή χαρτοφυλακίου (επενδύσεων)
• Μετά από μελέτη στατιστικών και υποδείξεις ειδικών, ένας επενδυτής
σκέφτεται να αγοράσει μετοχές μιας συγκεκριμένης εταιρείας και/ή
ομόλογα συγκεκριμένης (μη χρεωκοπημένης) χώρας
• Απόδοση ομολόγων: σταθερή 7%
• Απόδοση μετοχής: 2% με πιθ/τα 0.4 και 10% με πιθ/τα 0.6
• Πώς πρέπει να γίνει η επένδυση?
• Το πλήθος των επιλογών του αποφασίζοντα είναι άπειρο
– Επειδή πρέπει να αποφασίσουμε ποιο ποσοστό του κεφαλαίου θα
επενδυθεί στις μετοχές και ποιο στα ομόλογα

Προβλήματα απόφασης
Κοινά χαρακτηριστικά στα προβλήματα της θεωρίας
αποφάσεων
1. Υπάρχει μια οντότητα (αποφασίζων, decision-maker) που καλείται να
πάρει μια απόφαση
2. Η απόφαση λαμβάνεται υπό συνθήκες αβεβαιότητας
3. Προτιμήσεις του αποφασίζοντα: δοσμένες
– Πρέπει να γνωρίζουμε την ωφέλεια που αποκομίζει από κάθε πιθανή
έκβαση (θα δούμε πώς στη συνέχεια)
– η βελτιστοποίηση πρέπει να γίνει ως προς τις προτιμήσεις

8
Προβλήματα απόφασης
Στόχοι

• Συστηματικές διαδικασίες (αλγόριθμοι) για την λήψη


αποφάσεων
• Αποφάσεις συνεπείς με τις προτιμήσεις του αποφασίζοντα
• Εύκολα υλοποιήσιμες λύσεις
– Εφαρμογές σε AI: automated decision-making, software
agents

Συνθήκες αβεβαιότητας
Πώς μοντελοποιούμε την αβεβαιότητα;
• Με χρήση θεωρίας πιθανοτήτων (δεν ξέρουμε άλλη
εναλλακτική!)
• Στα δεδομένα των προβλημάτων που θα δούμε:
– Είτε θα δίνονται οι πιθανότητες να συμβούν κάποια σχετικά
ενδεχόμενα
– Είτε θα δίνονται πληροφορίες για να υπολογίσουμε τις πιθανότητες
που θέλουμε
• Αρκετές φορές θα χρειαστεί να υπολογίσουμε την μέση τιμή
τυχαίων μεταβλητών

10
Συνθήκες αβεβαιότητας
Διακριτές τυχαίες μεταβλητές
• Έστω μια τ.μ. Χ όπου

• Παραδείγματα

• Προσοχή ότι οι πιθανότητες πρέπει να είναι πάντα στο


διάστημα [0, 1]

11

Συνθήκες αβεβαιότητας
Συνεχείς τυχαίες μεταβλητές
• Έστω μια τυχαία μεταβλητή που κατανέμεται στο διάστημα
[a, b]
• Τότε θα χρειαστεί να μας δοθεί ή να υπολογίσουμε την
συνάρτηση πυκνότητας πιθανότητας
• Αν f(x) = σ.π.π. της Χ, τότε

12
Ένα απλό πρόβλημα απόφασης
Αγορές λαχείων/λαχνών
• Έστω ένα λαχείο που έχει κόστος 5 ευρώ
• Το κέρδος για τον νικητή είναι 100,000 ευρώ
• Έχουν εκδοθεί 106 διαφορετικοί αριθμοί, δηλαδή η
πιθανότητα να κερδίσει κάποιος είναι 10-6
• Θα το αγοράζατε?

13

Ένα απλό πρόβλημα απόφασης


Αγορές λαχείων/λαχνών
• Έστω ότι κάποιος αγοράζει το λαχείο
• Μέσο κέρδος αγοραστή = 10-6 ⋅ 105 + (1-10-6) ⋅ 0 – 5 = - 4.9 < 0
• Αν ο ΟΠΑΠ καταφέρει να πουλήσει το 25% των λαχείων:
Κέρδος ΟΠΑΠ = 0.25 ⋅ 106 ⋅ 5 – 105 = 1.15 ⋅ 106

• Παρατηρήσεις
– Αρκετός κόσμος είναι πρόθυμος να αγοράζει λαχεία παρά το γεγονός
ότι το μέσο κέρδος είναι αρνητικό (παίρνουν ρίσκο)
– Οι αγορές λαχείων εκμεταλλεύονται την ριψοκίνδυνη συμπεριφορά
που παρατηρείται όταν το κόστος αγοράς είναι χαμηλό!

14
Μοντελοποίηση προβλημάτων απόφασης
Αγορές λαχείων/λαχνών
• Πρόβλημα απόφασης: πρέπει να αγοράσω το λαχείο ή όχι;
• Θα μετατρέψουμε το πρόβλημα σε μια πιο τυποποιημένη
μορφή
• Στόχος: Αναπαράσταση του προβλήματος απόφασης με
τρόπο που να φαίνεται η χρονική αλληλουχία των ενεργειών
που μπορεί να συμβούν
• Πώς το κάνουμε αυτό; Με χρήση δέντρων απόφασης

15

Δέντρα απόφασης
• Δέντρα που δείχνουν την χρονική εξέλιξη όλης της
διαδικασίας
• 3 είδη κόμβων
– Κόμβοι απόφασης: κόμβοι όπου ο αποφασίζων πρέπει να κάνει μια
επιλογή
– Κόμβοι τύχης: κόμβοι όπου συμβαίνει ένα πείραμα τύχης
– Κόμβοι-φύλλα: σημεία όπου τερματίζεται η διαδικασία
• Κλήρωση του ΟΠΑΠ από την οπτική του αποφασίζοντα:

10-6 1-10-6

105 0

16
Δέντρα απόφασης
• Μπορούμε να μοντελοποιήσουμε ολόκληρο το πρόβλημα της
αγοράς λαχείου σαν δέντρο απόφασης:
• Συμβάσεις: α1: δεν αγοράζω
– Κόμβοι απόφασης: ☐ α2: αγοράζω
– Κόμβοι τύχης: ○
– Κόστος αγοράς: πάνω στην αντίστοιχη πλευρά

α1 α2
-5

0
10-6 1-10-6

105 0
17

Ένα βασικό πρόβλημα απόφασης

18
Ένα βασικό πρόβλημα απόφασης
• Θα αναλύσουμε ένα μεγάλο εκπαιδευτικό παράδειγμα που εμπεριέχει
όλα τα βασικά ζητήματα στην ανάλυση προβλημάτων απόφασης
• Θεωρήστε ότι βρίσκεστε σε μια αποθήκη που περιέχει 1000 σφραγισμένα
κουτιά με μπίλιες
– Τα 800 έχουν την ετικέτα θ1
– Τα 200 έχουν την ετικέτα θ2
• Περιεχόμενο κουτιών:
– θ1: 4 κόκκινες μπίλιες και 6 μαύρες μπίλιες
– θ2: 9 κόκκινες μπίλιες και 1 μαύρη μπίλια
• Ένα κουτί επιλέγεται τυχαία και του αφαιρείται η ετικέτα
• Ο αποφασίζων καλείται να μαντέψει τι ετικέτα είχε το κουτί
• Επιλογές
– α1: μαντεύω ότι είναι θ1
– α2: μαντεύω ότι είναι θ2
– α3: δεν συμμετέχω

19

Ένα βασικό πρόβλημα απόφασης


• Κέρδος με βάση τα πιθανά ενδεχόμενα:
α1 α2 α3
θ1 4000 -500 0
θ2 -2000 10,000 0
– P(θ1) = 0.8
– P(θ2) = 0.2
• Επιλογές για ενέργειες δειγματοληψίας
– ε0: καμία δειγματοληψία, μηδενικό κόστος
– ε1: δείγμα 1 μπίλιας, κόστος 800
– ε2: δείγμα 2 μπίλιες, κόστος 1200
– εΑ: ακολουθιακή δειγματοληψία, δείγμα 1 μπίλιας με κόστος 900
• Αν θέλουμε μετά την επίδειξη του 1ου δείγματος, ζητάμε 2ο δείγμα με κόστος 450
• Μας δίνεται η επιλογή να διαλέξουμε επανατοποθέτηση ή μη

20
Ανάλυση χωρίς δειγματοληψία
Σχεδιάζουμε πρώτα το δέντρο απόφασης

α1 α3
α2
0
θ1 θ2 θ1 θ2

4000 -2000 -500 10,000

• Το επόμενο βήμα είναι να δούμε τις προτιμήσεις του αποφασίζοντα


• Διαφορετικές προτιμήσεις οδηγούν σε διαφορετικά κριτήρια απόφασης

21

Κριτήρια απόφασης
Το κριτήριο Minimax (ή Maximin ή Murphy’s law)
• Εκφράζει πολύ συντηρητικές συμπεριφορές
• Έστω Κ(αi, θj) = κέρδος αν διαλέξω αi και η ετικέτα ήταν θj
– Όπου για το παράδειγμά μας, i ∈ {1, 2, 3} και j ∈ {1, 2}
• Οι πιο συντηρητικοί αποφασίζοντες σκέφτονται ότι θα συμβεί
πάντα το χειρότερο δυνατό σενάριο
• Δηλαδή σε μια πιθανή επιλογή αi σκέφτονται ότι θα κερδίσουν την
ποσότητα minj Κ(αi, θj)
• Στο παράδειγμά μας
– Αν διαλέξω α1: minj Κ(α1, θj) = -2000
– Αν διαλέξω α2: minj Κ(α2, θj) = -500
– Αν διαλέξω α3: minj Κ(α3, θj) = 0
• Άρα με βάση το κριτήριο Minimax, πρέπει να επιλέξουμε το α3

22
Κριτήρια απόφασης
Το κριτήριο Minmax Regret (ή του διαφύγοντος κέρδους)
• Εκφράζει πολύ ριψοκίνδυνες συμπεριφορές
• Στηρίζεται στην αξιολόγηση της μετάνοιας (regret) μιας επιλογής
• Έστω ότι διαλέγω αi και η ετικέτα ήταν θj
• R(αi, θj) = μετάνοια που επέλεξα αi = πόσο παραπάνω θα έπαιρνα
αν διάλεγα κάτι άλλο
R(αi, θj) = maxt {K(αt, θj)} - K(αi, θj)
• Μέγιστο πιθανό regret της επιλογής αi: maxj R(αi, θj)
• Oι πιο ριψοκίνδυνοι αποφασίζοντες δεν θέλουν να δουν εκ των
υστέρων ότι υπήρχε καλύτερη επιλογή (δλδ θέλουν να
ελαχιστοποιήσουν το μέγιστο regret)
• Συνεπώς, θέλουν να επιλέξουν μια απόφαση σύμφωνα με τον
τύπο
mini maxj R(αi, θj)

23

Κριτήρια απόφασης
Το κριτήριο Minmax Regret (ή του διαφύγοντος κέρδους)
Στο παράδειγμά μας
• Αν διαλέξω α1:
– R(α1, θ1) = 0, R(α1, θ2) = 10,000 – (-2000) = 12,000
– Μέγιστο regret του α1 = 12,000
• Αν διαλέξω α2:
– R(α2, θ1) = 4000 – (-500) = 4500, R(α2, θ2) = 0
– Μέγιστο regret του α2 = 4500
• Αν διαλέξω α3:
– R(α3, θ1) = 4000, R(α3, θ2) = 10,000
– Μέγιστο regret του α3 = 10,000
• Άρα με βάση το κριτήριο Minmax regret, επιλέγουμε το α2

24
Κριτήρια απόφασης
• Τα κριτήρια που είδαμε μέχρι τώρα εκφράζουν τα 2 άκρα του
φάσματος προτιμήσεων
• Δεν λαμβάνουν υπόψη την κατανομή πιθανότητας για τις
ετικέτες
• Τι βρίσκεται στη μέση του φάσματος?
• Η βελτιστοποίηση του μέσου κέρδους

25

Κριτήρια απόφασης
Το κριτήριο του Bayes (ή μεγιστοποίησης της αναμενόμενης
αξίας)
• Επιλέγω την επιλογή που μεγιστοποιεί την μέση χρηματική
αξία
• Πότε έχει νόημα το κριτήριο του Bayes;
– Για αποφασίζοντες που δεν έχουν διάθεση ούτε για ρίσκο ούτε για
συντηρητική συμπεριφορά
– Για σενάρια όπου η ίδια διαδικασία επαναλαμβάνεται πολλές φορές
– Όταν ένα πείραμα επαναλαμβάνεται ισχύει ο νόμος των μεγάλων
αριθμών
– Έστω Χ1,…, ΧΝ το κέρδος που παρατηρώ από Ν εκτελέσεις της ίδιας
διαδικασίας, διαλέγοντας πάντα την ίδια επιλογή (π.χ. α1)
– Αν μ = Ε[Χi], τότε το μέσο εμπειρικό κέρδος (Σi Χi/N) θα είναι πολύ
κοντά στο μ με πολύ μεγάλη πιθανότητα

26
Κριτήρια απόφασης
Το κριτήριο του Bayes (ή μεγιστοποίησης της αναμενόμενης
αξίας)
Στο παράδειγμά μας
• Αν διαλέξω α1:
– Εθ [Κ(α1, θ)] = P(θ1) Κ(α1, θ1) + P(θ2) Κ(α1, θ2) = 0.8 ⋅ 4000 + 0.2 ⋅ (-2000)
= 2800
• Αν διαλέξω α2:
– Εθ [Κ(α2, θ)] = P(θ1) Κ(α2, θ1) + P(θ2) Κ(α2, θ2) = 0.8 ⋅ (-500) + 0.2 ⋅ 10,000
= 1600
• Αν διαλέξω α3:
– Εθ [Κ(α3, θ)] = 0
• Άρα επιλέγουμε το α1

27

Προς τα πίσω επαγωγή


Ενημέρωση του δέντρου απόφασης
2800
α1 α3
α2
2800 1600 0
θ1 θ2 θ1 θ2

4000 -2000 -500 10,000

• Θα αναλύσουμε και τις επιλογές δειγματοληψίας με βάση το κριτήριο του


Bayes
• Μεθοδολογία επίλυσης: προς τα πίσω επαγωγή (Backwards induction)

28
Προς τα πίσω επαγωγή
Επίλυση με βάση το κριτήριο του Bayes
• Ξεκινάω από τα φύλλα του δέντρου και ανεβαίνω μέχρι να
φτάσω στη ρίζα
• Όταν βλέπω κόμβο τύχης:
– Υπολογίζω (αν δεν την γνωρίζω ήδη) την πιθανότητα κάθε πλευράς
που ξεκινάει από τον κόμβο τύχης
– Υπολογίζω την μέση χρηματική αξία για το υποδέντρο που ξεκινά από
τον κόμβο αυτό
• Όταν βλέπω κόμβο απόφασης:
– Επιλέγω την απόφαση που δίνει την μεγαλύτερη χρηματική αξία

29

Δειγματοληψία 1 μπίλιας
Σχετικό (υπο)δέντρο απόφασης
εA α3
-900 ε1
ε2 ε0
-800 0
-1200
2800
Μ Κ

α1 α2 α1 α2

θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2

4000 -2000 -500 10,000 4000 -2000 -500 10,000


30
Δειγματοληψία 1 μπίλιας
• Θα εφαρμόσουμε προς τα πίσω επαγωγή
• ΑΛΛΑ: προσοχή στον υπολογισμό των πιθανοτήτων για
τις πλευρές που ξεκινάνε από κόμβο τύχης
• Στον κόμβο τύχης (ε1, Μ, α1): ποιες πιθανότητες πρέπει
να υπολογίσουμε;
– Δεσμευμένες πιθανότητες
– Σε εκείνη την χρονική στιγμή, εχουμε ήδη δει μια μαύρη μπίλια,
άρα έχουμε ήδη αποκτήσει κάποια πληροφορία
– Χρειαζόμαστε τις P[θ1\Μ], P[θ1\Κ]
– P[θ1\Μ] = πιθ/τα να είναι το κουτί τύπου θ1, δεδομένου ότι
είδαμε μια μαύρη μπίλια
• Ο υπολογισμός μπορεί να γίνει με βάση τον τύπο του
Bayes
31

Υπολογισμός πιθανοτήτων
Πρέπει να υπολογίσουμε τις πιθανότητες
– P(M), P(K)
– P[θ1\Μ], P[θ1\Κ], P[θ2\Μ], P[θ2\Κ]
– Οι δεσμευμένες πιθανότητες εκφράζουν την αναθεώρηση που
κάνουμε για την αβεβαιότητα, με βάση την πληροφορία που
βλέπουμε
Θεώρημα 1: Για 2 τυχαία ενδεχόμενα Α, Β, με P(A)⧧0,
(i) P(B) = P(B∩A) + P(B∩Ā)
(ii) P(B\A) = P(A∩B)/P(A)

32
Υπολογισμός πιθανοτήτων
• Υπολογίζουμε πρώτα τις P(M), P(K)
• Χρησιμοποιώντας τις ιδιότητες (i), (ii):
– P(M) = P(M∩θ1) + P(Μ∩θ2) = P(Μ\θ1)P(θ1) + P(Μ\θ2)P(θ2) = 0.6 ⋅ 0.8 +
0.1 ⋅ 0.2 = 0.5
– P(K) = 1 – P(M) = 0.5
• Συνεχίζουμε με τις δεσμευμένες πιθανότητες
– P(θ1\Μ) = P(M∩θ1)/P(M) = P(Μ\θ1)P(θ1)/P(M) = (0.6 ⋅ 0.8)/0.5 = 0.96
– Άρα P(θ2\Μ) = 1 - P(θ1\Μ) = 0.04
– P(θ1\K) = P(K∩θ1)/P(K) = P(K\θ1)P(θ1)/P(K) = (0.4 ⋅ 0.8)/0.5 = 0.64
– Άρα P(θ2\K) = 1 - P(θ1\K) = 0.36
• Παρατηρήσεις
– Όταν βλέπουμε μαύρη μπίλια, γινόμαστε ακόμα πιο σίγουροι ότι το
κουτί είναι τύπου θ1, ενώ με κόκκινη αυξάνεται η αβεβαιότητα
33

Γενικεύσεις
• Aν είχαμε 3 ή περισσότερα ενδεχόμενα για τα κουτιά (θ1, θ2, θ3,…);
• Πρέπει να χρησιμοποιήσουμε τις γνωστές γενικεύσεις από την θεωρία
πιθ/των
• Έστω δειγματικός χώρος Ω και B1, B2,…,Bn ξένα, μη κενά ενδεχόμενα που
καλύπτουν όλο τον χώρο:
– Β1 ∪ Β2 ∪ … ∪ Βn = Ω, και P(Bi) > 0 για κάθε i
– Bi ∩ Bj = ∅, για κάθε ζεύγος i, j
Θεώρημα 2 (Θεώρημα ολικής πιθανότητας): Για κάθε ενδεχόμενο Α, ισχύει ότι
$ $
𝑃 𝐴 = % 𝑃 𝐴 ∩ 𝐵! = % 𝑃 𝐴\𝐵! 𝑃(𝐵! )
!"# !"#

Θεώρημα 3 (Θεώρημα του Bayes): Για κάθε ενδεχόμενο Α με P(A) > 0, και για
κάθε k ∈ {1, 2, …, n}, ισχύει ότι
𝑃 𝐴\𝐵% 𝑃(𝐵% ) 𝑃 𝐴\𝐵% 𝑃(𝐵% )
𝑃 𝐵% \A = = $
𝑃(𝐴) ∑!"# 𝑃 𝐴\𝐵! 𝑃(𝐵! )

34
Δειγματοληψία 1 μπίλιας
• Πλέον μπορούμε να ολοκληρώσουμε την ανάλυση
• Στον κόμβο τύχης (ε1, Μ, α1):
– Μέση χρηματική αξία: P(θ1\Μ) ⋅ 4000 + P(θ2\Μ) ⋅ (-2000) = 3760
• Στον κόμβο τύχης (ε1, Μ, α2):
– Μέση χρηματική αξία: P(θ1\Μ) ⋅ (-500) + P(θ2\Μ) ⋅ (10,000) = -80
• Στον κόμβο απόφασης (ε1, Μ):
– Επιλέγουμε το α1, με κέρδος 3760
• Ομοίως αναλύουμε το υποδέντρο για το κόκκινο δείγμα
• Στον κόμβο απόφασης (ε1, Κ):
– Επιλέγουμε το α2, με κέρδος 3280

35

Δειγματοληψία 1 μπίλιας
• Στον κόμβο τύχης ε1:
– Μέση χρηματική αξία: P(Μ) ⋅ 3760 + P(Κ) ⋅ 3280 = 3520
• Δεν πρέπει να ξεχάσουμε όμως και το κόστος
• Αν επιλέξουμε ε1:
– Τελικό μέσο κέρδος: 3520 – 800 = 2720
• Μεταξύ ε0 και ε1 μας συμφέρει περισσότερο η ε0
– Εξαιτίας του «ακριβού» κόστους για το δείγμα 1 μπίλιας

36
Δειγματοληψία 1 μπίλιας
Ενημέρωση δέντρου
εA α3
-900 ε1
ε2 ε0
-800 0
-1200
2800
Μ Κ

α1 α2 α1 α2

θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2

4000 -2000 -500 10,000 4000 -2000 -500 10,000


37

Δειγματοληψία με 2 μπίλιες
Σχετικό (υπο)δέντρο απόφασης
εA α3
-900 ε2 ε1
ε0 0
2720
-1200 -800
2800
3520
ΜΜ ΚΜ ή ΚΚ
MK

α1 α2 α1 α2 α1 α2

θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2

4000 -2000 -500 10,000 4000 -2000 -500 10,000 4000 -2000 -500 10,000
38
Υπολογισμός πιθανοτήτων
• Πρέπει να υπολογίσουμε τις πιθανότητες
– P(MM), P(KK), P(KM∪MK)
– P[θ1\ΜM], P[θ2\MM]
– P[θ1\KK], P[θ2\ΚK]
– P[θ1\KM∪MK], P[θ2\KM∪MK]
• Χρησιμοποιούμε ακριβώς την ίδια μεθοδολογία

39

Υπολογισμός πιθανοτήτων
• Ξεκινάμε με τις μη δεσμευμένες πιθανότητες
• Χρησιμοποιώντας τα θεωρήματα που είδαμε:
– P(MΜ) = P(MΜ∩θ1) + P(ΜΜ∩θ2) = P(ΜΜ\θ1)P(θ1) + P(ΜΜ\θ2)P(θ2)
= (6/10) ⋅ (5/9) ⋅ 0.8 + 0 (επειδή P(ΜΜ\θ2)=0)
= 4/15
– P(ΚK) = P(ΚΚ\θ1)P(θ1) + P(ΚΚ\θ2)P(θ2)
= (4/10) ⋅ (3/9) ⋅ 0.8 + (9/10) ⋅ (8/9) ⋅ 0.2 = 4/15
– P(KM∪MK) = 1 – P(MM) – P(KK) = 7/15

40
Υπολογισμός πιθανοτήτων
• Συνεχίζουμε με τις δεσμευμένες πιθανότητες
– P(θ1\ΜΜ) = 1 (αν δω 2 μαύρες μπίλιες γνωρίζω την αλήθεια)
– Άρα P(θ2\ΜΜ) = 0
– P(θ1\KΚ) = P(KΚ∩θ1)/P(KΚ) = [P(ΚK\θ1) ⋅ P(θ1)]/P(KΚ)
= [(4/10) ⋅ (3/9) ⋅ 0.8]/(4/15) = 2/5
– Άρα P(θ2\KK) = 1 - P(θ1\KK) = 3/5
• Βλέποντας 2 κόκκινες, ενισχύεται η πεποίθησή μας ότι το κουτί είναι θ2
– P(θ1\KM∪MK) = [P(KM∪MK\θ1) ⋅ P(θ1)]/P(KM∪MK)
= [(1 - P(MM\θ1) - P(KK\θ1)) ⋅ P(θ1)]/P(KM∪MK)
= [(1 – (6/10)⋅(5/9) - (4/10)⋅(3/9)) ⋅ 0.8]/(7/15) = 32/35
– Άρα P(θ1\KM∪MK) = 3/35
• Βλέποντας έστω και 1 μαύρη μας αυξάνει την πεποίθηση ότι το κουτί είναι θ1

41

Δειγματοληψία με 2 μπίλιες
Ανάλυση του υποδέντρου
• Στον κόμβο απόφασης (ε2, ΜΜ):
– Εδώ γνωρίζω με πιθ/τα 1 ότι το κουτί είναι τύπου θ1, άρα επιλέγω α1
– Μέση χρηματική αξία: P(θ1\ΜΜ) ⋅ 4000 + 0 = 4000
• Στον κόμβο τύχης (ε2, ΚΚ, α1):
– Μέση χρηματική αξία: P(θ1\ΚΚ) ⋅ (4000) + P(θ2\ΚΚ) ⋅ (-2000) = 400
• Στον κόμβο τύχης (ε2, ΚΚ, α2):
– Μέση χρηματική αξία: P(θ1\ΚΚ) ⋅ (-500) + P(θ2\ΚΚ) ⋅ (10,000) = 5800
• Στον κόμβο απόφασης (ε2, ΚΚ):
– Επιλέγουμε το α2, με κέρδος 5800

42
Δειγματοληψία με 2 μπίλιες
Ανάλυση του υποδέντρου
• Στον κόμβο τύχης (ε2, ΚΜ ή ΜΚ, α1):
– Μέση χρηματική αξία: P(θ1\KM∪MK) ⋅ (4000) + P(θ2\KM∪MK) ⋅ (-2000)
= 32/35(4000) + 3/35(-2000) = 3486
• Στον κόμβο τύχης (ε2, ΚΜ ή ΜΚ, α2):
– Μέση χρηματική αξία: P(θ1\KM∪MK) ⋅ (-500) + P(θ2\KM∪MK) ⋅ (10,000)
= 400
• Στον κόμβο απόφασης (ε2, ΚΜ ή ΜΚ):
– Επιλέγουμε το α1, με κέρδος 3486

43

Δειγματοληψία με 2 μπίλιες
• Στον κόμβο τύχης ε2:
– Μέση χρηματική αξία: P(ΜΜ) ⋅ 4000 + P(ΚΚ) ⋅ 5800 + P(KM∪MK) ⋅
3486 = 4240
• Αφαιρούμε μετέπειτα και το κόστος του ε2
• Αν επιλέξουμε ε2:
– Τελικό μέσο κέρδος: 4240 – 1200 = 3040
• Μεταξύ ε0, ε1 και ε2 μας συμφέρει περισσότερο η ε2
– Εξαιτίας του σχετικά πιο «φτηνού» κόστους για το δείγμα με 2 μπίλιες

44
Δειγματοληψία με 2 μπίλιες
Ενημέρωση δέντρου
εA α3
-900 ε2 ε1
ε0 0
2720
-1200 -800
2800
3520
ΜΜ ΚΜ ή ΚΚ
MK

α1 α2 α1 α2 α1 α2

θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2

4000 -2000 -500 10,000 4000 -2000 -500 10,000 4000 -2000 -500 10,000
45

Ακολουθιακή δειγματοληψία
Σχετικό (υπο)δέντρο απόφασης
α3

ε0
εΑ -900 ε2 ε1
Μ Κ

Συνεχ. με Stop
Συνεχ. Stop Συνεχ. με Συνεχ.
επανατ.
χωρίς -450 επανατ. χωρίς -450 Ίδιο με
-450 Ίδιο με (ε1, Κ)
-450
(ε1, Μ)
. . . . . .
Μ Κ
Κ
Μ
α1 α2 α1 α2
Ίδιο με Ίδιο με
(ε2, ΜΜ) (ε2, ΚΜ∪MK)

θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2

46
4000 -2000 -500 10,000 4000 -2000 -500 10,000
Υπολογισμός πιθανοτήτων
• Θα αναλύσουμε το υποδέντρο που ξεκινά από τον κόμβο
(εΑ, Μ)
• Πρέπει να υπολογίσουμε τις πιθανότητες
– P(1η μπίλια M)
– Με επανατοποθέτηση:
• P(2η μπίλια M\1η μπίλια Μ)
• P(2η μπίλια Κ\1η μπίλια Μ)
• P[θ1\ΜM], P[θ2\MM]
• P[θ1\ΜK], P[θ2\ΜK]
– Τα ίδια χωρίς επανατοποθέτηση
• Οι ακριβώς συμμετρικοί υπολογισμοί πρέπει να γίνουν για
το υποδέντρο που ξεκινά από το (εΑ, Κ)

47

Υπολογισμός πιθανοτήτων
• P(1η μπίλια M) = P(M) = ½ (ισχύει ό,τι είδαμε στο ε1 για το 1ο δείγμα)

• Με επανατοποθέτηση (χρησιμοποιώντας τα θεωρήματα που είδαμε):


– P(2η μπίλια Μ\1η μπίλια Μ) = P(MΜ)/P(Μ)
= 2 ⋅ [P(ΜΜ\θ1)P(θ1) + P(ΜΜ\θ2)P(θ2)]
= 2 ⋅ [(6/10)⋅(6/10)⋅0.8 + (1/10)⋅(1/10)⋅0.2]
= 29/50 = 0.58
– Άρα P(2η μπίλια Κ\1η μπίλια Μ) = 1 - P(2η μπίλια Μ\1η μπίλια Μ) = 0.42
– P(θ1\ΜΜ) = P(ΜΜ\θ1)P(θ1) /P(MM)
= (6/10)⋅(6/10)⋅0.8/P(MM) = 144/145 (δεν είναι 1, λόγω της επανατοποθέτησης)
– P(θ2\ΜΜ) = 1 - P(θ1\ΜΜ) = 1/145
– P(θ1\ΜΚ) = P(ΜΚ\θ1)P(θ1) /P(MΚ) = … = 32/35
– P(θ2\ΜΚ) = 1 - P(θ1\ΜΚ) = 3/35

• Χωρίς επανατοποθέτηση:
– P(2η μπίλια Μ\1η μπίλια Μ) = P(MΜ)/P(Μ)
= 2 ⋅ [P(ΜΜ\θ1)P(θ1) + P(ΜΜ\θ2)P(θ2)] = 2 ⋅ (6/10) ⋅ (5/9) ⋅ 0.8 = 8/15
– Άρα P(2η μπίλια Κ\1η μπίλια Μ) = 7/15

48
Ακολουθιακή δειγματοληψία
Ανάλυση του υποδέντρου
Με επανατοποθέτηση
• Στον κόμβο τύχης (εΑ, Μ, Συνεχ. με επανατ., Μ, α1):
– Μέση χρηματική αξία: 144/145 ⋅ (4000) + 1/145 ⋅ (-2000) = 3959
• Στον κόμβο τύχης (εΑ, Μ, Συνεχ. με επανατ., Μ, α2):
– Η μέση χρηματική αξία είναι αρνητική
• Στον κόμβο απόφασης (εΑ, Μ, Συνεχ. με επανατ., Μ):
– Επιλέγουμε το α1, με κέρδος 3959

Παρατήρηση: Προφανώς πρέπει να διαλέξουμε α1 όταν βλέπουμε 2 μαύρες


μπίλιες, αλλά πρέπει να υπολογίσουμε και το μέσο κέρδος (θα μας χρειαστεί
στην προς τα πίσω επαγωγή, πιο πάνω στο δέντρο)
49

Ακολουθιακή δειγματοληψία
Ανάλυση του υποδέντρου
Με επανατοποθέτηση
• Στον κόμβο τύχης (εΑ, Μ, Συνεχ. με επανατ., Κ, α1):
– Μέση χρηματική αξία: 32/35 ⋅ (4000) + 3/35 ⋅ (-2000) = 3486
• Στον κόμβο τύχης (εΑ, Μ, Συνεχ. με επανατ., Κ, α2):
– Μέση χρηματική αξία: 32/35 ⋅ (-500) + 3/35 ⋅ (10,000) = 400
• Στον κόμβο απόφασης (εΑ, Μ, Συνεχ. με επανατ., Κ):
– Επιλέγουμε το α1, με κέρδος 3486
• Τελικά, στον κόμβο τύχης (εΑ, Μ, Συνεχ. με επανατ.):
– Ότι κι αν είναι το 2ο δείγμα, θα επιλέξω πάντα α1
– Κέρδος επανατοποθέτησης:
P(2η μπίλια Μ\1η μπίλια Μ) ⋅ 3959 + P(2η μπίλια Κ\1η μπίλια Μ) ⋅ 3486
= 3759
50
Ακολουθιακή δειγματοληψία
Ανάλυση του υποδέντρου
Χωρίς επανατοποθέτηση
• Στον κόμβο απόφασης (εΑ, Μ, Συνεχ. χωρίς επανατ., Μ):
– Ίδιο με τον κόμβο (ε2, ΜΜ), μέση χρηματική αξία: 4000
• Στον κόμβο απόφασης (εΑ, Μ, Συνεχ. χωρίς επανατ., Κ):
– Ίδιο με τον κόμβο (ε2, ΚΜ ή ΜΚ), μέση χρηματική αξία: 3486
• Στον κόμβο τύχης (εΑ, Μ, Συνεχ. χωρίς επανατ.):
– Ότι κι αν είναι το 2ο δείγμα, θα επιλέξω πάντα α1
– Κέρδος μη επανατοποθέτησης:
P(2η μπίλια Μ\1η μπίλια Μ) ⋅ 4000 + P(2η μπίλια Κ\1η μπίλια Μ) ⋅ 3486
= 3760

51

Ακολουθιακή δειγματοληψία
Τελικά στον κόμβο (εΑ, Μ):
α3
• Επιλέγω να μην πάρω 2ο δείγμα
ε0
εΑ -900
ε2 ε1
Μ Κ

Συνεχ. με Stop
Συνεχ. Stop Συνεχ. με Συνεχ.
επανατ.
χωρίς επανατ. χωρίς -450 Ίδιο με
-450 Ίδιο με (ε1, Κ)
-450
-450 (ε1, Μ)
3759 3760 3760 . . . . . .
Μ Κ Μ Κ

. . . . . . . . . . . .
• Μέση χρηματική αξία στον κόμβο απόφασης (εΑ, Μ): 3760
• (Homework) Αναλύστε το 2ο υποδέντρο του εΑ και επιβεβαιώστε ότι η
μέση αξία στον κόμβο (εΑ, Κ) = 4270
52
Ακολουθιακή δειγματοληψία
• Στον κόμβο τύχης εA:
– Μέση χρηματική αξία: P(Μ) ⋅ 3760 + P(Κ) ⋅ 4270 = 4015
• Αφαιρούμε μετέπειτα και το κόστος του εA
– Αφαιρούμε μόνο τα 900 για το 1ο δείγμα
– Το κόστος του 2ου δείγματος έχει ήδη αφαιρεθεί όπου έχει
χρειαστεί στην ανάλυση που έγινε
• Αν επιλέξουμε εΑ:
– Τελικό μέσο κέρδος: 4015 – 900 = 3115
• Μεταξύ όλων των επιλογών, μας συμφέρει
περισσότερο η εΑ

53

Τελικά συμπεράσματα
• Προτεινόμενη στρατηγική με βάση το κριτήριο του Bayes
• Επιλέγουμε ακολουθιακή δειγματοληψία (εΑ) και
πληρώνουμε 900 ευρώ για το 1ο δείγμα
– Αν το 1ο δείγμα είναι Μ, σταματάμε και μαντεύουμε α1
– Αν το 1ο δείγμα είναι Κ, ζητάμε και 2ο δείγμα, χωρίς
επανατοποθέτηση, με κόστος 450 ευρώ
• Αν το 2ο δείγμα είναι Μ, μαντεύουμε α1
• Αν το 2ο δείγμα είναι Κ, μαντεύουμε α2
• Τελική μέση χρηματική αξία: 3115

54
Ακολουθιακή δειγματοληψία
Ενημέρωση δέντρου
α3

ε0
εΑ -900 ε2 ε1
Μ Κ

Συνεχ. με Stop
Συνεχ. Stop Συνεχ. με Συνεχ.
επανατ.
χωρίς -450 επανατ. χωρίς -450 Ίδιο με
-450 Ίδιο με (ε1, Κ)
-450
(ε1, Μ)
. . . . . .
Μ Κ
Κ
Μ
α1 α2 α1 α2
Ίδιο με Ίδιο με
(ε2, ΜΜ) (ε2, ΚΜ∪MK)

θ1 θ2 θ1 θ2 θ1 θ2 θ1 θ2

55
4000 -2000 -500 10,000 4000 -2000 -500 10,000

Επανατοποθέτηση ή όχι?
• Ίσως φαίνεται να συμφέρει πάντα η μη επανατοποθέτηση
– Γιατί με την επανατοποθέτηση επαναφέρουμε το σύστημα στην
αρχική κατάσταση
• Κάποιες φορές όμως χρειάζεται επανατοποθέτηση
• Παράδειγμα: έστω 2 κουτιά με τις εξής συνθέσεις
– θ1: 2Κ, 1Μ
– θ2: 101Κ, 100Μ
• Έστω ότι το 1ο δείγμα ήταν Κ
• Τότε χωρίς επανατοποθέτηση, τα 2 κουτιά δεν μπορούν να
μας δώσουν διαφορετική πληροφορία από ένα 2ο δείγμα!

56
Μέση αξία πληροφόρησης

57

Αξία τέλειας πληροφόρησης


• Είδαμε ότι χωρίς δειγματοληψία, θα διαλέγαμε α1 με μέσο
κέρδος 2800
• Αν δεν υπήρχαν επιλογές για περαιτέρω πειράματα
(δειγματοληψία), πόσο θα θέλαμε να πληρώσουμε για να
μάθουμε την αλήθεια;
• Αν κάποιος μας έλεγε εκ των προτέρων πάντα την αλήθεια, θα
μαντεύαμε πάντα σωστά (τέλεια πληροφόρηση)
Μέσο κέρδος = 0.8 ⋅ 4000 + 0.2 ⋅ 10,000 = 5200
• Αναμενόμενη αξία τέλειας πληροφόρησης (Expected Value of
Perfect Information):
EVPI = Μέσο κέρδος αν γνωρίζω την αλήθεια – μέσο κέρδος χωρίς
πειράματα
• Στο δικό μας παράδειγμα:
– EVPI = 5200 – 2800 = 2400
– Είμαι διατεθειμένος να πληρώσω μέχρι και 2400 για την αλήθεια

58
Αξία τέλειας πληροφόρησης
• To EVPI μας δίνει ένα άνω όριο για το πόσο πρέπει να
κοστίζει οποιοδήποτε άλλο πείραμα
• Στο δικό μας παράδειγμα:
– EVPI = 2400
– Άρα ένα πείραμα που εξαφανίζει πάντα την αβεβαιότητα δεν
πρέπει να κοστίζει παραπάνω από 2400
– Συνεπώς, και τα πειράματα ε1, ε2, εΑ που δεν προσφέρουν πλήρη
βεβαιότητα, δεν θα έπρεπε να κοστίζουν πάνω από 2400
• Ο υπολογισμός του EVPI μπορεί να βοηθήσει στην αποκοπή
κάποιων υποδέντρων στην ανάλυση (αν δούμε ότι έχουν
μεγάλο κόστος)

59

Αξία πειραμάτων
• Με τον ίδιο τρόπο μπορούμε να υπολογίσουμε τη μέση αξία
ενός πειράματος
Μέση αξία πειράματος =
Μέσο κέρδος αν γίνει το πείραμα – μέσο κέρδος χωρίς
πειράματα
• Στο παράδειγμά μας:
– Μέση αξία του ε1 = μέσο κέρδος στον κόμβο ε1 - 2800 = 3520 - 2800 =
720
– Προσοχή: Στον υπολογισμό της μέσης αξίας δεν λαμβάνω υπόψη το
κόστος του πειράματος
– Μέση αξία του ε2 = μέσο κέρδος στον κόμβο ε2 – 2800 = 1440

60
Αξία πειραμάτων
• Η μέση αξία του πειράματος μας δείχνει πότε είναι αποδεκτό
το κόστος του
• Στο παράδειγμά μας:
– Μέση αξία του ε1 = 720
– Αν το κόστος για το δείγμα 1 μπίλιας ήταν μικρότερο από 720, τότε το
ε1 μας συμφέρει σε σχέση με το ε0
– Στην ανάλυσή μας απορρίψαμε το ε1 επειδή είχε ακριβό κόστος (800)
– Μέση αξία του ε2 = 1440, κόστος = 1200
– Σε σχέση με το ε0 μας συμφέρει γιατί το κόστος είναι αρκετά
μικρότερο από την αξία του

61

Αξία πειραμάτων
• Η αξία της τέλειας πληροφόρησης (και όλων των
πειραμάτων) μπορεί να μεταβάλλεται στο χρόνο
• Στο παράδειγμά μας:
– Πριν ξεκινήσει η διαδικασία, EVPI = 2400
• Δηλαδή είμαστε πρόθυμοι να πληρώσουμε μέχρι 2400 για να μάθουμε
την αλήθεια
– Αξία τέλειας πληροφόρησης στον κόμβο (ε1, Κ)
• Αν μπορούσα να μαντέψω πάντα σωστά:
μέσο κέρδος = P(θ1\K) ⋅ 4000 + P(θ2\K) ⋅ 10,000
= 0.64 ⋅ 4000 + 0.36 ⋅ 10,000 = 6160
• Χωρίς περαιτέρω πειράματα, μέσο κέρδος στον κόμβο (ε1, Κ) = 3280
• Άρα EVPI στον κόμβο (ε1, Κ) = 6160 – 3280 = 2880
– 2880 > αρχικό EVPI
– Είμαστε πρόθυμοι να πληρώσουμε περισσότερο αν δούμε κόκκινη
μπίλια (γιατί έχει αυξηθεί η αβεβαιότητα)
62
Αξία πειραμάτων
• Η αξία της τέλειας πληροφόρησης (και όλων των πειραμάτων)
μπορεί να μεταβάλλεται στο χρόνο
– Αξία τέλειας πληροφόρησης στον κόμβο (ε1, Μ)
• Αν μπορούσα να μαντέψω πάντα σωστά:
μέσο κέρδος = P(θ1\M) ⋅ 4000 + P(θ2\M) ⋅ 10,000
= 0.96 ⋅ 4000 + 0.04 ⋅ 10,000 = 4240
• Χωρίς περαιτέρω πειράματα, μέσο κέρδος στον κόμβο (ε1, M) = 3760
• Άρα EVPI στον κόμβο (ε1, M) = 4240 – 3760 = 480
– 480 < αρχικό EVPI
– Δεν είμαστε πρόθυμοι να πληρώσουμε πολλά αν δούμε μαύρη μπίλια
(γιατί έχει μειωθεί πολύ η αβεβαιότητα)
• Το EVPI μπορεί να αυξομειώνεται καθώς εξελίσσεται η
διαδικασία των πειραμάτων, ανάλογα με τις διαθέσιμες
πληροφορίες που έχουμε για την αβεβαιότητα

63

Θεωρία Παιγνίων και


Αποφάσεων

Ανάλυση Προβλημάτων Απόφασης με


Χρήση Συναρτήσεων Ωφέλειας (Utility
Functions)
Επιστροφή στα κριτήρια απόφασης
• Παράδειγμα: Έστω ότι έχετε στην κατοχή σας το εξής λαχείο
(υποθέστε ότι σας δόθηκε δωρεάν):

1/2 1/2

1000 0

• Σε τι τιμή είστε διατεθειμένοι να το πουλήσετε;

Επιστροφή στα κριτήρια απόφασης


• Υπενθύμιση: Το κριτήριο του Bayes δεν μπορεί να
εφαρμοστεί όταν το πρόβλημα δεν επαναλαμβάνεται
αρκετές φορές και ο αποφασίζων είναι
– (έστω και λίγο) συντηρητικός
– (έστω και λίγο) ριψοκίνδυνος
• Απόπειρα για γενίκευση της μεθοδολογίας που είδαμε
– Για κάθε κλήρωση που υπάρχει στο δέντρο, ορίζουμε την ποσότητα:
CME (Certainty Monetary Equivalent) = ισοδύναμο ποσό για τον
αποφασίζοντα
– Είναι το χρηματικό ποσό που θεωρεί ισότιμο με τον κόμβο τύχης

3
Επιστροφή στα κριτήρια απόφασης
• Λύση με προς τα πίσω επαγωγή: Ξεκινάμε όπως και πριν από
τα φύλλα
– Σε κόμβο τύχης: Ρωτάμε τον αποφασίζοντα για το αντίστοιχο CME
– Σε κόμβο απόφασης: ό,τι κάναμε και πριν
• Εμφανή μειονεκτήματα:
– Μπορεί να χρειαστούμε πάρα πολλές ερωτήσεις
– Ο υπολογισμός του CME δεν είναι πάντα εύκολος

Ανάλυση δέντρων αποφάσεων με


χρήση «κανονικοποιημένων»
κληρώσεων

5
Ανάλυση με βασικές κληρώσεις
• Ιδέα: θα αντικαταστήσουμε όλους τους κόμβους τύχης με
κάποια μορφή «κανονικοποιημένων» κληρώσεων
• Έστω ένα δέντρο απόφασης όπου τα διαφορετικά ποσά στα
φύλλα του δέντρου είναι τα
Xmin = X1 ≤ X2 ≤ … ≤ Xn = Xmax
• Ορισμός: Μια βασική κλήρωση με παράμετρο π είναι μια
κλήρωση της μορφής:

π 1-π

Χmax Χmin

Ανάλυση με βασικές κληρώσεις


Βασικές υποθέσεις
• Παραδοχή 1: Σε κάθε δέντρο αποφάσεων, υπάρχει μια
συνάρτηση π(Χ), έτσι ώστε για κάθε X ∈ [Xmin, Xmax],

π(X) 1 – π(Χ) ∼ X
Χmax Χmin
• Δηλαδή, σε κάθε χρηματικό ποσό μπορούμε να αντιστοιχίσουμε μια
ισοδύναμη βασική κλήρωση (το Χ είναι το CME της κλήρωσης)
• Ειδικά για τα Xmin και Xmax έχουμε π(Xmin) = 0, π(Xmax) = 1

• Παραδοχή 2: Μεταξύ 2 βασικών κληρώσεων με παραμέτρους


π1, π2, θα προτιμήσουμε αυτή με την μεγαλύτερη παράμετρο.
Επίσης για Χ > Υ, ισχύει ότι π(Χ) ≥ π(Υ) (η π είναι αύξουσα) 7
Παράδειγμα 1
α1 α2

0.1
0.3 0.6 0.2 0.3
0.5
100 1000 300
400 500 300

Βήμα 1:
• Βρίσκουμε τα διαφορετικά χρηματικά ποσά
• Xmin = X1 = 100, X2 = 300, X3 = 400, X4 = 500, X5 = Xmax = 1000

Παράδειγμα 1
α1 α2

0.1
0.3 0.6 0.2 0.3
0.5
100 1000 300
400 500 300

Βήμα 2:
• Ρωτάμε τον αποφασίζοντα για την παράμετρο της ισοδύναμης βασικής
κλήρωσης για κάθε ποσό εκτός των Xmin, Xmax
• Έστω εδώ ότι οι απαντήσεις που παίρνουμε είναι ότι
– π(300) = 0.4, π(400) = 0.5, π(500) = 0.7
• Προσοχή: καλό είναι εδώ να ελέγχουμε ότι για Χi < Xj, έχουμε π(Χi) ≤ π(Xj)
– Αλλιώς δεν έχουμε λογικό αποφασίζοντα 9
Παράδειγμα 1
α1 α2

0.1
0.3 0.6 0.2 0.3
0.5
100 1000 300
400 500 300

Βήμα 3:
• Αντικαθιστούμε όλα τα χρηματικά ποσά με τις ισοδύναμες βασικές
κληρώσεις.
• Μπορεί έτσι να μεγαλώσει το δέντρο αλλά τώρα τα ποσά που
εμφανίζονται στο δέντρο είναι μόνο τα Xmin, Xmax

10

Παράδειγμα 1
α1 α2

0.1
0.3 0.6 0.2 0.3
0.5
100 1000 300
400 500 300

Βήμα 4:
• Έτοιμοι για προς τα πίσω επαγωγή
• Όλοι οι κόμβοι τύχης σταδιακά θα αντικατασταθούν με βασικές κληρώσεις
• Σε κόμβους απόφασης επιλέγουμε την απόφαση που μας δίνει την βασική
κλήρωση με την μεγαλύτερη παράμετρο

11
Παράδειγμα 1
• Εν τέλει, προκύπτει ότι το αρχικό δέντρο είναι ισοδύναμο με:

α1 α2

π1 1-π1 π2 1-π2

Χmax Xmin Xmax Xmin

Όπου
• π1 = 0.1 ⋅ 0 + 0.3 ⋅ 1 + 0.6 ⋅ 0.4 = 0.54
• π2 = 0.2 ⋅ 0.5 + 0.5 ⋅ 0.7 + 0.3 ⋅ 0.4 = 0.57
• Άρα επιλέγουμε α2
12

Ανάλυση με βασικές κληρώσεις


Τι έχουμε επιτύχει ως τώρα?
• Ανάλυση δέντρων αποφάσεων με προς τα πίσω
επαγωγή, ακόμα κι αν το κριτήριο δεν είναι η
μεγιστοποίηση του μέσου χρηματικού κέρδους
• Αριθμός ερωτήσεων: n-2
– Όπου n το πλήθος των διαφορετικών χρηματικών ποσών στο
δέντρο
– Άρα το πολύ ίσο με: αριθμός φύλλων του δέντρου - 2
• Όλες οι ερωτήσεις προς τον αποφασίζοντα είναι του
ίδιου τύπου
– Όλες αφορούν βασικές κληρώσεις

13
Ανάλυση με βασικές κληρώσεις
• Παρατήρηση 1: Στο εξής, όταν υπάρχει κόστος
δειγματοληψίας, πρέπει να το συνυπολογίζουμε στους
τελικούς κόμβους (επειδή η π(Χ) δεν είναι πάντα γραμμική)
• Παρατήρηση 2: Η ίδια μεθοδολογία μπορεί να εφαρμοστεί
αν οι τελικοί κόμβοι δεν έχουν μόνο χρηματικά ποσά
• Π.χ. μπορούμε να έχουμε έναν συνδυασμό από χρηματικά
ποσά και αγαθά, αρκεί να:
– Υπάρχει από τον αποφασίζοντα μια διάταξη για όλες τις τελικές
εκβάσεις (για να μπορούμε να κάνουμε συγκρίσεις και να
προσδιορίσουμε τα Xmin, Xmax)
– Μπορούμε για κάθε αγαθό να αντιστοιχίσουμε μια βασική
κλήρωση, κι έτσι να συνεχίσει να ισχύει η Παραδοχή 1

14

Παράδειγμα 2
α1 α2

4/5 1/5 1/4 3/4

G1
α3 α4
α5 α6
1/3 2/3
300 G2 300 100 400
1/2 1/2
Όπου:
100 G3 • G1= Macbook Air
• G2 = ipod
• G3 = Μηνιαία κάρτα ΟΑΣΑ
15
Παράδειγμα 2
• Θα πρέπει αρχικά να μας δοθεί η διάταξη (σειρά προτίμησης) για τα ποσά
και τα αγαθά
• Έστω ότι η διάταξη είναι:
G1 400 300 G2 100 G3

• Άρα το ρόλο του Xmax τώρα θα τον έχει το αγαθό G1


• Ομοίως το ρόλο του Xmin θα τον έχει το G3
• Βασική κλήρωση παραμέτρου π:

π 1-π

G1 G3

16

Παράδειγμα 2
• Ερωτήσεις προς τον αποφασίζοντα: π(100), π(G2), π(300), π(400)
• Έστω ότι οι απαντήσεις είναι:
– π(100) = 0.2
– π(G2) = 0.55
– π(300) = 0.6
– π(400) = 0.9
• Μπορούμε τώρα να ξεκινήσουμε προς τα πίσω επαγωγή
• Π.χ. η επιλογή α3 είναι ισοδύναμη με μια βασική κλήρωση με παράμετρο
½ π(100) + ½ π(G3) = 0.1
• H α4 ισοδυναμεί με βασική κλήρωση παραμέτρου π(300) = 0.6
• Άρα μεταξύ α3, α4, επιλέγω α4
• Μεταξύ α5, α6, επιλέγω α6 (τα 300 ευρώ είναι προτιμότερα του G2)
• Άσκηση: συνεχίστε την ανάλυση και βρείτε την απόφαση στην ρίζα του
δέντρου

17
Συναρτήσεις ωφέλειας

18

Ανάλυση με βασικές κληρώσεις


Θα μπορούσαμε να αποφύγουμε τελείως τις ερωτήσεις προς τον
αποφασίζοντα?
• Π.χ. όταν το κριτήριο είναι η μεγιστοποίηση του μέσου χρηματικού κέρδους,
δεν χρειάζεται καμία ερώτηση

• Ιδεατά, θα μπορούσαμε να ζητήσουμε από τον αποφασίζοντα


να μας δώσει την συνάρτηση π(Χ)
– Αν η π(Χ) μπορεί να περιγραφεί από κάποια φόρμουλα

• Ή να μας δώσει μια προσέγγιση της συνάρτησης π(Χ)

19
Ιδιότητες της συνάρτησης π(Χ)
• Τι είδους συναρτήσεις περιμένουμε σε σχέση με την
συμπεριφορά του κάθε αποφασίζοντα?

π(Χ)

Χmin Χmax Χ

20

Ιδιότητες της συνάρτησης π(Χ)


• Η διάθεση για ρίσκο ή για αποφυγή του καθορίζει
αρκετές ιδιότητες της π(Χ)
• Θεώρημα 1: Για αποφασίζοντες με το κριτήριο της
μεγιστοποίησης του μέσου χρηματικού κέρδους, η π(Χ)
είναι ευθεία (γραμμική συνάρτηση)
• Απόδειξη:
• Έστω για παράδειγμα ότι Xmin = 50, Xmax = 300
• Από την Παραδοχή 1, για κάθε Χ έχουμε:

π(X) 1 – π(Χ) ∼ X
Χmax Χmin
21
Συνέχιση απόδειξης Θ. 1
• Θέλουμε να δείξουμε ότι για κάθε Χ, π(Χ) = αΧ + β, για
κάποιες σταθερές α, β
• Κάθε κόμβος τύχης όμως για τέτοιους αποφασίζοντες
είναι ισοδύναμος με το μέσο κέρδος του κόμβου
• Άρα:
Ø Χ = π(Χ) ⋅ 300 + (1 – π(Χ)) ⋅ 50
Ø Χ = 250 ⋅ π(Χ) + 50
Ø π(Χ) = (1/250) ⋅ Χ – 1/5
Ø Η π(Χ) είναι γραμμική με α = 1/250, β = -1/5

22

Ιδιότητες της συνάρτησης π(Χ)


• Τι συμβαίνει για την π(Χ) όταν έχουμε συντηρητικούς ή
ριψοκίνδυνους αποφασίζοντες?
• Ορισμός: Σε ένα πρόβλημα απόφασης, έχουμε
συντηρητική συμπεριφορά αν σε κάθε κόμβο τύχης το
ισοδύναμο βέβαιο ποσό είναι μικρότερο από το μέσο
χρηματικό κέρδος του κόμβου

ρ 1–ρ ∼ X ⟹ Χ < ρΑ + (1-ρ)Β

Α Β
• Ένας συντηρητικός αποφασίζων προτιμά ένα βέβαιο
ποσό από το να ρισκάρει για ένα υψηλότερο μέσο κέρδος
• Ανάλογα ορίζεται και η ριψοκίνδυνη συμπεριφορά
23
Ιδιότητες της συνάρτησης π(Χ)
Θεώρημα 2:
(i) Για συντηρητικούς αποφασίζοντες, η π(Χ) είναι κοίλη
(concave)
(ii) Για ριψοκίνδυνους, η π(Χ) είναι κυρτή (convex)

Υπενθύμιση:
• Μια συνάρτηση f είναι κοίλη αν για κάθε Χ, Υ, και κάθε λ∈[0, 1],
έχουμε ότι
f(λΧ + (1-λ)Y) ≥ λf(X) + (1-λ)f(Y)
• ή διαφορετικά, f’’(X) ≤ 0 για κάθε Χ
• Παραδείγματα: √x, xc με c < 1, ln(x) (και οποιοσδήποτε
άλλος λογάριθμος)
• Για κυρτές συναρτήσεις πρέπει f(λΧ + (1-λ)Y) ≤ λf(X) + (1-λ)f(Y)
• ή ότι f’’ ≥ 0 για κάθε Χ
• Παραδείγματα: 2x, ex, xc με c > 1
24

Απόδειξη Θ. 2
• Έστω 2 ποσά X, Y, στο διάστημα [Xmin, Xmax] σε ένα
οποιοδήποτε πρόβλημα απόφασης
• Έστω C η CME τιμή της παρακάτω κλήρωσης:

λ 1–λ ∼ C

X Y

• Αν ο αποφασίζων είναι συντηρητικός, τότε C < λX + (1-λ)Y


• Από την Παραδοχή 1, το C είναι επίσης ισοδύναμο με μια
βασική κλήρωση με παράμετρο π(C)
• ⟹ π(C) = λπ(Χ) + (1-λ)π(Y)
• Άρα τελικά, χρησιμοποιώντας την Παραδοχή 2:
π(λX + (1-λ)Y) ≥ π(C) = λπ(Χ) + (1-λ)π(Y) 25
Υπολογισμός της συνάρτησης π(Χ)
• Αν ο αποφασίζων δεν μπορεί να μας δώσει άμεσα την
π(Χ)?
• Μπορούμε είτε να κάνουμε την μέθοδο που είδαμε
πριν με ερωτήσεις για βασικές κληρώσεις
• Είτε να προσπαθήσουμε να εκμαιεύσουμε την π(Χ)
(πάλι μέσω ερωτήσεων)
• Ο υπολογισμός ή η προσέγγιση της π(Χ) μπορεί να
γίνει π.χ. με μεθόδους παρεμβολής
• Το πλήθος των ερωτήσεων εξαρτάται από το πόσο σύνθετη
είναι η συνάρτηση
• Αν υποθέσουμε ότι η π(Χ) μπορεί να προσεγγιστεί από
πολυώνυμο χαμηλού βαθμού, είμαστε σε καλό δρόμο…

26

Υπολογισμός της συνάρτησης π(Χ)


• Παρατήρηση: ξέρουμε ήδη 2 σημεία της γραφικής παράστασης
της π(Χ)
Ø π(Xmin) = 0
Ø π(Xmax) = 1
• Αν η π(Χ) είναι ευθεία μας αρκούν αυτά τα 2 και δεν χρειάζεται
απολύτως καμία ερώτηση
• Άρα χρειαζόμαστε περισσότερα σημεία μόνο για ριψοκίνδυνους
ή συντηρητικούς αποφασίζοντες

27
Υπολογισμός της συνάρτησης π(Χ)
Μια μέθοδος προσέγγισης της π(Χ)
• Ερώτηση 1 (προς τον αποφασίζοντα): Ποιο είναι το ισοδύναμο
ποσό με την εξής κλήρωση

1/2 1/2
∼ ?
Χmax Χmin
• Έστω ότι η απάντηση είναι Χ1
• Τότε θα ισχύει ότι: π(Χ1) = 1/2 ⋅ π(Χmax) + 1/2 ⋅ π (Χmin) = ½
• Άρα βρήκαμε άλλο ένα σημείο της γραφικής παράστασης

28

Υπολογισμός της συνάρτησης π(Χ)


Μια μέθοδος προσέγγισης της π(Χ)

π(Χ)

1/2

Χmin Χ1 Χmax Χ

29
Υπολογισμός της συνάρτησης π(Χ)
Μια μέθοδος προσέγγισης της π(Χ)
• Ερώτηση 2: Ποιο είναι το ισοδύναμο ποσό με την εξής κλήρωση

1/2 1/2
∼ ?
Χ1 Χmax
• Έστω ότι η απάντηση είναι Χ2
• Τότε θα ισχύει ότι: π(Χ2) = 1/2 ⋅ π(Χ1) + 1/2 ⋅ π (Χmax) = 3/4
• Άρα βρήκαμε κι άλλο ένα σημείο της γραφικής παράστασης

30

Υπολογισμός της συνάρτησης π(Χ)


Μια μέθοδος προσέγγισης της π(Χ)

π(Χ)

1
´
3/4 ´
1/2 ´

´Χ
min
Χ1 Χ2 Χmax Χ

31
Υπολογισμός της συνάρτησης π(Χ)
Μια μέθοδος προσέγγισης της π(Χ)
• Μπορώ να συνεχίσω έτσι για όσο χρειαστεί
• Ερώτηση 3: Ποιο είναι το ισοδύναμο ποσό με την εξής κλήρωση

1/2 1/2
∼ ?
Χmin Χ1
• Έστω ότι η απάντηση είναι Χ3
• Τότε θα ισχύει ότι: π(Χ3) = 1/2 ⋅ π(Χmin) + 1/2 ⋅ π (Χ1) = 1/4

• Θεώρημα: Αν η π(Χ) είναι πολυώνυμο βαθμού k, αρκεί να


μάθουμε k+1 σημεία για να βρούμε τους συντελεστές του
πολυωνύμου
• Αν δεν είναι πολυώνυμο, είναι γνωστό ότι μπορούμε να την
προσεγγίσουμε από πολυώνυμο (Θεώρημα Weierstrass) 32

Χρηματικό κέρδος vs π(Χ)


• Ουσιαστικά, έχουμε γενικεύσει την μέθοδο ανάλυσης
που είδαμε στις πρώτες διαλέξεις
• Όταν οι παίκτες είναι συντηρητικοί ή ριψοκίνδυνοι,
μπορούμε και πάλι να κάνουμε προς τα πίσω επαγωγή
• Αντί για μεγιστοποίηση του μέσου χρηματικού κέρδους,
τώρα στους κόμβους απόφασης θέλουμε να
μεγιστοποιήσουμε την μέση τιμή της π(Χ) από τις
διαθέσιμες επιλογές
• Η π(Χ) παίζει το ρόλο μιας συνάρτησης ωφέλειας

33
Συναρτήσεις ωφέλειας
• Αναφέρονται και ως συναρτήσεις χρησιμότητας
• Είναι οποιαδήποτε συνάρτηση που προσδιορίζει με
κάποιο τρόπο την ωφέλεια του αποφασίζοντα σε κάθε
έκβαση [D. Bernoulli, 1738]
• Η χρήση τους ξεκίνησε με αφορμή το παράδοξο του St.
Petersburg [Ν. Bernoulli, 1713] (ψάξτε το!)
• Πλέον οι συναρτήσεις ωφέλειας χρησιμοποιούνται σε
όλη την μικροοικονομική θεωρία ως ο ενδεδειγμένος
τρόπος για την περιγραφή των προτιμήσεων μιας
οντότητας
• Η π(Χ) αποτελεί ένα παράδειγμα έκφρασης
προτιμήσεων, αφού μπορούμε να συγκρίνουμε
αποφάσεις με βάση την παράμετρο π (Παραδοχή 2)
34

Συναρτήσεις ωφέλειας
• Όταν ψάχνουμε να υπολογίσουμε την π(Χ), θέλουμε
πάντα να ισχύει η κανονικοποίηση π(Xmin) = 0, π(Xmax) = 1

• Ερώτηση 1: Θα αλλάξει κάτι αν αναλύσουμε ένα δέντρο


αποφάσεων με βάση την π(Χ) + β, αντί για την π(Χ)?
Ø Όπου β μια σταθερά
Ø Επειδή σε κάθε κόμβο απόφασης υπολογίζουμε την μέση τιμή
που επιτυγχάνεται για την π(Χ) από τον κόμβο και κάτω, οι
αποφάσεις θα μείνουν ανεπηρέαστες

• Ερώτηση 2: Θα αλλάξει κάτι αν αναλύσουμε ένα δέντρο


με βάση την απ(Χ) με α>0, αντί για την π(Χ)?
Ø Και πάλι όχι

35
Συναρτήσεις ωφέλειας
• Θεώρημα: Σε ένα δέντρο απόφασης, οι αποφάσεις
μένουν ίδιες είτε χρησιμοποιήσουμε την π(Χ) είτε την
u(X) = απ(Χ) + β, με α>0, και β οποιαδήποτε σταθερά
• Πόρισμα: Δεν είναι ανάγκη να χρησιμοποιούμε πάντα
την κανονικοποιημένη π(Χ)
Ø Π.χ. αν μας δώσουν την u(X) = 3log(X), δεν χρειάζεται να την
φέρουμε σε μορφή που να ισχύει u(Xmin) = 0
• Το u(X) δεν χρειάζεται να αντιστοιχεί σε πιθανότητα
Ø Εκφράζει απλά μια ποσότητα ωφέλειας
Ø u(X) = ωφέλεια που αποκομίζει ο αποφασίζων όταν έχει Χ ευρώ
• Κάποιες φορές είναι πιο εύκολο να έχουμε μια μη
κανονικοποιημένη u(X) αντί να σκεφτόμαστε ισοδυναμίες
με βασικές κληρώσεις για να φτιάξουμε την π(Χ)

36

Συναρτήσεις ωφέλειας
• Τελικά: Μπορούμε να κάνουμε την ανάλυση με
οποιαδήποτε συνάρτηση είναι συνεπής με τις
προτιμήσεις του αποφασίζοντα
• Όταν μας δίνεται μια συνάρτηση u(X),
Ø εφαρμόζουμε την ίδια μεθοδολογία με προς τα πίσω
επαγωγή
Ø Σε κάθε κόμβο τύχης, βρίσκουμε την μέση τιμή της
u(X)
Ø Σε κάθε κόμβο απόφασης, παίρνουμε την απόφαση
που μεγιστοποιεί την μέση τιμή της u(X)
• Δηλαδή αντί για υπολογισμό μέσου χρηματικού κέρδους
που κάναμε στις πρώτες διαλέξεις, υπολογίζουμε τώρα
μέσες τιμές της u(X)
37
Συναρτήσεις ωφέλειας
• Οι μόνοι έλεγχοι που χρειάζεται να κάνουμε όταν μας
δίνεται μια συνάρτηση ωφέλειας u(X) είναι ότι πρέπει
Ø Να είναι αύξουσα (συνήθως, περισσότερα χρήματα
φέρνουν μεγαλύτερη ή ίση ωφέλεια)
Ø Να είναι γραμμική για αποφασίζοντες που θέλουν το
κριτήριο μεγιστοποίησης μέσου χρηματικού κέρδους
Ø Να είναι κοίλη όταν ξέρουμε ότι έχουμε συντηρητικό
αποφασίζοντα
Ø Να είναι κυρτή όταν ξέρουμε ότι έχουμε ριψοκίνδυνο
αποφασίζοντα

38

Παραδείγματα ανάλυσης με
συναρτήσεις ωφέλειας

39
Παράδειγμα 1 (πώς κερδοφορούν οι
ασφαλιστικές εταιρείες)
α1 α2

α1: δεν ασφαλίζομαι

α2: ασφαλίζομαι
10-5 1-10-5

-100 0

• Μια ασφαλιστική εταιρεία προσφέρει ένα πρόγραμμα ασφάλισης με


κόστος Χ για 1 χρόνο σε περίπτωση μεγάλης ζημιάς (πυρκαγιάς, σεισμού,
βανδαλισμού,…) ενός διαμερίσματος
• Έστω ότι η αξία του διαμερίσματος είναι 100 χιλιάδες ευρώ
• Από στατιστικά στοιχεία, η πιθανότητα να γίνει η ζημιά αυτή είναι 10-5
• Σε τι τιμή θα ήταν πρόθυμος να ασφαλιστεί ο ιδιοκτήτης αν η συνάρτηση
ωφέλειας του είναι u(X) = sqrt(X+100)?
– Όπου Χ σε χιλιάδες ευρώ 40

Παράδειγμα 1 (πώς κερδοφορούν οι


ασφαλιστικές εταιρείες)
• Για να μας συμφέρει να ασφαλιστούμε θα πρέπει
– Μέση ωφέλεια αν ασφαλιστούμε ≥ μέση ωφέλεια αν δεν ασφαλιστούμε
• Έστω ΧA η μέγιστη τιμή χρέωσης για την οποία θα μας συνέφερε η
ασφάλεια
• Για το ΧA, θα πρέπει να ισχύει ότι

u(-XA) = 10-5u(-100) + (1-10-5)u(0)


• Υψώνοντας στο τετράγωνο και κάνοντας πράξεις:


Ø -ΧΑ + 100 = 100(1-10-5)2
Ø ΧΑ = 100 – 100(1 - 2 ⋅ 10-5 + 10-10)
Ø ΧΑ = 200 ⋅ 10-5 - 100 ⋅ 10-10
Ø ΧΑ = 2 ⋅ 10-3 - 10-8 ≈ 2 ⋅ 10-3
41
Παράδειγμα 1 (πώς κερδοφορούν οι
ασφαλιστικές εταιρείες)
Παρατηρήσεις και συμπεράσματα:
• Ιδιοκτήτες που συμπεριφέρονται με βάση την συγκεκριμένη u(X) είναι
πρόθυμοι να πληρώσουν μέχρι και 2 ⋅ 10-3
• Μέση χρηματική τιμή της ζημιάς: 100 ⋅ 10-5 = 10-3
• Όταν μια εταιρεία έχει πολλούς ασφαλισμένους, από το νόμο των μεγάλων
αριθμών η ζημιά της εταιρείας θα είναι κατά μέσο όρο 10-3 ανά πελάτη
– Ολική καταστροφή σπιτιού από ατύχημα θα συμβεί σε πολύ λίγους πελάτες μέσα σε 1
χρόνο
• Άρα σε μια χρονιά χωρίς ιδιαίτερα απρόοπτα, αναμενόμενο κέρδος της
εταιρείας π.χ. με 106 ασφαλισμένους:
– 106 ⋅ (2 ⋅ 10-3 - 10-3) = 103 (σε χιλιάδες ευρώ)
• Πόρισμα: Οι ασφαλιστικές εταιρείες ευνοούνται
– Από το νόμο των μεγάλων αριθμών (όταν έχουν πολλούς ασφαλισμένους)
– Από το γεγονός ότι οι ασφαλισμένοι σκέφτονται συντηρητικά και είναι πρόθυμοι να
πληρώσουν ένα μεγαλύτερο ποσό από τη μέση τιμή της ζημιάς
42

Παράδειγμα 2 – Αγοραπωλησίες λαχείων


α1 α2
α1: δεν πουλάω
Χ
α2: πουλάω
1/2 1/2

1000 0

• Έστω ότι έχετε ένα λαχείο στην κατοχή σας που κερδίζει 1000 ευρώ με
πιθ/τα 1/2
• Σε τι τιμή θα δεχόσασταν να πουλήσετε το λαχείο (δλδ να παραιτηθείτε
των δικαιωμάτων σας σε πιθανό κέρδος)
• Παρόμοιο δίλημμα αντιμετωπίζει κάποιος που σκέφτεται να πουλήσει τα
δικαιώματα μιας νέας startup εταιρείας

43
Παράδειγμα 2 – Αγοραπωλησίες λαχείων
α1 α2
α1: δεν πουλάω
Χ
α2: πουλάω
1/2 1/2

1000 0

• Θεωρούμε την παρακάτω συνάρτηση ωφέλειας


u(X)

• Εκφράζει συντηρητική συμπεριφορά


X

44

Παράδειγμα 2 – Αγοραπωλησίες λαχείων


• Έστω ΧΠ η ελάχιστη τιμή πώλησης που είναι συμφέρουσα
• Για το ΧΠ πρέπει να ισχύει:
u(XΠ) = 1/2u(1000) + 1/2u(0)
⇒ sqrt(XΠ) = 1/2sqrt(1000)
⇒ XΠ = 250

• Άρα αν κάποιος μας προσφέρει από 250 ευρώ και άνω, θα πρέπει να
δεχθούμε την προσφορά, διαφορετικά την απορρίπτουμε
• Επαληθεύεται ότι πρόκειται για συντηρητική συμπεριφορά
Ø Είμαστε οκ με 250 ευρώ ενώ η μέση τιμή του λαχείου είναι 500

45
Παράδειγμα 2α – Αγοραπωλησίες λαχείων
α1 α2
-Χ α1: αγοράζω
0
α2: δεν αγοράζω
1/2 1/2

1000-Χ -Χ

• Έστω τώρα ότι το ίδιο λαχείο δεν το έχετε στην κατοχή σας αλλά θέλετε να
το αγοράσετε
• Σε τι τιμή θα δεχόσασταν να το αγοράσετε αν έχετε την ίδια συνάρτηση
ωφέλειας?

46

Παράδειγμα 2α – Αγοραπωλησίες λαχείων


• Έστω ΧΑ η μέγιστη τιμή αγοράς που είναι συμφέρουσα
• Για το ΧΑ πρέπει να ισχύει:
1/2 ⋅ u(1000-ΧΑ) + 1/2 ⋅ u(-ΧΑ) = u(0)
⇒ ½ ⋅ sqrt(1000-ΧΑ) + ½ ⋅ (-1) ⋅ XA2 = 0

• Αν υψώσουμε στο τετράγωνο παίρνουμε μια εξίσωση 4ου βαθμού


• Αν την λύσουμε με κάποιο πακέτο λογισμικού, παίρνουμε ΧΑ ≈ 5.62
• Παρατήρηση: ΧΑ << ΧΠ !!!
• Δεν αποτελεί μεγάλη έκπληξη, πολλές φορές είμαστε πρόθυμοι να
προσφέρουμε λιγότερο για να αποκτήσουμε ένα αγαθό από ότι θα
σκεφτόμασταν να το πουλήσουμε αν το είχαμε
• Υπάρχουν συναρτήσεις ωφέλειας όπου ΧΑ = ΧΠ?

47
Αγοραπωλησίες λαχείων
• Τι περιμένουμε για τα ΧΑ, ΧΠ όταν η συνάρτηση ωφέλειας είναι γραμμική?
• Τότε δεν υπάρχει διαφορά μεταξύ αγοράς και πώλησης, θα έχουμε ΧΑ = ΧΠ

Θεώρημα:
(i) Αν μια συνάρτηση ωφέλειας είναι γραμμική, τότε ΧΑ = ΧΠ για κάθε
λαχείο
(ii) Έστω ότι για έναν αποφασίζοντα, ΧΑ = ΧΠ για κάθε λαχείο. Τότε η
συνάρτηση ωφέλειάς του είτε είναι γραμμική, είτε u(X) = 1 – e-λX

48

Παράδειγμα 3 (πώς κερδοφορεί ο ΟΠΑΠ)


α1 α2
-Χ α1: αγοράζω
0
α2: δεν αγοράζω
10-5 1 -10-5

106 -Χ -Χ

• Ας θεωρήσουμε ένα πιο ρεαλιστικό λαχείο και μια λίγο διαφορετική


συμπεριφορά (ριψοκίνδυνη για μικρές τιμές, πιο συντηρητική για
μεγαλύτερες)
u(X)
• Σε τι τιμή θα δεχόσασταν να αγοράσετε το λαχείο?

49
Παράδειγμα 3 (πώς κερδοφορεί ο ΟΠΑΠ)
• Έστω ΧΑ η μέγιστη τιμή αγοράς που είναι συμφέρουσα
• Για το ΧΑ πρέπει να ισχύει:
10-5 ⋅ u(106 - ΧΑ) + (1-10-5) ⋅ u(-ΧΑ) = u(0)
• Για να αντικαταστήσουμε το u(106 - ΧΑ), πρέπει να δούμε ποιον
κλάδο της συνάρτησης θα χρησιμοποιήσουμε
• Περιμένουμε ότι 106 – ΧΑ > 104, άρα u(106 - ΧΑ) = 106sqrt(106 - ΧΑ)
• Άρα:

• Εν τέλει θα προκύψει εξίσωση 4ου βαθμού όπως και πριν, την


οποία μπορούμε να λύσουμε μέσω κάποιου λογισμικού
• Προσεγγιστικά: 1 – 10-5 ≈ 1, και sqrt(106 – ΧΑ) ≈ 103
• Λύνοντας έτσι θα έχουμε ότι ΧΑ ≈ 100

50

Παράδειγμα 3 (πώς κερδοφορεί ο ΟΠΑΠ)

Παρατηρήσεις και συμπεράσματα:


• Όσοι έχουν προτιμήσεις που εκφράζονται από την συγκεκριμένη u(X) (ή
και παρόμοιες συναρτήσεις) είναι πρόθυμοι να πληρώσουν ≈ 100 ευρώ
• Ενώ η μέση χρηματική τιμή του λαχείου είναι μόνο 10-5 ⋅ 106 = 10 ευρώ!
Κέρδος ΟΠΑΠ:
• Αφού η πιθανότητα επιτυχίας είναι 10-5, έχουμε 105 πιθανά λαχεία
• Άρα μέγιστο δυνατό κέρδος: 100 ⋅ 105 – 106 = 9 ⋅ 106
• Ακόμα κι αν αγοραστεί το 20% των λαχείων,
κέρδος = 0.2 ⋅ 100 ⋅ 105 – 106 = 106
• Πόρισμα: Οι αγορές λαχείων εκμεταλλεύονται την ριψοκίνδυνη
συμπεριφορά για λαχεία που έχουν μικρό μέσο χρηματικό κέρδος
– Η τιμολόγηση γίνεται λαμβάνοντας υπόψη ότι πολλοί υποψήφιοι αγοραστές είναι
πρόθυμοι να πληρώσουν παραπάνω από την μέση τιμή του λαχείου

51
Γενικεύσεις
• Είναι πιο ακριβές σε μια αγορά ή μια επένδυση να λαμβάνουμε υπόψη και
το αρχικό διαθέσιμο κεφάλαιο για την επένδυση
• Έστω Π το αρχικό κεφάλαιο και έστω ένα επενδυτικό στοιχείο με την
παρακάτω αβεβαιότητα:

λ 1-λ

Κ 0

• Η ελάχιστη συμφέρουσα τιμή πώλησης, ΧΠ, ικανοποιεί:


u(Π + ΧΠ) = λ ⋅ u(Π+Κ) + (1-λ) ⋅ u(Π)
• Η μέγιστη συμφέρουσα τιμή αγοράς, ΧΑ, ικανοποιεί:
λ ⋅ u(Π + Κ – ΧΑ) + (1-λ) ⋅ u(Π – ΧΑ) = u(Π)

52

Συντελεστής αποφυγής κινδύνου


(Arrow-Pratt)

53
Αποφυγή και διάθεση για ρίσκο
• Μέχρι τώρα, έχουμε βρει έναν τρόπο να κατηγοριοποιήσουμε την
συντηρητική και την ριψοκίνδυνη συμπεριφορά
• Κοίλες συναρτήσεις ⇒ συντηρητική συμπεριφορά
• Κυρτές συναρτήσεις ⇒ ριψοκίνδυνη συμπεριφορά
• Μπορούμε να ποσοτικοποιήσουμε την διάθεση για ρίσκο?
– Π.χ. πότε μπορούμε να πούμε ότι ένας αποφασίζων είναι πιο ριψοκίνδυνος από έναν
άλλο?
• Θα πρέπει να δούμε περαιτέρω χαρακτηριστικά των συναρτήσεων
ωφέλειας
• Προσοχή: η διάθεση για ρίσκο θα πρέπει να είναι ίδια για την u(X) και για
οποιαδήποτε άλλη συνάρτηση της μορφής αu(X) + β, με α>0
– Αναλλοίωτη ποσότητα ως προς γραμμικούς μετασχηματισμούς

54

Αποφυγή και διάθεση για ρίσκο


• Ο συντελεστής αποφυγής κινδύνου (ή συντελεστής Arrow-pratt)
τ(x) = -u’’(x)/u’(x)
• Ελέγξτε ότι ο συντελεστής είναι όντως ανεξάρτητος από γραμμικούς
μετασχηματισμούς συναρτήσεων
– Υπολογίστε το τ(x) για την αu(x) + β
• Κοίλες συνάρτησεις ⇒ u’(x) ≥ 0, u’’(x) ≤ 0
– Άρα τ(x) ≥ 0 για συντηρητικές συμπεριφορές
– Όσο μεγαλύτερο το τ(x), τόσο πιο συντηρητικός ο αποφασίζων
• Κυρτές συναρτήσεις ⇒ u’(x) ≥ 0, u’’(x) ≥ 0
– Άρα τ(x) ≤ 0 για ριψοκίνδυνες συμπεριφορές
– Όσο μικρότερο το τ(x), τόσο πιο ριψοκίνδυνος ο αποφασίζων

55
Αποφυγή και διάθεση για ρίσκο
• Ο συντελεστής αποφυγής κινδύνου (ή συντελεστής Arrow-pratt)
τ(x) = -u’’(x)/u’(x)
• Το τ(x) μπορεί να κυμαίνεται από -∞ ως +∞
• Πόσο είναι το τ(x) όταν έχουμε το κριτήριο μεγιστοποίησης μέσου
χρηματικού κέρδους?
– Τότε έχουμε δει ότι η u(x) είναι γραμμική, u(x) = αx + β
– u’(x) = α, u’’(x) = 0
– Άρα τ(x) = 0
• Οι γραμμικές συναρτήσεις είναι ακριβώς στη μέση του φάσματος από
έντονη διάθεση για ρίσκο έως έντονη διάθεση για αποφυγή ρίσκου

56

Παραδείγματα υπολογισμού του τ(x)


• Σε κοίλες συναρτήσεις τ(x) ≥ 0
• Σε αρκετές κοίλες συναρτήσεις, η τ(x) είναι και φθίνουσα
– Δηλαδή η συντηρητική συμπεριφορά εξομαλύνεται όσο μεγαλώνει το x και πάει προς το
0 (όταν x → +∞)
• Παράδειγμα 1: u(x) = ln(x+β) στο διάστημα (-β, +∞), για κάποια σταθερά β
– u’(x) = 1/(x+β), u’’(x) = -1/(x+β)2
– Άρα τ(x) = 1/(x+β)
– Συντηρητική διάθεση με τ(x) →0, όταν x → +∞
• Παράδειγμα 2: u(x) = sqrt(x) στο διάστημα (0, +∞)

– Άρα τ(x) = 1/(2x)


– Και πάλι έχουμε τ(x) →0, όταν x → +∞

57
Παραδείγματα υπολογισμού του τ(x)
• Σε κοίλες συναρτήσεις τ(x) ≥ 0
• Παράδειγμα 3: u(x) = 1 – e-λx με λ>0, στο διάστημα (- ∞, +∞)
– u’(x) = (-1) ⋅ (-λ) ⋅ e-λx = λ ⋅ e-λx
– u’’(x) = λ ⋅ (-λ) ⋅ e-λx = -λ2 ⋅ e-λx
– Άρα τ(x) = λ>0 για κάθε x
• Πώς ερμηνεύουμε συναρτήσεις ωφέλειας με τ(x) = θετική σταθερά για
κάθε x?
– Πεισματικά σταθερή συντηρητική διάθεση χωρίς καμία μεταβολή
– Αντίστοιχα για ριψοκίνδυνους με τ(x) = -c για κάποια σταθερά c>0
• Ποιες συναρτήσεις ωφέλειας έχουν σταθερό συντελεστή τ(x) = γ για
κάθε x?
– Είναι όλες της μορφής u(x) = α – βe-γx
– Οι παράμετροι α, β, γ μπορούν να είναι και 0
– Προκύπτει από την επίλυση της διαφορικής εξίσωσης τ(x) = γ
58

Παραδείγματα υπολογισμού του τ(x)


• Σε κυρτές συναρτήσεις τ(x) ≤ 0
• Παράδειγμα 4: u(x) = ex, στο διάστημα (- ∞, +∞)
– u’(x) = u’’(x) = ex
– Άρα τ(x) = -1 για κάθε x
• Παράδειγμα 5: u(x) =2x3 στο διάστημα (0, +∞)
– u’(x) = 6x2, u’’(x) = 12x
– Άρα τ(x) = -2/x
– Και εδώ έχουμε τ(x) →0, όταν x → +∞
– Ριψοκίνδυνη διάθεση που μειώνεται σε μεγάλα ποσά

59
Θεωρία Παιγνίων και
Αποφάσεων

Προβλήματα Επιλογής Χαρτοφυλακίου


(Portfolio Selection Problems)

Επιλογή χαρτοφυλακίου (Portfolio


selection)
[Markowitz ’52]
• Εφαρμογή της χρήσης συναρτήσεων ωφέλειας στην επιλογή
επενδύσεων
• Έστω ότι θέλετε να επενδύσετε σε κάποια επενδυτικά
στοιχεία (π.χ. μετοχές, ομόλογα, …)
• Και έχετε ένα αρχικό διαθέσιμο κεφάλαιο Κ
• Πώς θα επιλέξετε σε ποια στοιχεία θα επενδύσετε και με τι
ποσό?

2
Παράδειγμα 1
• Έστω Κ = 104 το αρχικό κεφάλαιο
• Μετά από μελέτη στατιστικών και υποδείξεις ειδικών, ένας επενδυτής
σκέφτεται να αγοράσει μετοχές μιας συγκεκριμένης εταιρείας, και
ομόλογα συγκεκριμένης (μη χρεωκοπημένης) χώρας
• Απόδοση ομολόγων: σταθερή 7%
• Απόδοση μετοχής: 2% με πιθ/τα 0.37 και 10% με πιθ/τα 0.63
• Έστω ότι η συνάρτηση ωφέλειας είναι u(x) = sqrt(x)
• Πώς πρέπει να γίνει η επένδυση?

Παράδειγμα 1
• Προσοχή: Δεν μπορώ να σχεδιάσω δέντρο απόφασης για τέτοια
προβλήματα!
• Το πλήθος των επιλογών του αποφασίζοντα είναι άπειρο
– Επειδή πρέπει να αποφασίσουμε ποιο ποσοστό του κεφαλαίου Κ θα επενδυθεί στις
μετοχές και ποιο στα ομόλογα
• Είναι ένα δέντρο με άπειρο πλήθος ακμών από τη ρίζα
• Θα κάνουμε και πάλι μεγιστοποίηση της μέσης ωφέλειας, όπως και πριν,
αλλά με διαφορετικό τρόπο
• Ζητούμενο: το ποσοστό του Κ που θα επενδυθεί στις μετοχές

4
Παράδειγμα 1
Ανάλυση:
• Έστω s το ποσοστό που θα επενδυθεί στις μετοχές
– Συνολικό ποσό επένδυσης στις μετοχές: s ⋅ K
– Στα ομόλογα: (1-s) ⋅ K
• Τελικό χρηματικό ποσό από ομόλογα: m = 1.07 ⋅ (1-s) ⋅ K
• Τελικό χρηματικό ποσό από μετοχή:
– Με πιθ/τα 0.37: m1 = 1.02 ⋅ s ⋅ K
– Με πιθ/τα 0.63: m2 = 1.1 ⋅ s ⋅ K
• Τελικό χρηματικό ποσό:
– Με πιθ/τα 0.37: m + m1 = 1.07 ⋅ (1-s) ⋅ K + 1.02 ⋅ s ⋅ K = K ⋅ (1.07 – 0.05s)
– Με πιθ/τα 0.63: m + m2 = 1.07 ⋅ (1-s) ⋅ K + 1.1 ⋅ s ⋅ K = K ⋅ (1.07 + 0.03s)
• Μέση ωφέλεια: 0.37u(m+m1) + 0.63u(m+m2)

Παράδειγμα 1
Ανάλυση:
• Η μέση ωφέλεια του επενδυτή είναι:

• Έστω f(s) η παραπάνω συνάρτηση


• Η μεγιστοποίηση της μέσης ωφέλειας επιτυγχάνεται στο μέγιστο της f
• f’(s) = 0 ⇒

• Εξίσωση 1 μεταβλητής
– Υψώνουμε στο τετράγωνο και κάνουμε πράξεις

6
Παράδειγμα 1
Ανάλυση:
• Μετά από πράξεις:
632 ⋅ 32 ⋅ (1.07 – 0.05s) = 372 ⋅ 52 ⋅ (1.07 + 0.03s)
• Από όπου προκύπτει ότι s = 0.569
• Επίσης f’’(s) < 0 για s = 0.569, άρα έχουμε μέγιστο
• Τελική στρατηγική επένδυσης:
– 5690 ευρώ επενδύονται στις μετοχές
– 4310 ευρώ επενδύονται στα ομόλογα

Παράδειγμα 2
• Αν έχουμε συνεχείς τυχαίες μεταβλητές για την απόδοση?
• Έστω ότι πάλι Κ = 104 είναι το αρχικό κεφάλαιο και η συνάρτηση
ωφέλειας είναι u(x) = sqrt(x)
• Ένας επενδυτής σκέφτεται να επενδύσει σε μετοχές και ομόλογα με τις
εξής αποδόσεις
• Απόδοση ομολόγων: σταθερή 8.5%
• Απόδοση μετοχής: Ομοιόμορφα κατανεμημένη στο διάστημα [0.02, 0.15]
– Δηλαδή κυμαίνεται από 2% ως 15% με ομοιόμορφη κατανομή
– Η ίδια ανάλυση ισχύει και για οποιαδήποτε άλλη κατανομή
• Πώς πρέπει να γίνει η επένδυση?

8
Παράδειγμα 2
Θα ξεκινήσουμε με τον ίδιο τρόπο
• Έστω s το ποσοστό που θα επενδυθεί στις μετοχές
– Συνολικό ποσό επένδυσης στις μετοχές: s ⋅ K
– Στα ομόλογα: (1-s) ⋅ K
• Έστω r η απόδοση της μετοχής (τυχαία μεταβλητή)
• Τελικό χρηματικό ποσό από ομόλογα: m = 1.085 ⋅ (1-s) ⋅ K
• Τελικό χρηματικό ποσό από μετοχή: m’ = (1+r) ⋅ s ⋅ K
• Τελικό χρηματικό ποσό:
– m + m’ = K ⋅ [1.085 ⋅ (1-s) + (1+r) ⋅ s] = K ⋅ [s ⋅ (r - 0.085) + 1.085]
• Ωφέλεια με απόδοση r: u(m+m’)
– Εξαρτάται από το ποσοστό s και την απόδοση r
• Για να υπολογίσουμε την μέση ωφέλεια, χρειαζόμαστε την συνάρτηση
πυκνότητας πιθανότητας της r

Παράδειγμα 2
• Για ομοιόμορφες κατανομές στο [a, b], η σ.π.π. είναι η g(r) = 1/(b-a)
• Άρα η μέση ωφέλεια είναι:

• Το ολοκλήρωμα θα υπολογιστεί ως συνάρτηση του s


• Για τον υπολογισμό, βολεύει να κάνουμε την αλλαγή μεταβλητής
y = r - 0.085
• Μετά την μετατροπή θα έχουμε

10
Παράδειγμα 2
• Χρησιμοποιώντας γνωστούς τύπους για τον υπολογισμό ολοκληρωμάτων
έχουμε ότι η μέση ωφέλεια είναι:

• Το επόμενο βήμα είναι όπως και στο Παράδειγμα 1


• Για να μεγιστοποιήσουμε την μέση ωφέλεια, πρέπει να βρούμε το
μέγιστο της f(s)
• Ψάχνουμε ένα σημείο s, έτσι ώστε
– s ∈ [0, 1], f’(s) = 0, f’’(s) <0
• Λύνοντας την f’(s) = 0 (π.χ. με μέθοδο Newton) βρίσκουμε s = 0.9996, και
επίσης f’’(0.9996) < 0
• Τελική προτεινόμενη στρατηγική: 9996 ευρώ στη μετοχή και 4 στα
ομόλογα!
• Πρακτικά: θα επενδύσουμε όλο το ποσό στις μετοχές

11

Επιλογή χαρτοφυλακίου
• Στα προηγούμενα παραδείγματα εν τέλει καταλήξαμε να
ψάχνουμε την λύση σε μια εξίσωση 1 μεταβλητής
– Της εξίσωσης f’(s) = 0
• Αν βρούμε το s, ξέρουμε κατευθείαν τι ποσό θα επενδύσουμε
στις μετοχές και τι στα ομόλογα
• Αν είχαμε 3 επενδυτικές επιλογές?
– Π.χ., μετοχές της εταιρείας Α, μετοχές της εταιρείας Β, και ομόλογα?
• Θα είχαμε πρόβλημα με 2 μεταβλητές
– Ποσοστό για τις μετοχές Α, και ποσοστό για τις μετοχές Β
• Αν έχουμε n επενδυτικές επιλογές?

12
Επιλογή χαρτοφυλακίου
Το γενικό πρόβλημα επιλογής βέλτιστου χαρτοφυλακίου
• Έστω αρχικό κεφάλαιο Κ
• Και n+1 επενδυτικές επιλογές Μ0, Μ1,…, Μn
– Συνήθως το Μ0 αντιστοιχεί σε κάποια επιλογή για ομόλογα με
σταθερή απόδοση, και τα Μ1,…, Μn σε μετοχές διαφορετικών
εταιρειών
• Έστω r = (r0, r1, r2,…, rn) το διάνυσμα των αποδόσεων
– ri η τυχαία μεταβλητή για την απόδοση του Μi
– Μπορεί να πάρει και αρνητικές τιμές
• Ζητούμενο: το ποσοστό που θα επενδύσουμε στην κάθε
επιλογή, σύμφωνα με κάποια δοσμένη συνάρτηση ωφέλειας
u(x) του επενδυτή

13

Επιλογή χαρτοφυλακίου
Το γενικό πρόβλημα επιλογής βέλτιστου χαρτοφυλακίου
• Ψάχνουμε να βρούμε ένα διάνυσμα s = (s0, s1, s2,…, sn)
– Όπου si το ποσοστό που επενδύεται στο στοιχείο Μi
• Συνολικό χρηματικό κέρδος στο τέλος
– s0 ⋅ K ⋅ (1+r0) από το Μ0
– s1 ⋅ K ⋅ (1+r1) από το Μ1
– …
– sn ⋅ K ⋅ (1+rn) από το Μn
• Ωφέλεια του επενδυτή όταν οι αποδόσεις δίνονται από το r:
– u(s, r) = u(Σi si ⋅ K ⋅ (1+ri))
• Μέση ωφέλεια: παίρνουμε μέση τιμή ως προς τις αποδόσεις
– f(s) = Er [u(Σi si ⋅ K ⋅ (1+ri))]

14
Επιλογή χαρτοφυλακίου
Το γενικό πρόβλημα επιλογής βέλτιστου χαρτοφυλακίου
• Τελικά ο επενδυτής πρέπει να λύσει ένα πρόβλημα
βελτιστοποίησης υπό περιορισμούς:
max f(s) = Er [u(Σi si ⋅ K ⋅ (1+ri))]
Υπό τους περιορισμούς
Σi si =1
si ≥ 0, για κάθε i = 0, 1, …,n

Θα μπορούσαμε να έχουμε ως περιορισμό το Σi si ≤ 1


• Επιτρέπουμε έτσι να μην επενδυθεί απαραίτητα όλο το ποσό

15

Επιλογή χαρτοφυλακίου
• Για να μπορέσουμε να λύσουμε το πρόβλημα, πρέπει να
υπολογιστεί η μορφή της f(s)
• Περίπτωση 1: οι αποδόσεις είναι συνεχείς τυχαίες μεταβλητές
– Τότε θα πρέπει να μας δοθεί (ή να καθοριστεί από στατιστικά στοιχεία) η από
κοινού σ.π.π. των αποδόσεων
– Έστω p(r0, r1, …, rn) η από κοινού σ.π.π.
– H f(s) θα μας δίνεται από ένα πολλαπλό ολοκλήρωμα, γενικεύοντας το
Παράδειγμα 2
– Άρα το πρόβλημα γίνεται:

16
Επιλογή χαρτοφυλακίου
• Για να μπορέσουμε να λύσουμε το πρόβλημα, πρέπει να
υπολογιστεί η μορφή της f(s)
• Περίπτωση 2: οι αποδόσεις είναι διακριτές τυχαίες μεταβλητές
– Τότε θα πρέπει να μας δοθεί (ή να καθοριστεί από στατιστικά στοιχεία) η από
κοινού σ.μ.π. των αποδόσεων (συνάρτηση μάζας πιθανότητας)
– Έστω p(r0, r1, …, rn) η από κοινού σ.μ.π.
– Έστω επίσης Ci το πεδίο τιμών της ri
– H f(s) θα μας δίνεται από ένα πολλαπλό άθροισμα, γενικεύοντας το
Παράδειγμα 1

17

Επιλογή χαρτοφυλακίου
• Πώς μπορούμε να λύνουμε τέτοια μεγάλα προβλήματα
βελτιστοποίησης?
• Υπάρχουν αρκετές μέθοδοι με καλές επιδόσεις, υλοποιημένες
σε διάφορα εμπορικά πακέτα λογισμικού
• Π.χ., μπορεί κανείς να χρησιμοποιήσει τις συνθήκες ΚΚΤ
– Βλ. μαθήματα επιχειρησιακής έρευνας
• Η συνάρτηση Lagrange ενός τέτοιου συστήματος είναι:
– L(s, λ) = f(s) + λ(1 - Σi si)
• Η βέλτιστη λύση πρέπει να ικανοποιεί τις ΚΚΤ συνθήκες και
συγκεκριμένα θα πρέπει ÑL(s, λ) = 0
– Αυτό δίνει n+2 εξισώσεις με n+2 μεταβλητές
– Συνήθως όχι γραμμικό σύστημα, αλλά σε αρκετές περιπτώσεις μπορεί να
λυθεί

18
Παράδειγμα 3
• Έστω Κ = 104 το αρχικό κεφάλαιο και u(x) = x2
• Επιλογές: Ομόλογα, Μετοχές εταιρείας Α, Μετοχές εταιρείας Β
• Απόδοση ομολόγων: σταθερή 5%
• Απόδοση μετοχής Α: 20% με πιθ/τα 0.4 και -10% με πιθ/τα 0.6
• Απόδοση μετοχής Β: 10% με πιθ/τα 0.5 και -5% με πιθ/τα 0.5
• Πώς πρέπει να γίνει η επένδυση?

• Έστω r = (r0, r1, r2) το διανυσμα των αποδόσεων με r0 = 0.05


• Υπολογισμός της από κοινού συνάρτησης μάζας πιθανότητας (σ.μ.π.) των
r1 , r2
• (r1, r2) =
– (0.2, 0.1), με πιθ/τα 0.4 ⋅ 0.5 = 0.2
– (0.2, -0.05), με πιθ/τα 0.4 ⋅ 0.5 = 0.2
– (-0.1, 0.1), με πιθ/τα 0.6 ⋅ 0.5 = 0.3
– (-0.1, -0.05), με πιθ/τα 0.6 ⋅ 0.5 = 0.3

19

Παράδειγμα 3
• Έστω s = (s0, s1, s2) το διάνυσμα με τα ποσοστά επένδυσης
– Συνολικό ποσό επένδυσης s0 ⋅ K στα ομόλογα, s1 ⋅ K στις μετοχές Α, s2 ⋅ K στις μετοχές Β
• Τελικό χρηματικό κέρδος:
– Με πιθ/τα 0.2: m1 = 1.05 ⋅ s0 ⋅ K + 1.2 ⋅ s1 ⋅ K + 1.1 ⋅ s2 ⋅ K
– Με πιθ/τα 0.2: m2 = 1.05 ⋅ s0 ⋅ K + 1.2 ⋅ s1 ⋅ K + 0.95 ⋅ s2 ⋅ K
– Με πιθ/τα 0.3: m3 = 1.05 ⋅ s0 ⋅ K + 0.9 ⋅ s1 ⋅ K + 1.1 ⋅ s2 ⋅ K
– Με πιθ/τα 0.3: m4 = 1.05 ⋅ s0 ⋅ K + 0.9 ⋅ s1 ⋅ K + 0.95 ⋅ s2 ⋅ K
• Μέση ωφέλεια:
– f(s) = Er [u(s, r)] = 0.2 ⋅ u(m1) + 0.2 ⋅ u(m2) + 0.3 ⋅ u(m3) + 0.3 ⋅ u(m4)
= 0.2 ⋅ (1.05 ⋅ s0 ⋅ K + 1.2 ⋅ s1 ⋅ K + 1.1 ⋅ s2 ⋅ K)2 + 0.2(m2)2 + 0.3(m3)2 + 0.3(m4)2
– Η συνάρτηση θα έχει τετραγωνικούς όρους και γινόμενα μεταβλητών (π.χ. s1 ⋅ s2)

20
Παράδειγμα 3
• Η μορφή του προβλήματος βελτιστοποίησης θα είναι:

max f(s)
Υπό τους περιορισμούς
s0 + s1 + s2 = 1
si ≥ 0, για i = 0, 1, 2
• Παρατήρηση: Οι παράγωγοι της συνάρτησης Lagrange θα δώσουν
γραμμικές εξισώσεις
- 4 γραμμικές εξισώσεις με 4 μεταβλητές
- Επειδή ξεκινήσαμε με τετραγωνική συνάρτηση ωφέλειας
• Άσκηση: Προσπαθήστε να το λύσετε και να βρείτε τα βέλτιστα
ποσοστά

21

Επιλογή χαρτοφυλακίου
Κάποιες παραλλαγές του γενικού προβλήματος
• Μπορούμε να βάλουμε σαν περιορισμό ότι Σi si ≤ 1 αντί για Σi
si = 1
– Ίσως να μην θέλουμε απαραίτητα να επενδύσουμε όλο το ποσό
• Μπορούμε επίσης να επιτρέψουμε ότι κάποιο si είναι < 0
– Αφαίρεση του περιορισμού si ≥ 0
– Αντιστοιχεί σε πώληση περιουσιακών στοιχείων αντί για αγορά
– Π.χ. αν έχουμε ήδη μετοχές κάποιας εταιρείας, μπορούμε είτε να
αγοράσουμε είτε να πουλήσουμε

22
Επιλογή χαρτοφυλακίου
• Τι συναρτήσεις μπορούμε να χρησιμοποιήσουμε στην πράξη?
• Συνήθως στη χρηματοοικονομική και σε προβλήματα
επενδύσεων, μελετώνται συγκεκριμένες οικογένειες
συναρτήσεων με ελευθερία επιλογής κάποιων παραμέτρων
– Τετραγωνικές συναρτήσεις: u(x) = αx2 + βx + γ (αρκετά δημοφιλείς,
για διάφορες τιμές των παραμέτρων)
– Λογαριθμικές: u(x) = log(x + β)
– Ειδικές εκθετικές: u(x) = eβ/x
– Τετραγωνική ρίζα και άλλες υπογραμμικές: u(x) = (x – x0)β με β < 1
– Αντίστροφη εφαπτομένης: u(x) = arctan(x + β)

23

Ανακεφαλαίωση και Κριτική στη


Θεωρία Αποφάσεων

24
Κριτήρια ανάλυσης
• Ξεκινήσαμε στις πρώτες διαλέξεις με το κριτήριο μεγιστοποίησης μέσου
χρηματικού κέρδους
– Χρήση προς τα πίσω επαγωγής, με υπολογισμό μέσου κέρδους σε κάθε κόμβο τύχης
• Στη συνέχεια, περάσαμε σε αποφασίζοντες που μπορεί να είναι
συντηρητικοί ή ριψοκίνδυνοι
– Πάλι προς τα πίσω επαγωγή όταν έχουμε πεπερασμένο αριθμό επιλογών σε κάθε
κόμβο απόφασης
– Σε κάθε κόμβο τύχης, κάνουμε μεγιστοποίηση μέσης ωφέλειας
• Ακόμα κι αν έχουμε άπειρες επιλογές και δεν μπορούμε να έχουμε δέντρο
αποφάσεων, πάλι μεγιστοποίηση της μέσης ωφέλειας κάνουμε
• Συμπέρασμα: για την ανάλυση που κάνουμε, βασική υπόθεση σε όλες τις
κατηγορίες προβλημάτων που είδαμε είναι ότι οι προτιμήσεις
εκφράζονται από κάποια συνάρτηση ωφέλειας
Είναι πάντα ρεαλιστική αυτή η υπόθεση?

25

Το παράδοξο του Allais


• Ποια επιλογή θα προτιμήσετε στο παρακάτω δέντρο?

26
Το παράδοξο του Allais
• Και ποια στο παρακάτω δέντρο?

27

Το παράδοξο του Allais


• Ποιοι από εσάς προτιμήσατε:
– Το α1 στο δέντρο Δ1
– Και το α3 στο δέντρο Δ2?
• Συμπεράσματα από την συμπεριφορά που παρατηρήθηκε σε πραγματικά
πειράματα που έχουν γίνει για δέντρα τύπου Δ1
– Και για τις 2 αποφάσεις, το ποσοστό των ανθρώπων που τις επέλεξε είναι μη αμελητέο
– Κάποια άνθρωποι προτιμούν το α1 για να έχουν σίγουρο κέρδος
– Κάποιοι πιο ριψοκίνδυνοι προτιμούν να ρισκάρουν μήπως πάρουν 5 εκατ. ευρώ, αλλά
υπάρχει και μικρή πιθανότητα να μην πάρουν τίποτα
• Συμπεράσματα από την συμπεριφορά που παρατηρήθηκε σε πραγματικά
πειράματα που έχουν γίνει για δέντρα τύπου Δ2
– Κι εδώ μη αμελητέο ποσοστό και για τις 2 αποφάσεις
– Οι περισσότεροι συνήθως προτιμούν το α3 αφού οι πιθανότητες δεν διαφέρουν πολύ
με το α4 και το κέρδος είναι μεγαλύτερο

28
Το παράδοξο του Allais
• Ας αναλύσουμε τους ανθρώπους που προτίμησαν
– Το α1 στο δέντρο Δ1
– Και το α3 στο δέντρο Δ2
• Διαλέξτε αυθαίρετα έναν τέτοιο αποφασίζοντα
• Έστω ότι σε αυτόν αντιστοιχεί κάποια συνάρτηση ωφέλειας u(x)
• Άρα θα αντιστοιχεί και κάποια κανονικοποιημένη συνάρτηση π(x)
– Θυμηθείτε την Παραδοχή 1 σε προηγούμενες διαλέξεις
• Ας αναλύσουμε τότε τα δέντρα με βάση την π(x)
– Και στα 2 δέντρα: Xmax = 5 ⋅ 106 > 106 > Χmin = 0
– Άρα π(Xmax) = 1, π(Χmin) = 0 κι έστω π(106) = π1

29

Το παράδοξο του Allais


• Ας αναλύσουμε τους ανθρώπους που προτίμησαν
– Το α1 στο δέντρο Δ1
– Και το α3 στο δέντρο Δ2
• Αφού στο δέντρο Δ1 προτιμήθηκε το α1, πρέπει να ισχύει ότι
π1 > 0.01 ⋅ π(0) + 0.89 ⋅ π1 + 0.1 ⋅ 1 ⇒ π1 > 10/11
• Αφού στο Δ2 προτιμήθηκε το α3, πρέπει να ισχύει ότι
0.1 ⋅ 1 > 0.11 ⋅ π1 ⇒ π1 < 10/11

• Συνεπώς: για τέτοιους ανθρώπους δεν υπάρχει συνάρτηση ωφέλειας που


να περιγράφει τις προτιμήσεις τους!

30
Τελικά συμπεράσματα
• Η θεωρία ωφελιμότητας (utility theory) και οι συναρτήσεις ωφέλειας μας
δίνουν ένα πολύ χρήσιμο εργαλείο για να αναλύουμε προβλήματα
απόφασης
• Μας βοηθάνε να εκφράσουμε μαθηματικά τα προβλήματα απόφασης, ως
κατάλληλα προβλήματα βελτιστοποίησης
• Υπάρχουν όμως και όρια στις προσεγγίσεις αυτές
• Δεν μπορούμε πάντα να εκφράζουμε την ωφέλεια ενός αποφασίζοντα με
κάποια συνάρτηση
• Επίσης, σε διαφορετικά προβλήματα η συμπεριφορά ενός ανθρώπου
μπορεί να αλλάζει
• Στο παράδοξο του Allais, όταν κάποιος προτιμά το α1 στο Δ1 δείχνει
συντηρητική συμπεριφορά
• Αν προτιμήσει το α3 στο Δ2 δείχνει πιο ριψοκίνδυνος (ενώ τα χρηματικά
ποσά που διακυβεύονται είναι ίδια και στα 2 δέντρα)

31

Θεωρία Παιγνίων - Ενότητα 1


Εισαγωγή
Τι είναι η Θεωρία Παιγνίων?
Quote από το βιβλίο του Osborne: Game Theory aims to help us
understand situations in which decision makers interact

• Στόχοι:
– Μαθηματικά μοντέλα για να περιγράψουμε τον τρόπο που
αλληλεπιδρούν μεταξύ τους οι διαφορετικές οντότητες
– Πρόβλεψη (δεδομένου ενός μοντέλου) για το πώς θα αποφάσιζε ένας
rational decision maker

• Decision-makers: άνθρωποι, robot, computer programs, εταιρείες, πολιτικά


κόμματα, κτλ
• Rational: κάθε παίκτης έχει προτιμήσεις ως προς τις πιθανές εκβάσεις και
επιλέγει μια απόφαση που θα οδηγήσει στην καλύτερη δυνατή έκβαση
σύμφωνα με τις προτιμήσεις του

Γιατί Θεωρία Παιγνίων?


• Για να κατανοήσουμε καλύτερα τη συμπεριφορά
των υπόλοιπων παικτών σε μια στρατηγική
κατάσταση
• Για να κατανοήσουμε πότε χρειάζεται να αλλάξουμε
τη δική μας συμπεριφορά/απόφαση ώστε να έχουμε
μεγαλύτερη ωφέλεια

Warning: THIS COURSE WILL CHANGE YOUR


LIFE!

3
Λίγη ιστορία
• Πρώτες ιδέες:
– Μοντέλα για τον ανταγωνισμό μεταξύ εταιρειών: Cournot (1838), Bertrand
(1883)
– 0-sum games: τέλος 19ου αιώνα (Zermelo), και αρχές 20ου (Borel)
• Το θεώρημα minmax για 0-sum games: von Neumann, 1928
• Τα θεμέλια και το 1ο βιβλίο: Theory of Games and Economic Behavior, von
Neumann and Morgenstern, 1944
• Η έννοια του σημείου ισορροπίας (Nash equilibrium): Nash, 1950
• Παίγνια διαδοχικών κινήσεων και παίγνια κατά Bayes (Selten, 1965 και
Harsanyi 1967)
• Βραβείο Νόμπελ Οικονομικών 1994: Harsanyi, Nash, Selten
• Πεδία εφαρμογών:
– Μικρο-οικονομική θεωρία
– Πολιτικές επιστήμες
– Εξελικτική Βιολογία
– Επιστήμη Υπολογιστών
– ...

Killer applications
• Δημοπρασίες επιδοτούμενης αναζήτησης (sponsored search
auctions)
– Χρησιμοποιούνται ευρέως από τις μηχανές αναζήτησης στις
περισσότερες χώρες (Google, Baidu, Yandex,...)
– Σημαντικό μέρος των εσόδων μιας μηχανής αναζήτησης
• Δημοπρασίες φάσματος (spectrum auctions)
– Κρατικές δημοπρασίες για την ανάθεση συχνοτήτων
• Προγράμματα ταιριάσματος
– Για το ταίριασμα γιατρών σε νοσοκομεία, δασκάλων σε σχολεία, κτλ
(κυρίως σε Αγγλία και Η.Π.Α.)
• Μηχανισμοί για δωρεά νεφρών
– Για την εύρεση συμβατού δότη για μεταμόσχευση νεφρού
• Και πολλές άλλες ...

5
Μοντέλα Παιγνίων
Τι ειναι ένα παίγνιο?

Οποιαδήποτε διαδικασία όπου


• Υπάρχουν ≥ 2 αποφασίζοντες
• Η τελική έκβαση και η ωφέλεια κάθε παίκτη
καθορίζονται από τις επιλογές όλων των παικτών

Παραδείγματα: επιτραπέζια παιχνίδια, δημοπρασίες,


εκλογές, δρομολόγηση δικτύων, ...

Μοντέλα Παιγνίων
Κατηγορίες

• Συνεργατικά ή μη συνεργατικά

• Διαδοχικών ή ταυτόχρονων κινήσεων

• Επαναλαμβανόμενα ή μη

• Άπειρα ή πεπερασμένα

• Πλήρους ή ελλιπούς πληροφόρησης

7
Παίγνια σε κανονική μορφή
(Normal-Form Games)

Παίγνια σε κανονική μορφή


Το μεγαλύτερο μέρος του μαθήματος επικεντρώνεται σε παίγνια
που είναι:
• Μη συνεργατικά
– Οι παίκτες δεν επικοινωνούν ή δεν σχηματίζουν συνασπισμούς μεταξύ
τους

• Πλήρους πληροφόρησης
– Οι παίκτες γνωρίζουν τις προτιμήσεις των άλλων παικτών (όχι ομως την
απόφαση που θα πάρουν)

• Ταυτόχρονων κινήσεων
– Οι παίκτες δεν αποφασίζουν απαραίτητα ταυτόχρονα αλλά τη στιγμή
που κάθε παίκτης κάνει την επιλογή του, δεν γνωρίζει και δεν μπορεί να
παρατηρήσει την επιλογή των άλλων παικτών

9
Παίγνια σε κανονική μορφή
Ορισμός: Ένα παίγνιο σε κανονική μορφή
αποτελείται από
– ένα σύνολο παικτών N = {1, 2,..., n}
– Για κάθε παίκτη i, ένα σύνολο διαθέσιμων στρατηγικών
Si
– Για κάθε παίκτη i, μια συνάρτηση ωφέλειας
ui: S1 x ... x Sn → R
• Προφίλ στρατηγικών: Κάθε διάνυσμα της μορφής
(s1, ..., sn), με si Î Si
– Κάθε προφίλ αντιστοιχεί σε μια έκβαση του παιγνίου
– Η συνάρτηση ωφέλειας περιγράφει το όφελος που
αποκομίζει ένας παίκτης από την τελική έκβαση
10

Παίγνια 2 παικτών σε κανονική μορφή


Έστω ένα παίγνιο 2 παικτών με πεπερασμένα σύνολα
στρατηγικών
– Ν = {1, 2}
– S1 = {s1, ..., sn}
– S2 = {t1, ..., tm}
– Συναρτήσεις ωφέλειας:
u1: S1 x S2 → R, u2: S1 x S2 → R
• Πιθανά προφίλ στρατηγικών:
(s1, t1), (s1, t2), (s1, t3), ..., (s1, tm),
(s2, t1), (s2, t2), (s2, t3), ..., (s2, tm),
...
(sn, t1), (sn, t2), (sn, t3), ..., (sn, tm),
11
Παίγνια 2 παικτών σε κανονική μορφή
Η συνάρτηση ωφέλειας κάθε παίκτη ουσιαστικά αντιστοιχεί
σε έναν n x m πίνακα
– Σκεφτείτε ότι ο παίκτης 1 πρέπει να επιλέξει μια γραμμή
– Και ο παίκτης 2 πρέπει να επιλέξει μια στήλη
• Ένα πεπερασμένο παίγνιο 2 παικτών σε κανονική μορφή
ορίζεται από ένα ζεύγος n x m πινάκων (Α, Β) όπου:
– Aij = u1(si, tj), Bij = u2(si, tj)
– Ο παίκτης 1 αναφέρεται και ως παίκτης γραμμών (row player)
– Ο παίκτης 2 αναφέρεται και ως παίκτης στηλών (column
player)

12

Παίγνια 2 παικτών σε κανονική μορφή


Αναπαράσταση με μορφή πινάκων:
Για συντομία, γράφουμε τις τιμές από τους πίνακες
Α, Β μαζί

u1(s1, t1), u2(s1, t1) ..., ... ..., ... ..., ... u1(s1, tm), u2(s1, tm)

u1(s2, t1), u2(s2, t1) ..., ... ..., ... ..., ... ..., ...

u1(si, tj), u2(si, tj) ..., ... ..., ...

..., ... ..., ... ..., ...

..., ... ..., ... ..., ... ..., ... u1(sn, tm), u2(sn, tm)

13
Παίγνια 2 παικτών σε κανονική μορφή
Εναλλακτική αναπαράσταση:
Θα μπορούσαμε να χρησιμοποιήσουμε μια διάταξη
των εκβάσεων ως προς τις προτιμήσεις του κάθε παίκτη

>1: διάταξη του παίκτη 1


>2: διάταξη του παίκτη 2

Π.χ.
(s1, t2) >1 (s2, t3) σημαίνει ότι ο παίκτης 1 θεωρεί καλύτερη την
έκβαση που προκύπτει από το προφίλ (s1, t2) σε σχέση με την
έκβαση του προφίλ (s2, t3)
• Πιθανό θέμα: ισοπαλίες στην ωφέλεια διαφορετικών προφίλ
14

Μερικά βασικά παραδείγματα


παιγνίων

15
Παράδειγμα 1: Prisoner’s Dilemma

• Δύο ύποπτοι ανακρίνονται σε ξεχωριστά δωμάτια για ένα έγκλημα που


έχουν διαπράξει
• Αν δεν ομολογήσουν για το έγκλημα, η αστυνομία έχει στοιχεία για να
τους καταδικάσει για ένα πλημμέλημα (μισό χρόνο φυλακή και οι 2)
• Αν ομολογήσουν και οι 2, πάνε φυλακή για 3 χρόνια και οι 2
• Αν ομολογήσει μόνο ο ένας από τους 2, τότε αυτός αφήνεται ελεύθερος,
και ο άλλος πάει φυλακή 5 χρόνια
• Οι 2 ύποπτοι δεν μπορούν να επικοινωνήσουν κατά τη διάρκεια της
ανάκρισης
16

Παράδειγμα 1: Prisoner’s Dilemma

• Παίκτες N = {1, 2}
• Διαθέσιμες στρατηγικές:
– S1 = S2 = {Δεν ομολογώ (C), Ομολογώ (D)}
• Πιθανές εκβάσεις
– (C, C) = μισό χρόνο φυλακή και οι 2
– (C, D) = 5 χρόνια ο π.1, ελεύθερος ο π. 2
– (D, C) = ελεύθερος ο π.1, 5 χρόνια ο π. 2
– (D, D) = 3 χρόνια και οι 2
17
Παράδειγμα 1: Prisoner’s Dilemma
Προτιμήσεις παικτών:
• Για τον παίκτη 1:
(D, C) >1 (C, C) >1 (D, D) >1 (C, D)
• Για τον παίκτη 2:
(C, D) >2 (C, C) >2 (D, D) >2 (D, C)

• Αναπαράσταση σε μορφή πινάκων:


– Υπάρχουν πολλοί ισοδύναμοι τρόποι
– Αρκεί οι ωφέλειες που θα επιλέξουμε να είναι συνεπείς ως προς τη διάταξη του κάθε
παίκτη
– Π.χ. Μπορούμε να επιλέξουμε
• u1(C, C) = 3, u2(C, C) = 3
• u1(C, D) = 0, u2(C, D) = 4
• u1(D, C) = 4, u2(D, C) = 0
• u1(D, D) = 1, u2(D, D) = 1

18

Prisoner’s Dilemma:
Αναπαράσταση σε μορφή πινάκων
C D
C 3, 3 0, 4
D 4, 0 1, 1

• Δεν θα μπορούσαμε να χρησιμοποιήσουμε τον παρακάτω


πίνακα:
3, 3 2, 4
εδώ u1(C, D) > u1(D, D)
4, 0 1, 1
19
Prisoner’s Dilemma
• Ένα από τα πρώτα παίγνια που μελετήθηκαν
• Εκτενή πειράματα
• Το παίγνιο εκφράζει ένα από τα πιο θεμελιώδη διλήμματα
για 2 παίκτες: Να συνεργαστούν ή όχι?
• Το δίλημμα εμφανίζεται σε αρκετά σενάρια και εφαρμογές:
– Joint project game
– Duopoly model
– Arms race

20

The Joint Project Game


• Δύο φοιτητές έχουν να κάνουν μια ομαδική εργασία
• Αν έστω κι ένας από τους 2 δουλέψει καλά, η εργασία θα
πάρει καλό βαθμό
• Καθένας από τους 2 φοιτητές
– Θέλει να είναι επιτυχής η εργασία
– Προτιμά να μην προσπαθήσει
– Δεν θέλει να τον εκμεταλλευθεί ο συνεργάτης του (και να δουλέψει
μόνο αυτός για την εργασία)
• Στρατηγικές:
– S1 = S2 = {Δουλεύω (W), Τεμπελιάζω(L)}
– Προτιμήσεις π. 1: (L, W) >1 (W, W) >1 (L, L) >1 (W, L)
– Ανάλογα και για τον π.2
– Το παίγνιο είναι ισοδύναμο με το δίλημμα του φυλακισμένου!

21
The Duopoly Model
• Δύο εταιρείες παράγουν ένα προϊόν παρόμοιας ποιότητας
• Η κάθεμια θέλει να αποφασίσει αν θα θέσει υψηλή ή χαμηλή
τιμή
• Κάθε εταιρεία προτιμά να θέσει η ίδια χαμηλή τιμή και ο
ανταγωνιστής υψηλή τιμή
• Στρατηγικές:
– S1 = S2 = {Υψηλή τιμή (H), Χαμηλή τιμή (L)}
– Προτιμήσεις π. 1: (L, H) >1 (H, H) >1 (L, L) >1 (H, L)
• Το παίγνιο και πάλι είναι ισοδύναμο με το δίλημμα του
φυλακισμένου!

22

Arms Race
• Επίκαιρο στην αρχή του ψυχρού πολέμου
• Δύο χώρες (σκεφτείτε Αμερική και Ρωσία μετά το τέλος του Β
παγκοσμίου πολέμου) θέλουν να αποφασίσουν αν θα
αναπτύξουν νέα πυρηνικά όπλα
• Κάθε χώρα φυσικά προτιμά να αναπτύξει η ίδια πυρηνικά και
να μην αναπτύξει η άλλη χώρα
• Στρατηγικές:
– S1 = S2 = {Δεν αναπτύσσω πυρηνικά όπλα, αναπτύσσω πυρηνικά}
– Και πάλι οι προτιμήσεις είναι όπως στο δίλημμα του φυλακισμένου

23
Παράδειγμα 2: Bach or Stravinsky
(BoS)

vs

• Δύο παίκτες, ένας άντρας, μια γυναίκα


• Δύο κονσέρτα κλασικής μουσικής, ένα αφιερωμένο στον Bach, και ένα για
τον Stravinsky
• Ο άντρας προτιμά τον Bach, η γυναίκα προτιμά τον Stravinsky
• Και ο άντρας και η γυναίκα προτιμούν να πάνε κάπου μαζί, αντί να πάει ο
καθένας μόνος του
• Το δίλημα εδώ δεν είναι αν θα συνεργαστούν οι 2 παίκτες, αλλά σε ποια
συναυλία θα πάνε

24

Παράδειγμα 2: Bach or Stravinsky


(BoS)
B S
B 2, 1 0, 0

S 0, 0 1, 2
q Είναι αποδεκτή οποιαδήποτε αναπαράσταση στην οποία
• u1(Β, Β) > u1(S, S)
• u1(S, S) > u1(S, B), u1(S, S) > u1(B, S)
• Αντίστοιχα και για τον π. 2
• Είναι αδιάφορο (για την ώρα) αν τα u1(Β, S) και u1(S, B) είναι ίσα ή όχι,
αρκεί να είναι μικρότερα του u1(S, S)
q Το παίγνιο είναι γνωστό και ως “Battle of the Sexes”
25
Παράδειγμα 3: The Hawk-Dove game

vs

• Παράδειγμα από Εξελικτική Θεωρία Παιγνίων (Evolutionary Game Theory)


• Δύο πληθυσμοί ζώων σε ένα δάσος ανακαλύπτουν παράλληλα μια νέα
πεδιάδα, με αρκετή διαθέσιμη τροφή
• Οι 2 πληθυσμοί μπορούν να μοιραστούν την πεδιάδα χωρίς να επιτεθούν
ο ένας στον άλλο
• Εναλλακτικά, κάθε πληθυσμός μπορεί να επιλέξει να επιτεθεί στον άλλο
πληθυσμό και να μην τον αφήσει να παραμείνει στην πεδιάδα

26

Παράδειγμα 3: The Hawk-Dove game

(2, 2) (0, 4)
(4, 0) (-1, -1)

• S1 = S2 = {Φιλικός (D), Επιθετικός (H)}


• Εδώ είναι αποδεκτή οποιαδήποτε αναπαράσταση στην οποία
• u1(H, D) > u1(D, D) > u1(D, H) > u1(H, H)
• Παραλλαγές και γενικεύσεις του παιγνίου αυτού βοηθάνε στην
κατανόηση για την εξέλιξη των πληθυσμών
27
Παράδειγμα 4: Matching Pennies

vs

• Δύο παίκτες κρατούν ένα νόμισμα ο καθένας


• Καθένας πρέπει να αποφασίσει αν θα δείξει κορώνα ή γράμματα του
δικού του νομίσματος
• Ο παίκτης 1 ευνοείται αν και οι 2 δείξουν το ίδιο
• Ο παίκτης 2 ευνοείται αν δείξουν διαφορετικές όψεις
• Γνωστό και ως penalty-kick game
– Παίκτες: τερματοφύλακας, επιθετικός
– Επιλογές: σε ποια πλευρά θα πέσει ο τερματοφύλακας, σε ποια πλευρά θα σουτάρει ο
επιθετικός
– Ο τερματοφύλακας ευνοείται αν πέσει στην ίδια πλευρά που σούταρε ο επιθετικός
– Ο επιθετικός ευνοείται αν διαλέξει αντίθετη πλευρά από τον τερματοφύλακα 28

Παράδειγμα 4: Matching Pennies


H T
H 1, -1 -1, 1

T -1, 1 1, -1

• S1 = S2 = {Κορώνα (H), Γράμματα (T)}


• Το παίγνιο είναι παράδειγμα παιγνίων μηδενικού
αθροίσματος, διότι
• u1(s, t) + u2(s, t) = 0, για κάθε προφίλ (s, t)
29
Παράδειγμα 4: Matching Pennies
• Μια επέκταση του Matching Pennies είναι το Πέτρα-
Ψαλίδι-Χαρτί
• S1 = S2 = {Πέτρα (Π), Ψαλίδι (Ψ), Χαρτί (Χ)}
• Είναι και αυτό παίγνιο μηδενικού αθροίσματος
Π Ψ Χ
Π 0, 0 1, -1 -1, 1
Ψ -1, 1 0, 0 1, -1
Χ 1, -1 -1, 1 0, 0
30

Παράδειγμα 5: Δημοπρασίες

• Έστω ότι δύο παίκτες συμμετέχουν σε μια δημοπρασία με κλειστούς


φακέλους, για ένα αγαθό
• Κάθε παίκτης γράφει την προσφορά του για το αγαθό χωρίς να γνωρίζει τι
έχει προσφέρει ο άλλος
• Ο π. 1 μπορεί να προσφέρει μέχρι 40 ευρώ, και ο π. 2 έως 25 ευρώ
• Οι προσφορές πρέπει να είναι πολλαπλάσια του 5
• Το αγαθό έχει αξία V και για τους 2 παίκτες
• Δημοπρασία 1ης τιμής: όποιος κερδίσει πληρώνει αυτό που δήλωσε
• Σε ισοβαθμία δεν κερδίζει κανένας 31
Παράδειγμα 5: Δημοπρασίες
0 5 10 15 20 25

0 0, 0 0, V-5 0, V-10 0, V-15 0, V-20 0, V-25


5 V-5, 0 0, 0 0, V-10 0, V-15 ..., ... ..., ...
10 V-10, 0 V-10, 0 0, 0
15 V-15, 0 ..., ... ..., ... ..., ...
20 ..., ...
25
30
35 ..., ... ..., ...
40 V-40, 0 V-40, 0

32

Άσκηση
• Ψάξτε μόνοι σας για τις συνεισφορές στη θεωρία
παιγνίων και για τις ζωές των John von Neumann και
John Nash

33
Θεωρία Παιγνίων - Ενότητα 2
Έννοιες λύσεων (solution concepts) και
απλοποιήσεις παιγνίων

Λύσεις παιγνίων

2
Επιλέγοντας στρατηγική...
• Δεδομένου ενός παιγνίου, τι στρατηγική πρέπει να
επιλέξει κάθε παίκτης?
– Υπενθύμιση: υποθέτουμε ότι κάθε παίκτης γνωρίζει τις
προτιμήσεις του άλλου παίκτη αλλά όχι το τι θα επιλέξει

• Το θεμελιώδες ερώτημα της θεωρίας παιγνίων


– Δεν υπάρχει πάντα ξεκάθαρη απάντηση
– Πρέπει να ληφθεί υπόψη ο τρόπος σκέψης του άλλου
παίκτη

Prisoner’s Dilemma:
The Rational Outcome
• Ας επανέλθουμε στο δίλημμα του φυλακισμένου
• Συλλογισμός του π. 1: C D
– Αν ο π. 2 δεν ομολογήσει, C 3, 3 0, 4
με συμφέρει να ομολογήσω
– Αν ο π. 2 ομολογήσει, D 4, 0 1, 1
με συμφέρει να ομολογήσω
• Ομοίως για τον π. 2
• Αποτέλεσμα: θα ομολογήσουν και οι 2 και θα πάνε φυλακή 3
χρόνια και οι 2
– Παρατήρηση: Αν είχαν διαλέξει και οι 2 να μην ομολογήσουν, θα
πήγαιναν μόνο μισό χρόνο φυλακή και θα είχαν καλύτερη ωφέλεια

4
Κυρίαρχες στρατηγικές
• Ιδανικά σε ένα παίγνιο θα θέλαμε μια στρατηγική που να δίνει
το καλύτερο αποτέλεσμα ανεξαρτήτως του τι διαλέγει ο άλλος
παίκτης
• Ορισμός: Μια στρατηγική si του π. 1 ονομάζεται κυρίαρχη
(dominant) αν
u1 (si, tj) ≥ u1 (s’, tj)
για κάθε στρατηγική s’ Î S1 και για κάθε στρατηγική tj Î S2
• Ομοίως για τον π. 2, μια στρατηγική tj είναι κυρίαρχη αν
u2 (si, tj) ≥ u2 (si, t’)
για κάθε στρατηγική t’ Î S2 και για κάθε στρατηγική si Î S1

Κυρίαρχες στρατηγικές
Ακόμα καλύτερα:
• Ορισμός: Μια στρατηγική si του π. 1 ονομάζεται αυστηρά κυρίαρχη
(strictly dominant) αν
u1 (si, tj) > u1 (s’, tj)
για κάθε στρατηγική s’ Î S1 και για κάθε στρατηγική tj Î S2
• Ομοίως για τον π. 2
• Στο δίλημμα του φυλακισμένου η στρατηγική D (ομολογώ) είναι
αυστηρά κυρίαρχη
Παρατηρήσεις:
• Μπορεί να υπάρχουν περισσότερες από μια κυρίαρχες στρατηγικές για έναν
παίκτη, αν δίνουν την ίδια ωφέλεια σε όλα τα προφίλ
• Κάθε παίκτης μπορεί να έχει το πολύ μια αυστηρά κυρίαρχη στρατηγική
• Μια αυστηρά κυρίαρχη στρατηγική είναι και κυρίαρχη
6
Ύπαρξη κυρίαρχων στρατηγικών

• Λίγα παίγνια έχουν κυρίαρχες B S


στρατηγικές B (2, 1) (0, 0)
• Στο Bach-or-Stravinsky π.χ. δεν
υπάρχει: S (0, 0) (1, 2)
– Η στρατηγική B δεν είναι κυρίαρχη για τον π. 1:
Αν ο π. 2 διαλέξει S, συμφέρει τον π. 1 να διαλέξει S
– Η στρατηγική S επίσης δεν είναι κυρίαρχη:
Αν ο π. 2 διαλέξει Β, συμφέρει τον π. 1 να διαλέξει Β
• Ουτε και στα υπόλοιπα παραδείγματα υπάρχουν
κυρίαρχες στρατηγικές
7

Επιλογή στρατηγικών
• Παραμένει το ερώτημα για το πώς πρέπει να επιλέξουν
στρατηγική οι παίκτες, όταν δεν υπάρχουν κυρίαρχες
στρατηγικές
• Model of rational choice: θεωρούμε ότι αν ένας παίκτης ξέρει
ή έχει κάποια πεποίθηση για την επιλογή του άλλου, τότε θα
διαλέξει την στρατηγική που μεγιστοποιεί την ωφέλειά του
• Έστω ότι κάποιος (π.χ. ένας σύμβουλος) προτείνει στους 2
παίκτες το προφίλ (s, t)
• Πότε θα ήταν πρόθυμοι οι 2 παίκτες να παίξουν σύμφωνα με
αυτό?
– Για να είναι σύμφωνος ο π. 1 θα πρέπει
u1(s, t) ≥ u1(s’, t) για κάθε άλλη στρατηγική s’ του π. 1
– Για να είναι σύμφωνος ο π. 2 θα πρέπει
u2(s, t) ≥ u2(s, t’) για κάθε στρατηγική t’ του π. 2

8
Σημεία ισορροπίας κατά Nash
(Nash Equilibrium)
• Ορισμός (Nash 1950): Ένα προφίλ στρατηγικών (s, t) είναι
σημείο ισορροπίας κατά Nash (Nash equilibrium), αν
κανένας παίκτης δεν έχει κίνητρο να αλλάξει από μόνος
του την στρατηγική του, βλέποντας την επιλογή του άλλου
παίκτη
• Δηλαδή πρέπει να ισχύουν ταυτόχρονα οι συνθήκες:
1. u1(s, t) ≥ u1(s’, t) για κάθε στρατηγική s’ Î S1
2. u2(s, t) ≥ u2(s, t’) για κάθε στρατηγική t’ Î S2

Σχηματικά:
t
( , ) ( , ) (x1, ) ( , ) ( , )
( , ) ( , ) (x2, ) ( , ) ( , )
( , ) ( , ) (x3, ) ( , ) ( , )
s ( ,y1) ( ,y2) (x, y) ( ,y4) ( ,y5)
( , ) ( , ) (x5, ) ( , ) ( , )
Για να είναι το προφίλ (s, t) σημείο ισορροπίας:
• Το x πρέπει να είναι μεγαλύτερο ή ίσο από όλα τα xi στην στήλη t
• Το y πρέπει να είναι μεγαλύτερο ή ίσο από όλα τα yj στην γραμμή s
10
Σημεία ισορροπίας κατά Nash
(Nash Equilibrium)
Ιδιότητες και παρατηρήσεις
• Τα σημεία ισορροπίας αποτελούν «σταθερά» σημεία του
παιγνίου
– Κάθε παίκτης σκέφτεται ότι αν ο άλλος παίκτης δεν αλλάξει, τότε
ούτε και ο ίδιος θέλει να αλλάξει
• Δηλαδή, κανένας παίκτης δεν «μετανιώνει» για την
επιλογή του σε ένα σημείο ισορροπίας (s, t)
– Αν παιχτεί το προφίλ (s, t), ο π. 1 βλέπει ότι έπραξε το καλύτερο
δυνατό απέναντι στην στρατηγική t του π. 2,
– Ομοίως, ο π. 2 βλέπει ότι έπραξε το καλύτερο δυνατό απέναντι
στην στρατηγική s του π. 1
• Προσοχή: Αν ταυτόχρονα αλλάξουν και οι 2, τότε μπορεί
να υπάρχουν καλύτερες εκβάσεις
11

Παραδείγματα εύρεσης σημείων


ισορροπίας σε παίγνια

12
Παράδειγμα 1: Prisoner’s Dilemma
Σε μικρά παίγνια, μπορούμε να εξετάσουμε όλα τα προφίλ
• (C, C): και οι 2 παίκτες έχουν κίνητρο C D
να αλλάξουν στρατηγική
• (C, D): Έχει κινητρο ο π. 1 C 3, 3 0, 4
• (D, C): Έχει κίνητρο ο π. 2
• (D, D): Κανένας δεν έχει κίνητρο D 4, 0 1, 1

Αποτέλεσμα: Το προφίλ (D, D) είναι το μοναδικό σημείο


ισορροπίας του παιγνίου
– Θυμηθείτε ότι η στρατηγική D είναι κυρίαρχη και για τους 2 παίκτες
Πόρισμα: Αν η s είναι μια κυρίαρχη στρατηγική του π. 1, και η t
είναι μια κυρίαρχη στρατηγική του π. 2, τότε το προφίλ (s, t) είναι
σημείο ισορροπίας κατά Nash
13

Παράδειγμα 2: Bach or Stravinsky


(BoS)
B S
B 2, 1 0, 0

S 0, 0 1, 2

2 σημεία ισορροπίας:
• (Β, Β) και (S, S)
• Και τα 2 παράγουν την ίδια συνολική ωφέλεια (3 μονάδες)
• Κάθε παίκτης όμως προτιμά διαφορετικό σημείο
ισορροπίας
14
Παράδειγμα 2α: Παίγνια συντονισμού
Παραλλαγή του
Bach or Stravinsky B S
B 2, 2 0, 0

S 0, 0 1, 1
Πάλι 2 σημεία ισορροπίας:
• (Β, Β) και (S, S)
• Τωρα όμως το (B, B) είναι προτιμότερο και για τους 2 παίκτες
• Παρ’ όλα αυτά, στο προφίλ (S, S) κανένας παίκτης δεν έχει κίνητρο να
αλλάξει
• Θα πρέπει να αλλάξουν και οι 2 για να οδηγηθούν σε καλύτερη
κατάσταση από το (S, S)
15

Παράδειγμα 3: The Hawk-Dove game

2, 2 0, 4
4, 0 -1, -1

• Η πιο δίκαιη λύση (D, D) δεν είναι σημείο ισορροπίας


• 2 σημεία ισορροπίας: (D, H), (H, D)
• Το παίγνιο ισορροπεί μόνο όταν ο ένας πληθυσμός
επικρατήσει έναντι του άλλου
16
Παράδειγμα 4: Matching Pennies
H T
H 1, -1 -1, 1
T -1, 1 1, -1

• Σε κάθε προφίλ, κάποιος παίκτης έχει κίνητρο να


αλλάξει
• Δεν υπάρχει κανένα σημείο ισορροπίας!

17

Παράδειγμα 4α: Πέτρα-Ψαλίδι-Χαρτί


Π Ψ Χ
Π 0, 0 1, -1 -1, 1
Ψ -1, 1 0, 0 1, -1
Χ 1, -1 -1, 1 0, 0

Ομοίως με το Matching Pennies, δεν υπάρχει κανένα


σημείο ισορροπίας!

18
Αυστηρά σημεία ισορροπίας
Σε κάποια παίγνια, μπορούμε να ικανοποιήσουμε μια πιο
αυστηρή παραλλαγή του αρχικού ορισμού
• Ορισμός: Ένα προφίλ στρατηγικών (s, t) είναι αυστηρό σημείο
ισορροπίας κατά Nash (strict Nash equilibrium), αν η ωφέλεια
κάθε παίκτη γίνεται αυστηρά μικρότερη όταν αλλάζει την
στρατηγική του
• Δηλαδή πρέπει να ισχύουν ταυτόχρονα οι συνθήκες:
1. u1(s, t) > u1(s’, t) για κάθε στρατηγική s’ Î S1, s’ ≠ s
2. u2(s, t) > u2(s, t’) για κάθε στρατηγική t’ Î S2, t’ ≠ t

• Καθε αυστηρό σημείο ισορροπίας είναι και σημείο ισορροπίας


αλλά όχι το αντίθετο

19

Αυστηρά σημεία ισορροπίας


Παραδείγματα
1. Στο παίγνιο BoS, τα 2 σημεία ισορροπίας που βρήκαμε είναι
αυστηρά σημεία ισορροπίας
2. Στο παρακάτω παίγνιο, δεν υπάρχουν αυστηρά σημεία
ισορροπίας
– Μοναδικό σημείο ισορροπίας το (s1, t1), αλλά δεν είναι αυστηρό

t1 t2 t3
s1 1, 1 1, 0 0, 1
s2 1, 0 0, 1 1, 0

20
Σημεία ισορροπίας: Ανακεφαλαίωση
1. Δεν έχουν όλα τα παίγνια σημείο ισορροπίας
2. Στα παίγνια που υπάρχει σημείο ισορροπίας, δεν
είναι πάντα μοναδικό
– Κάποια παίγνια μπορεί να έχουν πολλά σημεία
ισορροπίας
3. Δεν παρέχουν απαραίτητα όλα τα σημεία
ισορροπίας την ίδια ωφέλεια
- Ούτε στον καθε παίκτη χωριστά, αλλά ούτε και
αθροιστικά

21

Συναρτήσεις βέλτιστης απόκρισης


Ένας εναλλακτικός τρόπος ορισμού σημείων ισορροπίας
• Δεδομένης μια στρατηγικής του π. 2, για τον π. 1 υπάρχουν μια ή
περισσότερες επιλογές που μεγιστοποιούν την ωφέλειά του
• Συνάρτηση βέλτιστης απόκρισης του π.1:
B1(tj) = {s Î S1: u1(s, tj) ≥ u1(s’, tj) για κάθε s’ Î S1}
• Για να είμαστε πιο ακριβείς:
– τo B1(t j) είναι πάντα ένα υποσύνολο του S1 (το σύνολο των καλύτερων
αποκρίσεων απέναντι στο κάθε tj Î S2)
– Άρα το σκεφτόμαστε σαν συνάρτηση με πεδίο τιμών το
δυναμοσύνολο του S1
– Σε αρκετά παραδείγματα τo B1(t j) αποτελείται μόνο από ένα στοιχείο
(η βέλτιστη απόκριση είναι μοναδική)
• Ομοίως ορίζεται η συνάρτηση για τον π. 2
B2(si) = {t Î S2: u2(si, t) ≥ u2(si, t’) για κάθε t’ Î S2}

22
Παράδειγμα
L C R
T 2, 5 3, 3 6, 3
M 2, 7 4, 5 2, 7
B 1, 4 5, 4 2, 1

• B1(L) = {T, M} • B2(T) = {L}


• B1(C) = {B} • B2(M) = {L, R}
• B1(R) = {T} • B2(B) = {L, C} 23

Σημεία ισορροπίας και βέλτιστες


αποκρίσεις
• Αρχικός ορισμός: Ένα προφίλ στρατηγικών (s, t) είναι
σημείο ισορροπίας κατά Nash, αν κανένας παίκτης
δεν έχει κίνητρο να αλλάξει μονομερώς την
στρατηγική του, βλέποντας την επιλογή του άλλου
παίκτη
• Εναλλακτικός ορισμός: Το προφίλ (s, t) είναι σημείο
ισορροπίας αν η s είναι βέλτιστη απόκριση της t, και
η t είναι βέλτιστη απόκριση της s:
s Î B1(t) και t Î B2(s)

24
Πίσω στο παράδειγμα
L C R
T 2 *, 5 * 3, 3 6 *, 3
M 2 *, 7 * 4, 5 2, 7 *
B 1, 4 * 5*, 4 * 2, 1

• B 1 (L) = {T, M}, B 1 (C) = {B}, B 1 (R) = {T}


• B 2 (T) = {L}, B 2 (M) = {L, R}, B 2 (B) = {L, C}
• Τα προφίλ {T, L}, {M, L} και {B, C} είναι τα μόνα σημεία
ισορροπίας
25

Γενικός αλγόριθμος για την εύρεση


όλων των σημείων ισορροπίας
q Για τον π. 1
– Για κάθε επιλογή tj του π. 2
– Βρες το B1(tj) [για ευκολία βάλτε * στις ωφέλειες που
αντιστοιχούν σε βέλτιστη απόκριση]
q Για τον π. 2
– Για κάθε επιλογή si του π. 1
– Βρες το B2(si) [για ευκολία βάλτε * στις ωφέλειες που
αντιστοιχούν σε βέλτιστη απόκριση]
q Τα προφίλ που έχουν * και στις 2 ωφέλειες είναι τα
σημεία ισορροπίας του παιγνίου
q Π.χ. Σε ενα n x n παίγνιο, μπορούμε να βρούμε όλα τα
σημεία ισορροπίας σε χρόνο O(n2)
26
Άσκηση
Χρησιμοποιώντας τις συναρτήσεις βέλτιστης
απόκρισης, βρείτε τα σημεία ισορροπίας στο
παρακάτω παίγνιο

t1 t2 t3
s1 1, 2 2, 1 1, 0
s2 2, 1 0, 1 0, 0
s3 0, 1 0, 0 1, 2
27

Άπειρα παίγνια
• Τι κανουμε αν σε ένα παίγνιο κάποιος παίκτης
έχει άπειρο αριθμό διαθέσιμων στρατηγικών?
• Παραδείγματα στρατηγικών που είναι άπειρες το
πλήθος:
– Πόσο χρόνο να διαθέσω στην εκπόνηση μιας
εργασίας?
– Τι ποσό να προσφέρω σε μια δημοπρασία?
– Τι ποσό να επενδύσω στο χρηματιστήριο?
– Σε ποια τοποθεσία να εγκαινιάσω ένα νέο μαγαζί μιας
αλυσίδας καταστημάτων?
• Δεν μπορούμε να έχουμε αναπαράσταση με
μορφή πινάκων
28
Άπειρα παίγνια
• Πώς αναλύουμε τέτοια παίγνια?
• Χρησιμοποιώντας τις συναρτήσεις βέλτιστης
απόκρισης
• Δεν έχουμε άλλον τρόπο

29

Παράδειγμα 1: Παραλλαγή του joint


project game
• 2 φοιτητές είναι ομάδα σε μια εργασία κάποιου μαθήματος
• Στρατηγικές για κάθε παίκτη: Το επίπεδο προσπάθειας που θα
καταβάλει (effort level)
• Ας θεωρήσουμε ότι το επίπεδο προσπάθειας είναι ένας αριθμός
στο [0, 1]
• Όσο μεγαλώνει το επίπεδο προσπάθειας, μεγαλώνει αντίστοιχα
και η βαθμολογία της εργασίας
• Αν ο π. 1 επιλέξει επίπεδο x, u 1 (x, y0)
και ο π. 2 επιλέξει επίπεδο y,
Ωφέλεια π. 1: u1(x, y) = x(c + y - x),
Ωφέλεια π. 2: u2(x, y) = y(c + x - y),
όπου το c είναι μια σταθερά, 0 < c < 1
1
• Ερμηνεία του c: κατώφλι ανοχής για την
(c + y0)/2 x
μη εργατικότητα του άλλου παίκτη
30
Παραλλαγή του joint project game
• Υπολογισμός βέλτιστων αποκρίσεων
• Έστω y μια στρατηγική του π. 2
• Ποια είναι η βέλτιστη απόκριση του π. 1?
• Πρέπει να μεγιστοποιήσουμε την συνάρτηση u1(x, y) ως
προς x
• Συνεχής και παραγωγίσιμη συνάρτηση
• Βέλτιστο επιτυγχάνεται στο σημείο όπου ¶u1/¶x = 0
• Λύνοντας: B1(y) = (c+y)/2
• Ομοίως για τον π. 2, B2(x) = (c+x)/2

31

Παραλλαγή του joint project game


• Βέλτιστη απόκριση του π. 1 στο y: (c+y)/2
• Βέλτιστη απόκριση του π. 2 στο x: (c+x)/2
• (x, y) είναι σημείο ισορροπίας αν
– x = B1(y)
– y = B2(x)
• x = (c+y)/2, y = (c+x)/2
– Γραμμικό σύστημα 2 εξισώσεων και 2 μεταβλητών
• 2y = c+(c+y)/2 Þ 4y = 3c+y
• Λύση: x = c, y = c
• Άρα έχουμε μοναδικό σημείο ισορροπίας το (c, c)

32
Γραφική αναπαράσταση
• Βέλτιστη απόκριση του π. 1 στο y: (c+y)/2
• Βέλτιστη απόκριση του π. 2 στο x: (c+x)/2
• (c, c) είναι το μοναδικό σημείο ισορροπίας
x
1
B2(x)

c Β1(y)

c/2

c/2 c 1 y 33

Ανάλυση με τη γραφική
αναπαράσταση
• Κάνουμε τη γραφική παράσταση της B1(y) του π. 1, ως προς
τον άξονα y
• Κάνουμε τη γραφική παράσταση της B2(x) του π. 2, ως προς
τον άξονα x
• Τα σημεία τομής είναι ακριβώς τα σημεία ισορροπίας
• Η ίδια ανάλυση μπορεί να γίνει αν οι 2 παίκτες είχαν
διαφορετική τιμή για την σταθερά c
– Π.χ. c1 και c2 αντίστοιχα

34
Παράδειγμα 2: Ολιγοπώλια Cournot
• Μάλλον η πρώτη κατηγορία παιγνίων που μελετήθηκαν
[Cournot 1838]
• Απόπειρα να μοντελοποιηθεί ο ανταγωνισμός μεταξύ
εταιρειών που παράγουν παρόμοια προϊόντα
• Για απλότητα, έστω ότι έχουμε 2 εταιρείες
• Βασικές υποθέσεις:
– Κόστος παραγωγής: αν η εταιρεία i παράγει qi μονάδες του προϊόντος,
τότε το κόστος παραγωγής είναι Ci(qi), για i=1, 2
– H Ci είναι αύξουσα
– Tιμή προϊόντος: εξαρτάται από την συνολική παραγωγή των 2
εταιρειών, q1 + q2
• Ισχύει π.χ. για αγροτικά προϊόντα, και όχι μόνο
– Συνάρτηση τιμής: P(q1 + q2), φθίνουσα (όσο αυξάνεται η
διαθεσιμότητα του προϊόντος, η τιμή πέφτει)
– Θεωρούμε επίσης ότι όλη η παραγόμενη ποσότητα θα πουληθεί
35

Παράδειγμα 2: Ολιγοπώλια Cournot


• Διαθέσιμες στρατηγικές: κάθε εταιρεία πρέπει να
αποφασίσει πόση ποσότητα θα παράξει
– S1 = S2 = [0, +∞)
– Οποιαδήποτε ποσότητα q ∈ [0, +∞) είναι έγκυρη στρατηγική
• Τελική ωφέλεια σε ένα προφίλ (q1, q2)
u1(q1, q2) = q1 ⋅ P(q1 + q2) – C1(q1)
u2(q1, q2) = q2 ⋅ P(q1 + q2) – C2(q2)

• Tι ποσότητα τελικά θα παράγουν οι 2 εταιρείες σε σημείο


ισορροπίας;

36
Παράδειγμα 2: Ολιγοπώλια Cournot
• Θα αναλύσουμε το πρόβλημα για συγκεκριμένες μορφές της
συνάρτησης κόστους και της συνάρτησης τιμής
• Έστω ότι Ci(qi) = c ⋅ qi, για i = 1, 2
– Γραμμικό κόστος παραγωγής, με κλίση c
– Μπορούμε να έχουμε και διαφορετική κλίση ανά παίκτη
• Συνάρτηση τιμής:
– Γραμμική, φθίνουσα που εν τέλει μηδενίζεται
όταν η παραγωγή φτάσει σε πολύ υψηλά επίπεδα
– Στην πράξη δεν μηδενίζεται, αλλά γίνεται πολύ χαμηλή

α – Q, αν Q ≤ α
P(Q) =
0, αν Q > α

Υποθέτουμε και ότι α – c > 0

37

Παράδειγμα 2: Ολιγοπώλια Cournot


• Με αυτές τις συναρτήσεις κόστους και τιμής η ωφέλεια του
π. 1 σε ένα προφίλ (q1, q2) γίνεται:

u1(q1, q2) = q1 ⋅ P(q1 + q2) – C1(q1) = q1 ⋅ P(q1 + q2) – c ⋅ q1

q1 ⋅ (α – c – q1 – q2), αν q1 + q2 ≤ α
=
– c ⋅ q 1, αν q1 + q2 > α

• Ομοίως και για τον π. 2


• Για να συνεχίσουμε, πρέπει να υπολογίσουμε τις
συναρτήσεις βέλτιστης απόκρισης

38
Παράδειγμα 2: Ολιγοπώλια Cournot
Εύρεση βέλτιστης απόκρισης του π. 1
• Έστω q2 μια στρατηγική του π. 2
• Θέλουμε να βρούμε το Β1(q2)
• Περίπτωση 1: q2 < α - c
– Τότε ο άνω κλάδος της συνάρτησης ωφέλειας είναι
q1 ⋅ (α – c – q1 – q2) = (α – c – q2) ⋅ q1 – (q1)2

– Συνάρτηση της μορφής βx – x2 με β>0, επειδή q2 < α - c (έχει μοναδικό


μέγιστο)
– Ο κάτω κλάδος παίρνει μόνο αρνητικές τιμές, άρα το μέγιστο θα προκύψει
από τον άνω κλάδο με παραγώγιση

39

Παράδειγμα 2: Ολιγοπώλια Cournot


Εύρεση βέλτιστης απόκρισης του π. 1
• Θέτουμε ¶u1/¶q1 = 0
• α – c – q2 – 2q1 = 0 Þ q1 = (α – c – q2)/2
• Συνεπώς στην Περίπτωση 1, βέλτιστη απόκριση του π. 1 φθίνουσα ως προς
την ποσότητα που παράγει ο π. 2
• Περίπτωση 2: q2 ≥ α - c
– Τότε ο άνω κλάδος της συνάρτησης γίνεται αρνητικός ή 0
q1 ⋅ (α – c – q1 – q2) = (α – c – q2) ⋅ q1 – (q1)2 ≤ 0
– Το ίδιο και ο κάτω κλάδος
– Άρα βέλτιστη απόκριση είναι να παράγει 0 μονάδες αλλιώς έχει αρνητική ωφέλεια
• Συνολικά και από τις 2 περιπτώσεις (και κάνοντας το ίδιο για τον π. 2):

(α – c – q2)/2, αν q2 < α - c (α – c – q1)/2, αν q1 < α - c


Β1(q2) = Β2(q1) =
0, αν q2 ≥ α - c 0, αν q1 ≥ α - c

• Ερμηνεία του όρου α – c: το κατώφλι για το πότε η παραγωγή του π. 2


είναι τόσο μεγάλη ώστε να μην συμφέρει τον π. 1 να παράγει τίποτα
40
Παράδειγμα 2: Ολιγοπώλια Cournot
• Αν υπάρχει σημείο ισορροπίας, πρέπει να ικανοποιεί:
– q1 = Β1(q2) και q2 = Β2(q1)
• Προτιμότερο σε αυτό το σημείο να συνεχίσουμε γραφικά
q1
Σημείο τομής έχουμε μόνο μεταξύ
των άνω κλάδων των Β1 και Β2
α-c

B2(q1)

(α-c)/2
(α-c)/3 Β1(q2)

(α-c)/2 α-c q2
41

Παράδειγμα 2: Ολιγοπώλια Cournot


Εύρεση σημείου ισορροπίας
• Τελικά έχουμε να λύσουμε ένα γραμμικό σύστημα 2
εξισώσεων και 2 μεταβλητών
• q1 = (α – c – q2)/2 και q2 = (α – c – q1)/2
• Λύνοντας το, παίρνουμε
– q1 = q2 = (α – c)/3
• Μοναδικό σημείο ισορροπίας το προφίλ ((α – c)/3, (α – c)/3)
• Συνολική παραγωγή στην ισορροπία: 2(α – c)/3
• Τιμή προϊόντος: α – 2(α – c)/3 = (α + 2c)/3

42
Παίγνια πολλών παικτών

43

Παίγνια με > 2 παίκτες


• Όλοι οι ορισμοί που έχουμε δει γενικεύονται και σε παίγνια με
περισσότερους παίκτες
• Κυρίαρχες στρατηγικές και σημεία ισορροπίας ορίζονται
ανεξαρτήτως του αριθμού των παικτών
• Όμως: η αναπαράσταση δεν μπορεί να γίνει πλέον με
2διάστατους πίνακες
• Για παίγνια n παικτών θέλουμε n-διάστατους πίνακες

44
Παίγνια σε κανονική μορφή
Ορισμός: Ένα παίγνιο σε κανονική μορφή αποτελείται
από
– ένα σύνολο παικτών N = {1, 2,..., n}
– Για κάθε παίκτη i, ένα σύνολο διαθέσιμων στρατηγικών Si
– Για κάθε παίκτη i, μια συνάρτηση ωφέλειας
ui: S1 x ... x Sn → R
• Προφίλ στρατηγικών: Κάθε διάνυσμα της μορφής (s1,
..., sn), με si Î Si
– Κάθε προφίλ αντιστοιχεί σε μια έκβαση του παιγνίου

45

Ορολογία
• Δεδομένου ενός διανύσματος s = (s1, ..., sn),
συμβολίζουμε με s–i το διάνυσμα στο οποίο έχουμε
αφαιρέσει την i-οστή συντεταγμένη (αν το s είναι
προφίλ στρατηγικών, αφαιρούμε απλά την στρατηγική
του π. i):
s–i = (s1, ..., si-1, si+1, ..., sn)
• Π.χ. αν s = (3, 5, 7, 8), τότε
– s-3 = (3, 5, 8)
– s-1 = (5, 7, 8)
• Το αρχικό προφίλ s μπορούμε να το γράφουμε και
ως s = (si, s–i)
Κυρίαρχες στρατηγικές
• Μια στρατηγική si του π. i ονομάζεται κυρίαρχη (dominant) αν
ui (si, s-i) ≥ ui (s’, s-i)
για κάθε στρατηγική s’ Î Si και για κάθε προφίλ s-i των υπόλοιπων παικτών
• Μια στρατηγική si του π. i ονομάζεται αυστηρά κυρίαρχη (strictly dominant)
αν
ui (si, s-i) > ui (s’, s-i)
για κάθε στρατηγική s’ Î Si και για κάθε προφίλ s-i των υπόλοιπων παικτών

Παρατηρήσεις (όπως και στα παίγνια 2 παικτών):


• Μπορεί να υπάρχουν περισσότερες από μια κυρίαρχες στρατηγικές για έναν
παίκτη, αν δίνουν την ίδια ωφέλεια σε όλα τα προφίλ
• Κάθε παίκτης μπορεί να έχει το πολύ μια αυστηρά κυρίαρχη στρατηγική
• Μια αυστηρά κυρίαρχη στρατηγική είναι και κυρίαρχη
47

Σημεία ισορροπίας κατά Nash


• Ορισμός: Ένα προφίλ στρατηγικών s = (s1, ..., sn) είναι
σημείο ισορροπίας κατά Nash (Nash equilibrium), αν
κανένας παίκτης δεν έχει κίνητρο να αλλάξει μονομερώς
την στρατηγική του, βλέποντας τις επιλογές των άλλων
παικτών
• Δηλαδή πρέπει για κάθε παίκτη i να ισχύει ότι:
ui (si, s-i) ≥ ui (s’, s-i) για κάθε στρατηγική s’ Î Si

48
Πολυπλοκότητα εύρεσης
Με μια πρώτη ματιά:
• Μπορούμε να δοκιμάσουμε με brute force όλα τα προφίλ
• Έστω ότι έχουμε n παίκτες
• Και έστω m επιλογές για κάθε παίκτη: |Si|= m
• Θα πρέπει να ελέγξουμε mn προφίλ!
• Αρκετά πιο δύσκολο πρόβλημα από ότι στην περίπτωση
των 2 παικτών
• Σε πολλές περιπτώσεις όμως μπορούμε να
εκμεταλλευτούμε συμμετρίες ή άλλες ιδιότητες και να
μειώσουμε την πολυπλοκότητα

49

Παράδειγμα 1: Παίγνια συμφόρησης


(Congestion games)
A

● B ●
s t

Παίγνια συμφόρησης (απλοϊκή εκδοχή):


• Ένα σύνολο χρηστών θέλει να μετακινηθεί από το σημείο s
στο σημείο t
• 3 δυνατές διαδρομές, A, B, C
• Χρονική καθυστέρηση σε κάθε διαδρομή: συνάρτηση του
αριθμού παικτών που επιλέγουν την διαδρομή
• dA(x) = 5x, dB(x) = 7.5x, dC(x) = 10x 50
Παράδειγμα 1: Παίγνια συμφόρησης
(Congestion games)
A

● B ●
s t

• Έστω n = 5 παίκτες
• Για κάθε παίκτη i, Si = {A, B, C}
• Πιθανά προφίλ: 35 = 243
• Ωφέλειες: αυξάνονται όταν μειώνεται η καθυστέρηση
• Στο προφίλ s = (A, C, A, B, A}
• u1(s) = -15, u2(s) = -10, u3(s) = -15, u4(s) = -7.5, u5(s) = -15
51

Παράδειγμα 1: Παίγνια συμφόρησης


(Congestion games)
A

● B ●
s t

C
• Δεν είναι ανάγκη να εξετάσουμε και τα 243 προφίλ
• Συμμετρία:
– Σε κάθε διαδρομή, η καθυστέρηση δεν εξαρτάται από το ποιοι την
επέλεξαν, αλλά μόνο από το πόσοι την επέλεξαν
• Η συμμετρία μειώνει σημαντικά την αναζήτηση
• Μπορούμε να εκμεταλλευτούμε κι άλλες ιδιότητες
• Π.χ. Δεν υπάρχει σημείο ισορροπίας όπου κάποια διαδρομή δεν
χρησιμοποιείται από κανέναν παίκτη
Άσκηση: βρείτε (αν υπάρχουν) τα σημεία ισορροπίας
52
Παράδειγμα 2: Το δίλημμα των απεργών

• Ένα σύνολο από n εργάτες σκέφτονται να


απεργήσουν για να διεκδικήσουν τα αιτήματά τους
• Si = {Απεργώ (Α), Δεν απεργώ (Δ)}
• Αν απεργήσουν όλοι, τα αιτήματα
πραγματοποιούνται, και δεν χάνεται ο μισθός για τις
μέρες που απέργησαν
• Αν έστω κι ένας δεν απεργήσει, τότε
– Τα αιτήματα δεν πραγματοποιούνται
– Όσοι απέργησαν, χάνουν το μισθό τους για τις μέρες απεργίας

53

Παράδειγμα 2: Το δίλημμα των απεργών


• Προτιμήσεις: Το καλύτερο για κάθε παίκτη είναι να
απεργήσουν όλοι [προφίλ (Α, Α, ..., Α)]
• Το χειρότερο για κάθε παίκτη είναι να απεργήσει και
τουλάχιστον ένας άλλος να μην απεργήσει
• Για κάθε π. i, τα προφίλ στα οποία δεν απεργεί έχουν την ίδια
ωφέλεια για αυτόν
• Πλήθος προφίλ: 2n, εκθετικά μεγάλος αριθμός
• Όμως κι εδώ μπορούμε να εκμεταλλευτούμε ότι οι παίκτες
έχουν την ίδια συνάρτηση ωφέλειας
• Ανάλυση των προφίλ:
– (Α, Α, ..., Α): σημείο ισορροπίας
– (Δ, Δ, ..., Δ): ομοίως
– Προφίλ με τουλ. 1 Α και τουλ. 1 Δ: δεν είναι σημείο ισορροπίας
• Πόρισμα: Είτε πρέπει να γίνεται μαζικά μια απεργία είτε να μην
γίνεται καθόλου!
54
Απλοποιήσεις παιγνίων:
Αυστηρή και ασθενής κυριαρχία

55

Prisoner’s Dilemma
• Ας επανέλθουμε στο δίλημμα του φυλακισμένου
• Είχαμε δει ότι η στρατηγική D είναι κυρίαρχη C D
• Συλλογισμός του π. 1: C 3, 3 0, 4
– Αν ο π. 2 δεν ομολογήσει,
με συμφέρει να ομολογήσω D 4, 0 1, 1
– Αν ο π. 2 ομολογήσει,
με συμφέρει να ομολογήσω
• Ομοίως για τον π. 2
• Κάθε παίκτης πιστεύει ότι δεν έχει νόημα να επιλέξει την
στρατηγική C
• Η στρατηγική C “κυριαρχείται” από την D
56
Αυστηρά κυριαρχούμενες στρατηγικές
• Ορισμός: Μια στρατηγική si του π. i κυριαρχεί
αυστηρά μια άλλη στρατηγική s’ αν για οποιοδήποτε
προφιλ s-i των υπόλοιπων παικτών, ισχύει ότι
ui(si, s-i) > ui(s’, s-i)
• H στρατηγική s’ θα λέγεται αυστηρά κυριαρχούμενη

57

Αυστηρά κυριαρχούμενες στρατηγικές


• Μια αυστηρά κυριαρχούμενη στρατηγική δεν
χρησιμοποιείται σε κανένα σημείο ισορροπίας

• Άρα, μπορούμε να αφαιρέσουμε τις αυστηρά


κυριαρχούμενες στρατηγικές, και να επικεντρωθούμε
σε ένα μικρότερο παίγνιο

• Σε κάποιες περιπτώσεις, οδηγούμαστε έτσι σε αρκετά


απλούστερα παίγνια

58
Επαναλαμβανόμενη αφαίρεση
αυστηρά κυριαρχούμενων στρατηγικών
• Η B του π. 1 κυριαρχείται από L M R
την T και την C
T (4, 4) (4, 1) (3, 0)
• Οι στρατηγικές του π. 2
δεν κυριαρχούνται C (3, 1) (3, 4) (4, 0)
• Αν ο π. 1 είναι λογικός,
δεν θα επιλέξει την B B (2, 0) (2, 0) (2, 6)
Δεν πρέπει να
επιλέξω την B

59

Επαναλαμβανόμενη αφαίρεση αυστηρά


κυριαρχούμενων στρατηγικών
• Αν ο π. 2 ξέρει ότι ο π. 1
L M R
είναι λογικός, υποθέτει ότι
ο π. 1 δεν επιλέγει την B T (4, 4) (4, 1) (3, 0)
– Τότε και ο π. 2 δεν πρέπει
να επιλέξει την R C (3, 1) (3, 4) (4, 0)

Δεν πρέπει να B (2, 0) (2, 0) (2, 6)


επιλέξω B

Άρα δεν πρέπει να


επιλέξω την R
60
Επαναλαμβανόμενη αφαίρεση
αυστηρά κυριαρχούμενων στρατηγικών
Συνεχίζοντας έτσι...

Δεν παίζω
την B

L M R
Άρα δεν
επιλέγω R T (4, 4) (4, 1) (3, 0)

Άρα δεν επιλέγω C C (3, 1) (3, 4) (4, 0)

B (2, 0) (2, 0) (2, 6)

61

Επαναλαμβανόμενη αφαίρεση
αυστηρά κυριαρχούμενων στρατηγικών
Πώς τρέχουμε τον αλγόριθμο επαναλαμβανόμενης
αφαίρεσης:
• Δεδομένου ενός παιγνίου n παικτών
– Διαλέγουμε έναν παίκτη i που έχει τουλ. 1 αυστηρά
κυριαρχούμενη στρατηγική
– Διαγράφουμε μία από τις αυστηρά κυριαρχούμενες
στρατηγικές του π. i
– repeat until: δεν υπάρχει παίκτης που να έχει αυστηρά
κυριαρχούμενη στρατηγική

62
Επαναλαμβανόμενη αφαίρεση αυστηρά
κυριαρχούμενων στρατηγικών
• Παρατήρηση: Οι στρατηγικές που επιβιώνουν αυτή
την διαδικασία δεν εξαρτώνται από την σειρά με
την οποία κάνουμε την αφαίρεση
– δλδ, δεν έχει σημασία ποιον παίκτη θα διαλέγουμε σε
καθε βήμα

• Θεώρημα: Έστω G ένα παίγνιο n παικτών και G’ το


παίγνιο που προκύπτει από την επαναλαμβανόμενη
αφαίρεση αυστηρά κυριαρχούμενων στρατηγικών.
Το G και το G’ έχουν τα ίδια σημεία ισορροπίας
– δλδ, δεν καταστρέφουμε κανένα σημείο ισορροπίας με
αυτή την διαδικασία, μόνο απλοποιούμε το παίγνιο
63

Ασθενώς κυριαρχούμενες στρατηγικές


• Ορισμός: Μια στρατηγική si του π. i κυριαρχεί ασθενώς μια
άλλη στρατηγική s’ αν για οποιοδήποτε προφιλ s-i των
υπόλοιπων παικτών, ισχύει ότι
ui(si, s-i) ≥ ui(s’, s-i)
και για τουλάχιστον 1 προφίλ s-i έχουμε
ui(si, s-i) > ui(s’, s-i)
• H s’ θα λέγεται ασθενώς κυριαρχούμενη

64
Ασθενώς κυριαρχούμενες στρατηγικές
L R L R

T 1, 1 0, 0 T 2, 2 3, 0

B 0, 0 0, 0 B 0, 3 3, 3

• Όταν αφαιρούμε ασθενώς κυριαρχούμενες στρατηγικές,


μπορεί να χάσουμε κάποια σημεία ισορροπίας
• Στα παραπάνω παίγνια:
– Η T κυριαρχεί ασθενώς την B
– Η L κυριαρχεί ασθενώς την R
– όμως, το (B, R) είναι σημείο ισορροπίας
• Παρατήρηση: Στο 2ο παίγνιο, έχουμε και καλύτερη συνολική
ωφέλεια όταν οι παίκτες επιλέγουν ασθενώς κυριαρχούμενες
στρατηγικές 65

Επαναλαμβανόμενη αφαίρεση αυστηρά


κυριαρχούμενων στρατηγικών
• Μπορούμε να κάνουμε την ίδια διαδικασία όπως με
τις αυστηρά κυριαρχούμενες στρατηγικές
• ΟΜΩΣ: Η σειρά με την οποία αφαιρούμε έχει
σημασία
• Διαφορετικές σειρές αφαίρεσης μπορεί να
αφαιρέσουν διαφορετικά σημεία ισορροπίας
• Υπάρχει περίπτωση να χάσουμε όλα τα σημεία
ισορροπίας με αυτή την διαδικασία?

66
Επαναλαμβανόμενη αφαίρεση αυστηρά
κυριαρχούμενων στρατηγικών
• Θεώρημα: Σε κάθε παίγνιο, υπάρχει πάντα
τουλάχιστον 1 σημείο ισορροπίας που επιβιώνει
όταν κάνουμε επαναλαμβανόμενη αφαίρεση
ασθενώς κυριαρχούμενων στρατηγικών
– επομένως: αν μας νοιάζει απλά να βρούμε ένα σημείο
ισορροπίας, μπορούμε να απλοποιήσουμε το παίγνιο,
χωρίς να μας απασχολεί η σειρά αφαίρεσης

67

Θεωρία Παιγνίων - Ενότητα 3


Μεικτές Στρατηγικές
Μεικτές στρατηγικές σε παίγνια

Σημεία ισορροπίας: Ύπαρξη


• Είδαμε ότι δεν έχουν όλα τα παίγνια σημείο
ισορροπίας

• Π.χ. Το Matching Pennies, το Πέτρα-Ψαλίδι-Χαρτί

• Τι θα αποτελούσε μια καλή λύση σε τέτοια παίγνια?

3
Παράδειγμα χωρίς σημεία
ισορροπίας: Matching Pennies
H T
H 1, -1 -1, 1
T -1, 1 1, -1

• Σε κάθε προφίλ, κάποιος παίκτης έχει κίνητρο να


αλλάξει
• Δεν υπάρχει κανένα σημείο ισορροπίας!

Παράδειγμα χωρίς σημεία


ισορροπίας: Matching Pennies
H T
H 1, -1 -1, 1
T -1, 1 1, -1

• Πώς θα επιλέγαμε στρατηγική σε ένα τέτοιο παίγνιο


στην πράξη?
• Μάλλον τυχαία! (όπως και στο Π-Ψ-Χ)

5
Matching Pennies: Πιθανοτικές
στρατηγικές
½ ½ • Κύρια ιδέα: Ας επιτρέψουμε στους
H T παίκτες να επιλέγουν πιθανοτικά (αν
θέλουν) τις στρατηγικές τους
½H 1, -1 -1, 1 • Π.χ. Έστω ότι και οι 2 παίκτες
αποφασίζουν να επιλέξουν
• H με πιθ/τα 1/2
½T -1, 1 1, -1 • T με πιθ/τα 1/2
• Τότε κάθε έκβαση είναι ισοπίθανη με
πιθ/τα ¼
• Για τον π. 1:
– P[να κερδίσω] = P[να χάσω] = ½
– Μέση ωφέλεια = 0
• Ομοίως για τον π. 2
6

Matching Pennies: Πιθανοτικές


στρατηγικές
½ ½
• Έχει κίνητρο ο π. 1 να αλλάξει,
H T δεδομένης της στρατηγικής 50-50 του
π.2?
H 1, -1 -1, 1 • Αν ο π. 1 επιλέξει H, οι πιθανές
εκβάσεις είναι:
– (H, H) με πιθ/τα 1/2 (+1 για π. 1)
T -1, 1 1, -1 – (H, T) με πιθ/τα 1/2 (-1 για π. 1)
• Αν ο π. 1 επιλέξει T, οι πιθανές
εκβάσεις είναι:
– (T, H) με πιθ/τα 1/2 (-1 για π. 1)
– (T, T) με πιθ/τα 1/2 (+1 για π. 1)
• Και στις 2 περιπτώσεις, μέση ωφέλεια
π. 1 = 0

7
Matching Pennies: Πιθανοτικές
στρατηγικές
½ ½
• Αν ο π. 1 επιλέξει να παίξει H με πιθ/τα
H T p, και T με πιθ/τα 1-p, όπου p Î [0, 1], οι
εκβάσεις θα είναι:
H 1, -1 -1, 1
– (H, H) με πιθ/τα p/2,
– (T, H) με πιθ/τα (1-p)/2,
T -1, 1 1, -1
– (H, T) με πιθ/τα p/2,
– (T, T) με πιθ/τα (1-p)/2
• Ωφέλεια π. 1 = (+1) [p/2 + (1-p)/2] + (-1)
[p/2 + (1-p)/2] = 0

Επιλογή στρατηγικών
Συνοψίζοντας:
• Έστω ότι ο π. 2 επιλέγει πιθανοτικά με βάση την
ομοιόμορφη κατανομή (H με πιθ/τα 1/2, T με πιθ/τα 1/2)
• Πώς πρέπει να παίξει ο π. 1?
– Κάθε στρατηγική του π. 1 δίνει την ίδια μέση ωφέλεια
– Όμως, αν παίξει ντετερμινιστικά H, δημιουργείται κίνητρο στον
αντίπαλο να παίζει T και να κερδίζει πάντα
– Ομοίως αν παίξει ντετερμινιστικά T
– Αν ο π. 1 παίξει πιθανοτικά, επιλέγοντας π.χ. Η με πιθ/τα p < 1/2,
ο π. 2 έχει κίνητρο να επιλέξει H, και να κερδίζει με μεγαλύτερη
πιθανότητα
• Τελικό συμπέρασμα: Η μόνη λογική επιλογή για τον π. 1
είναι να επιλέξει και αυτός την ομοιόμορφη κατανομή
9
Μεικτές στρατηγικές
• Ορισμός: Μια μεικτή στρατηγική (mixed strategy) ενός
παίκτη είναι μια κατανομή πιθανότητας πάνω στο σύνολο
των διαθέσιμων επιλογών του
• Αν S = {s1, s2,..., sn} οι διαθέσιμες στρατηγικές ενός παίκτη,
μια μεικτή στρατηγική είναι ένα διάνυσμα της μορφής
p = (p1, ..., pn), όπου
pi ≥ 0 για i=1, ..., n, και p1 + ... + pn = 1
• pi = πιθανότητα να επιλέξει ο παίκτης την i-οστή
στρατηγική του
• Θα το γράφουμε και ως: pi = p(si) = πιθ/τα να επιλεγεί η si
• Matching pennies: Η ομοιόμορφη κατανομή γράφεται ως
p = (1/2, 1/2) ή p(H) = p(T) = ½
10

Μεικτές στρατηγικές
• Πότε έχουν νόημα οι μεικτές στρατηγικές?
• Όταν το παίγνιο παίζεται επαναλαμβανόμενα
• Όταν μας ενδιαφέρει ως κριτήριο είτε η μέση ωφέλεια είτε
κάποια άλλη συνάρτηση που παίρνει υπόψη τις πιθανότητες
• Μπορούμε να σκεφτόμαστε ότι ο παίκτης επιλέγει να ρίξει ένα
νόμισμα για να αποφασίσει τι θα παίξει
• Εναλλακτική θεώρηση μεικτών στρατηγικών: κάθε παίκτης του
παιγνίου εκπροσωπείται από διαφορετικά μέλη ενός πληθυσμού
– Π.χ. Στο Survivor, π. 1 = Μαχητές, π. 2 = Διάσημοι
– Η επίδοση στην ταχύτητα του π. 1 εξαρτάται από το ποιος εκπροσωπεί
τους Μαχητές σε κάθε γύρο
– Στην επιλογή «να τρέξω ή να πάω πιο αργά» οι Μαχητές παίζουν μια
μεικτή στρατηγική, όπου ένα ποσοστό των παικτών είναι αργοί
– Ομοίως στην εκτέλεση πέναλτυ: η ομάδα εκπροσωπείται από παίκτες
– Η συνολική στρατηγική της ομάδας είναι μια κατανομή πιθανότητας
πάνω στους πιθανούς τρόπους εκτέλεσης (αρ. γωνία, κέντρο, δεξιά
γωνία)
11
Αμιγείς και μεικτές στρατηγικές
• Στο εξής, οι αρχικές διαθέσιμες επιλογές θα αναφέρονται ως
αμιγείς στρατηγικές
• Για 2 παίκτες με S1 = {s1, s2,..., sn} και S2 = {t1, t2,..., tm}
• O π. 1 έχει n αμιγείς στρατηγικές
• Ο π. 2 έχει m αμιγείς στρατηγικές
• Κάθε αμιγής μπορεί να αναπαρασταθεί και σαν μεικτή που
δίνει πιθανότητα 1 μόνο σε μια επιλογή
• Π.χ. η αμιγής στρατηγική s1 γράφεται και σαν την μεικτή
(1, 0, 0, ..., 0)
• Πιο γενικά: η στρατηγική si γράφεται σε διανυσματική μορφή
ως η μεικτή στρατηγική ei = (0, 0, ..., 1, 0, ..., 0)
– Με 1 στην θέση i, 0 στις υπόλοιπες
– Συχνά είναι πιο βολικό να χρησιμοποιούμε για την i-οστή αμιγή
στρατηγική το μοναδιαίο διάνυσμα ei

12

Ωφέλειες με μεικτές στρατηγικές


• Έστω ότι οι παίκτες έχουν διαλέξει μεικτές
στρατηγικές σε ένα παίγνιο
• Πώς σκέφτεται κάθε παίκτης για την ωφέλειά του?
• Όπως και στη θεωρία αποφάσεων, κάθε παίκτης
πλέον ενδιαφέρεται να μεγιστοποιήσει την μέση
ωφέλειά του

13
Μέση ωφέλεια (για 2 παίκτες)
• Έστω ένα n x m παίγνιο
• Αμιγείς στρατηγικές π. 1: S1 = {s1, s2,..., sn}
• Αμιγείς στρατηγικές π. 2: S2 = {t1, t2,..., tm}
• Έστω p = (p1, ..., pn) μια μεικτή στρατηγική του π. 1
• και q = (q1, ..., qm) μια μεικτή στρατηγική του π. 2
• Μέση ωφέλεια του π. 1:

• Ομοίως για τον π. 2 (όπου u1 βάλτε u2)


14

Παράδειγμα
B S • Έστω p = (4/5, 1/5),
2, 1 0, 0 q = (1/2, 1/2)
B
• u1(p, q) = 4/5 x 1/2 x 2 +
S 0, 0 1, 2 1/5 x 1/2 x 1 = 0.9
• u2(p, q) = 4/5 x 1/2 x 1 +
1/5 x 1/2 x 2 = 0.6
• Πότε μπορούμε να έχουμε
ισορροπία με μεικτές
στρατηγικές?

15
Σημεία ισορροπίας με μεικτές
στρατηγικές
• Ορισμός: Ένα προφίλ μεικτών στρατηγικών (p, q) είναι
σημείο ισορροπίας κατά Nash αν
– u1(p, q) ≥ u1(p’, q) για κάθε άλλη μεικτή στρατηγική p’ του π. 1
– u2(p, q) ≥ u2(p, q’) για κάθε άλλη μεικτή στρατηγική q’ του π. 2

• Θα πρέπει κανένας παίκτης να μην έχει κίνητρο μονομερώς να


αλλάξει σε κάποια άλλη μεικτή στρατηγική

• Πώς ελέγχουμε αν ένα προφίλ είναι σημείο ισορροπίας?


– Άπειρες το πλήθος μεικτές στρατηγικές!

16

Σημεία ισορροπίας με μεικτές


στρατηγικές
• Π.χ. στο Matching pennies: πώς θα εγγυηθούμε ότι το
προφίλ ((1/2, 1/2), (1/2, 1/2)) είναι σημείο ισορροπίας?
• Με βάση τον ορισμό, πρέπει να ελέγξουμε όλες τις
πιθανές αλλαγές (deviations) κάθε παίκτη:
1. Στρατηγικές (p, 1-p) για τον π. 1, για κάθε pÎ[0, 1]
2. Στρατηγικές (q, 1-q) για τον π. 2, για κάθε qÎ[0, 1]

• Γενικά ανέφικτο να ελέγξουμε άπειρο πλήθος από


μονομερείς αλλαγές!

17
Σημεία ισορροπίας με μεικτές
στρατηγικές
Υπάρχει πιο εύκολος τρόπος?
• Παρατήρηση: Μια μεικτή στρατηγική γράφεται σαν κυρτός συνδυασμός
(convex combination) από αμιγείς στρατηγικές:

• Αν p = (p1, ..., pn), τότε


p = p1 (1, 0,…, 0) + p2 (0, 1, 0,…, 0) + … + pn (0,…, 0, 1)
= p1 e1 + p2 e2 + … + pn en

• Έστω ότι σε ένα προφίλ (p, q), ο π. 1 έχει κίνητρο να επιλέξει μια μεικτή
στρατηγική p’ που του δίνει μεγαλύτερη ωφέλεια, απέναντι στην
στρατηγική q του π. 2

• Τότε θα υπάρχει και κάποια αμιγής στρατηγική που θα του δίνει


μεγαλύτερη ωφέλεια!
18

Σημεία ισορροπίας με μεικτές


στρατηγικές
• Πόρισμα: Αρκεί να ελέγξουμε μόνο αποκλίσεις σε αμιγείς
στρατηγικές

• Ισοδύναμος ορισμός: Ένα προφίλ μεικτών στρατηγικών (p, q)


είναι σημείο ισορροπίας κατά Nash αν
– u1(p, q) ≥ u1(ei, q) για κάθε αμιγή στρατηγική ei του π. 1
– u2(p, q) ≥ u2(p, ej) για κάθε αμιγή στρατηγική ej του π. 2

• Πρέπει να ισχύουν ταυτόχρονα n+m ανισότητες, όπως και στα


σημεία ισορροπίας με αμιγείς στρατηγικές

19
Παράδειγμα
B S • Στο Bach-or-Stravinsky, έστω p =
(4/5, 1/5), q = (1/2, 1/2)
2, 1 0, 0 • u1(p, q) = 4/5 x 1/2 x 2 + 1/5 x 1/2 x 1
B = 0.9
• u2(p, q) = 4/5 x 1/2 x 1 + 1/5 x 1/2 x 2
S 0, 0 1, 2 = 0.6
• Για να δούμε αν το προφίλ (p, q)
είναι σημείο ισορροπίας, πρέπει να
επαληθεύσουμε τις ανισότητες
– u1(p, q) ≥ u1(B, q)
– u1(p, q) ≥ u1(S, q)
– u2(p, q) ≥ u2(p, B)
– u2(p, q) ≥ u2(p, S)
• Είναι το (p, q) σημείο ισορροπίας?

20

Ορισμοί για παίγνια n παικτών


• Όλοι οι ορισμοί με μεικτές στρατηγικές γενικεύονται εύκολα
όταν έχουμε περισσότερους από 2 παίκτες
• Έστω n παίκτες
• Και έστω Si = σύνολο αμιγών στρατηγικών του π. i, i = 1,..., n
• Συνάρτηση ωφέλειας π. i: ui: S1 x ... x Sn → R
• Έστω p1, ..., pn μεικτές στρατηγικές των παικτών
• Δηλαδή για κάθε i = 1, ..., n, η pi είναι μια κατανομή
πιθανότητας στο Si
• Τότε μέση ωφέλεια π. i =

21
Σημεία ισορροπίας για παίγνια n
παικτών
• Ορισμός: Ένα προφίλ p = (p1, ..., pn) είναι σημείο ισορροπίας
με μεικτές στρατηγικές αν για κάθε παίκτη i και κάθε αμιγή
στρατηγική ei του π. i, ισχύει ότι
ui(p) ≥ ui(ei, p-i)

• Όπως και στα παίγνια 2 παικτών, αρκεί να ελέγξουμε μόνο


αποκλίσεις σε αμιγείς στρατηγικές

22

Σημεία ισορροπίας: Υπενθύμιση


Ζητήματα που είχαμε αναγνωρίσει ως προβληματικά
για τα σημεία ισορροπίας με αμιγείς στρατηγικές:
1. Δεν έχουν όλα τα παίγνια σημείο ισορροπίας
2. Στα παίγνια όπου υπάρχει σημείο ισορροπίας, δεν είναι
πάντα μοναδικό
– Κάποια παίγνια μπορεί να έχουν πολλά σημεία
ισορροπίας
3. Δεν παρέχουν απαραίτητα όλα τα σημεία ισορροπίας την
ίδια ωφέλεια
- Ούτε στον καθε παίκτη χωριστά, αλλά ούτε και
αθροιστικά
23
Σημεία ισορροπίας με μεικτές
στρατηγικές
• Θεώρημα [Nash 1951]: Κάθε πεπερασμένο παίγνιο έχει
τουλάχιστον ένα σημείο ισορροπίας (μπορεί να είναι είτε με
αμιγείς είτε με μεικτές στρατηγικές)
– Πόρισμα: αν ένα παίγνιο δεν έχει σημείο ισορροπίας με αμιγείς
στρατηγικές, τότε σίγουρα θα έχει τουλάχιστον ένα σημείο ισορροπίας
με μεικτές στρατηγικές

• Ένα από τα σημαντικότερα θεωρήματα της θεωρίας παιγνίων


• Το θεώρημα του Nash, αντιμετωπίζει το πρώτο από τα 3 ζητήματα
• Επιτρέποντας πιθανοτικές στρατηγικές, η ύπαρξη είναι πλέον εγγυημένη,
όσο πολύπλοκο ή μεγάλο κι αν είναι το παίγνιο
• Ακόμα κι αν έχουμε μεγάλο χώρο διαθέσιμων στρατηγικών για κάθε
παίκτη, υπάρχει πάντα προφίλ έτσι ώστε κανένας να μην θέλει να φύγει
από αυτό
24

Παραδείγματα
• Στο δίλημμα του φυλακισμένου, και στο Bach-or-Stravinsky,
υπάρχει ήδη σημείο ισορροπίας με αμιγείς στρατηγικές
– Το θεώρημα του Nash εδώ δεν προσθέτει κάποια πληροφορία. Ίσως
όμως υπάρχουν και επιπλέον σημεία ισορροπίας με μεικτές
στρατηγικές, ίσως όχι

• Matching-Pennies: εδώ το θεώρημα του Nash εγγυάται ότι


υπάρχει ισορροπία με μεικτές στρατηγικές
– Το προφίλ που είδαμε: ((1/2, 1/2), (1/2, 1/2))

• Για το Πέτρα-Ψαλίδι-Χαρτί?

25
Θεωρία Παιγνίων - Ενότητα 4
Εύρεση σημείων ισορροπίας σε παίγνια
μηδενικού αθροίσματος

Περίληψη
• Παίγνια μηδενικού αθροίσματος
– Pessimistic play
– Αμιγείς max-min και min-max στρατηγικές
– Μεικτές max-min και min-max στρατηγικές
• Υπολογισμός σημείων ισορροπίας σε παίγνια
μηδενικού αθροίσματος
– Το θεώρημα του von Neumann
– Αλγόριθμοι για 2x2 παίγνια
– 2xn παίγνια
– nxm 0-sum παίγνια μέσω γραμμικού προγραμματισμού
2
Σημεία ισορροπίας: Ύπαρξη
• Το θεώρημα του Nash εξασφαλίζει ΜΟΝΟ την
ύπαρξη και όχι την εύρεση σημείων ισορροπίας
• Απόδειξη βασισμένη σε fixed point theorems
– Brouwer’s fixed point theorem
• Η απόδειξη του θεωρήματος δεν «υποδεικνύει»
κάποιον γρήγορο αλγόριθμο υπολογισμού σημείων
ισορροπίας
• Μπορούμε να έχουμε αποδοτικούς αλγορίθμους για
παίγνια 2 παικτών?
– Για παίγνια περισσότερων παικτών?
3

Παίγνια Μηδενικού Αθροίσματος

4
Παίγνια μηδενικού αθροίσματος
(0-sum games)
• Μια ειδική περίπτωση παιγνίων κανονικής μορφής
• Είναι παίγνια όπου σε κάθε προφίλ αμιγών 4 2
στρατηγικών (s, t) με s Î S1, t Î S2
u1(s, t) + u2(s, t) = 0
• Η ωφέλεια του ενός παίκτη ισούται με την απώλεια
1 3
του άλλου
• Αναφέρονται και ως πλήρως ανταγωνιστικά παίγνια
(strictly competitive)
• Αν γνωρίζουμε τον πίνακα ωφέλειας του ενός
παίκτη, τότε ξέρουμε και τον πίνακα του άλλου
• Σύμβαση: για την αναπαράσταση τέτοιων παιγνίων
θα χρησιμοποιούμε τον πίνακα Α του π. 1
– Ο πίνακας του π. 2 είναι ο -Α

Παίγνια μηδενικού αθροίσματος


• Πώς πρέπει να επιλέξουμε στρατηγική σε τέτοια παίγνια?
• Θα επικεντρωθούμε πρώτα σε αμιγείς στρατηγικές
• Ιδέα: Pessimistic play
• Σκεπτικό κάθε παίκτη: Ό,τι και να διαλέξω, ο άλλος παίκτης
θα διαλέξει τη στρατηγική που ελαχιστοποιεί τη δική μου
ωφέλεια
• Σκεπτικό π. 1:
– Το χειρότερο σενάριο όταν διαλέγω κάποια γραμμή, είναι ο π. 2 να
επιλέξει τη στήλη με τη χειρότερη ωφέλεια πάνω σε αυτή τη γραμμή
– Άρα, καλύτερα να διαλέξω τη γραμμή που εξασφαλίζει το καλύτερο
χειρότερο σενάριο
– Δηλαδή τη γραμμή με το υψηλότερο ελάχιστο στοιχείο
• Ομοίως για τον π. 2 6
Παίγνια μηδενικού αθροίσματος
Ορισμοί
• Για τον π. 1:
– Το καλύτερο από τα χειρότερα σενάρια αποφέρει ωφέλεια
τουλάχιστον ίση με
v1 = maxi minj Aij
– Βλέπουμε σε κάθε γραμμή το ελάχιστο και επιλέγουμε τη γραμμή με
το καλύτερο ελάχιστο
• Για τον π. 2:
– Οι ωφέλειες του πίνακα Α αντιστοιχούν σε ζημιά/χασούρα για τον π. 2
– Το καλύτερο από τα χειρότερα σενάρια έχει ζημιά στον π. 2 ίση με
v2 = minj maxi Aij
– Βλέπουμε σε κάθε στήλη το μέγιστο και επιλέγουμε τη στήλη με το
μικρότερο μέγιστο
7

Παράδειγμα 1
• Η τιμή v1 είναι η ελάχιστη ωφέλεια που
μπορεί να εγγυηθεί ο π. 1 ανεξαρτήτως
του τι θα επιλέξει ο π. 2
4 2
• Ομοίως η v2 είναι η μέγιστη ζημιά που
μπορεί να εγγυηθεί ο π. 2 ανεξαρτήτως 1 3
του τι θα επιλέξει ο π. 1
• Υπολογισμός του v1 για τον π. 1:
– Αν διαλέξω την γραμμή 1, στη χειρότερη
περίπτωση παίρνω 2
– Αν διαλέξω τη γραμμή 2, στη χειρότερη
περίπτωση παίρνω 1
– Άρα v1 = 2
• Ομοίως για το v2 του π. 2:
– v2 = 3 8
Παράδειγμα 1
• v1 = 2 < v2 = 3
• Μια στρατηγική που εγγυάται ωφέλεια
τουλάχιστον v1 ονομάζεται max-min
στρατηγική για τον π. 1 4 2
• Αντίστοιχα για τον π. 2, μια min-max
στρατηγική εγγυάται απώλεια το πολύ v2 1 3
• Αν οι παίκτες ακολουθήσουν τις max-min και
min-max στρατηγικές τους, τελικό προφίλ =
1η γραμμή κ 2η στήλη
• Είναι σημείο ισορροπίας αυτό το προφίλ?
– Όχι
• Έχει σημεία ισορροπίας με αμιγείς
στρατηγικές το παίγνιο?
– Οχι 9

Παράδειγμα 2
• Υπολογισμός του v1 για τον π. 1:
– Γραμμή 1, min = 4 t1 t2 t3 t4
– Γραμμή 2, min = 1 s1 4 5 6 4
– Γραμμή 3, min = 0
s2 2 6 1 3
– Γραμμή 4, min = 4
– v1 = max {4, 1, 0, 4} = 4 s3 1 0 0 2

• Υπολογισμός του v2 για τον π. 2: s4 4 4 7 4


– Στήλη 1, max = 4
– Στήλη 2, max = 6
– Στήλη 3, max = 7
– Στήλη 4, max = 4
– v2 = min {4, 6, 7, 4} = 4

10
Παράδειγμα 2
• Σε αντίθεση με το Παράδειγμα 1, εδώ
έχουμε v1 = v2 t1 t2 t3 t4
• Προτεινόμενες στρατηγικές: s1 4 5 6 4
– s1 ή s4 για τον π. 1 s2 2 6 1 3
– t1 ή t4 για τον π. 2
s3 1 0 0 2
• To pessimistic play εδώ οδηγεί σε 4
πιθανά προφίλ s4 4 4 7 4

• Παρατήρηση:
i. Ίδιες ωφέλειες και στα 4 προφίλ
ii. Και τα 4 προφίλ είναι σημεία
ισορροπίας!
iii. Δεν υπάρχει κανένα άλλο σημείο
ισορροπίας
11

Παράδειγμα 3
• Υπολογισμός του v1 για τον π. 1:
– Γραμμή 1, min = 4 t1 t2 t3
– Γραμμή 2, min = 0 s1 4 6 5
– Γραμμή 3, min = 1
s2 2 1 0
– v1 = max {4, 0, 1} = 4
• Υπολογισμός του v2 για τον π. 2: s3 1 3 1

– Στήλη 1, max = 4
– Στήλη 2, max = 6
– Στήλη 3, max = 5
– v2 = min {4, 6, 5} = 4
• Και εδώ έχουμε v1 = v2

12
Παράδειγμα 3
• Προτεινόμενο προφίλ: (s1, t1)
t1 t2 t3
• To pessimistic play εδώ οδηγεί στο
s1 4 6 5
μοναδικό σημείο ισορροπίας του
παιγνίου! s2 2 1 0

• Σύμπτωση? s3 1 3 1

13

Σημεία ισορροπίας με αμιγείς


στρατηγικές
Θεώρημα: Για κάθε πεπερασμένο παίγνιο μηδενικού
αθροίσματος 2 παικτών:
• v1 ≤ v2
• Υπάρχει σημείο ισορροπίας με αμιγείς στρατηγικές αν και μόνο αν
v1 = v2
• Αν (s, t) και (s’, t’) είναι σημεία ισορροπίας με αμιγείς στρατηγικές,
τότε και τα προφίλ (s, t’), (s’, t) είναι σημεία ισορροπίας
• Όταν έχουμε πολλά σημεία ισορροπίας με αμιγείς στρατηγικές, οι
ωφέλειες είναι σε όλες το ίδιο (v1 για τον π. 1 και -v1 για τον π. 2)

14
Σημεία ισορροπίας με αμιγείς
στρατηγικές
• Πόρισμα: Σε παίγνια όπου v1 < v2, δεν υπάρχει σημείο
ισορροπίας με αμιγείς στρατηγικές
• Σε αρκετά παίγνια μηδενικού αθροίσματος, έχουμε ότι
maxi minj Αij ≠ minj maxi Αij
• Άρα το pessimistic play με αμιγείς στρατηγικές δεν οδηγεί
πάντα σε σημείο ισορροπίας
• Ιδέα (von Neumann): Να χρησιμοποιήσουμε pessimistic
play με μεικτές στρατηγικές!

15

Σημεία ισορροπίας με αμιγείς


στρατηγικές
• Μπορούμε να χρησιμοποιήσουμε τους ίδιους ορισμούς
για max-min και min-max στρατηγικές, επιτρέποντας πλέον
μεικτές στρατηγικές
• Ορισμοί:
– w1 = maxp minq u1(p, q)
– w2 = minq maxp u1(p, q)
• Μπορούμε να δείξουμε εύκολα ότι
– v1 ≤ w1 ≤ w2 ≤ v2
– Έχουμε βελτιστοποίηση ως προς ένα μεγαλύτερο χώρο
στρατηγικών
• Πώς θα υπολογίσουμε τις τιμές w1 και w2?

16
Επιστροφή στο Παράδειγμα 1
• Υπενθύμιση:
• v1 = 2 < v2 = 3
• Θα βρούμε πρώτα το w1 = maxp minq u1(p, q) 4 2
• Πρέπει να ψάξουμε για μια στρατηγική p =
(p1, p2) = (p1, 1 – p1) του π. 1 1 3
• Λήμμα: Δεδομένης στρατηγικής p του π. 1, η
ποσότητα minq u1(p, q) ελαχιστοποιείται σε
αμιγή στρατηγική του π. 2
– Δλδ, δεν χρειάζεται να γίνουν και οι 2
βελτιστοποιήσεις (max κ min) ως προς μεικτές
στρατηγικές

17

Ανάλυση Παραδείγματος 1
• Άρα ο υπολογισμός απλουστεύεται
ως εξής: 4 2
w1 = maxp minq u1(p, q)
= maxp min{ u1(p, e1), u1(p, e2) } 1 3
= maxp1 min{ 4p1 + 1-p1, 2p1 + 3(1-p1) }
= maxp1 min{ 3p1 + 1, 3 – p1 }

18
Ανάλυση Παραδείγματος 1
• w1 = maxp1 min { 3p1 + 1, 3 – p1 }
• Χρειάζεται να μεγιστοποιήσουμε το
minimum 2 γραμμών 4 2
1 3

0 1/2 1 p1 19

Ανάλυση Παραδείγματος 1
• w1 = maxp1 min { 3p1 + 1, 3 – p1 }
• Χρειάζεται να μεγιστοποιήσουμε το
minimum 2 γραμμών 4 2
1 3

• Η μια γραμμή είναι αύξουσα


• Η άλλη φθίνουσα
• Το min. μεγιστοποιείται στο
σημείο τομής è p1 = 1/2

0 1/2 1 p1 20
Ανάλυση Παραδείγματος 1
Συνοψίζοντας:
• w1 = maxp minq u1(p, q) = maxp1 min { 3p1 + 1,
3 – p1 } = 3*1/2 + 1 = 5/2 4 2
• Άρα ο π. 1 αρκεί να παίξει τη στρατηγική
p = (1/2, 1/2) για να εγγυηθεί μέση ωφέλεια 1 3
5/2 ανεξαρτήτως της επιλογής του π. 2
• Με μεικτές στρατηγικές, ο π. 1 μπορεί να
εγγυηθεί καλύτερη ωφέλεια (αφού v1 = 2)

21

Ανάλυση Παραδείγματος 1
Αν κάνουμε παρόμοια ανάλυση για τον π. 2:
w2 = minq maxp u1(p, q)
= minq max{ u1(e1, q), u1(e2, q) } 4 2
= minq1 max{ 4q1 + 2(1-q1), q1 + 3(1-q1) }
1 3
= minq1 max{ 2q1 + 2, 3 – 2q1 }

• Τώρα θέλουμε να ελαχιστοποιήσουμε το


max 2 γραμμών

22
Ανάλυση Παραδείγματος 1
• w2 = minq1 max{ 2q1 + 2, 3 – 2q1 }
• Και πάλι η μια ευθεία είναι αύξουσα και η
άλλη φθίνουσα 4 2
1 3

0 1/4 1 q1 23

Ανάλυση Παραδείγματος 1
• w2 = minq1 max{ 2q1 + 2, 3 – 2q1 }
• Και πάλι η μια ευθεία είναι αύξουσα και η
άλλη φθίνουσα 4 2
1 3

• Το max. ελαχιστοποιείται στο


σημείο τομής è q1 = 1/4
• min-max στρατηγική: (1/4, 3/4)

0 1/4 1 q1 24
Ανάλυση Παραδείγματος 1
Τελικά συμπεράσματα:
• Στρατηγικές των 2 παικτών
• p = (1/2, 1/2), q = (1/4, 3/4) 4 2
• w1 = w2 = 5/2
• Άρα με μεικτές στρατηγικές, και οι 2 παίκτες 1 3
εγγυώνται κάτι καλύτερο στον εαυτό τους
• Επίσης, ενώ με αμιγείς στρατηγικές
maxi minj Αij ≠ minj maxi Αij
• Με μεικτές έχουμε ισότητα
maxp minq u1(p, q) = minq maxp u1(p, q)
• Τέλος, το προφίλ που βρήκαμε είναι και
σημείο ισορροπίας! (ελέγξτε το)
25

Σημεία ισορροπίας με μεικτές


στρατηγικές
Θεώρημα (von Neumann 1928): Για κάθε
πεπερασμένο παίγνιο μηδενικού αθροίσματος:
1. w1 = w2 (η τιμή αυτή είναι γνωστή ως αξία του παιγνίου)
2. Το προφίλ (p, q), με το οποίο επιτυγχάνεται η αξία του
παιγνίου αποτελεί σημείο ισορροπίας
3. Αν (p, q) και (p’, q’) είναι σημεία ισορροπίας, τότε και τα
προφίλ (p, q’), (p’, q) είναι επίσης σημεία ισορροπίας
4. Όταν υπάρχουν πολλά σημεία ισορροπίας, οι ωφέλειες
είναι σε όλες το ίδιο (w1 για τον π. 1 και -w1 για τον π. 2)

26
Σημεία ισορροπίας με μεικτές
στρατηγικές
Συμπεράσματα από το Θεώρημα του von Neumann

• Για την οικογένεια των 0-sum παιγνίων, είναι λυμένα όλα


τα προβληματικά ζητήματα που έχουμε δει για τα σημεία
ισορροπίας
- Η ύπαρξη είναι εγγυημένη
- Ακόμα κι αν υπάρχουν πολλά σημεία ισορροπίας, όλα
έχουν ακριβώς τις ίδιες ωφέλειες
- Μπορούμε να διαλέξουμε οποιοδήποτε από τα σημεία
ισορροπίας

27

Σημεία ισορροπίας με μεικτές


στρατηγικές
Υπολογισμός σημείων ισορροπίας
• Μέχρι τώρα είδαμε πώς να βρίσκουμε σημεία ισορροπίας
σε 2x2 0-sum παίγνια
• Η τεχνική μπορεί να γενικευθεί και σε 2xn ή σε nx2 0-sum
παίγνια
• Όταν ένας παίκτης έχει 2 αμιγείς στρατηγικές, η εύρεση της
μεικτής max-min ή min-max στρατηγικής του ανάγεται σε
πρόβλημα βελτιστοποίησης 1 μεταβλητής
- Εν τέλει, αυτό συνεπάγεται ότι και για τον άλλο παίκτη θα έχουμε
πρόβλημα 1 μεταβλητής

28
Παράδειγμα 4
t1 t2 t3 t4
s1 6 5 3 5

s2 1 2 6 4

• Έλεγχος πρώτα για ισορροπία με αμιγείς στρατηγικές


– v1 = max {3, 1} = 3
– v2 = min {6, 5, 6, 5} = 5
– Αφού v1 ≠ v2, θα ψάξουμε για ισορροπία με μεικτές στρατηγικές
• Θα ξεκινήσουμε με την εύρεση της μεικτής στρατηγικής
του π. 1
– δλδ του παίκτη που έχει 2 στρατηγικές
– Αν το παίγνιο ήταν nx2, θα ξεκινούσαμε με τον π. 2
29

Παράδειγμα 4
t1 t2 t3 t4
s1 6 5 3 5

s2 1 2 6 4

• Ψάχνουμε για στρατηγική p = (p1, p2) = (p1, 1 – p1) του π. 1


• Κάνοντας παρόμοια ανάλυση όπως και στο παράδειγμα 1,
έχουμε:
w1 = maxp minq u1(p, q)
= maxp min{ u1(p, e1), u1(p, e2) , u1(p, e3) , u1(p, e4) }
= maxp1 min{ 6p1 + 1-p1, 5p1 + 2(1-p1), 3p1 + 6(1-p1), 5p1 + 4(1-p1) }
= maxp1 min{ 5p1 + 1, 3p1 + 2, 6 – 3p1, p1 + 4 }

30
Παράδειγμα 4
t1 t2 t3 t4
s1 6 5 3 5

s2 1 2 6 4

• Άρα w1 = maxp1 min{ f1(p1), f2(p1), f3(p1), f4(p1) }, όπου:


– f1(p1) = 5p1 + 1,
– f2(p1) = 3p1 + 2,
– f3(p1) = 6 – 3p1,
– f4(p1) = p1 + 4
• Θέλουμε να μεγιστοποιήσουμε το min. 4 ευθειών
– Γενικά σε 2xn, μεγιστοποιούμε το min. n ευθειών

31

Παράδειγμα 4
– f1(p1) = 5p1 + 1,
– f2(p1) = 3p1 + 2,
– f3(p1) = 6 – 3p1,
– f4(p1) = p1 + 4

f3
6

5
f4
4

3
f2
2

1 f1

0 1/2 2/3 1 p1 32
Παράδειγμα 4
– f1(p1) = 5p1 + 1,
– f2(p1) = 3p1 + 2,
– f3(p1) = 6 – 3p1, • To min{ f1(p1), f2(p1), f3(p1), f4(p1) }
– f4(p1) = p1 + 4 αντιστοιχεί σε μια τεθλασμένη
γραμμή
- Ξεκινά με την f1, μετά με την
f3
6 f2 και μετά με την f3
• Η max-min στρατηγική του π. 1
5
αντιστοιχεί στο μέγιστο σημείο
f4
4 της τεθλασμένης
• Άρα στο σημείο τομής
3 f2(p1) = f3(p1) Þ p1 = 2/3
f2
2

1 f1

0 1/2 2/3 1 p1 33

Παράδειγμα 4
t1 t2 t3 t4
s1 6 5 3 5

s2 1 2 6 4

• Άρα, max-min στρατηγική του π. 1: p = (2/3, 1/3)


• w1 = f2(2/3) = f3(2/3) = 4
• Πώς θα ξεκινούσαμε την ανάλυση του π. 2?
• Γενικά μια στρατηγική του π. 2 περιγράφεται από 3
παραμέτρους: q = (q1, q2, q3, 1 – q1 – q2 – q3)
– Δύσκολο να το αναλύσουμε έτσι και να βελτιστοποιήσουμε ως προς 3
μεταβλητές
34
Παράδειγμα 4
t1 t2 t3 t4
s1 6 5 3 5

s2 1 2 6 4

• Ιδέα: Ο π. 1 καθόρισε την στρατηγική p = (2/3, 1/3),


χρησιμοποιώντας μόνο τις f2 και f3
– Δηλαδή, τις στήλες 2 και 3
– Οι υπόλοιπες στρατηγικές του π. 2, δεν εμπλέκονται στον υπολογισμό
των max-min και min-max τιμών
• Άρα θα ψάξουμε για στρατηγική του π. 2 της μορφής:
q = (0, q2, 1 – q2, 0)

35

Παράδειγμα 4
t1 t2 t3 t4
s1 6 5 3 5

s2 1 2 6 4

• Θέλουμε να βελτιστοποιήσουμε ως προς q = (0, q2, 1-q2, 0)


– Δηλαδή ως προς q2
w2 = minq maxp u1(p, q)
= minq2 max{ u1(e1, (0, q2, 1 – q2, 0)), u1(e2, (0, q2, 1 – q2, 0)) }
= minq2 max{ 5q2 + 3(1-q2), 2q2 + 6(1-q2) }
= minq2 max{ 2q2 + 3, 6 – 4q2 }

36
Παράδειγμα 4
• w2 = minq2 max{ 2q2 + 3, 6 – 4q2 }
• Από εδώ υπάρχουν 2 ισοδύναμοι τρόποι για να συνεχίσουμε
1. Κάνουμε την ανάλυση για τον π. 2 με την γραφική παράσταση όπως
ακριβώς στο παράδειγμα 1
2. Χρησιμοποιώντας το θεώρημα του von Neumann
- Ξέρουμε από το θεώρημα ότι w1 = w2
- Άρα w2 = 4
- Το w2 επιτυγχάνεται με την 2η κ 3η στήλη του π. 2
- Άρα μπορούμε να λύσουμε την εξίσωση 2q2 + 3 = 4 ή την εξίσωση 6 – 4q2 = 4
- Και οι 2 δίνουν ως λύση την q2 = ½
• Τελικό συμπέρασμα:
- w1 = w2 = 4
- Τελικό προφίλ στρατηγικών: ((2/3, 1/3), (0, 1/2, 1/2, 0))
- Το προφίλ αυτό είναι και το μοναδικό σημείο ισορροπίας του παιγνίου
37

Παίγνια nxm
• Μπορούμε να γενικεύσουμε t1 t2 t3 t4
αυτή τη μεθοδολογία σε nxm s1 6 5 3 5
παίγνια με n ≥ 3 και m ≥ 3?
s2 1 2 6 4
• Πρέπει να ψάξουμε για
στρατηγική του π. 1 στη μορφή s3 3 8 3 2
p = (p1, p2, p3, 1 – p1 – p2 – p3) s4 5 4 2 0
• Αν ξεκινήσουμε με την ίδια
μεθοδολογία:
w1 = maxp minq u1(p, q)
= maxp min{ u1(p, e1), u1(p, e2) , u1(p, e3) , u1(p, e4) }
= maxp1,p2,p3 min{ 6p1 + p2 + 3p3 + 5(1 – p1 – p2 – p3), 5p1 + 2p2 + 8p3 + 4(1 –
p1 – p2 – p3), ..., ...}

• Πρόβλημα 3 μεταβλητών, δεν γίνεται γραφική παράσταση όπως πριν! 38


Παίγνια nxm
• Χρειαζόμαστε μια πιο γενική τεχνική
• Μπορούμε να εξετάσουμε αν η απόδειξη του θεωρήματος του
von Neumann συνεπάγεται κάποιον αλγόριθμο
• Η αρχική απόδειξη (1928) δυστυχώς δεν είναι κατασκευαστική
– Στηρίζεται σε fixed point theorems
• Όμως: σε αντίθεση με το θεώρημα του Nash, υπάρχει
εναλλακτική απόδειξη του θ. von Neumann, που είναι
αλγοριθμική
• Η εύρεση του w1 και της στρατηγικής του π. 1 μπορεί να
μοντελοποιηθεί σαν πρόβλημα γραμμικού προγραμματισμού
• Η εύρεση της στρατηγικής του π. 2 μοντελοποιείται σαν το
δυικό πρόβλημα του π. 1
39

Γραμμικός προγραμματισμός
• Τι είναι ένα γραμμικό πρόγραμμα?
• Οποιοδήποτε πρόβλημα βελτιστοποίησης όπου
– Η αντικειμενική συνάρτηση είναι γραμμική
– Οι περιορισμοί είναι επίσης γραμμικοί

• Μπορούμε να έχουμε και ανισότητες με ≥ ή και ισότητες στους


περιορισμούς
• Μπορούμε να λύνουμε γραμμικά προγράμματα σε εύλογο χρόνο, ακόμα
και με εκατοντάδες περιορισμούς ή μεταβλητές (Matlab, AMPL,...) 40
Γραμμικός προγραμματισμός
+∞
• Βασικό συστατικό της απόδειξης του von Neumann:
• Θεώρημα δυικότητας γραμμικού προγραμματισμού: Σε
κάθε γραμμικό πρόγραμμα μεγιστοποίησης, αντιστοιχεί
ένα δυικό γραμμικό πρόγραμμα ελαχιστοποίησης, έτσι
ώστε
– Το αρχικό ΓΠ έχει βέλτιστη λύση,αν και μόνο αν το δυικό έχει
OPT
βέλτιστη λύση
– Η βέλτιστη τιμή (όταν υπάρχει) και στις 2 αντικειμενικές
συναρτήσεις είναι ίδια

-∞
41

Εύρεση σημείων ισορροπίας σε 0-sum


παίγνια
• Έστω ένα 0-sum παίγνιο με nxm πίνακα Α για τον π. 1
• Πόρισμα [από την απόδειξη του θ. von Neumann]: Οι max-min
και min-max στρατηγικές των π. 1 και 2 δίνονται από την
βέλτιστη λύση των γραμμικών προγραμμάτων:

Πρωτεύον ΓΠ Δυικό ΓΠ 42
Παράδειγμα 5
t1 t2 t3 t4
s1 6 5 3 5

s2 1 2 6 4

s3 3 8 3 2

• v1 = 3, v2 = 5
• Αναγκαστικά θα χρησιμοποιήσουμε γραμμικό
προγραμματισμό
• Ψάχνουμε για στρατηγικές
p = (p1, p2, p3) και q = (q1, q2, q3, q4)

43

Παράδειγμα 5
Λύνοντας τα 2 γραμμικά t1 t2 t3 t4
προγράμματα με
οποιοδήποτε σχετικό
s1 6 5 3 5
πακέτο λογισμικού, s2 1 2 6 4
βρίσκουμε το σημείο
ισορροπίας s3 3 8 3 2

Πρωτεύον ΓΠ Δυικό ΓΠ
max w min w
s.t. s.t.
w ≤ 6p1 + p2 + 3p3 w ≥ 6q1 + 5q2 + 3q3 + 5q4
w ≤ 5p1 + 2p2 + 8p3 w ≥ q1 + 2q2 + 6q3 + 4q4
w ≤ 3p1 + 6p2 + 3p3 w ≥ 3q1 + 8q2 + 3q3 + 2q4
w ≤ 5p1 + 4p2 + 2p3 q1 + q2 + q3 + q4 = 1
p1 + p2 + p3 = 1 q1, q2, q3, q4 ≥ 0
p1, p2, p3 ≥ 0
44
Ανακεφαλαίωση
• Υπάρχει πάντα σημείο ισορροπίας σε 0-sum παίγνια, όταν
επιτρέπουμε μεικτές στρατηγικές
• w1 = w2 = αξία του παιγνίου
• Αν υπάρχουν πολλά σημεία ισορροπίας, όλα έχουν την ίδια
ωφέλεια για τους παίκτες (w1 για τον π. 1 και -w1 για τον π. 2)
• Η αξία του παιγνίου, καθώς και οι max-min και min-max
στρατηγικές μπορούν να υπολογιστούν σε πολυωνυμικό χρόνο

45

0-sum παίγνια και βελτιστοποίηση


Περαιτέρω συνδέσεις με την Πληροφορική και την θεωρία
αλγορίθμων:
1. Κάθε γραμμικό πρόγραμμα είναι ισοδύναμο με ένα 0-sum
παίγνιο
– Η λύση οποιουδήποτε γραμμικού προγράμματος ανάγεται στην
εύρεση ενός σημείου ισορροπίας σε ένα 0-sum παίγνιο
– Αρχική διατύπωση από [Dantzig 1951], πλήρης απόδειξη πολλά χρόνια
αργότερα [Adler 2013]
2. Για όλα τα αλγοριθμικά προβλήματα που λύνονται σε
πολυωνυμικό χρόνο (κλάση P), η επίλυσή τους μπορεί να
αναχθεί στην επίλυση ενός 0-sum παιγνίου!

46
0-sum παίγνια και βελτιστοποίηση
Η κλάση P 0-sum παίγνια

Shortest paths, Matching Pennies,


minimum spanning Πέτρα-Ψαλίδι-Χαρτί,
trees, sorting, ... Û ...

47

Και μια ακόμα παρατήρηση


• Όλα όσα έχουμε δει για 0-sum παίγνια ισχύουν και για
παίγνια σταθερού αθροίσματος
• Ένα παίγνιο είναι σταθερού αθροίσματος αν σε κάθε
προφίλ αμιγών στρατηγικών (s, t) με s Î S1, t Î S2
u1(s, t) + u2(s, t) = c, για κάποια παράμετρο c

• Γιατί?
• Μπορούμε να αφαιρέσουμε από τον πίνακα του π. 1 το c σε κάθε
κελί και να το μετατρέψουμε έτσι σε 0-sum παίγνιο
• Τέτοιοι μετασχηματισμοί δεν αλλοιώνουν το σύνολο των σημείων
ισορροπίας

48
Θεωρία Παιγνίων - Ενότητα 5
Εύρεση σημείων ισορροπίας σε γενικά
παίγνια

Σημεία ισορροπίας: ύπαρξη και


πολυπλοκότητα
• Στα παίγνια μηδενικού αθροίσματος είδαμε
αποδοτικούς αλγορίθμους για την εύρεση σημείων
ισορροπίας
– Χρησιμοποιώντας το θεώρημα του von Neumann
• Σε γενικά παίγνια?
– Το θεώρημα του Nash δεν εξασφαλίζει αντίστοιχες
ιδιότητες
– Μεγάλο ερευνητικό ερώτημα τις τελευταίες δεκαετίες
• Θα ξεκινήσουμε με παίγνια μικρών διαστάσεων

2
Απλοποιήσεις παιγνίων:
Αυστηρή και ασθενής κυριαρχία με
μεικτές στρατηγικές

Αυστηρά κυριαρχούμενες στρατηγικές


• Πριν τους αλγορίθμους υπολογισμού, θα ξαναδούμε πρώτα
μεθόδους απλοποίησης ενός παιγνίου
• Όλες οι έννοιες κυριαρχίας που έχουμε δει γενικεύονται όταν
επιτρέπουμε και μεικτές στρατηγικές
• Ορισμός: Μια (μεικτή ή αμιγής) στρατηγική pi του π. i
κυριαρχεί αυστηρά μια άλλη στρατηγική p’ αν για
οποιοδήποτε προφιλ p-i των υπόλοιπων παικτών, ισχύει ότι
ui(pi, p-i) > ui(p’, p-i)
• H στρατηγική p’ θα λέγεται αυστηρά κυριαρχούμενη
• Παρατήρηση: αρκεί να ελέγξουμε μόνο για όλα τα προφίλ p-i
με αμιγείς στρατηγικές

4
Αυστηρά κυριαρχούμενες στρατηγικές
• Μια αυστηρά κυριαρχούμενη στρατηγική δεν
χρησιμοποιείται σε κανένα σημείο ισορροπίας

• Άρα, μπορούμε να αφαιρέσουμε τις αυστηρά


κυριαρχούμενες στρατηγικές, και να επικεντρωθούμε
σε ένα μικρότερο παίγνιο

• Προσοχή: Είναι πιθανό μια στρατηγική να μην


κυριαρχείται αυστηρά από καμία αμιγή στρατηγική
αλλά να κυριαρχείται από μεικτή στρατηγική
5

Αυστηρή κυριαρχία από μεικτές


στρατηγικές
L R
• Η στρατηγική B του π. 1 δεν
κυριαρχείται αυστηρά ούτε από την T T 5, 5 0, 0
ούτε από την C
• Όμως, κυριαρχείται αυστηρά από την C 0, 0 5, 5
μεικτή (1/2, 1/2, 0), δηλαδή την 0.5T +
0.5C: B 2, 0 2, 0
– Έστω μια στρατηγική του π. 2 q = (q1, 1-q1)
– u1(B, q) = 2
– u1((1/2, 1/2, 0), q) = 1/2 x q1 x 5 + 1/2 x (1-q1)
x 5 = 2.5
Αυστηρή κυριαρχία από μεικτές
στρατηγικές
• Πώς θα ελέγξουμε αν μια στρατηγική είναι αυστηρά
κυριαρχούμενη?
• Έστω παίγνιο 2 παικτών με S1 = {s1, s2,..., sn} και S2 = {t1, t2,..., tm}
• Έστω ότι θέλουμε να ελέγξουμε αν η στρατηγική si του π. 1 είναι
αυστηρά κυριαρχούμενη
• Πρέπει να δούμε αν υπάρχει στρατηγική (μεικτή ή αμιγής) του π.
1 που κυριαρχεί την si
• Άρα κοιτάμε αν υπάρχουν πιθανότητες p1, ..., pn έτσι ώστε
– Για κάθε tj Î S2 (δλδ για κάθε στήλη), u1(si, tj) < p1u1(s1, tj) + ... + pn u1(sn, tj)
– επίσης, p1 + p2 + ... + pn = 1, p i ≥ 0 για i = 1, ..., n
• Σύστημα με γραμμικές ανισότητες, αν έχει λύση η si κυριαρχείται
αυστηρά

Επαναλαμβανόμενη αφαίρεση
αυστηρά κυριαρχούμενων στρατηγικών
Αλγόριθμος επαναλαμβανόμενης αφαίρεσης:
• Δεδομένου ενός παίγνίου n παικτών
– Διαλέγουμε έναν παίκτη i που έχει τουλ. 1 αυστηρά
κυριαρχούμενη στρατηγική
– Διαγράφουμε μία από τις αυστηρά κυριαρχούμενες
στρατηγικές του π. i
– repeat until: δεν υπάρχει παίκτης που να έχει αυστηρά
κυριαρχούμενη στρατηγική

8
Επαναλαμβανόμενη αφαίρεση αυστηρά
κυριαρχούμενων στρατηγικών
• Παρατήρηση: Οι στρατηγικές που επιβιώνουν αυτή την
διαδικασία δεν εξαρτώνται από την σειρά με την οποία
κάνουμε την αφαίρεση
– δλδ, δεν έχει σημασία ποιον παίκτη θα διαλέγουμε σε καθε βήμα

• Θεώρημα: Έστω G ένα παίγνιο n παικτών και G’ το παίγνιο


που προκύπτει από την επαναλαμβανόμενη αφαίρεση
αυστηρά κυριαρχούμενων στρατηγικών. Το G και το G’ έχουν
τα ίδια σημεία ισορροπίας
– δλδ, δεν καταστρέφουμε κανένα σημείο ισορροπίας με αυτή την
διαδικασία, μόνο απλοποιούμε το παίγνιο

Ασθενώς κυριαρχούμενες στρατηγικές


• Ορισμός: Μια (μεικτή ή αμιγής) στρατηγική pi του π. i
κυριαρχεί ασθενώς μια άλλη στρατηγική p’ αν για
οποιοδήποτε προφιλ p-i των υπόλοιπων παικτών, ισχύει ότι
ui(pi, p-i) ≥ ui(p’, p-i)
και για τουλάχιστον 1 προφίλ p-i έχουμε
ui(pi, p-i) > ui(p’, p-i)
• H p’ θα λέγεται ασθενώς κυριαρχούμενη
• Παρατήρηση: αρκεί να ελέγξουμε μόνο για όλα τα προφίλ p-i
με αμιγείς στρατηγικές

10
Επαναλαμβανόμενη αφαίρεση ασθενώς
κυριαρχούμενων στρατηγικών
• Όταν αφαιρούμε ασθενώς κυριαρχούμενες στρατηγικές,
μπορεί να χάσουμε κάποια σημεία ισορροπίας
• Μπορούμε να τρέξουμε τον ίδιο αλγοριθμο αφαίρεσης όπως
με τις αυστηρά κυριαρχούμενες στρατηγικές
• ΟΜΩΣ: Η σειρά με την οποία αφαιρούμε έχει σημασία
• Διαφορετικές σειρές αφαίρεσης μπορεί να αφαιρέσουν
διαφορετικά σημεία ισορροπίας

11

Άσκηση
t1 t2
s1 3, 2 2, 2
s2 1, 1 0, 0
s3 0, 0 1, 1
• Εκτελέστε επαναλαμβανόμενη αφαίρεση αυστηρά
κυριαρχούμενων στρατηγικών
• Εκτελέστε όλους τους δυνατούς τρόπους
επαναλαμβανόμενη αφαίρεσης ασθενώς
κυριαρχούμενων στρατηγικών. Χάνονται σημεία
ισορροπίας με αυτή τη διαδικασία?
12
Επαναλαμβανόμενη αφαίρεση ασθενώς
κυριαρχούμενων στρατηγικών
• Υπάρχει περίπτωση να χάσουμε όλα τα σημεία
ισορροπίας με αυτή την διαδικασία?
• Θεώρημα: Σε κάθε παίγνιο, υπάρχει πάντα
τουλάχιστον 1 σημείο ισορροπίας που επιβιώνει
όταν κάνουμε επαναλαμβανόμενη αφαίρεση
ασθενώς κυριαρχούμενων στρατηγικών
– επομένως: αν μας νοιάζει απλά να βρούμε ένα σημείο
ισορροπίας, μπορούμε να απλοποιήσουμε το παίγνιο,
χωρίς να μας απασχολεί η σειρά αφαίρεσης

13

Αλγόριθμοι και πολυπλοκότητα για


τον υπολογισμό σημείων ισορροπίας
σε γενικά παίγνια

14
Συναρτήσεις βέλτιστης απόκρισης
• Θα μας χρειαστούν ξανά οι συναρτήσεις βέλτιστης
απόκρισης
– Τώρα όμως επιτρέπουμε και μεικτές στρατηγικές
• Συνάρτηση βέλτιστης απόκρισης του π.1:
B1(q) = {p: u1(p, q) ≥ u1(p’, q) για κάθε p’}
• Ομοίως ορίζεται η συνάρτηση για τον π. 2
B2(p) = {q: u2(p, q) ≥ u2(p, q’) για κάθε q’}

15

Σημεία ισορροπίας και βέλτιστες


αποκρίσεις
• Ισοδύναμος ορισμός για σημεία ισορροπίας: Το
προφίλ (p, q) είναι σημείο ισορροπίας αν η p είναι
βέλτιστη απόκριση της q, και η q είναι βέλτιστη
απόκριση της p:
p Î B1(q) και q Î B2(p)

16
Σημεία ισορροπίας και βέλτιστες
αποκρίσεις
• Ανάλυση 2x2 παιγνίων
• Ας δούμε ξανά το Matching Pennies
H T
H 1, -1 -1, 1
T -1, 1 1, -1

• Έστω q = (q1, 1-q1) μια μεικτή στρατηγική του π. 2


• Θα βρούμε τη συνάρτηση βέλτιστης απόκρισης του π. 1

17

Σημεία ισορροπίας και βέλτιστες


αποκρίσεις
• Όταν ο π. 2 επιλέγει q = (q1, 1-q1)
– Αν ο π. 1 παίξει H: u1 = (+1)q1 + (-1)(1-q1) = 2q1 – 1
– Αν ο π. 1 παίξει Τ: u1 = (-1)q1 + (+1)(1-q1) = 1 – 2q1

• q1 < 1/2: βέλτιστη απόκριση = Τ


• q1 > 1/2: βέλτιστη απόκριση = Η
1 • q1 = 1/2: είναι βέλτιστες και η Η
και η Τ, άρα και όλες οι μεικτές
στρατηγικές!
1/2 1 q1
-1

18
Βέλτιστες αποκρίσεις στο Matching
Pennies
(0, 1), αν q1 < 1/2
B1(q) = (p1, 1-p1), p1Î [0,1], αν q1 = 1/2
(1, 0), αν q1 > 1/2

Ομοιως για τον π. 2:


(1, 0), αν p1 < 1/2
B2(p) = (q1, 1-q1), q1Î [0,1], αν p1 = 1/2
(0, 1), αν p1 > 1/2

• Επόμενο βήμα: γραφική παράσταση των Β1 και Β2 μαζί


– Όπως κάναμε στα παραδείγματα με άπειρα παίγνια (Cournot, joint project game)
– Γραφική παράσταση της B1 συναρτήσει του q1
– Επειδή η B1 επιστρέφει διανύσματα, θα κανουμε τη γραφ. παράσταση της αριστερής
συντεταγμένης (της πιθ/τας να επιλέξει την 1η γραμμή), ως συνάρτηση του q1
19

Γραφική αναπαράσταση σημείων


ισορροπίας
q1 • Τα σημεία τομής είναι τα σημεία
B2(p1) ισορροπίας
1 • Εδώ το προφίλ ((1/2, 1/2 ),(1/2, 1/2))
είναι το μοναδικό σημείο ισορροπίας του
παιγνίου
B1(q1)
1/2

1/2 1 p1
Bach or Stravinsky (BoS)
B S
B 2, 1 0, 0

S 0, 0 1, 2

Είχαμε βρει 2 σημεία ισορροπίας:


• (Β, Β) και (S, S)
• Υπάρχει σημείο ισορροπίας με μεικτές στρατηγικές?

21

Bach or Stravinsky (BoS)

q1 3 σημεία τομής, άρα 3 σημεία


ισορροπίας:
1 • ((0, 1), (0, 1)), δλδ το (S, S)
• ((1, 0), (1, 0)), δλδ το (B, B)
• ((2/3, 1/3), (1/3, 2/3))

B1(q1)
1/3
Άσκηση: Επαληθεύστε ότι το
διάγραμμα των βέλτιστων
B2(p1) αποκρίσεων είναι σωστό
2/3 1 p1

22
Παίγνια μεγαλύτερων διαστάσεων
• Για να εξετάσουμε μεγαλύτερα παίγνια, πρέπει να
κατανοήσουμε καλύτερα τις ιδιότητες των σημείων
ισορροπίας
• Ξεκινώντας από τις ωφέλειες των παικτών
• Ορισμός: Σε μια μεικτή στρατηγική p = (p1, p2,..., pn), το
support της p είναι οι αμιγείς στρατηγικές που έχουν θετική
πιθανότητα
Supp(p) = {i: pi > 0}
• Π.χ. αν p = (2/7, 0, 0, 3/7, 0, 2/7), τότε Supp(p) = {1, 4, 6}
– Για τον π. 1 μας δείχνει ποιες γραμμές του πίνακα έχουν πιθανότητα
να επιλεγούν όταν ο παίκτης παίζει με βάση μια μεικτή στρατηγική
– Αντίστοιχα για τον π. 2, μας δείχνει τις στήλες
23

Συναρτήσεις ωφέλειας revisited


• Έστω (p, q) ένα προφίλ σε ένα nxm παίγνιο
– p = (p1, p2,..., pn), q = (q1, q2,..., qm)
• Ανάλυση της συνάρτησης ωφέλειας του π. 1:

• Το τελευταίο άθροισμα αφορά μόνο το support της p, άρα

24
Σημεία ισορροπίας και support
στρατηγικών
• Έστω (p, q) ένα σημείο ισορροπίας και έστω ότι i, j Î
Supp(p)
– pi > 0, pj > 0
• Πώς συνδέονται οι ποσότητες u1(ei, q) και u1(ej, q)?
• Αν u1(ei, q) > u1(ej, q), έχει κίνητρο ο π. 1 να μειώσει την
πιθ/τα pj και να αυξήσει την πιθ/τα pi
– Τότε όμως το (p, q) δεν θα ήταν σημείο ισορροπίας
– Ομοίως και αν είχαμε u1(ei, q) < u1(ej, q)
– Μόνη επιλογή είναι να έχουμε ισότητα μεταξύ τους
• Αν i Î Supp(p) και j Ï Supp(p)?
– Τότε αναγκαστικά πρέπει u1(ei, q) ≥ u1(ej, q), αλλιώς το (p, q) δεν
είναι σημείο ισορροπίας
– Δηλαδή για κάθε i Î Supp(p), η στρατηγική i είναι βέλτιστη
25
απόκριση απέναντι στην q του π. 2

Σημεία ισορροπίας και support


στρατηγικών
Θεώρημα [Support theorem]: Ένα προφίλ (p, q) είναι σημείο
ισορροπίας αν και μόνο αν
i. "i, j Î Supp(p), u1(ei, q) = u1(ej, q)
ii. "i, j Î Supp(q), u2(p, ei) = u2(p, ej)
iii. "i Î Supp(p) και "j Ï Supp(p), u1(ei, q) ≥ u1(ej, q)
iv. "i Î Supp(q) και "j Ï Supp(q), u2(p, ei) ≥ u2(p, ej)

26
Σημεία ισορροπίας και support
στρατηγικών
Με λόγια:
– Αν σε ένα σημείο ισορροπίας χρησιμοποιείται μια αμιγής
στρατηγική με θετική πιθ/τα, θα πρέπει να είναι βέλτιστη απόκριση,
απέναντι στην στρατηγική του άλλου παίκτη
– 2 αμιγείς στρατηγικές με θετική πιθ/τα σε ένα σημείο ισορροπίας
πρέπει να δίνουν την ίδια ωφέλεια, απέναντι στην στρατηγική του
άλλου παίκτη
• To θεώρημα μας δίνει έναν νέο τρόπο να ελέγχουμε αν ένα
προφίλ είναι σημείο ισορροπίας
– Και μας βοηθάει να κατανοήσουμε γιατί κάποια προφίλ δεν μπορούν να είναι σημεία
ισορροπίας

27

Παράδειγμα
Ελέγξτε αν το προφίλ (p, q) με p = (3/4, 0, 1/4), και
q = (0, 1/3, 2/3) είναι σημείο ισορροπίας στο
παρακάτω παίγνιο

t1 t2 t3
s1 1, 2 3, 3 1, 1
s2 3, 2 0, 1 2, 5
s3 2, 4 5, 1 0, 7
28
Εύρεση σημείων ισορροπίας
Πόρισμα: Αν γνωρίζουμε τα support ενός σημείου ισορροπίας,
τότε μπορούμε να υπολογίσουμε το προφίλ σε πολυωνυμικό
χρόνο
Απόδειξη:
– Έστω ότι καποιος μαντεύει σωστά τα support και για
τους 2 παίκτες
– Όλες οι συνθήκες του θεωρήματος είναι γραμμικοί
περιορισμοί ως προς τις μεταβλητές p1, p2,..., pn, q1,
q2,...,qm
– Άρα μπορούμε μέσω γραμμικού προγραμματισμού να
βρούμε όλες τις πιθανότητες

29

Εύρεση σημείων ισορροπίας


• Τελικά η εύρεση ενός σημείου ισορροπίας με μεικτές
στρατηγικές είναι ουσιαστικά ένα συνδυαστικό πρόβλημα
• Αρκεί να βρω τον κατάλληλο συνδυασμό από supports για
τους 2 παίκτες
– Πρέπει να μαντέψω σωστά το υποσύνολο των γραμμών που θα
χρησιμοποιήσει ο π. 1
– Και το υποσύνολο των στηλών που θα χρησιμοποιήσει ο π. 2
• Brute-force αλγόριθμος:
– Ψάξε όλα τα πιθανά support
– Για κάθε πιθανό support, δες αν έχει λύση το γραμμικό πρόγραμμα
• Πολυπλοκότητα του brute-force σε nxm παίγνια: απαγορευτική!
– 2n επιλογές για τον π. 1
– 2m επιλογές για τον π. 2
– Πρέπει να ελέγξουμε O(2n+m) γραμμικά προγράμματα
30
Εύρεση σημείων ισορροπίας
• Σε ποιες περιπτώσεις μας βοηθάει το support theorem στο
να έχουμε καλύτερους αλγορίθμους?
• 2x2 παίγνια:
– μας γλιτώνει από τις γραφικές παραστάσεις που κάναμε π.χ. για το
Matching Pennies και το Bach-or-Stravinsky
– Αν υπάρχει ισορροπία με μεικτές στρατηγικές, το support του π. 1
περιέχει και τις 2 γραμμές
– Το support του π. 2 περιέχει και τις 2 στήλες
– Εφαρμόζοντας το θεώρημα, θα πρέπει
u1(e1, q) = u1(e2, q), και u2(p, e1) = u2(p, e2)

31

Εφαρμογή στο Bach-or-Stravinsky


(BoS)
B S
B 2, 1 0, 0

S 0, 0 1, 2
Για να υπάρχει σημείο ισορροπίας στη μορφή ((p1, 1-p1), (q1, 1-q1)), με p1, q1 Î (0, 1), θα
πρέπει να ισχύει
• 2q1 = 1- q1 Þ q1 = 1/3
• p1 = 2(1- p1) Þ p1 = 2/3
• Οι συνθήκες για τον π. 1 μας δίνουν την στρατηγική του π. 2
• Ομοίως από τις συνθήκες για τον π. 2 βρίσκουμε τη στρατηγική του π. 1
• Έτσι βρίσκουμε το προφίλ ((2/3, 1/3), (1/3, 2/3))

Προσοχή: Με τον τρόπο αυτό δεν θα βρούμε τις ισορροπίες με αμιγείς στρατηγικές
Για αμιγείς ψάχνουμε ξεχωριστά, όπως έχουμε δει παλιότερα
32
2xn παίγνια
t1 t2 t3 t4
s1 3, -2 1, 2 4, 6 2, 8

s2 1, 12 5, 10 2, 4 3, -4

• To support theorem μας βοηθάει και για 2xn παίγνια


• Στο παραπάνω παίγνιο, δεν υπάρχει σημείο ισορροπίας με
αμιγείς στρατηγικές, άρα από το θεώρημα του Nash υπάρχει
σίγουρα με μεικτές
• Θα ξεκινήσουμε με τον π. 1
– δλδ τον παίκτη που έχει 2 στρατηγικές
• Ψάχνουμε για στρατηγική p = (p1, p2) = (p1, 1 – p1) του π. 1
33

2xn παίγνια
t1 t2 t3 t4
s1 3, -2 1, 2 4, 6 2, 8

s2 1, 12 5, 10 2, 4 3, -4

• Βήμα 1: Κοιτάμε τον π. 2 και υπολογίζουμε τις ποσότητες


– u2(p, e1) = f1(p1) = -14p1 + 12,
– u2(p, e2) = f2(p1) = -8p1 + 10,
– u2(p, e3) = f3(p1) = 2p1 + 4
– u2(p, e4) = f4(p1) = 12p1 - 4

34
Ανάλυση 2xn παιγνίων
Βήμα 2: Γραφική παράσταση
– f1(p1) = -14p1 + 12,
12 f
1 – f2(p1) = -8p1 + 10,
10 – f3(p1) = 2p1 + 4
f2
8 – f4(p1) = 12p1 - 4

6
f3
4

0
f4
1/3 3/5 4/5 1 p1
-2
-4
35

Ανάλυση 2xn παιγνίων


Βήμα 3: Υποψήφιες στρατηγικές του π. 1
– Επειδή ο π. 2 παίζει βέλτιστη
12 f
1 απόκριση, κοιτάμε το
10 max{f1(p1), f2(p1), f3(p1), f4(p1)}
f2 – Υποψήφιες στρατηγικές του π.
8
1 μόνο στις «γωνίες» της
6 τεθλασμένης
f3 – 3 υποψήφιες στρατηγικές του
4 π. 1: (1/3, 2/3), (3/5, 2/5),
2 (4/5, 1/5)

0
f4
1/3 3/5 4/5 1 p1
-2
-4
36
Ανάλυση 2xn παιγνίων
t1 t2 t3 t4
s1 3, -2 1, 2 4, 6 2, 8

s2 1, 12 5, 10 2, 4 3, -4

• Βήμα 4: Ελέγχουμε όλες τις υποψήφιες στρατηγικές αν


μπορούν να δώσουν σημείο ισορροπίας
1η υποψήφια στρατηγική του π. 1: (1/3, 2/3)
– θα ψάξουμε για στρατηγική του π. 2 της μορφής: q = (q1, 1 – q1, 0, 0)
– Επειδή, από το διάγραμμα, η 1η και η 2η στήλη είναι οι καλυτερες
αποκρίσεις σε αυτή την στρατηγική του π. 1
– Από το θεώρημα για τα support, θα πρέπει u1(e1, q) = u1(e2, q)
– 3q1 + 1-q1 = q1 + 5(1-q1) Þ q1 = 2/3
– Αφού βρήκαμε έγκυρη πιθ/τα, έχουμε βρει σημείο ισορροπίας 37

Ανάλυση 2xn παιγνίων


t1 t2 t3 t4
s1 3, -2 1, 2 4, 6 2, 8

s2 1, 12 5, 10 2, 4 3, -4

• Βήμα 4: Ελέγχουμε όλες τις υποψήφιες στρατηγικές αν


μπορούν να δώσουν σημείο ισορροπίας
2η υποψήφια στρατηγική του π. 1: (3/5, 2/5)
– θα ψάξουμε για στρατηγική του π. 2 της μορφής: q = (0, q2, 1 – q2, 0)
– Επειδή, από το διάγραμμα, η 2η και η 3η στήλη είναι οι καλυτερες
αποκρίσεις σε αυτή την στρατηγική του π. 1
– Από το θεώρημα για τα support, θα πρέπει u1(e2, q) = u1(e3, q)
– Τελικά παίρνουμε q2 = 1/3
– Αφού βρήκαμε έγκυρη πιθ/τα, έχουμε βρει άλλο ένα σημείο ισορροπίας 38
Ανάλυση 2xn παιγνίων
t1 t2 t3 t4
s1 3, -2 1, 2 4, 6 2, 8

s2 1, 12 5, 10 2, 4 3, -4

• Βήμα 4: Ελέγχουμε όλες τις υποψήφιες στρατηγικές αν


μπορούν να δώσουν σημείο ισορροπίας
3η υποψήφια στρατηγική του π. 1: (4/5, 1/5)
– θα ψάξουμε για στρατηγική του π. 2 της μορφής: q = (0, 0, q3, 1 – q3)
– Με όμοιο τρόπο παίρνουμε q3 = 1/3
– Άρα και 3ο σημείο ισορροπίας

39

Ανάλυση 2xn παιγνίων


t1 t2 t3 t4
s1 3, -2 1, 2 4, 6 2, 8

s2 1, 12 5, 10 2, 4 3, -4

• Συνολικά: 3 σημεία ισορροπίας


– ((1/3, 2/3), (2/3, 1/3, 0, 0))
– ((3/5, 2/5), (0, 1/3, 2/3, 0))
– ((4/5, 1/5), (0, 0, 1/3, 2/3))

40
Ανάλυση 2xn παιγνίων
t1 t2 t3 t4
s1 3, -2 5, 2 4, 6 2, 8

s2 1, 12 1, 10 2, 4 3, -4

• Έστω ότι αλλάζουμε κάτι στον πίνακα του π. 1 (εδώ τη 2η στήλη)


• Ποια κομμάτια της ανάλυσης αλλάζουν?
– Παρατήρηση: Οι υποψήφιες μεικτές στρατηγικές του π. 1 καθορίστηκαν
από τον πίνακα του π. 2!
– Άρα τα Βήματα 1-3 μένουν ίδια
– Πάλι 3 υποψήφιες στρατηγικές για τον π. 1

41

Τροποποιημένο παράδειγμα
t1 t2 t3 t4
s1 3, -2 5, 2 4, 6 2, 8

s2 1, 12 1, 10 2, 4 3, -4

• Βήμα 4: Ελέγχουμε όλες τις υποψήφιες στρατηγικές αν


μπορούν να δώσουν σημείο ισορροπίας
1η υποψήφια στρατηγική του π. 1: (1/3, 2/3)
– θα ψάξουμε για στρατηγική του π. 2 της μορφής: q = (q1, 1 – q1, 0, 0)
– Από το θεώρημα για τα support, θα πρέπει u1(e1, q) = u1(e2, q)
– 3q1 + 5(1-q1) = q1 + 1-q1 Þ q1 = 2
– Μη αποδεκτή πιθανότητα!
– Άρα από εδώ δεν παίρνουμε σημείο ισορροπίας
42
Τροποποιημένο παράδειγμα
t1 t2 t3 t4
s1 3, -2 5, 2 4, 6 2, 8

s2 1, 12 1, 10 2, 4 3, -4

• Βήμα 4: Ελέγχουμε όλες τις υποψήφιες στρατηγικές αν


μπορούν να δώσουν σημείο ισορροπίας
2η υποψήφια στρατηγική του π. 1: (3/5, 2/5)
– θα ψάξουμε για στρατηγική του π. 2 της μορφής: q = (0, q2, 1 – q2, 0)
– Από το θεώρημα για τα support, θα πρέπει u1(e2, q) = u1(e3, q)
– 5q2 + 4(1-q2) = q2 + 2(1-q2) Þ q2 = -1
– Μη αποδεκτή πιθανότητα
– Άρα κι από εδώ δεν παίρνουμε σημείο ισορροπίας
43

Τροποποιημένο παράδειγμα
t1 t2 t3 t4
s1 3, -2 5, 2 4, 6 2, 8

s2 1, 12 1, 10 2, 4 3, -4

• Βήμα 4: Ελέγχουμε όλες τις υποψήφιες στρατηγικές αν


μπορούν να δώσουν σημείο ισορροπίας
3η υποψήφια στρατηγική του π. 1: (4/5, 1/5)
– Επειδή δεν έχουμε βρει άλλο σημείο ισορροπίας, το θεώρημα του Nash
μας εγγυάται ότι εδώ θα καταλήξουμε σε σημείο ισορροπίας
– Θα ψάξουμε για στρατηγική του π. 2 της μορφής: q = (0, 0, q3, 1 – q3)
– Στο τροποποιημένο παράδειγμα, οι στήλες 3 και 4 δεν έχουν αλλάξει
– Άρα θα βρούμε ό,τι και πριν: q3 = 1/3
– Μοναδικό σημείο ισορροπίας: ((4/5, 1/5), (0, 0, 1/3, 2/3)) 44
Αλγόριθμοι για nxm παίγνια
• Μπορούμε να χρησιμοποιήσουμε τεχνικές γραμμικού
προγραμματισμού για γενικά παίγνια 2 παικτών?
– Μάλλον όχι, κάτι τέτοιο θα αποδείκνυε ότι τα γενικά παίγνια είναι
ισοδύναμα αλγοριθμικά με τα 0-sum παίγνια
• Γνωστοί αλγόριθμοι:
– Brute-force, με βαση το θεώρημα για τα support, worst case: πρέπει να
λύσουμε Ο(2n+m) γραμμικά προγράμματα
– Πιο πρακτικός αλγόριθμος: [Lemke, Howson ’64], εκθετικού χρόνου στη
χειρότερη περίπτωση αλλά καλή συμπεριφορά κατά μέσο όρο
• Στηρίζεται σε ιδέες που χρησιμοποιεί και ο simplex, αλλά για μη γραμμικό πρόβλημα
• Υλοποιημένος στο GAMBIT http://www.gambit-project.org/
– Άλλες προσεγγίσεις με εκθετικό χρόνο χειρότερης περίπτωσης: [Kuhn
’61, Mangasarian ’64, Lemke ’65]

45

Επιστρέφοντας στην απόδειξη του


Nash
Μήπως η απόδειξη του Nash συνεπάγεται κάποιον αλγόριθμο?
• Θεώρημα [Nash 1951]: Κάθε πεπερασμένο παίγνιο έχει
τουλάχιστον 1 σημείο ισορροπίας, όταν επιτρέπουμε μεικτές
στρατηγικές

• Η απόδειξη του Nash στηρίζεται στο θεώρημα σταθερού


σημείου (fixed point theorem) του Brouwer

• Θεώρημα [Brouwer]: Έστω f: D➝D, συνεχής συνάρτηση, κι


έστω ότι το πεδίο ορισμού D είναι κυρτό και συμπαγές. Τότε
υπάρχει τουλάχιστον μια τιμή x, έτσι ώστε f(x) = x
– Οποιοσδήποτε αλγόριθμος που βρίσκει σταθερά σημεία μπορεί να
μετατραπεί σε αλγόριθμο για σημεία ισορροπίας 46
Παράδειγμα για το θεώρημα του
Brouwer
Έστω ότι το D είναι
ένας δίσκος

Flip?
• Γυρίστε τον δίσκο έτσι
ώστε η πάνω όψη να
βρεθεί από κάτω
• Συνεχής συνάρτηση
• Ο δίσκος είναι κυρτό και
συμπαγές σύνολο
• Όλα τα σημεία στον
κατακόρυφο άξονα είναι
σταθερά σημεία

47

Αλγόριθμοι για nxm παίγνια


• Υπάρχουν αλγόριθμοι για εύρεση σταθερών σημείων αλλά όχι
πολυωνυμικοί
• Συνεπώς: όλοι οι γνωστοί αλγόριθμοι για σημεία ισορροπίας
είναι εκθετικού χρόνου στη χειρότερη περίπτωση
• Μήπως το πρόβλημα είναι NP-complete?
• Μάλλον όχι
– [Megiddo, Papadimitriou ’89]: αν ήταν Þ NP = co-NP
– Φαίνεται απίθανο να ταυτίζονται τέτοιες κλάσεις πολυπλοκότητας

48
Αλγόριθμοι για nxm παίγνια
• Είναι NP-complete αν προσθέσουμε κι άλλους περιορισμούς
– Π.χ. βρες το σημείο ισορροπίας που μεγιστοποιεί το άθροισμα των
ωφελειών [Gilboa, Zemel ’89, Conitzer, Sandholm ’03]
– Διαφορετικό πρόβλημα από το να βρούμε απλά ένα σημείο ισορροπίας
– Δεν συνεπάγεται κάτι για την δυσκολία υπολογισμού απλά ενός σημείου
ισορροπίας
• Περαιτέρω ζητήματα: πιθανό πρόβλημα αναπαράστασης
– Υπάρχουν παίγνια με ακέραιες ωφέλειες, όπου οι πιθανότητες των
σημείων ισορροπίας είναι άρρητοι αριθμοί [Nash ’51]
– Άρα δεν μπορούμε με πεπερασμένο αριθμό από bits να εκφράσουμε τις
στρατηγικές

49

Αλγόριθμοι για nxm παίγνια


• Τα αλγοριθμικά ερωτήματα της θεωρίας παιγνίων έδωσαν
ώθηση για νέες ερευνητικές προσπάθειες στην πληροφορική
– κυρίως στην θεωρία αλγορίθμων, θεωρία πολυπλοκότητας και τεχνητή
νοημοσύνη
• [Papadimitriou ’94]: Νέες κλάσεις πολυπλοκότητας μεταξύ της P
και της NP, για προβλήματα όπου η λύση πάντα υπάρχει
– Π.χ. για σταθερά σημεία (πάντα υπάρχουν για συνεχή f), για ισορροπίες
(πάντα υπάρχουν για nxm παίγνια), για παραγοντοποίηση (πάντα
υπάρχει για σύνθετους αριθμούς)
– Κατηγοριοποίηση με βάση τον τρόπο απόδειξης της ύπαρξης
• PPA (Polynomial time Parity Argument)
• PPAD (Polynomial time Parity Argument, Directed)
• PPP (Polynomial time Pigeonhole Principle)
50
Αλγόριθμοι για nxm παίγνια
• Τελικά:
– Πολυπλοκότητα εύρεσης σημείων ισορροπίας: αναδείχθηκε σε
σημαντικό ανοιχτό πρόβλημα κυρίως από το 1990 και μετά
– [Daskalakis, Goldberg, Papadimitriou, September 2005]: PPAD-complete
για παίγνια 4 παικτών, εικασία ότι για 2 παίκτες υπάρχει πολυωνυμικός
αλγόριθμος
– [Chen, Deng, November 2005]: PPAD-complete για παίγνια 2 παικτών!
Βασισμένο στις τεχνικές της προηγούμενης εργασίας
– [Chen, Deng, Teng, February 2006]: PPAD-complete ακόμα και για
κάποιες προσεγγιστικές εκδοχές των σημείων ισορροπίας
– H πεποίθηση που επικρατεί είναι ότι τα PPAD-complete προβλήματα δεν
λύνονται πολυωνυμικά
– Άρα, η πιο πιθανή εκδοχή είναι ότι δεν υπάρχει αποδοτικός αλγόριθμος
που να βρίσκει ένα σημείο ισορροπίας σε οποιοδήποτε παίγνιο
51

H κλάση PPAD
• Τι άλλα προβλήματα ανήκουν σε αυτή την κλάση?
• Προβλήματα όπου υπάρχει πάντα λύση και η ύπαρξη της λύσης
αποδεικνύεται με χρήση συγκεκριμένων parity arguments

Το πρόβλημα END OF THE LINE (ανεπίσημη περιγραφή)


• Θεωρήστε έναν εκθετικά μεγάλο κατευθυνόμενο γράφο
– Κάθε κορυφή έχει έσω βαθμό και έξω βαθμό το πολύ 1
– Μπορούμε να κάνουμε ερωτήσεις (queries) για το ποιος είναι ο πατέρας
ή το παιδί μιας δοσμένης κορυφής
– Μας δίνεται επίσης μια κορυφή source (χωρίς πατέρα)
– Στόχος: Βρες μια κορυφή που είναι είτε source είτε sink (είτε δεν έχει
πατέρα είτε δεν έχει παιδί)
• Παρατήρηση: η ύπαρξη είναι εγγυημένη από parity argument: Ο συνολικός
αριθμός από sources και sinks είναι άρτιος 52
Η κλάση PPAD
Το υπολογιστικό πρόβλημα BROUWER
• Θεωρήστε μια συνεχή συνάρτηση f με κυρτό και συμπαγές
πεδίο ορισμού
– Έστω ότι πάλι μπορούμε να κάνουμε ερωτήσεις (queries) για την τιμή
της συνάρτησης σε σημεία του πεδίου ορισμού της
– Στόχος: Βρες ένα προσεγγιστικά σταθερό σημείο: δλδ ένα σημείο x έτσι
ώστε ||f(x) – x|| ≤ ε, για κάποια μικρή τιμή ε
Θεώρημα: Τα προβλήματα END OF THE LINE και BROUWER είναι
PPAD-complete

Πόρισμα: Αλγοριθμικά, το πρόβλημα της εύρεσης σημείων ισορροπίας σε


παίγνια 2 παικτών είναι ισοδύναμο με την εύρεση κατά προσέγγιση σταθερών
σημείων (fixed points) συνεχών συναρτήσεων
53

Μια γρήγορη σύνοψη


von Neumann,
1928 Zero-sum games rock!
Ικανοποιούν όλες τις
ιδιότητες που θέλουμε!
Κύριε von Neumann, έχω
αποδείξει μια γενίκευση
για όλα τα παίγνια

Nash, 1949-50
So what? Βρήκες ακόμα
μια εφαρμογή των fixed
point theorems

Οκ, εγώ πάντως θα


το δημοσιεύσω

54
Μια γρήγορη σύνοψη
Χμμ…Όρισα αυτή την περίεργη
κλάση, την PPAD, αλλά δεν είμαι
σίγουρος ακόμα. Είναι PPAD-
Papadimitriou,
complete το πρόβλημά μας?
1994

Game theory rocks!


BUT: Σε αρκετά παίγνια, δεν
μπορούμε να βρούμε εύκολα
σημείο ισορροπίας
Daskalakis, Goldberg, Papadimitriou,
2005

Τρέχουσα έρευνα: προσεγγιστικοί αλγόριθμοι για σημεία ισορροπίας,


αλγόριθμοι μάθησης, άλλες έννοιες ισορροπίας, …
55

Συνέπειες της υψηλής


πολυπλοκότητας
• Είναι καταστροφή που δεν μπορούμε να έχουμε αποδοτικούς αλγορίθμους
για κάθε παίγνιο?
– Ίσως στην πράξη οι παίκτες να συγκλίνουν συχνά σε σημεία ισορροπίας
παρατηρώντας τις κινήσεις των άλλων παικτών και δρώντας ανάλογα
– Όμως, “if your laptop cannot find an equilibrium, then neither can the market”,
quote από [Kamal Jain 2003]
• Η έννοια του σημείου ισορροπίας κατά Nash παραμένει μια από τις πιο
σημαντικές έννοιες στην θεωρία παιγνίων
• Μπορούμε να το βλέπουμε σαν την ενδεδειγμένη αφετηρία για να
μελετήσει κανείς ένα παίγνιο
• Και να καταλήγουμε σε διάφορες παραλλαγές όταν υπάρχει υπολογιστική
δυσκολία, π.χ.:
– Προσεγγιστικά σημεία ισορροπίας
– Ισορροπίες που προκύπτουν όταν οι παίκτες προσπαθούν να μάθουν πώς να
παίξουν (συνδέσεις με μηχανική μάθηση)

56
Προσεγγιστικά σημεία ισορροπίας
• Αφού το πρόβλημα είναι δύσκολο, μπορούμε να εξετάσουμε αν
είναι πιο εύκολο να υπολογίζουμε προσεγγιστικές λύσεις
• Υπενθύμιση ορισμού σημείων ισορροπίας: Ένα προφίλ μεικτών
στρατηγικών (p, q) είναι σημείο ισορροπίας κατά Nash αν
– u1(p, q) ≥ u1(ei, q) για κάθε αμιγή στρατηγική ei του π. 1
– u2(p, q) ≥ u2(p, ej) για κάθε αμιγή στρατηγική ej του π. 2

57

Προσεγγιστικά σημεία ισορροπίας


• Αφού το πρόβλημα είναι δύσκολο, μπορούμε να εξετάσουμε αν
είναι πιο εύκολο να υπολογίζουμε προσεγγιστικές λύσεις
• Προσεγγιστικά σημεία ισορροπίας (approximate Nash equilibria) :
Ένα προφίλ μεικτών στρατηγικών (p, q) είναι ε-σημείο ισορροπίας
κατά Nash αν
– u1(p, q) ≥ u1(ei, q) – ε, για κάθε αμιγή στρατηγική ei του π. 1
– u2(p, q) ≥ u2(p, ej) – ε, για κάθε αμιγή στρατηγική ej του π. 2

• Όταν μελετάμε ε-σημεία ισορροπίας, είθισται να


«κανονικοποιούμε» τις ωφέλειες ώστε να είναι στο [0, 1]
– Άρα τότε και ε Î [0, 1]
58
Παράδειγμα προσεγγιστικών σημείων
ισορροπίας
B S
B 2/3, 1/3 0, 0

S 0, 0 1/3, 2/3

Θεωρήστε το προφίλ ((0.6, 0.4), (0.4, 0.6))


• u1(p, q) = 0.6 x 0.4 x 2/3 + 0.4 x 0.6 x 1/3 = 0.24
• u1(e1, q) = 0.4 x 2/3 = 0.267
• u1(e2, q) = 0.6 x 1/3 = 0.2
• Παρόμοια ανάλυση και για τον π. 2
• Άρα το προφίλ αυτό είναι ένα 0.027-σημείο ισορροπίας
Κανένας από τους 2 παίκτες δεν θα κερδίσει παραπάνω από 0.027 αν φύγει
από αυτό το προφίλ και αλλάξει στρατηγική
59

Προσεγγιστικά σημεία ισορροπίας

• Ανοιχτό ερευνητικό πρόβλημα: Ποια είναι η


μικρότερη τιμή του ε, για την οποία υπάρχει
πολυωνυμικός αλγόριθμος που βρίσκει ε-σημεία
ισορροπίας σε οποιοδήποτε παίγνιο 2 παικτών?
– Δείτε τις διαφάνειες στο τέλος της ενότητας

60
Μεικτές στρατηγικές σε παίγνια
πολλών παικτών

61

Πολυπλοκότητα εύρεσης
• Σε παίγνια με πολλούς παίκτες, η εύρεση σημείων
ισορροπίας με μεικτές στρατηγικές είναι γενικά δύσκολο
πρόβλημα
• Τουλάχιστον τόσο δύσκολο όσο και στα παίγνια 2 παικτών
– Και κάποιες φορές αρκετά πιο δύσκολο
• Όμως: σε πολλές περιπτώσεις μπορούμε να
εκμεταλλευτούμε συμμετρίες για να μειώσουμε την
πολυπλοκότητα
• Το θεώρημα για τα support γενικεύεται και μπορεί να μας
βοηθήσει

62
Σημεία ισορροπίας και support
στρατηγικών
Γενίκευση του support theorem:

Θεώρημα: Έστω ένα παίγνιο n παικτών. To προφίλ (p1, p2, ...,


pn) είναι σημείο ισορροπίας αν και μόνο αν για κάθε παίκτη i,
ισχύει ότι
i. "j, k Î Supp(pi), ui(ej, p-i) = ui(ek, p-i)
ii. "j Î Supp(pi) και "k Ï Supp(pi), ui(ej, p-i) ≥ ui(ek, p-i)

63

Παράδειγμα εφαρμογής
• (προ καραντίνας) μια παρέα από n φοιτητές που
πηγαίνουν στον ίδιο προορισμό, περιμένουν στη
στάση του λεωφορείου μετά από μια κουραστική
μέρα στο ΟΠΑ
• Όταν έρθει το λεωφορείο, για να κάνει στάση πρέπει
τουλάχιστον ένας φοιτητής να σηκώσει το χέρι του
• Αν κανείς δεν σηκώσει το χέρι του, το λεωφορείο
φεύγει χωρίς να σταματήσει
• Διαθέσιμες στρατηγικές: {Σηκώνω το χέρι, Δεν
σηκώνω το χέρι} = {Σ, Δ} για κάθε παίκτη
Παράδειγμα εφαρμογής
Υποθέσεις:
• Όταν το λεωφορείο κάνει στάση, κάθε φοιτητής έχει μια ωφέλεια v
– Γιατί επιβιβάζεται και εν τέλει θα πάει στον προορισμό του
• Όταν ένας φοιτητής σηκώνει το χέρι του, υπάρχει ένα κόστος c για
τον ίδιο
– Εξαιτίας της απροθυμίας να σηκώσει το χέρι του
– Είναι κουρασμένος, βαριέται, προτιμά να ασχολείται με το κινητό του,
κι ελπίζει κάποιος άλλος να το σηκώσει
– Θεωρούμε ότι c < v (δεν είναι τόσο μεγάλο το κόστος!)
Συνάρτηση ωφέλειας:
• Αν κανένας δεν σηκώνει το χέρι του, το λεωφορείο δεν σταματά
και η ωφέλεια κάθε παίκτη είναι 0
• Σε προφίλ όπου τουλάχιστον ένας σηκώνει το χέρι του, τότε η
τελική ωφέλεια είναι
– v για αυτούς που δεν σήκωσαν το χέρι τους
– v-c για αυτούς που σήκωσαν το χέρι τους

Σημεία ισορροπίας με αμιγείς


στρατηγικές
• Συνάρτηση ωφέλειας του π. i σε ένα προφίλ (s1, ..., sn):
– ui(s1, ..., sn) = 0 αν s1 = ... = sn = Δ
– ui(s1, ..., sn) = v - c αν si = Σ
– ui(s1, ..., sn) = v αν si = Δ, sk = Σ για κάποιο k ≠ i
• Δεν είναι σημείο ισορροπίας να μην σηκώσει κανένας το
χέρι του
– Τότε κάθε παίκτης έχει κίνητρο να το σηκώσει
• Δεν έχουμε σημείο ισορροπίας όταν τουλάχιστον 2 παίκτες
σηκώνουν το χέρι τους
– Καθένας από αυτούς που σήκωσαν έχει κίνητρο να μην το
σηκώσει για να αποφύγει το κόστος c
• Σημεία ισορροπίας με αμιγείς στρατηγικές: όλα τα προφίλ
όπου ακριβώς ένας φοιτητής σηκώνει το χέρι του
– Μη συμμετρικά προφίλ
Σημεία ισορροπίας με μεικτές
στρατηγικές
• Μεικτές στρατηγικές: λόγω συμμετρίας, αρκεί να κοιτάξουμε για
προφίλ όπου όλοι παίζουν την ίδια μεικτή στρατηγική (p, 1-p)
– p = p(Σ) = P[ο παίκτης σηκώνει το χέρι του], 0 < p < 1
• Από το θεώρημα για τα support, θα πρέπει:
Μέση ωφέλεια αν σηκώσω το χέρι = μέση ωφέλεια αν δεν το σηκώσω
– Μέση ωφέλεια αν το σηκώσω: v – c
– Μέση ωφέλεια αν δεν το σηκώσω:
0 × P[κανείς άλλος δεν σηκώνει] + v × P[τουλ. ένας άλλος το σηκώνει]
= v × (1 – P[κανείς από τους υπόλοιπους δεν το σηκώνει])
= v × (1 - (1-p)n-1)

Σημεία ισορροπίας με μεικτές


στρατηγικές
• Άρα πρέπει
v - c = v(1 - (1-p)n-1) Þ p = 1 - (c/v)1/(n-1)
• Σημεία ισορροπίας όπου όλοι παίζουν την ίδια στρατηγική
ονομάζονται συμμετρικά σημεία ισορροπίας
Τι παρατηρούμε?
• Όσο μεγαλώνει το n, p → 0
• P[κανείς δεν σηκώνει το χέρι του] = (1-p)n = (1-p)(1-p)n-1 = (1-p)c/v
– Όπου (1-p) → 1, όταν n → ∞
• Συμπέρασμα: όσο μεγαλώνει η ομάδα των φοιτητών, αυξάνεται η
πιθ/τα κανένας να μην σηκώσει το χέρι του!!!
Μια σχετιζόμενη ιστορία
• Το 1964, η Catherine Genovese δολοφονήθηκε
βάναυσα στο διαμέρισμά της στη Νέα Υόρκη

• Η διάπραξη του εγκλήματος είχε διάρκεια μισή ώρα περίπου,


και το θύμα έκανε επανειλημμένα εκκλήσεις για βοήθεια

• Κανένας από τους 38 ενοίκους που ήταν στο κτήριο δεν κάλεσε
την αστυνομία, ούτε και προσπάθησε να σταματήσει το
έγκλημα, ενώ είχε ακούσει τις φωνές

• Και εδώ, έχουμε μια ομάδα ανθρώπων που επιλέγουν την


απραξία ενώ υπάρχει όφελος αν τουλάχιστον ένας έπαιρνε την
πρωτοβουλία να καλέσει την αστυνομία

Κοινωνική ψυχολογία και θεωρία


παιγνίων
• Η υπόθεση έγινε αντικείμενο μελέτης στον κλάδο
της κοινωνικής ψυχολογίας
• Πειράματα έδειξαν ότι
– Υπάρχει μεγαλύτερη τάση να βοηθήσει κάποιος έναν
άγνωστο όταν είναι ο μοναδικός μάρτυρας ή όταν δεν
υπάρχουν πολλοί άλλοι μάρτυρες
– Όταν μεγαλώνει το πλήθος των μαρτύρων, μειώνεται η
διάθεση για βοήθεια
• Διασπορά ευθύνης, αναστολές λόγω «θεατών», και άλλοι
λόγοι
• Η θεωρία παιγνίων εδώ εξηγεί μαθηματικά γιατί
μπορεί να συμβαίνει κάτι τέτοιο
Θεωρία Παιγνίων - Ενότητα 6
Κοινωνικό όφελος και τίμημα της
αναρχίας

Επιλογή σημείων ισορροπίας


• Έστω ότι έχουμε ένα παίγνιο με πολλά σημεία
ισορροπίας
• Ποιο θα προτείναμε ως καλύτερο ή επικρατέστερο?
• Δεν υπάρχει πάντα ξεκάθαρη απάντηση
• Σε κάποιες περιπτώσεις παίζουν ρόλο και άλλα
χαρακτηριστικά του παιγνίου
– Υπάρχει προτίμηση σε αμιγείς αντί για μεικτές
στρατηγικές?
– Υπάρχουν στρατηγικές που είναι πιο εύκολα υλοποιήσιμες
από κάποιες άλλες?
2
Bach or Stravinsky (BoS)
B S
B 2, 1 0, 0

S 0, 0 1, 2

Έχουμε συνολικά 3 σημεία ισορροπίας:


• (Β, Β)
• (S, S)
• ((2/3, 1/3), (1/3, 2/3))
Ποιο σημείο θα προτείναμε ως «καλύτερο»?
3

Bach or Stravinsky (BoS)


B S
B 2, 1 0, 0

S 0, 0 1, 2

Έχουμε συνολικά 3 σημεία ισορροπίας:


• Το 1ο σημείο ευνοεί ξεκάθαρα τον π. 1
• Το 2ο σημείο ευνοεί ξεκάθαρα τον π. 2
• Το 3ο δεν ευνοεί κάποιον από τους 2 (πιο δίκαιο), αλλά έχει
θετική πιθανότητα να συμβεί το (B, S) και το (S, B)
4
Περαιτέρω παραδείγματα
L R L R

T 1, 1 0, 0 T 2, 2 3, 0

B 0, 0 0, 0 B 0, 3 3, 3

• Στο παίγνιο αριστερά:


– 2 σημεία ισορροπίας (T, L), (B, R)
– Το 1ο φαίνεται προτιμότερο (έχει καλύτερες ωφέλειες)
– το σημείο (B, R) περιέχει ασθενώς κυριαρχούμενες στρατηγικές
• Στο παίγνιο δεξιά:
– 2 σημεία ισορροπίας (T, L), (B, R)
– Το 2ο φαίνεται προτιμότερο, αναφορικά με τις ωφέλειες
– όμως, και η B και η R είναι ασθενώς κυριαρχούμενες
5

Το κοινωνικό όφελος ως κριτήριο


επιλογής
• Ορισμός: Δεδομένου ενός προφίλ στρατηγικών, το
παραγόμενο κοινωνικό όφελος είναι το άθροισμα
των ωφελειών των παικτών
– Σε ένα προφίλ αμιγών στρατηγικών (si, tj)
SW(si, tj) = u1(si, tj) + u2(si, tj)
– Σε ένα προφίλ μεικτών στρατηγικών (p, q), παίρνουμε το
μέσο κοινωνικό όφελος
SW(p, q) = u1(p, q) + u2(p, q)

6
Bach or Stravinsky (BoS)
B S
B 2, 1 0, 0

S 0, 0 1, 2
Έχουμε συνολικά 3 σημεία ισορροπίας:
• (Β, Β)
- SW(B, B) = 3
• (S, S)
- SW(S, S) = 3
• (p, q) = ((2/3, 1/3), (1/3, 2/3))
- SW(p, q) = 2/3 x 1/3 x 3 + 1/3 x 2/3 x 3 = 12/9 = 4/3
7

Το κοινωνικό όφελος ως κριτήριο


επιλογής
• Αν μπορούμε να υποδείξουμε στρατηγικές στους
παίκτες, μπορούμε να επιλέγουμε το σημείο ισορροπίας
με το μεγαλύτερο κοινωνικό όφελος
• Αν υπάρχουν ισοβαθμίες, τότε οποιοδήποτε από τα
σημεία με το μεγαλύτερο όφελος είναι ικανοποιητικό
(π.χ. 2 επιλογές στο Bach-or-Stravinsky)
• Μεγάλη συνολική ωφέλεια Þ καλύτερη αξιοποίηση της
έκβασης που προκύπτει
– Π.χ. σε δημοπρασίες για αδειοδοτήσεις, οι παίκτες με μεγάλη
ωφέλεια πιθανότατα έχουν και τους πόρους για να
αξιοποιήσουν καλύτερα τις υποδομές

8
Το Τίμημα της Αναρχίας
(Price of Anarchy)

Κοινωνικό όφελος στα σημεία


ισορροπίας
• Υπάρχουν αρκετά παραδείγματα παιγνίων με πολλά σημεία
ισορροπίας, τα οποία δεν παράγουν το ίδιο κοινωνικό
όφελος
• Υπάρχουν επίσης παραδείγματα όπου κανένα από τα
σημεία ισορροπίας δεν παράγει το μεγαλύτερο δυνατό
κοινωνικό όφελος
– Μπορεί να υπάρχει προφίλ που δεν είναι σημείο ισορροπίας και
έχει καλύτερο όφελος
• Είναι απόρροια της στρατηγικής/εγωιστικής συμπεριφοράς
του κάθε παίκτη
– Κανένας δεν νοιάζεται για το κοινωνικό καλό, καθένας ενδιαφέρεται
για τη δική του συνάρτηση ωφέλειας
10
Παράδειγμα 1: Prisoner’s Dilemma
C D
C 3, 3 0, 4

D 4, 0 1, 1

• Το προφίλ (D, D) είναι το μοναδικό σημείο ισορροπίας του


παιγνίου
– Θυμηθείτε ότι η στρατηγική D είναι κυρίαρχη και για τους 2 παίκτες
• Βέλτιστο κοινωνικό όφελος: στο προφίλ (C, C)
Πόρισμα: Η εγωιστική συμπεριφορά εδώ έχει σαν αποτέλεσμα να
καταλήξουμε σε μια «κακή» έκβαση
11

Παράδειγμα 2
t1 t2 t3
s1 4, 3 3, 2 5, 1
s2 3, 2 24, 4 4, 2
s3 1, 8 2, 8 37, 5
• 2 σημεία ισορροπίας με αμιγείς στρατηγικές:
(s1, t1), (s2, t2)
• SW(s1, t1) = 7, SW(s2, t2) = 28
• Βέλτιστο κοινωνικό όφελος: 42 στο (s3, t3)
12
Το τίμημα της αναρχίας
[Koutsoupias, Papadimitriou ’99]
• Τι επιπτώσεις έχει η στρατηγική συμπεριφορά στο
κοινωνικό καλό?
• Μπορούμε να ποσοτικοποιήσουμε τη «ζημιά» που
προέρχεται από την εγωιστική συμπεριφορά?
• Χειρότερο σενάριο: σημείο ισορροπίας με το χειρότερο
κοινωνικό όφελος
• Μπορούμε να μετράμε πόσο απέχει το χειρότερο σημείο
ισορροπίας ενός παιγνίου από το βέλτιστο κοινωνικό
όφελος

13

Το τίμημα της αναρχίας


[Koutsoupias, Papadimitriou ’99]
• Χειρότερο σενάριο: σημείο ισορροπίας με το χειρότερο
κοινωνικό όφελος
• Το τίμημα της αναρχίας (price of anarchy) για αμιγείς
στρατηγικές:
PoA = maxs OPT/SW(s)
• OPT = βέλτιστο κοινωνικό όφελος του παιγνίου
• Η μεγιστοποίηση είναι ως προς όλα τα προφίλ s που είναι
σημεία ισορροπίας με αμιγείς στρατηγικές
• Θεωρούμε παίγνια με μη αρνητικές ωφέλειες
- Αν υπάρχουν αρνητικές ωφέλειες, μπορούμε να προσθέσουμε
μια μεγάλη σταθερά σε όλα τα κελιά χωρίς να επηρεαστεί το
παίγνιο
14
Το τίμημα της αναρχίας
[Koutsoupias, Papadimitriou ’99]
• Ομοίως ορίζουμε το τίμημα της αναρχίας για μεικτές
στρατηγικές:

PoA = maxp OPT/SW(p)

• OPT = βέλτιστο κοινωνικό όφελος του παιγνίου


- Το OPT επιτυγχάνεται πάντα σε προφίλ αμιγών
στρατηγικών
• Η μεγιστοποίηση είναι ως προς όλα τα προφίλ p που είναι
σημεία ισορροπίας (είτε με αμιγείς είτε με μεικτές
στρατηγικές)
15

Παράδειγμα 2
t1 t2 t3
s1 4, 3 3, 2 5, 1
s2 3, 2 24, 4 4, 2
s3 1, 8 2, 8 37, 5
• 2 σημεία ισορροπίας με αμιγείς στρατηγικές: (s1, t1),
(s2, t2)
• SW(s1, t1) = 7, SW(s2, t2) = 28
• Βέλτιστο κοινωνικό όφελος: 42 στο (s3, t3)
• Άρα για αμιγείς στρατηγικές, PoA = 42/7 = 6
16
Παράδειγμα 3
t1 t2 t3
s1 0, 0 3, 0 5, 0
s2 0, 2 24, 4 4, 2
s3 0, 8 2, 9 37, 5
• 2 σημεία ισορροπίας με αμιγείς στρατηγικές: (s1, t1), (s2, t2)
• SW(s1, t1) = 0, SW(s2, t2) = 28
• Βέλτιστο κοινωνικό όφελος: 42 στο (s3, t3)
• Άρα για αμιγείς στρατηγικές, PoA = 42/0 = +∞
– Πολύ κακό σημείο ισορροπίας το (s1, t1)

17

Bach or Stravinsky (BoS)


B S
B 2, 1 0, 0

S 0, 0 1, 2

Έχουμε συνολικά 3 σημεία ισορροπίας:


• (Β, Β)
• (S, S)
• ((2/3, 1/3), (1/3, 2/3))

18
Bach or Stravinsky (BoS)
B S
B 2, 1 0, 0

S 0, 0 1, 2
Με αμιγείς στρατηγικές:
• Βέλτιστο κοινωνικό όφελος = 3
• PoA = 3/3 = 1
• Όλα τα σημεία ισορροπίας με αμιγείς στρατηγικές επιτυγχάνουν
βέλτιστο όφελος!
• Ό,τι καλύτερο μπορούσαμε να ελπίζουμε

19

Bach or Stravinsky (BoS)


B S
B 2, 1 0, 0

S 0, 0 1, 2
Με μεικτές στρατηγικές:
• Βέλτιστο κοινωνικό όφελος = 3
• Πρέπει να δούμε το όφελος στο σημείο (p, q) = ((2/3, 1/3), (1/3,
2/3))
- SW(p, q) = 2/3 x 1/3 x 3 + 1/3 x 2/3 x 3 = 12/9 = 4/3
PoA = 3/(4/3) = 9/4
20
Συμπεράσματα
• Στο Bach-or-Stravinsky το σημείο ισορροπίας με μεικτές
στρατηγικές είναι υποδεέστερο αναφορικά με το κοινωνικό
όφελος
• Πιο γενικά, όταν υπάρχουν ισορροπίες και με μεικτές και με
αμιγείς στρατηγικές:
PoA για αμιγείς ≤ PoA για μεικτές

21

Εφαρμογές
• Η ανάλυση του τιμήματος της αναρχίας έχει χρησιμοποιηθεί
εκτενώς σε πολλές κατηγορίες παιγνίων (ειδικά στο χώρο
των Δικτύων)
– Παίγνια δρομολόγησης (routing games)
– Παίγνια διαμοιρασμού κόστους δικτύων (network cost-sharing
games
– Παίγνια τοποθέτησης (location games)
– Δημοπρασίες
• Η αρχική εργασία των [Koutsoupias, Papadimitriou ’99] έχει
λάβει πάνω από 1000 αναφορές (citations)
• Ιούλιος 2019: Workshop on the 20 years of PoA in Greece!
– https://20poa.github.io/

22
Εφαρμογές
• Παίγνια δρομολόγησης (routing games)
– Κάθε παίκτης θέλει να στείλει μια ποσότητα ροής/πληροφορίας από
μια αφετηρία σε έναν προορισμό σε ένα κατευθυνόμενο γράφημα
– Μοντελοποιούν οδικά δίκτυα, δίκτυα υπολογιστών, δίκτυα
τηλεπικοινωνιών,…
• Q: Τι συμπεράσματα προκύπτουν όταν το Price of Anarchy
είναι υψηλό σε ένα παίγνιο δρομολόγησης;
• Πώς μπορεί να μειωθεί το PoA σε τέτοια παίγνια?
– Σε οδικά δίκτυα: χρήση διοδίων, δημιουργία κυκλικών κόμβων, και
άλλες επεμβάσεις από τον σχετικό δήμο ή το κράτος…

23

Θεωρία Παιγνίων - Ενότητα 7


Δημοπρασίες
Δημοπρασίες ενός αγαθού

Δημοπρασίες

1 μη διαιρετό
αγαθό

Σύνολο παικτών
3
N = {1, 2, …, n}
Δημοπρασίες
• Μέσο συνδιαλλαγής από την αρχαιότητα
• Πρώτες αναφορές στην Βαβυλωνία, και στην αρχαία
Αθήνα
• Σύγχρονες εφαρμογές:
• Έργα τέχνης
• Γραμματόσημα
• Άδειες συχνοτήτων
• Δικαιώματα για ρύπους
• Δημοπρασίες λουλουδιών (Ολλανδία)
• Google ads (δείτε διαφάνειες στο τέλος της ενότητας)
• eBay
• Τίτλοι ομολόγων
4
• ...

Δημοπρασίες
• Παλιότερα, τα πιο δημοφιλή είδη δημοπρασιών ήταν
• Η αγγλική δημοπρασία
• Η τιμή αυξάνεται με μικρά βήματα
• Σταδιακά οι παίκτες αποσύρονται μέχρι να μείνει μόνο ένας
νικητής
• Η ολλανδική δημοπρασία
• Η τιμή ξεκινάει από το +∞ (δλδ από καποια πολύ μεγάλη τιμή)
και μειώνεται με μικρά βήματα
• Μέχρι να βρεθεί κάποιος πρόθυμος να προσφέρει αυτά τα
λεφτά
• Υπάρχουν διάφορες παραλλαγές για την πρακτική
υλοποίησή τους
• Και στα 2 είδη, είναι δυνατόν οι παίκτες να εξάγουν
πληροφορία για την ωφέλεια άλλων παικτών 5
Δημοπρασίες με ενσφράγιστες
προσφορές (sealed bid auctions)
• Ενσφράγιστες προσφορές: Κάθε παίκτης υποβάλει την
προσφορά του σε ένα φάκελο, χωρίς να την βλέπουν οι
άλλοι παίκτες
• Στη συνέχεια ο δημοπράτης πρέπει να αποφασίσει:
- Ποιος κερδίζει το αγαθό?
• Εύκολο! Ο παίκτης με την υψηλότερη προσφορά
- Πόσο πρέπει να πληρώσει ο νικητής?
• Όχι τόσο ξεκάθαρο

Δημοπρασία 1ης τιμής


(first price auction)
Υποθέσεις
• Αξία αγαθού: Για i=1,..., n, o παίκτης i έχει μια αξία vi αν
αποκτήσει το αγαθό
• Υποθέτουμε ότι v1 > v2 > ... > vn > 0
• Το vi είναι ιδιωτική πληροφορία του π. i
• Στρατηγικές: κάθε παίκτης i υποβάλει μια προσφορά bi
• bi Î [0, ∞)
• Άπειρο πλήθος αμιγών στρατηγικών
• Στρατηγική συμπεριφορά: H προσφορά bi μπορεί να
διαφέρει αρκετά από την πραγματική ωφέλεια vi του παίκτη i

7
Δημοπρασία 1ης τιμής
(first price auction)
Κανόνες της δημοπρασίας
•Έστω b = (b1, b2,..., bn) το διάνυσμα με τις προσφορές όλων
των παικτών
•Νικητής: Ο παίκτης με την υψηλότερη προσφορά
• Σε ισοβαθμίες: υποθέτουμε ότι κερδίζει ο παίκτης με τον μικρότερο
δείκτη (όχι πολύ σημαντικό για την ανάλυση)
• Π.χ. Αν ισοβαθμίσουν ο π. 2 και ο π. 4, κερδίζει ο π. 2
•Πληρωμή νικητή: η προσφορά που δήλωσε
•Συνάρτηση ωφέλειας π. i,
vi – bi , αν o i νίκησε
ui(b) =
0, διαφορετικά 8

Σημεία ισορροπίας στην


δημοπρασία 1ης τιμής
•Κάθε δημοπρασία ορίζει ένα παίγνιο
•Μπορούμε να περιγράψουμε όλα τα σημεία ισορροπίας
του παιγνίου (έστω με αμιγείς στρατηγικές)?
•Είναι πάρα πολλά...
•Μπορούμε όμως να βγάλουμε κάποια συμπεράσματα για
την συμπεριφορά του νικητή
•Θεώρημα: Το προφίλ (v2, v2, v3,..., vn) είναι σημείο
ισορροπίας
•Πόρισμα: Η δημοπρασία 1ης τιμής δίνει κίνητρα στους
παίκτες να μην είναι ειλικρινείς για την ωφέλειά τους

9
Μηχανισμοί δημοπρασιών
Θέλουμε να εξερευνήσουμε εναλλακτικούς τρόπους
πληρωμής, με καλύτερες ιδιότητες

Ορισμός: Ένας μηχανισμός δημοπρασιών παίρνει ως είσοδο το


διάνυσμα προσφορών b = (b1, b2,..., bn) και αποτελείται από
•έναν αλγόριθμο ανάθεσης (ποιος κερδίζει το αγαθό)
•έναν αλγόριθμο πληρωμών (πόσο πληρώνει ο νικητής)

Επιθυμητές ιδιότητες
•Όσοι δεν κερδίζουν δεν πληρώνουν τίποτα
•Αν ο νικητής είναι ο παίκτης i, η πληρωμή του δεν θα υπερβεί το bi
(εγγύηση ότι δεν πληρώνει κανείς παραπάνω από αυτό που δήλωσε)
10

Μηχανισμοί δημοπρασιών
Κίνητρα
•Ιδανικά, θέλουμε μηχανισμούς που δεν δίνουν κίνητρα στους
παίκτες για στρατηγική συμπεριφορά
•Πώς το μοντελοποιούμε αυτό μαθηματικά?

Μια απόπειρα:
Ορισμός: Ένας μηχανισμός ονομάζεται φιλαλήθης (truthful ή
strategyproof) αν για κάθε παίκτη i, και για κάθε προφίλ των
υπόλοιπων παικτών b-i έχουμε
ui(vi, b-i) ≥ ui(b’, b-i) για κάθε b’ ≠ vi
Δηλαδή: είναι κυρίαρχη στρατηγική για κάθε παίκτη i να δηλώσει την
πραγματική του ωφέλεια vi
11
Μηχανισμοί δημοπρασιών

•Σε έναν φιλαλήθη μηχανισμό, κάθε λογικός παίκτης ξέρει τι


πρέπει να επιλέξει, ανεξάρτητα από το τι κάνουν οι άλλοι
παίκτες
•Δεν χρειάζεται κανένας παίκτης να σκεφτεί αν υπάρχει
καλύτερη στρατηγική
•Πολύ ισχυρή ιδιότητα για έναν μηχανισμό
•Πόρισμα: Ο μηχανισμός 1ης τιμής δεν είναι φιλαλήθης

Υπάρχουν φιλαλήθεις μηχανισμοί?

12

O Μηχανισμός 2ης τιμής


(Vickrey auction)
[Vickrey ’61]
• Αλγόριθμος ανάθεσης: νικητής είναι ο παίκτης με την
υψηλότερη προσφορά, όπως και πριν
• Σε ισοβαθμίες: υποθέτουμε ότι κερδίζει ο παίκτης με
τον μικρότερο δείκτη
• Αλγόριθμος πληρωμής: Ο νικητής πληρώνει την 2η
υψηλότερη προσφορά
• Γίνεται μια μικρή έκπτωση στον νικητή

Παρατήρηση: H πληρωμή δεν εξαρτάται από τη δήλωση του


νικητή!
• Η προσφορά κάθε παίκτη καθορίζει το αν θα κερδίσει ή όχι, δεν
καθορίζει τι θα πληρώσει 13
O Μηχανισμός 2ης τιμής
(Vickrey auction)
[Vickrey ’61] (Nobel Οικονομικών 1996)
•Θεώρημα: Ο μηχανισμός 2ης τιμής είναι φιλαλήθης
Απόδειξη:
•Κοιτάμε έναν παίκτη i, κι έστω ένα αυθαίρετο προφίλ b-i για
τους υπόλοιπους παίκτες
•Έστω b* = maxj≠i bj
•Θεωρήστε τώρα όλες τις δυνατές περιπτώσεις για την
πραγματική ωφέλεια του i
- vi < b*
- vi > b*
- vi = b*
- Σε όλες τις περιπτώσεις αυτές, ο π. i δεν κερδίζει κάτι καλύτερο αν 14
δεν παίξει vi

O Μηχανισμός 2ης τιμής


(Vickrey auction)
Ανακεφαλαιώνοντας:

Η δημοπρασία 2ης τιμής


• είναι φιλαλήθης (καλή απόδοση ως προς τα κίνητρα)
• πολύ χαμηλή πολυπλοκότητα (καλή υπολογιστική απόδοση,
αρκεί μια ταξινόμηση αριθμών)
•Μεγιστοποιεί το παραγόμενο κοινωνικό όφελος (καλή
οικονομική απόδοση)

Παρά το γεγονός ότι οι αξίες vi είναι ιδιωτική πληροφορία, το παίγνιο έχει


σχεδιαστεί με τέτοιο τρόπο ώστε οι παίκτες να πρέπει να συμπεριφερθούν
όπως θέλει ο δημοπράτης!
15
O Μηχανισμός 3ης τιμής

• Αλγόριθμος ανάθεσης: όπως και πριν, είναι ο παίκτης με την


υψηλότερη προσφορά
• Αλγόριθμος πληρωμής: Ο νικητής πληρώνει την 3η
υψηλότερη προσφορά
• Γίνεται ακόμα μεγαλύτερη έκπτωση στον νικητή

• Παρατήρηση: H πληρωμή, όπως και στην δημοπρασία 2ης


τιμής, δεν εξαρτάται από τη δήλωση του νικητή!

• Είναι φιλαλήθης μηχανισμός?


– Απάντηση στο Φροντιστήριο 5
16

Συνδυαστικές Δημοπρασίες

17
Το μοντέλο
Σύνολο παικτών Σύνολο μη διαιρετών αγαθών
N = {1, 2, …, n} M = {1, 2, …, m}

18

Συνδυαστικές δημοπρασίες
• Δημοπρασίες με πολλά αγαθά προς πώληση
• Οι παίκτες μπορούν να εκφράζουν προσφορές σε
συνδυασμούς από αγαθά
• Στην πράξη αρκετές εφαρμογές κατά τα τελευταία 10-15
έτη
• Spectrum licences
• The FCC incentive auction:
• https://www.fcc.gov/about-fcc/fcc-
initiatives/incentive-auctions
• Transportation routes
• Logistics
19
Συνδυαστικές δημοπρασίες
• Στην πράξη φαίνεται να εξάγεται μεγαλύτερο κέρδος από
ότι αν γινόταν μια ξεχωριστή δημοπρασία για κάθε
αγαθό
• Κύρια ερωτήματα/προκλήσεις:
• Αλγοριθμικά: Πώς θα αναθέσουμε τα αγαθά στους
παίκτες (ειδικά αν επικαλύπτονται τα σύνολα που
θέλουν περισσότερο)?
• Παιγνιο-θεωρητικά: Πόσο θα χρεώσουμε κάθε
αγαθό? Φιλαλήθεις μηχανισμοί?

20

Συναρτήσεις ωφέλειας
• Στις δημοπρασίες με 1 αγαθό, κάθε παίκτης i είχε μια
ωφέλεια vi, για την απόκτηση του αγαθού
• Τώρα θα θεωρήσουμε ότι κάθε παίκτης έχει μια
συνάρτηση ωφέλειας, ορισμένη σε όλα τα υποσύνολα
αγαθών
• vi : P(M) ® R
• όπου P(M) = το δυναμοσύνολο του M
• Για κάθε S Í M, vi(S) = ωφέλεια για τον π. i αν
αποκτήσει το υποσύνολο S

21
Παραδείγματα συναρτήσεων ωφέλειας
Προσθετικές (additive) συναρτήσεις
•Για κάθε S Í M, vi(S) = ΣjÎS vij
• όπου vij = ωφέλεια από την απόκτηση του αγαθού j
•Άρα η συνάρτηση μπορεί να καθορισθεί πλήρως από το
διάνυσμα (vi1, vi2, ..., vim)
•Σε τέτοιες περιπτώσεις, τα αγαθά ουσιαστικά δεν
σχετίζονται μεταξύ τους
• Η απόκτηση ενός αγαθού δεν επηρεάζει την αξία που
έχει ένας παίκτης για κάποιο άλλο αγαθό

22

Συναρτήσεις ωφέλειας
• Στην πράξη πολλές φορές τα αγαθά προς πώληση
σχετίζονται μεταξύ τους και οι ωφέλειες δεν μπορούν να
εκφραστούν από προσθετικές συναρτήσεις
• Η αξία τους για έναν παίκτη μπορεί να εξαρτάται από τα
υπόλοιπα αγαθά που έχει ήδη ο παίκτης
• Τα αγαθά μπορεί να εμφανίζουν
• Συμπληρωματικότητα (complementarity): κάποια αγαθά μπορεί
να έχουν αξία μόνο όταν πωλούνται μαζί με άλλα (π.χ. αριστερό
και δεξιό παπούτσι)
• Δυνατότητα αντικατάστασης (substitutability): κάποια αγαθά
μπορεί να έχουν παρόμοια αξία με άλλα αγαθά της
δημοπρασίας και να μην πρέπει να πουληθούν μαζί στον ίδιο
παίκτη (π.χ. 2 αυτοκίνητα με ίδια χαρακτηριστικά)
23
Παραδείγματα συναρτήσεων ωφέλειας
Υποπροσθετικές (subadditive) συναρτήσεις
•Για κάθε 2 ξένα υποσύνολα S Í M, T Í M,
vi(S È T) ≤ vi(S) + vi(T)

•Σε αυτή την περίπτωση έχουμε substitutability μεταξύ των


αγαθών
•Καλούνται και complement-free συναρτήσεις (επειδή δεν
έχουμε συμπληρωματικότητα)

24

Παραδείγματα συναρτήσεων ωφέλειας


Υπομετρικές (submodular) συναρτήσεις
Για κάθε 2 υποσύνολα S, T, με S Í T Í M, και για κάθε
αγαθό j Ï T
vi(T È {j}) – vi(T) ≤ vi(S È {j}) – vi(S)
Ωφέλεια

´
´ ´
Decreasing marginal values

´ Διακριτό ανάλογο των


κοίλων συναρτήσεων

Αριθμός
μπουκαλιών
25
Παραδείγματα συναρτήσεων ωφέλειας
• Οι υπομετρικές συναρτήσεις είναι ειδική κατηγορία των
υποπροσθετικών συναρτήσεων
• Άρα κι εδώ δεν έχουμε συμπληρωματικότητα
• Διαδραματίζουν σημαντικό ρόλο στην μικρο-οικονομική
θεωρία
• Εκφράζουν το γεγονός ότι η ωφέλεια έρχεται σε
«κορεσμό» όταν συνεχίζουμε και δίνουμε αγαθά προς
τον ίδιο παίκτη

26

Παραδείγματα συναρτήσεων ωφέλειας


Συμμετρικές υπομετρικές (symmetric submodular)
συναρτήσεις
• Μια ειδική περίπτωση υπομετρικών συναρτήσεων
• Υπομετρικές με την επιπλέον υπόθεση ότι ο παίκτης
θεωρεί όλα τα αγαθά πανομοιότυπα
• Άρα η ωφέλεια εξαρτάται μόνο από το πόσα αγαθά παίρνει ο
παίκτης
• Π.χ. δημοπρασίες με πολλαπλά αντίτυπα ενός αγαθού
• Οι δημοπρασίες ομολόγων εμπίπτουν σε αυτό το σενάριο
• Τέτοιες συναρτήσεις μπορούν να αναπαρασταθούν με το
διάνυσμα περιθωριακών τιμών (marginal values)
§ (mi(1), mi(2),…, mi(k))
§ Όπου mi(j) = έξτρα ωφέλεια για την απόκτηση του j-οστού
αγαθού, αν ο παίκτης έχει ήδη j-1 αγαθά 27
Παραδείγματα συναρτήσεων ωφέλειας
Υπερπροσθετικές (superadditive) συναρτήσεις
•Για κάθε 2 ξένα υποσύνολα S Í M, T Í M,
vi(S È T) ≥ vi(S) + vi(T)

•Σε αυτή την περίπτωση έχουμε συμπληρωματικότητα


•Π.χ. Τα αγαθά μπορεί να μην έχουν σχεδόν καμία αξία
μόνα τους, παρά μόνο όταν πωλούνται σε συνδυασμούς

28

Σχέσεις μεταξύ διαφορετικών


συναρτήσεων

General

Subadditive
Submodular

Symmetric
Additive
Submodular

29
Μηχανισμοί για συνδυαστικές
δημοπρασίες
Πώς περιγράφουν οι παίκτες την συνάρτηση ωφέλειας στον
δημοπράτη?
•Για μια γενική συνάρτηση, χρειαζόμαστε το vi(S), για κάθε
S Í M (2m αριθμοί, απαγορευτικό!)
§2 περιπτώσεις
1. Κάποιες συναρτήσεις μπορούν να περιγραφούν με
έναν μικρό αριθμό παραμέτρων
• Π.χ. προσθετικές ή symmetric submodular
(αρκούν m παράμετροι)
2. Αν αυτό δεν είναι εφικτό, ο δημοπράτης μπορεί να
ρωτήσει τους παίκτες για συγκεκριμένα υποσύνολα
• Δεν είναι ανάγκη να μάθει ολόκληρη τη συνάρτηση
30

Μηχανισμοί για συνδυαστικές


δημοπρασίες
• Μπορούμε να έχουμε φιλαλήθεις μηχανισμούς σε
συνδυαστικές δημοπρασίες?
• Πιο συγκεκριμένα: μπορούμε να γενικεύσουμε την
δημοπρασία 2ης τιμής όταν έχουμε πολλά αγαθά?
• Θα πρέπει να γενικεύσουμε:
• Τον αλγόριθμο ανάθεσης: με 1 αγαθό, κέρδιζε ο
παίκτης με την υψηλότερη προσφορά
• Τώρα θα έχουμε περισσότερους από 1 νικητές (με
διαφορετικά αγαθά ο καθένας)
• Τον αλγόριθμο πληρωμών: με 1 αγαθό, κάναμε μια
«έκπτωση» στον νικητή
• Τώρα θα χρειαστεί να σκεφτούμε τι έκπτωση να κάνουμε
στον κάθε νικητή 31
Βελτιστοποίηση κοινωνικού οφέλους
• Η γενίκευση για τον αλγόριθμο ανάθεσης στηρίζεται στη
μεγιστοποίηση του κοινωνικού καλού
• Ορισμός: Έστω S = (S1, S2, …, Sn) μια ανάθεση των αγαθών
στους παίκτες, όπου Si = υποσύνολο που ανατίθεται στον π. i.
Τότε το κοινωνικό όφελος της ανάθεσης είναι
SW(S) = Σi vi(Si)

Το πρόβλημα SWM (Social Welfare Maximization):


Input: Οι συναρτήσεις ωφέλειας των παικτών
Output: Βρες μια ανάθεση S* = (S1 , S2 , …, Sn) που παράγει
το μέγιστο δυνατό κοινωνικό όφελος:
SW(S*) ≥ SW(S) για κάθε άλλη ανάθεση S
Παρατήρηση: Με 1 αγαθό, αρκεί να το δώσουμε στον παίκτη με την
υψηλότερη προσφορά, όπως στην δημοπρασία Vickrey 32

Βελτιστοποίηση κοινωνικού οφέλους


Παράδειγμα με προσθετικές συναρτήσεις
•3 παίκτες, 4 αγαθά
•Το input, μπορεί να καθοριστεί από έναν 3 x 4 πίνακα

48 41 11 0

35 10 50 5

45 20 10 25

• Βέλτιστη ανάθεση: S* = (S1 , S2 , S3) = ({1, 2}, {3}, {4})


• Βέλτιστο κοινωνικό όφελος: 48 + 41 + 50 + 25 = 164
33
Ο μηχανισμός VCG
O μηχανισμός VCG (προς τιμήν των Vickrey, Clarke, Groves)
• Γενίκευση της δημοπρασίας Vickrey για πολλά αγαθά

1.Λύσε το πρόβλημα SWM και έστω S* = (S1, S2, …, Sn) η βέλτιστη


λύση
2.Αλγόριθμος ανάθεσης: Για i=1, ..., n, ο παίκτης i λαμβάνει το
σύνολο Si
3.Αλγόριθμος πληρωμών:
• Κάθε παίκτης πληρώνει την «ζημιά» που προκαλεί η παρουσία του
στο όφελος των υπολοίπων
• Πληρωμή παίκτη i:
pi = SW-i* - Σj≠i vj(Sj)
• όπου SW-i* = βέλτιστο κοινωνικό όφελος όταν ο i δεν είναι παρών

34

Ο μηχανισμός VCG
Συμπερασματικά:
•Κάθε παίκτης παίρνει τα αγαθά που του αντιστοιχούν στην
βέλτιστη ανάθεση (ως προς το κοινωνικό όφελος)
•Η πληρωμή του καθορίζεται από τις δηλώσεις των άλλων
παικτών, όπως και στη δημοπρασία Vickrey

Θεώρημα: Ο μηχανισμός VCG είναι φιλαλήθης και μεγιστοποιεί


το κοινωνικό όφελος, για οποιεσδήποτε συναρτήσεις ωφέλειας

Μπορούμε να υλοποιούμε αποδοτικά τον μηχανισμό VCG?


-Ναι, όταν μπορούμε να λύσουμε το πρόβλημα SWM

35
Υλοποίηση του μηχανισμού VCG
Προσθετικές συναρτήσεις
• Input: n x m πίνακας
• Λύση του προβλήματος SWM: Εύκολη, greedy αλγόριθμος
• Για κάθε αγαθό j: δώσε το στον παίκτη με την υψηλότερη
αξία
• Υλοποίηση του VCG:
• Αρκεί να λύσουμε n+1 φορές το SWM πρόβλημα
• 1 για τον αλγόριθμο ανάθεσης
• n φορές για τον αλγόριθμο πληρωμών (με 1 διαφορετικό
παίκτη απόντα κάθε φορά)
36

Υλοποίηση του μηχανισμού VCG


Παράδειγμα με προσθετικές συναρτήσεις
•3 παίκτες, 4 αγαθά

48 41 11 0

35 10 50 5

45 20 10 25

• Βέλτιστη ανάθεση: S* = (S1 , S2 , S3) = ({1, 2}, {3}, {4})


• Βέλτιστο κοινωνικό όφελος: 48 + 41 + 50 + 25 = 164

37
Υλοποίηση του μηχανισμού VCG
Παράδειγμα με προσθετικές συναρτήσεις
•3 παίκτες, 4 αγαθά

48 41 11 0

35 10 50 5

45 20 10 25

Πληρωμές:
• p1 = SW-1* - Σj≠1 vj(Sj) = 140 – (50+25) = 65
• p2 = SW-2* - Σj≠2 vj(Sj) = 125 – (89+25) = 11
• Ομοίως p3 = 5 38

Υλοποίηση του μηχανισμού VCG


Προσθετικές συναρτήσεις

• Αν τρέχαμε m ανεξάρτητες δημοπρασίες Vickrey για


κάθε αγαθό χωριστά?
• Ίδιο αποτέλεσμα με πριν!
• Οφείλεται στο ότι έχουμε προσθετικές συναρτήσεις
(και άρα δεν συσχετίζονται οι αξίες των αγαθών)

Πόρισμα:
Για προσθετικές συναρτήσεις ωφέλειας, ο μηχανισμός
VCG είναι ισοδύναμος με την εκτέλεση μιας ανεξάρτητης
δημοπρασίας Vickrey για κάθε αγαθό 39
Υλοποίηση του μηχανισμού VCG
Υπομετρικές συναρτήσεις?
• Ο μηχανισμός VCG μπορεί να υλοποιηθεί σε
πολυωνυμικό χρόνο με συμμετρικές υπομετρικές
συναρτήσεις
- Σκεφτείτε πώς!
Αλλά:
• για γενικές υπομετρικές συναρτήσεις το SWM
πρόβλημα είναι NP-complete
• Το ίδιο και για υποπροσθετικές, αλλά και για
υπερπροσθετικές
40

Υλοποίηση φιλαληθών μηχανισμών


γενικότερα
Ερευνητικά ερωτήματα
• Εύρεση ειδικών περιπτώσεων από συναρτήσεις
ωφέλειας όπου το SWM είναι πολυωνυμικά
επιλύσιμο
• Σχεδίαση προσεγγιστικών αλγορίθμων για το SWM
• Πιθανό πρόβλημα: οι προσεγγιστικοί αλγόριθμοι για
το SWM δεν μπορούν πάντα να συνδυαστούν με τον
αλγόριθμο πληρωμών του VCG
• Εν τέλει, χρειάζεται να σχεδιάσουμε διαφορετικούς
αλγορίθμους πληρωμών, όταν το SWM είναι δύσκολο
• Ενεργό ερευνητικό πεδίο τα τελευταία έτη... 41
ΕΚΤΟΣ ΥΛΗΣ

Case study: Sponsored Search Auctions

42

What is sponsored search?


Advertising slots

43
What is sponsored search?
Advertising slots

44

Πώς δουλεύει?
• Για κάθε πιθανό search term (e.g. ipod)
– n υποψήφιοι διαφημιζόμενοι
– k slots (συνήθως k << n)
– Εκτελείται μια δημοπρασία σε κάθε αναζήτηση του όρου
– Κάθε διαφημιζόμενος ενδιαφέρεται να προβληθεί σε ένα
από τα slots
• Και συνήθως προτιμούν όσο πιο ψηλά γίνεται
– Ίδια δημοπρασία και για σχετικούς όρους (e.g. “buy ipod”,
“cheap ipod”, “ipod purchase”, …)
• Ο διαφημιζόμενος μπορεί να καθορίσει σε ποιες δημοπρασίες θα
συμμετέχει

45
Πώς δουλεύει?
– Οι διαφημιζόμενοι μπορούν να υποβάλουν ένα αρχικό
προϋπολογισμό που μπορούν να τον ανανεώνουν κάθε
εβδομάδα ή κάθε μήνα
– Υποβάλουν επίσης και μια προσφορά (bid) που επίσης
μπορούν να προσαρμόζουν όποτε επιθυμούν
– Η δημοπρασία επιλέγει τους νικητές που θα προβληθούν
– Μοντέλα χρέωσης: Pay Per Click, Pay Per Impression, Pay Per
Transaction
– Πιο δημοφιλές το Pay Per Click
– Χρέωση ενός διαφημιζόμενου προς τη Google γίνεται μόνο αν
κάποιος χρήστης κάνει κλικ στη διαφήμιση του παίκτη

46

Εμπλεκόμενες οντότητες
• Η μηχανή αναζήτησης:
– Θελει να έχει κέρδος από τις δημοπρασίες
– Ταυτόχρονα, θέλει οι χρήστες να βλέπουν χρήσιμες/σχετικές
διαφημίσεις και να μην χρεώνει πάρα πολύ τους
διαφημιζόμενους

• Οι διαφημιζόμενοι:
– Θέλουν να καταλάβουν όσο πιο υψηλό slot και να πληρώσουν
όσο το δυνατόν λιγότερο

• Οι χρήστες:
– Όσοι ψάχνουν για να αγοράσουν κάτι, θέλουν να βρουν
διαφημίσεις με προϊόντα υψηλής ποιότητας

47
Analyzing sponsored search
auctions
• Θα δούμε την πλευρά των διαφημιζόμενων
• Παράμετροι για τον παίκτη i
– Private information: vi = μέγιστο ποσό που είναι διατεθειμένος να
πληρώσει ο παίκτης i = ωφέλεια που παράγεται για τον παίκτη i
αν πάρει ένα κλικ
– Ο παίκτης i υποβάλει μια προσφορά bi (το bi μπορεί να διαφέρει
από το vi)
– Θα αγνοήσουμε τον προϋπολογισμό
• Σε πολλές περιπτώσεις είναι αρκετά μεγάλος οπότε δεν παίζει ρόλο στο
παίγνιο

48

Analyzing sponsored search


auctions
• Παράμετροι για το slot j
– αj = Click-through rate (CTR) του slot j = πιθανότητα ότι ένας
χρήστης θα κάνει κλικ στο slot j
– Εδώ θα θεωρήσουμε ότι είναι ανεξάρτητο του ποιος βρίσκεται
στη θέση j
• Μπορεί να γενικευθεί και όταν η πιθ/τα εξαρτάται από το
ποιος διαφημιζόμενος κατέλαβε τη θέση αυτή
– Οι μηχανές αναζήτησης ανανεωνουν συχνά αυτές τις ποσότητες
μέσα από τα στατιστικά στοιχεία που έχουν και φαίνεται ότι
α1 ≥ α2 ≥ α3 ≥ ... ≥ αk
– Οι χρήστες κάνουν κλικ πιο συχνά στα υψηλότερα slots
• Validation και από eye-tracking experiments

49
Analyzing sponsored search
auctions
• Πώς θα υλοποιούσαμε τον VCG μηχανισμό εδώ?
• Πρέπει να λύσουμε το SWM πρόβλημα
• Αλγόριθμος ανάθεσης: for i=1 to k, δώσε στον i-οστό
υψηλότερο bidder το i-οστό καλύτερο slot
– Οι υπόλοιποι παίκτες δεν κερδίζουν τίποτα
• Έστω ότι έχουμε διατάξει τους παίκτες έτσι ώστε, b1 ≥ b2
≥ b3 ≥ ... ≥ bn
• Μέση τιμή του κοινωνικού οφέλους: Σi αivi
• Πώς θα υπολογίσουμε τις πληρωμές?

50

Analyzing sponsored search auctions


•Ας πάρουμε τον π. 1
•Πρέπει να βρούμε το μέγιστο κοινωνικό όφελος όταν δεν είναι
παρών ο π. 1
•Όταν λείπει ο π. 1, τότε
• Ο π. 2 θα πάρει το slot 1, o π. 3 θα πάρει το slot 2, κ.ο.κ.
•Πιο γενικά, για τον παίκτη i

•Επειδή έχουμε pay-per-click, η τελική πληρωμή per click θα είναι


pi(b)/αi έτσι ώστε η μέση πληρωμή να είναι pi(b)

51
Sponsored search auctions in practice
• Στην πράξη ο μηχανισμός VCG χρησιμοποιείται στις
διαφημίσεις της Facebook
• Οι μηχανές αναζήτησης εφαρμόζουν διαφορετικό κανόνα
– Αλλά με τον ίδιο αλγόριθμο ανάθεσης
• Generalized Second Price Mechanism (GSP) – αρχική
εκδοχή:
– Διατάζουμε τους παίκτες έτσι ώστε: b1 ³ b2 ³ … ³ bn
– δώσε στον i-οστό υψηλότερο bidder το i-οστό
υψηλότερο slot
– Όταν έχουμε κλικ στο slot i, ο π. i πληρώνει bi+1

52

The Generalized Second Price


Mechanism (GSP)
• Μια καλύτερη εκδοχή:
– Η μηχανή αναζήτησης κρατάει και ένα σκορ για την
ποιότητα του παίκτη i (quality score qi )
• Yahoo, Bing: qi είναι το click-through rate του i (πιθ/τα κάποιος να
κάνει κλικ σε διαφήμιση του i)
• Google: το qi εξαρτάται από το click-through rate, από τη
σχετικότητα του κειμένου της διαφήμισης, και άλλους παράγοντες
– Διατάζουμε τους παίκτες σε φθίνουσα σειρά ως προς qi ´ bi:
q1´b1 ³ q2´b2 ³ … ³ qn´bn
– Οι πρώτοι k παίκτες κερδίζουν τα k slots
– Σε κάθε κλικ στο slot i, ο π. I πληρώνει το ελάχιστο ποσό που
χρειάζεται να προσφέρει για να κρατήσει τη θέση του, δλδ,
(qi+1´bi+1)/ qi
53
The Generalized Second Price
Mechanism (GSP)
• Παρατήρηση: Ο μηχανισμός GSP δεν είναι φιλαλήθης
• Ο GSP υιοθετήθηκε μάλλον «από ατύχημα»
– Σαν μια προσπάθεια για έναν μηχανισμό που φαινόταν φιλαλήθης
• Όμως...
– Για μεγάλο χρονικό διάστημα, το κέρδος από τον GSP ήταν πάνω από
το 95% των εσόδων της Google
– Οι δημοπρασίες αυτές εξακολουθούν να αποτελούν μια σημαντική
πηγή εσόδων για τις μηχανές αναζήτησης και όχι μόνο

54
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ
Θεωρία Παιγνίων και Αποφάσεων
Διδάσκων: Ε. Μαρκάκης

Φροντιστήριο 1: Λύσεις ασκήσεων Εαρινό εξάμηνο 2020

Πρόβλημα 1. Μια επιχείρηση πετρελαίου πρόκειται να αποφασίσει αν θα προχωρήσει σε συγκε-


κριμένη γεώτρηση ή όχι. Η εκτίμηση της επιχείρησης είναι ότι η πιθανότητα ύπαρξης πετρελαίου στο
σημείο της γεώτρησης είναι 30%. Το κόστος της γεώτρησης ανέρχεται σε 180 εκατ. ευρώ. Αν βρεθεί
πετρέλαιο η εταιρεία προτίθεται να πουλήσει τα δικαιώματά της αντί 1000 εκατ. ευρώ.
1. Να βρεθεί η αρχική απόφαση της επιχείρησης με βάση το κριτήριο του αναμενόμενου χρηματικού
ποσού που θα έχει στο τέλος η επιχείρηση.

2. Να βρεθεί η αρχική απόφαση με βάση το κριτήριο Minimax.

3. Να βρεθεί η αρχική απόφαση με βάση το κριτήριο Min-Max-Regret.

4. Να υπολογιστεί η αξία της τέλειας πληροφόρησης του προβλήματος.


Η επιχείρηση πετρελαίου προκειμένου να βελτιώσει τις συνθήκες για άριστη απόφαση έχει τη
δυνατότητα, με κόστος 70 εκατ. ευρώ, να αναθέσει στην εταιρεία Γ.Ε. τη διεξαγωγή σεισμολογικής
έρευνας που θα ανιχνεύσει την ύπαρξη ή μη πετρελαίου. Με βάση τα δεδομένα του παρελθόντος,
η συγκεκριμένη σεισμολογική έρευνα είναι αποτελεσματική με πιθανότητα 90% στις περιπτώσεις
που υπάρχει πετρέλαιο, και 70% στις περιπτώσεις εδαφών χωρίς πετρέλαιο (δηλαδή: αν υπάρχει
πετρέλαιο η έρευνα θα έχει θετικό αποτέλεσμα με πιθανότητα 90%, ενώ όταν δεν υπάρχει η έρευνα
έχει αρνητικό αποτέλεσμα με πιθανότητα 70%).

1. Να βρεθεί η βέλτιστη μεταγενέστερη απόφαση της επιχείρησης, με βάση το κριτήριο από το


ερώτημα (1).

2. Να κατασκευασθεί το συνολικό δέντρο απόφασης.

Λύση.
1. Αν κάνουμε γεώτρηση, το μέσο κέρδος είναι 0.3·1000+0.7·0 = 300. Από αυτό αφαιρώ τα
180 που πρέπει να πληρώσω αν κάνω τη γεώτρηση (αυτό το πληρώνω ανεξάρτητα από
το αν υπάρχει ή όχι πετρέλαιο), επομένως το μέσο χρηματικό κέρδος είναι 300 − 180 =
120. Αν δεν κάνω τη γεώτρηση, τότε το μέσο χρηματικό κέρδος είναι απλά 0, επομένως
η αρχική απόφαση της επιχείρησης είναι να γίνει η γεώτρηση.
2. Τα κέρδη K(ai , θj ) συνοψίζονται στον παρακάτω πίνακα:

a1 : Γεώτρηση a2 : Όχι γεώτρηση


θ1 : Υπάρχει πετρέλαιο 820 0
θ2 : Δεν Υπάρχει -180 0

Με βάση το κριτήριο Minimax, αν γίνει η επένδυση τότε το ελάχιστο κέρδος που μπορεί
να προκύψει είναι −180 (ελάχιστο 1ης στήλης). Αν δεν γίνει η γεώτρηση, το ελάχιστο
κέρδος είναι 0 (ελάχιστο 2ης στήλης). Άρα η απόφαση θα ήταν να μην γίνει η γεώτρηση.

1
3. Τα διαφυγόντα κέρδη ∆(ai , θj ) = maxk {K(ak , θj ) − K(ai , θj )} συνοψίζονται στον παρα-
κάτω πίνακα:

a1 : Γεώτρηση a2 : Όχι γεώτρηση


θ1 : Υπάρχει πετρέλαιο 0 820
θ2 : Δεν Υπάρχει 180 0

Αν γίνει η γεώτρηση, το μέγιστο regret (μέγιστο διαφυγόν κέρδος) είναι 180 (στην
περίπτωση που δεν υπάρχει πετρέλαιο). Αν δεν γίνει η γεώτρηση, το μέγιστο πιθανό
regret είναι 820 (στην περίπτωση που υπήρχε πετρέλαιο). Άρα η απόφαση με βάση το
κριτήριο Min-Max-Regret είναι να γίνει η γεώτρηση.

4. Αν κάποιος μου έλεγε την αλήθεια εκ των προτέρων, τότε με πιθανότητα 0.7 το κέρδος
μου θα ήταν 0 ενώ με πιθανότητα 0.3 θα είχα κέρδος 1000 − 180 = 820. Τώρα που
δεν ξέρουμε την αλήθεια, το μέσο κέρδος από τη βέλτιστη τωρινή απόφαση είναι 120.
Επομένως η αναμενόμενη αξία της τέλειας πληροφόρησης (expected value of perfect
information – EVPI) είναι:

EVPI = 0.7 · 0 + 0.3 · (1000 − 180) − 120 = 246 − 120 = 126 .

5. Το δέντρο απόφασης φαίνεται στην Εικόνα 1. Για να βρούμε τη βέλτιστη μεταγενέστερη


απόφαση της επιχείρησης, πρέπει αρχικά να υπολογίσουμε όλες τις πιθανότητες στους
κόμβους τύχης. Για το υποδέντρο που ξεκινάει με το a1 ξέρουμε ότι P (Y ) = 0.3 και
P (∆Y ) = 0.7. Χρειάζεται να υπολογίσουμε τις πιθανότητες που εμφανίζονται στο υπο-
δέντρο a3 και συγκεκριμένα τις P (Θ), P (A), P (Y |Θ), P (∆Y |Θ), P (Y |A), P (∆Y |A). Από
τα δεδομένα του προβλήματος ξέρουμε ότι P (Θ|Y ) = 0.9, άρα και P (A|Y ) = 0.1. Επίσης,
P (A|∆Y ) = 0.7, επομένως P (Θ|∆Y ) = 0.3. Για τον υπολογισμό του P (Θ) έχουμε:

P (Θ) = P (Θ|Y )P (Y ) + P (Θ|∆Y )P (∆Y ) = 0.9 · 0.3 + 0.3 · 0.7 = 0.48

Άρα P (A) = 0.52. Στη συνέχεια, χρησιμοποιώντας τον κανόνα του Bayes, υπολογίζουμε
τις υπόλοιπες πιθανότητες ως εξής:

P (Y ∩ Θ) P (Θ|Y )P (Y ) 0.9 · 0.3 9


P (Y |Θ) = = = =
P (Θ) P (Θ) 0.48 16

Συνεπώς P (∆Y |Θ) = 7/16. Με παρόμοιο τρόπο παίρνουμε ότι P (Y |A) = 3/52 και
P (∆Y |A) = 49/52.
Έχοντας υπολογίσει όλες τις πιθανότητες μπορούμε να εφαρμόσουμε την προς τα πίσω
επαγωγή και να δούμε ότι το τελικό μέσο κέρδος αν κάνουμε έρευνα (αφαιρώντας και
τα 70 εκ. ευρώ του κόστους) είναι 113.6 < 120. Άρα μας συμφέρει να μην κάνουμε την
έρευνα (θα μας συνέφερε αν είχε χαμηλότερο κόστος).

2
a2 = δεν κάνω
γεωτρηση

a3 = a1 = κάνω
έρευνα γεώτρηση 0
-180
-70

Y ΔΥ
(= υπάρχει (= δεν υπάρχει
Θ Α πετρέλαιο) πετρέλαιο)

1000 0

a1 a2 a1 a2

-180 -180

0 0

Y ΔΥ Υ ΔΥ

1000 0 1000 0
3

Σχήμα 1: Το δέντρο απόφασης του Προβλήματος 1.


Πρόβλημα 2. Έχετε ένα αρχικό κεφάλαιο 10000 ευρώ και σκέφτεστε να κάνετε επενδύσεις στο
χρηματιστήριο. Ένας χρηματιστηριακός σύμβουλος σας προτείνει να επενδύσετε 6000 ευρώ από αυτό
το κεφάλαιο σε μετοχές κάποιας εταιρείας. Όταν μελετάτε τα υπάρχοντα στατιστικά στοιχεία, διαπι-
στώνετε τα εξής: η επένδυση αυτή αποφέρει καθαρό κέρδος 1500(i − 5) ευρώ, με πιθανότητα 1/(9 − i),
για i = 3, 4, 5, 6. Με την υπολειπόμενη πιθανότητα, χάνετε όλο το ποσό που επενδύσατε. Έστω ότι
η συνάρτηση χρησιμότητάς σας είναι u(x) = ln x. Θα πραγματοποιήσετε αυτό που σας προτείνει ο
σύμβουλος?
Λύση. Αν δεν πραγματοποιήσουμε την επένδυση τότε η χρησιμότητα θα είναι ln(10, 000) ≈
9, 21. Αν γίνει η επένδυση, τότε υπάρχουν 5 πιθανά ενδεχόμενα, 4 ενδεχόμενα που αντιστοι-
χούν στις τιμές∑ i = 3, 4, 5, 6, καθώς και το ενδεχόμενο να χαθεί το ποσό της επένδυσης με
πιθανότητα 1 − 6i=3 1/i = 1/20. Στις πρώτες 4 περιπτώσεις το ποσό που θα έχουμε στο τέλος
θα είναι ίσο με 10, 000 + 1500(i − 5). Άρα η μέση χρησιμότητα από την επένδυση θα είναι:

1 ∑ 1
6
ln(4, 000) + ln(10, 000 + 1500(i − 5)) .
20 i=3
9−i

Κάνοντας τις πράξεις, αυτό βγαίνει ίσο με 9, 116. Επομένως δεν μας συμφέρει να επεν-
δύσουμε.

4
Φροντιστήριο 2: Λύσεις ασκήσεων Εαρινό εξάμηνο 2022

Πρόβλημα 1. Σε μια πρωτοχρονιάτικη εκδήλωση για την κοπή της πίτας, ο διοργανωτής αποφασίζει να
πουλήσει 100 λαχνούς, με χρηματικό βραβείο 300 ευρώ. Σε κάθε λαχνό αναγράφεται ένας μοναδικός ακέραιος
αριθμός από το 1 ως το 100, και κατόπιν γίνεται κλήρωση όπου συμμετέχουν όλοι αυτοί οι αριθμοί, επομένως
νικητής μπορεί να είναι το πολύ ένας. Ο διοργανωτής πιστεύει ότι οι συμμετέχοντες συμπεριφέρονται με βάση
την εξής συνάρτηση χρησιμότητάς: {
x2 , x ≥ 0
u(x) =
−x2 , x < 0
1. Ποια είναι η μέγιστη τιμή στην οποία θα μπορούσε να πουλήσει τους λαχνούς?
2. Έστω ότι ο διοργανωτής θα ήθελε να βγάλει κέρδος 1000 ευρώ από τους λαχνούς για να καλύψει τα έξοδα
της εκδήλωσης. Η εκτίμησή του είναι πως ακόμα κι αν οι λαχνοί είναι σε τιμή που θα θεωρηθεί προσιτή
από τους συμμετέχοντες (τιμή δηλαδή που με βάση τη συνάρτηση χρησιμότητας, οι συμμετέχοντες δεν
θα έχουν πρόβλημα να αγοράσουν), θα πουλήσει μόνο τους μισούς. Μπορεί να εγγυηθεί υπό αυτή την
υπόθεση ότι θα βγάλει τα 1000 ευρώ? Θα μπορούσε να εγγυηθεί ότι θα βγάλει 1200 ευρώ?

Λύση.

1. Η μέγιστη τιμή στην οποία θα μπορούσε να πουλήσει τους λαχνούς είναι η μέγιστη τιμή στην
οποία θα ήταν διατεθειμένοι να αγοράσουν οι συμμετέχοντες. Άρα αν συμβολίσουμε με x αυτή
την τιμή θα πρέπει να ισχύει ότι:
1 99
u(300 − x) + u(−x) = u(0) = 0 .
100 100
(Στην πραγματικότητα, αναζητούμε τη μέγιστη τιμή της x έτσι ώστε η μέση χρησιμότητα να είναι
τουλάχιστον όσο η χρησιμότητα χωρίς αγορά λαχείου, δηλαδή 1001
u(300 − x) + 100
99
u(−x) ≥ u(0).
Για τη μέγιστη τιμή της x όμως ισχύει η ισότητα.)
Δηλαδή πρέπει να ισχύει:
1 99 2
(300 − x)2 − x = 0.
100 100
Κάνοντας τις πράξεις καταλήγουμε στην εξίσωση: 0.98x2 + 6x − 900 = 0. Λύνοντας την εξίσωση
(η μία λύση απορρίπτεται αφού βγαίνει −33, 52) παίρνουμε ότι x = 27.4.

2. Η εκτίμηση του διοργανωτή είναι ότι ακόμα κι αν η τιμή πώλησης των λαχνών είναι μικρότερη
από την τιμή στην οποία θα ήταν διατεθειμένοι να αγοράσουν οι συμμετέχοντες, δηλαδή το 27.4
που υπολογίσαμε πριν, τότε μόνο οι μισοί λαχνοί θα πουληθούν (γιατί απλά δεν αρέσει σε όλους
να συμμετέχουν σε τέτοιες κληρώσεις). Θεωρεί λοιπόν ότι αν θέσει ως τιμή του λαχνού κάποια
τιμή μικρότερη ή ίση του 27.4 τότε θα πουλήσει 50 λαχνούς. Για να βγάλει κέρδος 1000 ευρώ, θα
πρέπει συνολικά τα έσοδα του να είναι 1300 ευρώ στη χειρότερη περίπτωση (για να πληρώσει
και το νικητή). Άρα χρειάζεται να κοστολογήσει τους λαχνούς στα 130050 = 26 ευρώ. Αυτό είναι
εφικτό αφού 26 < 27.4. Αν ήθελε να βγάλει 1200 ευρώ, θα χρειαζόταν να πουλήσει τους λαχνούς
σε τιμή 1500
50 = 30 ευρώ, κάτι που δεν είναι εφικτό για τους συγκεκριμένους συμμετέχοντες.

1
Πρόβλημα 2. Σε αντιστοιχία με τα παραδείγματα που είδαμε στο μάθημα με χρήση συναρτήσεων χρησι-
μότητας, όπου η αβεβαιότητα εκφραζόταν μέσω διακριτών τυχαίων μεταβλητών, μπορούμε να εφαρμόσουμε
παρόμοια ανάλυση και σε περιπτώσεις όπου η αβεβαιότητα εκφράζεται με συνεχείς τυχαίες μεταβλητές αντί για
διακριτές. Έστω για παράδειγμα μια ασφαλιστική εταιρεία, η οποία θέλει να αποφασίσει πώς θα κοστολογήσει
τα ετήσια ασφάλιστρα που προσφέρει για την ασφάλιση αυτοκινήτων.
1. Έστω ότι το κόστος της ζημιάς που μπορεί να συμβεί μέσα σε ένα έτος σε ένα αυτοκίνητο μεγάλου
κυβισμού ακολουθεί εκθετική κατανομή με συνάρτηση πυκνότητας πιθανότητας f (x) = e−1 e
λe−λx στο
διάστημα [0, 10] με λ = 0.1 (όπου x σε χιλιάδες ευρώ). Αν ένας υποψήφιος πελάτης κρίνει με βάση το
μέσo χρηματικό κόστος, πόσο θα ήταν διατεθειμένος να πληρώσει για να ασφαλιστεί?
2. Έστω τώρα ότι το κόστος της ζημιάς ακολουθεί ομοιόμορφη κατανομή στο διάστημα [0, 5] (πάλι σε
χιλιάδες ευρώ). Αν η συνάρτηση χρησιμότητας του αποφασίζοντα είναι u(x) = ln(x + 15), πόσο θα ήταν
διατεθειμένος να πληρώσει για να ασφαλιστεί?

Λύση.
∫ 10
1. Παρατηρήστε πρώτα από όλα ότι η f (x) είναι μια έγκυρη σ.π.π. αφού 0 f (x)dx = 1. Για την
κλασική εκθετική κατανομή, που είναι συνήθως στο διάστημα [0, ∞), η σ.π.π. είναι η g(x) =
λe−λx . Εμείς όμως εδώ έχουμε μία τυχαία μεταβλητή X που παίρνει τιμές στο διάστημα [0, 10]
και για αυτό η f (x) προκύπτει με κατάλληλη κανονικοποίηση από την g(x) (με τον παράγοντα
e/e − 1).
Αν ένας υποψήφιος πελάτης κρίνει με βάση το μέσo χρηματικό κόστος, θα ήταν διατεθειμένος
να πληρώσει τη μέση τιμή της X σε χιλιάδες ευρώ, που είναι
∫ 10 ∫ 10
e e
E[X] = xf (x)dx = 0.1xe−0.1x dx = · 2, 642 = 4, 180
0 e − 1 0 e − 1
(όπου το ολοκλήρωμα μπορείτε να το υπολογίσετε είτε κάνοντας τις πράξεις με το χέρι είτε
μέσω Matlab, Scilab, κτλ.)
2. Εδώ η συνάρτηση πυκνότητας πιθανότητας για το κόστος είναι f (x) = 1/5. Αν ο αποφασίζων
δεν ασφαλιστεί, τότε η μέση χρησιμότητα που προκύπτει για τον αποφασίζοντα θα είναι η μέση
τιμή της u(−x) όταν το x κατανέμεται ομοιόμορφα στο [0, 5] (βάζουμε αρνητικό πρόσημο αφού
εδώ το x συμβολίζει ζημιά). Επομένως, αυτή είναι ίση με:
∫ 5
1
E[u(−x)] = ln (−x + 15)dx
0 5
Κάνοντας τις πράξεις για να υπολογίσουμε το ολοκλήρωμα παίρνουμε ότι η μέση χρησιμότητα
είναι 2, 519.
Αν ασφαλιστεί, τότε ο αποφασίζων πληρώνει ένα ποσό XA και δεν χρειάζεται να ανησυχεί για
το τι ζημιά θα συμβεί. Άρα η χρησιμότητα του θα είναι u(−XA ) = ln (−XA + 15). Θα πρέπει
λοιπόν να ισχύει ότι:

ln (−XA + 15) ≥ 2, 519 ⇒ 15 − XA ≥ e2,519


Από την παραπάνω ανισότητα προκύπτει ότι θα πρέπει XA ≤ 2, 584. Δηλαδή ο αποφασίζων είναι
διατεθειμένος να πληρώσει έως και 2.584 για να ασφαλιστεί.

Πρόβλημα 3. Έχετε ένα αρχικό κεφάλαιο 10000 ευρώ και σκέφτεστε να κάνετε επενδύσεις στο χρηματι-
στήριο. Ένας χρηματιστηριακός σύμβουλος σας προτείνει να επενδύσετε 5000 ευρώ από αυτό το κεφάλαιο σε
μετοχές κάποιας εταιρείας. Όταν μελετάτε τα υπάρχοντα στατιστικά στοιχεία, διαπιστώνετε ότι με πιθανότητα
1/4 η επένδυση αυτή θα σας αποφέρει καθαρό κέρδος 10000 ευρώ, με πιθανότητα 1/4 δεν θα υπάρξει ούτε
κέρδος ούτε ζημιά και με πιθανότητα 1/2 θα χάσετε όλο το ποσό που επενδύσατε. Έστω ότι η συνάρτηση
χρησιμότητάς σας είναι u(x) = ln x.

2
1. Θα πραγματοποιήσετε αυτό που σας προτείνει ο σύμβουλος?
2. Ποιος είναι ο συντελεστής αποφυγής κινδύνου τ (x) και τι συνεπάγεται για την συμπεριφορά ως προς την
διάθεση για ρίσκο?

Λύση.

1. Αν δεν επενδύσουμε, τότε η τελική μας χρησιμότητα είναι ln(10000) ≈ 9, 21. Αν επενδύσουμε,
τότε με πιθανότητα 1/4 το τελικό κεφάλαιο θα είναι 20.000, με πιθανότητα 1/4 θα είναι όσο ήταν
και πριν, ενώ με πιθανότητα 1/2 χάνουμε 5.000 και θα μας μείνουν τα υπόλοιπα 5.000 που δεν
επενδύσαμε. Επομένως η αναμενόμενη χρησιμότητα είναι
1 1 1
ln(20.000) + ln(10.000) + ln(5.000) ≈ 9, 036 < 9, 21.
4 4 2
Συνεπώς μας συμφέρει να μην επενδύσουμε.

2. Ο συντελεστής είναι τ (x) = −u′′ (x)/u′ (x) = 1/x > 0. To γεγονός ότι είναι θετικός σημαίνει ότι ο
αποφασίζων είναι συντηρητικός.

3
Φροντιστήριο 3: Λύσεις ασκήσεων Εαρινό εξάμηνο 2020

Πρόβλημα 1. [Το παιχνίδι chicken ή αλλιώς το παιχνίδι που παίζουμε με τους ”θεσμούς”.] Το παιχνίδι
chicken μοντελοποιεί ένα βασικό τύπο διλήμματος που συναντάται σε διάφορες εφαρμογές και δια-
πραγματεύσεις. Δύο παίκτες με σιδερένια νεύρα αποφασίζουν να παίξουν το εξής παιχνίδι/στοίχημα.
Τοποθετούν τα αυτοκίνητά τους σε κάποια απόσταση και αρχίζουν να επιταχύνουν με κατεύθυνση
το ένα προς το άλλο. Επομένως η σύγκρουση είναι αναπόφευκτη εκτός κι αν κάποιος υποχωρήσει
(”chickens out”, π.χ. στρίψει λίγο δεξιά το τιμόνι πριν γίνει η σύγκρουση). Για κάθε παίκτη, η καλύτερη
έκβαση είναι να υποχωρήσει ο άλλος παίκτης ενώ ο ίδιος να παραμείνει στην ίδια πορεία (θεωρείται
έτσι πιο θαρραλέος από τον άλλο). Η δεύτερη καλύτερη έκβαση είναι να υποχωρήσουν και οι δύο
παίκτες. Αμέσως μετά στις προτιμήσεις του κάθε παίκτη είναι να υποχωρήσει ο ίδιος ενώ ο άλλος θα
παραμείνει στην πορεία του. Και τέλος, η χειρότερη έκβαση είναι να μην υποχωρήσει κανένας, οπότε
και συμβαίνει η σύγκρουση. Επιδείξτε ένα 2 × 2 παίγνιο που εκφράζει τις παραπάνω προτιμήσεις και
βρείτε τα σημεία ισορροπίας με αμιγείς στρατηγικές.
Λύση. Οι 2 διαθέσιμες στρατηγικές των 2 παικτών είναι η C (για chicken out) και η D (για drive
straight). Σύμφωνα με την εκφώνηση έχουμε ότι για τον παίκτη 1

u1 (D, C) > u1 (C, C) > u1 (C, D) > u1 (D, D)

Παρόμοια παίρνουμε ανάλογες σχέσεις για τον παίκτη 2. Επομένως μία πιθανή αναπαράσταση του
παιγνίου σε κανονική μορφή είναι η εξής:

C D
C 2, 2 0, 4
D 4, 0 −1, −1

Εύκολα βλέπουμε ότι τα σημεία ισορροπίας κατά Nash με αμιγείς στρατηγικές είναι τα (C, D) και
(D, C). Δηλαδή ισορροπία μπορούμε να έχουμε μόνο όταν ο ένας από τους 2 παίκτες υποχωρήσει και
ο άλλος ρισκάρει να μην αλλάξει πορεία. Μένει να δούμε αν γίνει το ίδιο και στις διαπραγματεύσεις...

Πρόβλημα 2. Παίγνια Cournot. Θεωρήστε το εξής παίγνιο δυοπωλίου κατά Cournot, που είναι
παρόμοιο με το παίγνιο Cournot που είδαμε και στο μάθημα: δύο εταιρείες παράγουν το ίδιο προϊόν.
Αν η πρώτη παράγει ποσότητα q1 και η δεύτερη παράγει ποσότητα q2 τότε η τιμή του προϊόντος θα
είναι P (q1 , q2 ) = 5/(q1 + q2 ). Αν το κόστος παραγωγής για την πρώτη είναι C1 (q1 ) = 8q1 + 4 και για τη
δεύτερη είναι C2 (q2 ) = 2q2 +1, υπολογίστε την τιμή του προϊόντος και τις ποσότητες που θα παράγουν
οι εταιρείες αν επικρατήσει ισορροπία κατά Nash.
Λύση. Καταρχήν μπορούμε να δούμε ότι το σημείο (0, 0) δεν είναι σημείο ισορροπίας καθώς τότε η
τιμή γίνεται +∞ και κάθε παίκτης έχει κίνητρο να παράγει κάτι αντί να παράγει 0. Οπότε εξετάζουμε
μόνο σημεία (q1 , q2 ) με q1 + q2 > 0.
Αν η πρώτη εταιρεία παράγει ποσότητα q1 και η δεύτερη παράγει ποσότητα q2 , η χρησιμότητα για
την πρώτη εταιρεία είναι:
5
u1 (q1 , q2 ) = q1 − 8q1 − 4
q1 + q2

1
ενώ για τη δεύτερη είναι:
5
u2 (q1 , q2 ) = q2 − 2q2 − 1
q1 + q2
Για να βρούμε ποια είναι η βέλτιστη απόκριση της πρώτης εταιρείας όταν η δεύτερη παράγει q2 ,
κοιτάμε πού μηδενίζεται η παράγωγος του u1 ως προς q1 :

∂u1
=0
∂q1

το οποίο είναι ισοδύναμο με:

5(q1 + q2 ) − 5q1
− 8 = 0 ⇔ 5q2 = 8(q1 + q2 )2 (1)
q1 + q2

Ομοίως τώρα αν κάνουμε το ίδιο για τη δεύτερη εταιρεία, θα δούμε ότι η βέλτιστη απόκριση όταν η
πρώτη επιλέγει q1 , πρέπει να ικανοποιεί:

5q1 = 2(q1 + q2 )2 (2)

Από τις (1) και (2) βρίσκουμε (αν τις διαιρέσουμε) ότι q2 = 4q1 . Αν αντικαταστήσουμε το q2 σε μία από
τις εξισωσεις παίρνουμε 2 λύσεις, τις (q1 , q2 ) = (0.1, 0.4) και (q1 , q2 ) = (0, 0). Η δεύτερη απορρίπτεται
σύμφωνα με τα παραπάνω. Επομένως το μοναδικό σημείο ισορροπίας θα είναι να παράγει η πρώτη
εταιρεία 0.1 μονάδες και η δεύτερη 0.4 μονάδες του προϊόντος. Η τιμή του προϊόντος θα είναι ίση με
5/(0.1 + 0.4) = 10.

Πρόβλημα 3. Να εκτελέσετε επαναλαμβανόμενη αφαίρεση αυστηρά κυριαρχούμενων στρατηγικών


στο παρακάτω παίγνιο, και να βρείτε τα σημεία ισορροπίας με αμιγείς στρατηγικές.
Στη συνέχεια, να εκτελέσετε τουλάχιστον 2 διαφορετικούς τρόπους επαναλαμβανόμενης αφαίρεσης
ασθενώς κυριαρχούμενων στρατηγικών. Εξετάστε αν χάνονται σημεία ισορροπίας με τους τρόπους
αυτούς.
 
3, 2 2, 2
 1, 1 0, 0 
0, 0 1, 1

Λύση. Εύκολα βλέπουμε ότι οι γραμμές 2 και 3 κυριαρχούνται αυστηρά από την 1η γραμμή. Επομένως
αν κάνουμε επαναλαμβανόμενη αφαίρεση αυστηρά κυριαρχούμενων στρατηγικών θα μείνουμε με ένα
παίγνιο 1 × 2, όπου και τα 2 εναπομείναντα προφίλ (πρώτη γραμμή) αποτελούν σημεία ισορροπίας.
Στη συνέχεια, επαναλαμβάνουμε την διαδικασία επιτρέποντας όμως και την αφαίρεση ασθενώς
κυριαρχούμενων στρατηγικών με δύο τρόπους.
Ο πρώτος τρόπος είναι ο εξής: αφαιρούμε την δεύτερη γραμμή και στο εναπομείναν 2 × 2 παίγνιο
αφαιρούμε την πρώτη στήλη (ασθενώς κυριαρχούμενη στρατηγική). Τέλος, στο εναπομείναν 2 × 1
παίγνιο αφαιρούμε την δεύτερη γραμμή (αυστηρώς κυριρχούμενη) και απομένει μόνο το προφίλ με
χρησιμότητες (2, 2). Παρατηρήστε πως επιτρέποντας την απαλοιφή ασθενώς κυριαρχούμενων στρα-
τηγικών, διαγράψαμε ένα σημείο ισορροπίας κατά Nash: το προφίλ με χρησιμότητες (3, 2).
Ο δεύτερος τρόπος είναι ο εξής: στο αρχικό παίγνιο αφαιρούμε την τρίτη γραμμή και στο ενα-
πομείναν 2 × 2 παίγνιο αφαιρούμε την δεύτερη στήλη (ασθενώς κυριαρχούμενη στρατηγική). Τέλος,
στο εναπομείναν 2 × 1 παίγνιο αφαιρούμε την δεύτερη γραμμή (αυστηρώς κυριρχούμενη) και απο-
μένει μόνο το προφίλ με χρησιμότητες (3, 2). Παρατηρήστε πως αυτή τη φορά χάσαμε το προφίλ με
χρησιμότητες (2, 2).

2
Φροντιστήριο 4: Λύσεις ασκήσεων Εαρινό εξάμηνο 2020

Πρόβλημα 1. Έστω ένα παίγνιο μηδενικού αθροίσματος, 2 παικτών, στη μορφή

t1 t2
s1 a b
s2 c d
Έστω ότι όλοι οι αριθμοί παραπάνω είναι διακριτοί, δηλαδή διαφορετικοί μεταξύ τους, και ότι οι
a, d είναι οι 2 μεγαλύτεροι, χωρίς να ξέρουμε ποιος από τους 2 είναι ο μεγαλύτερος.

1. Μπορεί να έχει ένα τέτοιο παίγνιο σημεία ισορροπίας με αμιγείς στρατηγικές? Αν ναι δείξτε ένα
παράδειγμα, αν όχι δικαιολογήστε την απάντησή σας.

2. Δείξτε ότι αν υπάρχει σημείο ισορροπίας με μεικτές στρατηγικές, τότε η πιθανότητα π να παίξει
ο παίκτης 1 την 1η γραμμή στο σημείο ισορροπίας θα είναι:

d−c
π=
(a − b) + (d − c)

3. Εκφράστε την αξία του παιγνίου v̄ ως συνάρτηση των a, b, c, d.

Λύση.

1. Δεν γίνεται να υπάρχει σημείο ισορροπίας με αμιγείς στρατηγικές διότι στα προφίλ (s1 , t1 ) και
(s2 , t2 ) έχει κίνητρο να αποκλίνει ο παίκτης 2, ενώ στα προφίλ (s1 , t2 ) και (s2 , t1 ) έχει κίνητρο να
αποκλίνει ο παίκτης 1.

2. Δείξτε ότι αν υπάρχει σημείο ισορροπίας με μεικτές στρατηγικές, τότε η πιθανότητα π να παίξει
ο παίκτης 1 την 1η γραμμή στο σημείο ισορροπίας θα είναι:

d−c
π=
(a − b) + (d − c)

Με βάση την απάντηση στο προηγούμενο ερώτημα, ξέρουμε ότι σίγουρα θα υπάρχει σημείο
ισορροπίας με μεικτές στρατηγικές. Έστω ότι ο π. 1 παίζει μία μεικτή στρατηγική της μορφής
(π, 1 − π). Δουλεύοντας όπως και στο πρόβλημα 4, αυτό που μας ενδιαφέρει είναι η ποσότητα:

v̄ = max min{f1 , f2 } = max min{aπ + c(1 − π), bπ + d(1 − π)}


π π

Από τα δεδομένα του προβλήματος, ξέρουμε ότι οι f1 και f2 είναι 2 διακριτές ευθείες, η μία
αύξουσα και η άλλη φθίνουσα. Επoμένως η βελτιστοποίηση γίνεται στο σημείο τομής τους, από
όπου και προκύπτει η ζητούμενη φόρμουλα, αν λύσουμε ως προς π.

1
3. Εκφράστε την αξία του παιγνίου v̄ ως συνάρτηση των a, b, c, d.
Αρκεί να αντικαταστήσω στην f1 την τιμή της π. Από εκεί προκύπτει ότι

d−c (a − c)(d − c) ad − bc
v̄ = (a − c) +c= +c=
(a − b) + (d − c) (a − b) + (d − c) (a − b) + (d − c)

Πρόβλημα 2. Παίγνια μηδενικού αθροίσματος μπορούν να οριστούν και για σενάρια με παραπάνω
από 2 παίκτες. Π.χ. ένα παίγνιο με 3 παίκτες είναι μηδενικού αθροίσματος αν για οποιεσδήποτε
στρατηγικές x, y, z των 3 παικτών ισχύει ότι: u1 (x, y, z) + u2 (x, y, z) + u3 (x, y, z) = 0. Για 2 παίκτες
είδαμε ότι μπορούμε να βρούμε σε πολυωνυμικό χρόνο ένα σημείο ισορροπίας σε πεπερασμένα παί-
γνια μηδενικού αθροίσματος, μέσω γραμμικού προγραμματισμού. Δείξτε ότι αν υπήρχε πολυωνυμικός
αλγόριθμος για την επίλυση παιγνίων μηδενικού αθροίσματος 3 παικτών, αυτό θα συνεπαγόταν την
ύπαρξη πολυωνυμικού αλγορίθμου για γενικά παίγνια 2 παικτών μη μηδενικού αθροίσματος.
Λύση.
Αρκεί να παρατηρήσουμε ότι οποιοδήποτε γενικό παίγνιο 2 παικτών (μη μηδενικού αθροίσματος)
μπορεί εύκολα να μετατραπεί σε παίγνιο μηδενικού αθροίσματος 3 παικτών. Έστω u1 και u2 οι
συναρτήσεις χρησιμότητας του αρχικού παιγνίου. Τότε ορίζουμε τις συναρτήσεις χρησιμότητας u′1 , u′2
και u′3 ως εξής: u′1 (x, y, z) = u1 (x, y), u′2 (x, y, z) = u2 (x, y), και u′3 (x, y, z) = −u1 (x, y) − u2 (x, y), όπου τα
x, y ανήκουν στα σύνολα των δυνατών στρατηγικών για τους παικτες 1 και 2 στο αρχικό παίγνιο και z
είναι η μία και μοναδική στρατηγική του παίκτη 3 στο νέο παίγνιο. Ουσιαστικά δηλαδή προσθέτουμε
ένα τρίτο “dummy” παίκτη και βάζουμε την χρησιμότητά του να είναι απλά το αντίθετο από τις
χρησιμότητες των 2 παικτών για να γίνει η μετατροπή σε παίγνιο μηδενικού αθροίσματος.
Η αναγωγή αυτή προφανώς γίνεται σε πολυωνυμικό χρόνο, οπότε αν υπήρχε πολυωνυμικός αλγό-
ριθμος για την επίλυση παιγνίων μηδενικού αθροίσματος 3 παικτών, σε συνδυασμό με την παραπάνω
αναγωγή, θα έδινε πολυωνυμικό αλγόριθμο για γενικά παίγνια 2 παικτών.

Πρόβλημα 3. Έστω το παίγνιο  


6, 22 3, 26 47, 22
 4, 4 4, 2 99, 42 
3, 22 4.5, 18 19, 19
Δείξτε ότι το προφίλ στρατηγικών ((1/2, 0, 1/2), (1/3, 2/3, 0)) είναι σημείο ισορροπίας, με βάση αυτά
που είπαμε στο μάθημα για το Support ενός ζεύγους στρατηγικών σε σημείο ισορροπίας. Μπορείτε
να επισημάνετε ένα κάτω φράγμα για το τίμημα της αναρχίας στο εν λόγω παίγνιο?
Λύση. Έχουμε x = (1/2, 0, 1/2), y = (1/3, 2/3, 0), δηλαδή Supp(x) = {1, 3} και Supp(y) = {1, 2}. Πρέπει
u1 (e1 , y) = u1 (e3 , y) και u1 (e1 , y) ≥ u1 (e2 , y). Αντίστοιχα, πρέπει u2 (x, e1 ) = u2 (x, e2 ) και u2 (x, e1 ) ≥
u2 (x, e3 ). Πράγματι, ισχύει u1 (e1 , y) = 31 6 + 32 3 = 4, u1 (e2 , y) = 13 3 + 23 4.5 = 4, u1 (e3 , y) = 31 4 + 23 4 = 4 και
u2 (x, e1 ) = 22, u2 (x, e2 ) = 22 και u2 (x, e3 ) = 20.5. Επομένως, το προφίλ (x, y) είναι σημείο ισορροπίας.
Για το τίμημα της Αναρχίας παρατηρούμε ότι αφενός το βέλτιστο κοινωνικό όφελος είναι

SWmax = max SW (x1 , x2 ) = max{u1 (x1 , x2 ) + u1 (x1 , x2 )} = 99 + 42 = 141


x1 ,x2 x1 ,x2

και αφετέρου το χειρότερο όφελος σε σημείο ισορροπίας, SW ∗ , θα είναι το πολύ ίσο με το όφελος στο
συγκεκριμένο σημείο ισορροπίας (x, y) που βρήκαμε, άρα:
∑∑ 1 1 1 1
SW ∗ ≤ SW (x, y) = (Aij + Bij )xi yj = 28 + 29 + 25 + 22.5 = 25.5
6 3 6 3
i j

2
Άρα P oA = SWmax
SW ∗ ≥ 141
25.5 ≈ 5, 53.

Πρόβλημα 4. Δείξτε ότι αν σε ένα 2 × 2 παίγνιο υπάρχουν ακριβώς 3 σημεία ισορροπίας με αμιγείς
στρατηγικές, τότε υπάρχουν άπειρα το πλήθος σημεία ισορροπίας με μεικτές στρατηγικές.
Λύση. Έστω το παίγνιο

A B
A a1 , a 2 b1 , b2
B c1 , c2 d1 , d2

Μπορούμε να υποθέσουμε (αναδιατάσσοντας ενδεχομένως τις γραμμές και τις στήλες) ότι τα
σημεία ισορροπίας είναι τα (Α, Α), (Α, Β), (Β, Β). Αυτό σημαίνει a2 = b2 , b1 = d1 , a1 ≥ c1 και d2 ≥ c2 .
Θα δείξουμε ότι και τα προφίλ μικτών στρατηγικών ((1, 0), (p, 1 − p)) είναι σημεία ισορροπίας για
κάθε p ∈ (0, 1).
Έχουμε x = (1, 0), y = (p, 1 − p), δηλαδή Supp(x) = {1} και Supp(y) = {1, 2}. Για να είναι το (x, y)
σημείο ισορροπίας θα πρέπει u1 (e1 , y) ≥ u1 (e2 , y) και u2 (x, e1 ) = u2 (x, e2 ).
Πράγματι, έχουμε u1 (e1 , y) ≥ u1 (e2 , y) ⇔ a1 p + b1 (1 − p) ≥ c1 p + d1 (1 − p) ⇔ a1 ≥ c1 που ισχύει, και
u2 (x, e1 ) = u2 (x, e2 ) ⇔ a2 ≥ b2 , που επίσης ισχύει. Επομένως, το προφίλ (x, y) είναι σημείο ισορροπίας.
Συμπεραίνουμε ότι υπάρχουν άπειρα το πλήθος σημεία ισορροπίας με μεικτές στρατηγικές.

3
Φροντιστήριο 5: Λύσεις ασκήσεων Εαρινό εξάμηνο 2020

Πρόβλημα 1. Θεωρήστε τη δημοπρασία τρίτης τιμής με ενσφράγιστες προσφορές, σε αναλογία με


τις δημοπρασίες πρώτης και δεύτερης τιμής που είδαμε στο μάθημα. Πιο συγκεκριμένα, έστω ότι
υπάρχουν n παίκτες, η αποτίμηση του παίκτη i είναι vi και ισχύει ότι v1 > v2 > ... > vn > 0. Νικητής
στη δημοπρασία τρίτης τιμής είναι ο παίκτης που δηλώνει τη μεγαλύτερη προσφορά και η τιμή που
πληρώνει είναι η τρίτη μεγαλύτερη προσφορά. Κάνουμε επίσης την υπόθεση ότι σε περίπτωση που 2
ή περισσότερες προσφορές είναι ίσες, νικητής είναι ο παίκτης με τον μικρότερο δείκτη.
α. Δείξτε ότι το προφίλ (v1 , v2 , v3 , ..., vn ), όπου κάθε παίκτης δηλώνει την πραγματική του αποτίμηση
δεν είναι σημείο ισορροπίας.
β. Βρείτε ένα σημείο ισορροπίας.
γ. Δείξτε ότι για κάθε παίκτη i, η στρατηγική bi := vi κυριαρχεί ασθενώς οποιαδήποτε άλλη
χαμηλότερη προσφορά αλλά δεν κυριαρχεί ασθενώς καμία από τις υψηλότερες προσφορές.
Λύση.

α. Ας παρατηρήσουμε ότι στο προφίλ (v1 , v2 , v3 , ..., vn ) η τιμή που πληρώνει ο νικητής (παίκτης 1)
είναι v3 . O παίκτης 2 έχει κίνητρο να δηλώσει b2 > v1 ώστε να κερδίσει και να αυξήσει τη
χρησιμότητα του από 0 σε v2 − v3 > 0. Άρα το προφίλ δεν είναι σημείο ισορροπίας.
β. Το προφίλ (v1 , v1 , v1 , v4 , v5 , ..., vn ) είναι ένα σημείο ισορροπίας (όχι το μοναδικό, υπάρχουν άπειρα).
Ας παρατηρήσουμε ότι όλοι οι παίκτες έχουν χρησιμότητα 0. Ο παίκτης 1 δεν μπορεί να αλλάξει
τη χρησιμότητά του ανεξαρτήτως προσφοράς. Οι παίκτες 2 και 3 αν αυξήσουν την προσφορά
τους θα έχουν αρνητική χρησιμότητα (v2 − v1 < 0 ή v3 − v1 < 0 αντίστοιχα) ενώ αν μειώσουν την
προσφορά τους θα εξακολουθήσουν να έχουν χρησιμότητα 0. Οι υπόλοιποι παίκτες αν αυξήσουν
λίγο την προσφορά τους, ή αν την μειώσουν, θα εξακολουθήσουν να έχουν χρησιμότητα 0 ενώ αν
αν αυξήσουν την προσφορά τους αρκετά (δηλαδή πάνω από v1 ) θα έχουν αρνητική χρησιμότητα
vi − v1 < 0.
γ. Ας διακρίνουμε περιπτώσεις για τον παίκτη i. Αν παίζοντας bi = vi χάνει, τότε μειώνοντας την
προσφορά του ποτέ δεν αυξάνεται η χρησιμότητά του (βασικά παραμένει ίση με 0). Αν παίζοντας
bi = vi κερδίζει, τότε έχει μη αρνητική χρησιμότητα αφού η τιμή πάντοτε είναι το πολύ ίση με
τη νικητήρια προσφορά. Μειώνοντας την προσφορά του ποτέ δεν αυξάνεται η χρησιμότητά του
(για όσο εξακολουθεί να κερδίζει παραμένει ίδια και έπειτα γίνεται ίση με 0). Επομένως, η
στρατηγική bi = vi κυριαρχεί ασθενώς οποιαδήποτε άλλη χαμηλότερη προσφορά.
Από την άλλη, πάντοτε υπάρχουν προφίλ που αν ο παικτης i αυξήσει την προσφορά του σε σχέση
με το vi , θα αυξήσει και τη χρησιμότητά του. Για παράδειγμα, ας θεωρήσουμε ένα προφίλ όπου
το bi = vi είναι η δεύτερη μεγαλύτερη προσφορά, με την μεγαλύτερη να είναι ίση με vi + ϵ, ϵ > 0
και την 3η μεγαλύτερη να είναι μικρότερη από vi . Τότε ο i έχει κίνητρο να κάνει προσφορά
vi + 2ϵ και να κερδίσει. Εφόσον το ϵ μπορεί να πάρει οποιαδήποτε θετική τιμή, συμπεραίνουμε
ότι η στρατηγική bi = vi δεν κυριαρχεί καμία από τις υψηλότερες προσφορές.

Πρόβλημα 2. Σε ένα παίγνιο διαδοχικών κινήσεων, 2 παίκτες αναγγέλλουν εναλλάξ αριθμούς. Ο


παίκτης Ι μπορεί να αναγγείλει έναν αριθμό από τους {2, 3, 4}, ενώ ο παίκτης ΙΙ αναγγέλλει αριθμούς

1
από τους {2, 3}. Το παιχνίδι τελειώνει όταν το άθροισμα των αριθμών φτάσει ή υπερβεί το 8. Αν
υπερβεί το 8, τότε χάνει ο παίκτης που έπαιξε τελευταίος. Αν το άθροισμα φτάσει το 8 χωρίς να το
υπερβεί, τότε έχουμε ισοπαλία. Αν ο παίκτης Ι παίζει πρώτος, σχεδιάστε το δέντρο του παιγνίου με
τις αντίστοιχες χρησιμότητες στα φύλλα του δέντρου και βρείτε όλα τα υποπαιγνιακά τέλεια σημεία
ισορροπίας. Υπάρχει στρατηγική για κάποιον από τους 2 παίκτες με την οποία να μπορεί εγγυημένα
να νικήσει?
Λύση. Στο σχήμα βλέπουμε πως προκύπτουν τα SPE με προς τα πίσω επαγωγή. Επειδή ο παίκτης 2
είναι αδιάφορος για την κίνηση που θα κάνει στον κόμβο B, τελικά έχουμε 2 SPE, συγκεκριμένα τα:
(A2 E3 F2 G2 H2 I2 , B2 C3 D3 K2 ) και (A2 E3 F2 G2 H2 I2 , B3 C3 D3 K2 )

Σχήμα 1: Το δέντρο του παιγνίου για το Πρόβλημα 2.

Ο παίκτης 1 έχει στρατηγική με την οποία να μπορεί εγγυημένα να νικήσει: Στον κόμβο A παίζει
2 ενώ στους κόμβους E και F παίζει 3 και 2 αντίστοιχα.

Πρόβλημα 3.
Θεωρούμε την εξής παραλλαγή του ultimatum game που είδαμε στο μάθημα: Θέλουμε να μοι-
ράσουμε μία χρηματική μονάδα μεταξύ 2 παικτών. Το παίγνιο ξεκινά με τον παίκτη Ι, που κάνει
μία προσφορά της μορφής (x, 1 − x) στον παίκτη ΙΙ (η προσφορά δηλαδή είναι να πάρει x ο παίκτης
Ι και 1 − x ο παίκτης ΙΙ, με x ∈ [0, 1]). Ο παίκτης ΙΙ είτε δέχεται, οπότε και πραγματοποιείται η
προσφορά, είτε αρνείται οπότε κανένας από τους παίκτες δεν παίρνει τίποτα. Έστω ότι η συνάρτηση
χρησιμότητας είναι της μορφής xi − βxj , όταν το ποσό που παίρνει ο παίκτης είναι xi και το ποσό που
παίρνει ο άλλος παίκτης είναι xj (β > 0). Εδώ το β εκφράζει τη ζήλεια που νιώθει ένας παίκτης για το
ποσό που παίρνει ο άλλος. Βρείτε τα υποπαιγνιακά τέλεια σημεία ισορροπίας. Σημείωση: Αν και το
παίγνιο έχει άπειρο αριθμό στρατηγικών για τον παίκτη Ι, μπορούμε και εδώ να κάνουμε τα βήματα
της προς τα πίσω επαγωγής (ίσως όμως σε κάποια σημεία να μην υπάρχει η βέλτιστη απόκριση).
Λύση. Κάνοντας ανάλυση με backward induction όπως κάναμε και στην τάξη προκύπτει ότι το μο-
ναδικό SPE του παιγνίου είναι να προσφέρει ο παίκτης 1 την μοιρασιά (1/(1 + β), 1 − 1/(1 + β)) και
ο παίκτης 2 να παίξει την στρατηγική: Δέχομαι αν η μοιρασιά (x, 1 − x) ικανοποιεί x ≤ 1/(1 + β) και
αρνούμαι διαφορετικά.

You might also like