You are on page 1of 49

Độ thỏa dụng và Lý thuyết trò chơi

Lý thuyết trò chơi

1. Lý thuyết trò chơi là gì ?

2. Bài toán cạnh tranh để giành thị phần (tổng bằng 0)

3. Xác định một giải pháp chiến lược thuần túy

4. Xác định một giải pháp chiến lược hỗn hợp

5. Chiến lược thống trị


1. Lý thuyết trò chơi là gì ?

• Trong phân tích quyết định, một người ra quyết định duy
nhất tìm cách chọn một phương án tối ưu.

• Trong lý thuyết trò chơi, có hai hoặc nhiều người ra quyết


định, được gọi là người chơi, cạnh tranh với nhau như những
kẻ thù.

• Giả định rằng mỗi người chơi có cùng thông tin và sẽ chọn
chiến lược cung cấp kết quả tốt nhất có thể theo quan điểm
của mình.
1. Lý thuyết trò chơi là gì ?

• Mỗi người chơi chọn một chiến lược một cách độc lập mà
không cần biết trước chiến lược của (các) người chơi khác.

• Sự kết hợp của các chiến lược cạnh tranh cung cấp giá trị của
trò chơi cho người chơi.

• Ví dụ về những người chơi cạnh tranh là các đội, quân đội,


công ty, ứng cử viên chính trị và nhà thầu hợp đồng.
1. Lý thuyết trò chơi là gì ?

• Ví dụ. Bài toán “Tình thế lưỡng nan của người tù” (The
Prisoner’s Dilemma).

Có hai người tù A và B bị bắt vì tội cướp của. Cảnh sát cách ly


A và B để chúng không thể liên lạc, thông đồng với nhau.
Cảnh sát yêu cầu chúng thành thật khai báo nhận tội, và đưa ra
điều kiện:
 Nếu anh ta nhận tội và khai báo người kia thì sẽ chỉ bị 1 năm
tù trong trường hợp người kia không nhận tội, và 5 năm tù
nếu người kia cũng nhận tội.
 Mặt khác, nếu anh ta không nhận tội mà người kia nhận tội
thì anh ta sẽ bị 10 năm tù.
 Cuối cùng nếu cả hai không nhận tội thì cả hai sẽ chỉ bị 2
năm tù
1. Lý thuyết trò chơi là gì ?

• Ví dụ. Bài toán “Tình thế lưỡng nan của người tù” (The
Prisoner’s Dilemma).

Người tù B không Người tù B


nhận tội nhận tội

Người tù A 𝟐; 𝟐 𝟏𝟎; 𝟏
không nhận tội
Người tù A 𝟏; 𝟏𝟎 𝟓; 𝟓
nhận tội

Nếu là người tù, chiến lược của bạn là gì?


2. Bài toán cạnh tranh để giành thị phần

Trò chơi hai người có tổng bằng 0:

• Có hai người chơi cạnh tranh trong trò chơi.

• Tổng bằng không có nghĩa là mức tăng (hoặc thua) cho một
người chơi bằng với mức thua (hoặc lãi) tương ứng cho
người chơi khác.

• Số dư lãi và lỗ mất của trò chơi có tổng bằng không.


2. Bài toán cạnh tranh để giành thị phần

Ví dụ. Bài toán cạnh tranh để bán xe

Giả sử chỉ có hai đại lý buôn bán xe trong một thành phố nhỏ.
Mỗi đại lý đang xem xét ba chiến lược được thiết kế để bán xe
từ đại lý đối thủ trong thời gian bốn tháng. Các chiến lược,
được coi là giống nhau cho cả hai đại lý như sau:

 Chiến lược 1: Cung cấp giảm giá tiền mặt trên một phương
tiện mới.
 Chiến lược 2: Cung cấp tùy chọn miễn phí thiết bị trên một
xe mới.
 Chiến lược 3: Cung cấp khoản vay 0% trên một phương tiện
mới.
2. Bài toán cạnh tranh để giành thị phần

Bảng payoff: thể hiện số lượng xe bán tăng lên của đại lý A
(đồng nghĩa số xe giảm xuống của đại lý B)
Đại lý B

Giảm giá Tùy chọn Cung cấp khoản


tiền 𝑏1 miễn phí 𝑏2 vay 0% 𝑏3

Giảm giá tiền 2 2 1


𝑎1
Tùy chọn miễn -3 3 -1
Đại lý A phí 𝑎
2
Cung cấp khoản 1 -2 0
vay 0% 𝑎3
3. Chiến lược tối ưu thuần túy

• Bước 1: Xác định mức payoff tối thiểu cho mỗi hàng (cho
người chơi A).

• Bước 2: Đối với Người chơi A, chọn chiến lược cung cấp
mức tối đa của hàng tối thiểu (được gọi là maximin).
3. Chiến lược tối ưu thuần túy

Đại lý B

𝑏1 𝑏2 𝑏3 Mức tối thiểu


mỗi dòng
𝑎1 2 2 1 1

𝑎2 -3 3 -1 -3
Đại lý A
𝑎3 1 -2 0 -2
3. Chiến lược tối ưu thuần túy

• Bước 3: Xác định mức payoff tối đa cho mỗi cột (dành cho
người chơi B).

• Bước 4: Đối với Người chơi B, chọn chiến lược cung cấp
mức tối thiểu của cột tối đa (gọi là minimax).
3. Chiến lược tối ưu thuần túy

Đại lý B

𝑏1 𝑏2 𝑏3 Mức tối thiểu


mỗi dòng
𝑎1 2 2 1 1

𝑎2 -3 3 -1 -3
Đại lý A
𝑎3 1 -2 0 -2

Mức tối đa mỗi 2 3 1


cột
3. Chiến lược tối ưu thuần túy

Một chiến lược tối ưu thuần túy (optimal pure Strategy) tồn
tại khi:

• Maximin(A) = Minimax(B);
• Trò chơi được cho là có điểm yên ngựa (giao điểm của các
chiến lược tối ưu);
• Giá trị của điểm yên ngựa là giá trị của trò chơi;
• Không người chơi nào có thể cải thiện kết quả của mình bằng
cách thay đổi chiến lược ngay cả khi anh ta/cô ta biết trước
chiến lược của đối thủ.
3. Chiến lược tối ưu thuần túy

Đại lý B

𝑏1 𝑏2 𝑏3 Mức tối thiểu


mỗi dòng
𝑎1 2 2 1 1

𝑎2 -3 3 -1 -3
Đại lý A
𝑎3 1 -2 0 -2

Mức tối đa mỗi 2 3 1


cột
3. Chiến lược tối ưu thuần túy

Nhận xét:
• Giá trị của trò chơi (điểm yên ngựa) là 1;
• Người chơi A nên chọn Chiến lược 𝑎1 (cung cấp giảm giá
tiền mặt).
• Người chơi A có thể mong đợi mức tăng ít nhất 1 xe mỗi
tuần.
• Người chơi B nên chọn Chiến lược 𝑏3 (cung cấp khoản vay
0%).
• Người chơi B có thể mong đợi mức giảm không quá 1 xe mỗi
tuần.
4. Chiến lược hỗn hợp

• Nếu giá trị maximin cho Người chơi A không bằng giá trị
minimax cho Người chơi B, thì chiến lược thuần túy không
tối ưu cho trò chơi.
• Trong trường hợp này, một chiến lược hỗn hợp là tốt nhất.
Với một chiến lược hỗn hợp, mỗi người chơi sử dụng nhiều
hơn một chiến lược.
• Mỗi người chơi nên sử dụng một chiến lược trong 1 khoảng
thời gian và các chiến lược khác trong khoảng thời gian còn
lại.
• Giải pháp tối ưu đặc trưng bởi tần suất mà mỗi người chơi
nên sử dụng các chiến lược có thể của mình.
Mixed Strategy Example
Hãy xem xét trò chơi hai người có tổng bằng 0 như bên
dưới. Các maximin không bằng minimax. Do đó, không có
một chiến lược tối ưu thuần túy.

Player B
Row
b1 b2 Minimum
Player A
Maximin
a1 4 8 4
a2 11 5 5
Column
11 8
Maximum Minimax
4. Chiến lược hỗn hợp

• Gọi 𝑝: xác suất người chơi A chọn chiến lược 𝑎1 ;


→ 1 − 𝑝 : xác suất người chơi A chọn chiến lược 𝑎2 .

• Nếu người chơi B chọn chiến lược 𝑏1 thì:


𝐸𝑉 = 𝑝. 4 + 1 − 𝑝 . 11 = 11 − 7𝑝

• Nếu người chơi B chọn chiến lược 𝑏2 thì:


𝐸𝑉 = 𝑝. 8 + 1 − 𝑝 . 5 = 3𝑝 + 5
4. Chiến lược hỗn hợp

• Để tìm xác suất tối ưu cho Người chơi A, chúng ta cho hai
giá trị trung bình bằng nhau và giải phương trình tìm 𝑝.
𝑝. 4 + 1 − 𝑝 . 11 = 𝑝. 8 + 1 − 𝑝 . 5
⇔ 11 − 7𝑝 = 5 + 3𝑝
⇔ 𝑝 = 0.6

• Vậy, người chơi A nên chọn:


 Chiến lược 𝑎1 với xác suất 0.6;
 Chiến lược 𝑎2 với xác suất 0.4.
Mixed Strategy Example
Hãy xem xét trò chơi hai người có tổng bằng 0 như bên
dưới. Các maximin không bằng minimax. Do đó, không có
một chiến lược tối ưu thuần túy.

Player B
Row
b1 b2 Minimum
Player A
Maximin
a1 4 8 4
a2 11 5 5
Column
11 8
Maximum Minimax
4. Chiến lược hỗn hợp

• Gọi 𝑞: xác suất người chơi B chọn chiến lược 𝑏1 ;


→ 1 − 𝑞 : xác suất người chơi B chọn chiến lược 𝑏2 .

• Nếu người chơi A chọn chiến lược 𝑎1 thì:


𝐸𝑉 = 𝑞. 4 + 1 − 𝑞 . 8 = 8 − 4𝑞

• Nếu người chơi A chọn chiến lược 𝑎2 thì:


𝐸𝑉 = 𝑞. 11 + 1 − 𝑞 . 5 = 6𝑞 + 5
4. Chiến lược hỗn hợp

• Để tìm xác suất tối ưu cho Người chơi B, chúng ta cho hai
giá trị trung bình bằng nhau và giải phương trình tìm 𝑝.
𝑞. 4 + 1 − 𝑞 . 8 = 𝑞. 11 + 1 − 𝑞 . 5
⇔ 8 − 4𝑞 = 5 + 6𝑞
⇔ 𝑞 = 0.3

• Vậy, người chơi B nên chọn:


 Chiến lược 𝑏1 với xác suất 0.3;
 Chiến lược 𝑏2 với xác suất 0.7.
4. Chiến lược hỗn hợp

Expected gain
Giá trị của trò chơi: per game
for Player A
• Đối với người chơi A
𝐸𝑉 = 0.6 × 4 + 0.4 × 11 = 6.8

• Đối với người chơi B


𝐸𝑉 = 0.3 × 4 + 0.7 × 8 = 6.8
Expected loss
per game
for Player B
5. Chiến lược thống trị
Giả sử rằng bảng tóm tắt cho trò chơi 2 người có tổng bằng 0
được cho bên dưới. Ở đây, rõ ràng không có chiến lược
thuần túy tối ưu.
Player B
Row
b1 b2 b3 Minimum
Player A
a1 6 5 -2 -2
a2 1 0 3 0
a3 3 4 -3 -3
Column Maximin
Maximum 6 5 3
Minimax
Dominated Strategies Example
5. Chiến lược thống trị

Nếu một trò chơi lớn hơn 2 x 2 có chiến lược hỗn hợp, trước
tiên chúng ta tìm kiếm các chiến lược thống trị để giảm kích
thước của trò chơi.
Player B
Player A b1 b2 b3
a1 6 5 -2
a2 1 0 3
a3 3 4 -3

Trong bảng trên, chiến lược 𝑎3 bị “thống trị” bởi chiến lược
𝑎1 . Vì vậy, đối với người chơi A, chiến lược 𝑎3 có thể được
loại bỏ.
Dominated Strategies Example
5. Chiến lược thống trị

Tương tự, đối với người chơi B, chiến lược 𝑏1 bị thống trị
bởi 𝑏2 . Và do đó có thể bỏ qua.
Player B
Player A b1 b2 b3
a1 6 5 -2
a2 1 0 3
Dominated Strategies Example
5. Chiến lược thống trị

Trò chơi 3 x 3 đã được giảm xuống còn 2 x 2.

Player B
Player A b2 b3
a1 5 -2
a2 0 3

Bài toán này được giải bằng chiến lược gì (tối ưu thuần
túy hay hỗn hợp)? Vì sao?
Vận dụng
• Hai công ty cạnh tranh nhau để giành thị phần nước giải
khát. Mỗi công ty đã làm việc với một công ty quảng cáo để
phát triển các chiến lược quảng cáo thay thế cho năm tới.
• Một loạt các quảng cáo trên truyền hình, online, trưng bày
tại cửa hàng, v.v. cung cấp ba chiến lược khác nhau cho mỗi
công ty. Bảng sau đây tóm tắt sự thay đổi dự kiến về thị phần
của Công ty A khi hai công ty lựa chọn chiến lược quảng cáo
cho năm tới. Giải pháp tối ưu cho trò chơi này đối với mỗi
người chơi là gì? Giá trị của trò chơi là gì?
Công ty B
𝒃𝟏 𝒃𝟐 𝒃𝟑
𝒂𝟏 -2 1 0
𝒂𝟐 2 5 6
Công ty A
𝒂𝟑 6 -1 0
Củng cố & Dặn dò

• Lý thuyết trò chơi là gì? Thế nào là trò chơi hai người có
tổng bằng 0?

• Chiến lược tối ưu thuần túy

• Chiến lược hỗn hợp

• Chiến lược thống trị


Two-Person Zero-Sum Game
Sinh viên tự thamExample
khảo #2

 Competing for Vehicle Sales


Let us continue with the two-dealership game
presented earlier, but with a change to one payoff.
If both Dealership A and Dealership B choose to
offer a 0% loan, the payoff to Dealership A is now
an increase of 3 vehicle Sales per week. (The
revised payoff table appears on the next slide.)
Two-Person Zero-Sum Game
Sinh viên tự thamExample
khảo #2

 Payoff Table: Number of Vehicle Sales


Gained Per Week by Dealership A
(or Lost Per Week by Dealership B)
Dealership B
Cash Free 0%
Rebate Options Loan
Dealership A b1 b2 b3
Cash Rebate a1 2 2 1
Free Options a2 -3 3 -1
0% Loan a3 3 -2 3
Two-Person Zero-Sum Game
Sinh viên tự thamExample
khảo #2

 The maximin (1) does not equal the minimax (3), so a


pure strategy solution does not exist for this problem.
 The optimal solution is for both dealerships to adopt a
mixed strategy.
 There are no dominated strategies, so the problem
cannot be reduced to a 2x2 and solved algebraically.
 However, the game can be formulated and solved as a
linear program.
Two-Person Zero-Sum Game Example #2

 Let us first consider the game from the point of view of


Dealership A.
 Dealership A will select one of its three strategies based
on the following probabilities:

PA1 = the probability that Dealership A selects strategy a1


PA2 = the probability that Dealership A selects strategy a2
PA3 = the probability that Dealership A selects strategy a3
Two-Person Zero-Sum Game Example #2

 Weighting each payoff by its probability and summing


provides the expected value of the increase in vehicle
sales per week for Dealership A.

Dealership B Strategy Expected Gain for Dealership A


b1 EG(b1) = 2PA1 – 3PA2 + 3PA3
b2 EG(b2) = 2PA1 + 3PA2 – 2PA3
b3 EG(b3) = 1PA1 – 1PA2 + 3PA3
Two-Person Zero-Sum Game Example #2

 Define GAINA to be the optimal expected gain in vehicle


sales for Dealership A, which we want to maximize.
 Thus, the individual expected gains, EG(b1), EG(b2) and
EG(b3) must all be greater than or equal to GAINA.
 For example,
2PA1 – 3PA2 + 3PA3 > GAINA
 Also, the sum of Dealership A’s mixed strategy
probabilities must equal 1.
 This results in the LP formulation on the next slide …..
Two-Person Zero-Sum Game Example #2

 Dealership A’s Linear Programming Formulation

Max GAINA
s.t.
2PA1 – 3PA2 + 3PA3 – GAINA > 0 (Strategy b1)
2PA1 + 3PA2 – 2PA3 – GAINA > 0 (Strategy b2)
1PA1 – 1PA2 + 0PA3 – GAINA > 0 (Strategy b3)
PA1 + PA2 + PA3 = 1 (Probabilities sum to 1)
PA1, PA2, PA3, GAINA > 0 (Non-negativity)
Two-Person Zero-Sum Game Example #2

 Computer Solution: Dealership A

OBJECTIVE FUNCTION VALUE = 1.333


VARIABLE VALUE REDUCED COSTS
PA1 0.833 0.000
PA2 0.000 1.000
PA3 0.167 0.000
GAINA 1.333 0.000
Two-Person Zero-Sum Game Example #2

 Computer Solution: Dealership A


CONSTRAINT SLACK/SURPLUS DUAL VALUES
1 0.833 0.000
2 0.000 -0.333
3 0.000 -0.667
4 0.000 1.333
Two-Person Zero-Sum Game Example #2

 Dealership A’s Optimal Mixed Strategy


• Offer a cash rebate (a1) with a probability of 0.833
• Do not offer free optional equipment (a2)
• Offer a 0% loan (a3) with a probability of 0.167

The expected value of this mixed strategy is a gain of


1.333 vehicle sales per week for Dealership A.
Two-Person Zero-Sum Game Example #2

 Let us now consider the game from the point of view of


Dealership B.
 Dealership B will select one of its three strategies based
on the following probabilities:

PB1 = the probability that Dealership B selects strategy b1


PB2 = the probability that Dealership B selects strategy b2
PB3 = the probability that Dealership B selects strategy b3
Two-Person Zero-Sum Game Example #2

 Weighting each payoff by its probability and summing


provides the expected value of the decrease in vehicle
sales per week for Dealership B.

Dealership A Strategy Expected Loss for Dealership B


a1 EL(a1) = 2PB1 + 2PB2 + 1PB3
a2 EL(a2) = -3PB1 + 3PB2 – 1PB3
a3 EL(a3) = 3PB1 – 2PB2 + 3PB3
Two-Person Zero-Sum Game Example #2

 Define LOSSB to be the optimal expected loss in vehicle


sales for Dealership B, which we want to minimize.
 Thus, the individual expected losses, EL(a1), EL(a2) and
EL(a3) must all be less than or equal to LOSSB.
 For example,
2PA1 + 2PA2 + 1PA3 < LOSSB
 Also, the sum of Dealership B’s mixed strategy
probabilities must equal 1.
 This results in the LP formulation on the next slide …..
Two-Person Zero-Sum Game Example #2

 Dealership B’s Linear Programming Formulation


Min LOSSB
s.t.
2PB1 + 2PB2 + 1PB3 – LOSSB < 0 (Strategy a1)
-3PB1 + 3PB2 – 1PB3 – LOSSB < 0 (Strategy a2)
3PB1 – 2PB2 + 3PB3 – LOSSB < 0 (Strategy a3)
PB1 + PB2 + PB3 = 1 (Probabilities sum to 1)
PB1, PB2, PB3, LOSSB > 0 (Non-negativity)
Two-Person Zero-Sum Game Example #2

 Computer Solution: Dealership B

OBJECTIVE FUNCTION VALUE = 1.333


VARIABLE VALUE REDUCED COSTS
PB1 0.000 0.833
PB2 0.333 0.000
PB3 0.667 0.000
LOSSB 1.333 0.000
Two-Person Zero-Sum Game Example #2

 Computer Solution: Dealership B


CONSTRAINT SLACK/SURPLUS DUAL VALUES
1 0.000 0.833
2 1.000 0.000
3 0.000 0.167
4 0.000 -1.333
Two-Person Zero-Sum Game Example #2

 Dealership B’s Optimal Mixed Strategy


• Do not offer a cash rebate (b1)
• Offer free optional equipment (b2) with a probability of
0.333
• Offer a 0% loan (b3) with a probability of 0.667

 The expected payoff of this mixed strategy is a loss of


1.333 vehicle sales per week for Dealership B.
 Note that expected loss for Dealership B is the same as
the expected gain for Dealership A. (There is a zero-
sum for the expected payoffs.)
Other Game Theory Models

 Two-Person, Constant-Sum Games


(The sum of the payoffs is a constant other than zero.)
 Variable-Sum Games
(The sum of the payoffs is variable.)
 n-Person Games
(A game involves more than two players.)
 Cooperative Games
(Players are allowed pre-play communications.)
 Infinite-Strategies Games
(An infinite number of strategies are available for the
players.)
End of Chapter 5, Part B

You might also like