Chuong 4 - Lý Thuyet Tro Choi

Độ thỏa dụng và Lý thuyết trò chơi
Lý thuyết trò chơi
1. Lý thuyết trò chơi là gì ?
2. Bài toán cạnh tranh để giành thị phần (tổng bằng 0)
3. Xác định một giải pháp chiến lược thuần túy
4. Xác định một giải pháp chiến lược hỗn hợp
5. Chiến lược thống trị

• Trong phân tích quyết định, một người ra quyết định duy
nhất tìm cách chọn một phương án tối ưu.
• Trong lý thuyết trò chơi, có hai hoặc nhiều người ra quyết

định, được gọi là người chơi, cạnh tranh với nhau như những
kẻ thù.
• Giả định rằng mỗi người chơi có cùng thông tin và sẽ chọn
chiến lược cung cấp kết quả tốt nhất có thể theo quan điểm
của mình.
• Mỗi người chơi chọn một chiến lược một cách độc lập mà
không cần biết trước chiến lược của (các) người chơi khác.
• Sự kết hợp của các chiến lược cạnh tranh cung cấp giá trị của
trò chơi cho người chơi.
• Ví dụ về những người chơi cạnh tranh là các đội, quân đội,

công ty, ứng cử viên chính trị và nhà thầu hợp đồng.
• Ví dụ. Bài toán “Tình thế lưỡng nan của người tù” (The
Prisoner’s Dilemma).
Có hai người tù A và B bị bắt vì tội cướp của. Cảnh sát cách ly

A và B để chúng không thể liên lạc, thông đồng với nhau.
Cảnh sát yêu cầu chúng thành thật khai báo nhận tội, và đưa ra
điều kiện:
 Nếu anh ta nhận tội và khai báo người kia thì sẽ chỉ bị 1 năm
tù trong trường hợp người kia không nhận tội, và 5 năm tù
nếu người kia cũng nhận tội.
 Mặt khác, nếu anh ta không nhận tội mà người kia nhận tội
thì anh ta sẽ bị 10 năm tù.
 Cuối cùng nếu cả hai không nhận tội thì cả hai sẽ chỉ bị 2
năm tù
• Ví dụ. Bài toán “Tình thế lưỡng nan của người tù” (The
Prisoner’s Dilemma).
Người tù B không Người tù B

nhận tội nhận tội
Người tù A 𝟐; 𝟐 𝟏𝟎; 𝟏
không nhận tội
Người tù A 𝟏; 𝟏𝟎 𝟓; 𝟓
nhận tội
Nếu là người tù, chiến lược của bạn là gì?

2. Bài toán cạnh tranh để giành thị phần
Trò chơi hai người có tổng bằng 0:
• Có hai người chơi cạnh tranh trong trò chơi.
• Tổng bằng không có nghĩa là mức tăng (hoặc thua) cho một
người chơi bằng với mức thua (hoặc lãi) tương ứng cho
người chơi khác.
• Số dư lãi và lỗ mất của trò chơi có tổng bằng không.

Ví dụ. Bài toán cạnh tranh để bán xe
Giả sử chỉ có hai đại lý buôn bán xe trong một thành phố nhỏ.
Mỗi đại lý đang xem xét ba chiến lược được thiết kế để bán xe
từ đại lý đối thủ trong thời gian bốn tháng. Các chiến lược,
được coi là giống nhau cho cả hai đại lý như sau:
 Chiến lược 1: Cung cấp giảm giá tiền mặt trên một phương
tiện mới.
 Chiến lược 2: Cung cấp tùy chọn miễn phí thiết bị trên một
xe mới.
 Chiến lược 3: Cung cấp khoản vay 0% trên một phương tiện
mới.
Bảng payoff: thể hiện số lượng xe bán tăng lên của đại lý A
(đồng nghĩa số xe giảm xuống của đại lý B)
Đại lý B
Giảm giá Tùy chọn Cung cấp khoản

tiền 𝑏1 miễn phí 𝑏2 vay 0% 𝑏3
Giảm giá tiền 2 2 1

𝑎1
Tùy chọn miễn -3 3 -1
Đại lý A phí 𝑎
2
Cung cấp khoản 1 -2 0
vay 0% 𝑎3
3. Chiến lược tối ưu thuần túy
• Bước 1: Xác định mức payoff tối thiểu cho mỗi hàng (cho
người chơi A).
• Bước 2: Đối với Người chơi A, chọn chiến lược cung cấp
mức tối đa của hàng tối thiểu (được gọi là maximin).
Đại lý B
𝑏1 𝑏2 𝑏3 Mức tối thiểu

mỗi dòng
𝑎1 2 2 1 1
𝑎2 -3 3 -1 -3
Đại lý A
𝑎3 1 -2 0 -2
• Bước 3: Xác định mức payoff tối đa cho mỗi cột (dành cho
người chơi B).
• Bước 4: Đối với Người chơi B, chọn chiến lược cung cấp
mức tối thiểu của cột tối đa (gọi là minimax).
Đại lý B

mỗi dòng
𝑎1 2 2 1 1
𝑎2 -3 3 -1 -3
Đại lý A
𝑎3 1 -2 0 -2
Mức tối đa mỗi 2 3 1

cột
Một chiến lược tối ưu thuần túy (optimal pure Strategy) tồn
tại khi:
• Maximin(A) = Minimax(B);
• Trò chơi được cho là có điểm yên ngựa (giao điểm của các
chiến lược tối ưu);
• Giá trị của điểm yên ngựa là giá trị của trò chơi;
• Không người chơi nào có thể cải thiện kết quả của mình bằng
cách thay đổi chiến lược ngay cả khi anh ta/cô ta biết trước
chiến lược của đối thủ.
Đại lý B

mỗi dòng
𝑎1 2 2 1 1
𝑎2 -3 3 -1 -3
Đại lý A
𝑎3 1 -2 0 -2
Mức tối đa mỗi 2 3 1

cột
Nhận xét:
• Giá trị của trò chơi (điểm yên ngựa) là 1;
• Người chơi A nên chọn Chiến lược 𝑎1 (cung cấp giảm giá
tiền mặt).
• Người chơi A có thể mong đợi mức tăng ít nhất 1 xe mỗi
tuần.
• Người chơi B nên chọn Chiến lược 𝑏3 (cung cấp khoản vay
0%).
• Người chơi B có thể mong đợi mức giảm không quá 1 xe mỗi
tuần.
4. Chiến lược hỗn hợp
• Nếu giá trị maximin cho Người chơi A không bằng giá trị
minimax cho Người chơi B, thì chiến lược thuần túy không
tối ưu cho trò chơi.
• Trong trường hợp này, một chiến lược hỗn hợp là tốt nhất.
Với một chiến lược hỗn hợp, mỗi người chơi sử dụng nhiều
hơn một chiến lược.
• Mỗi người chơi nên sử dụng một chiến lược trong 1 khoảng
thời gian và các chiến lược khác trong khoảng thời gian còn
lại.
• Giải pháp tối ưu đặc trưng bởi tần suất mà mỗi người chơi
nên sử dụng các chiến lược có thể của mình.
Mixed Strategy Example
Hãy xem xét trò chơi hai người có tổng bằng 0 như bên
dưới. Các maximin không bằng minimax. Do đó, không có
một chiến lược tối ưu thuần túy.
Player B
Row
b1 b2 Minimum
Player A
Maximin
a1 4 8 4
a2 11 5 5
Column
11 8
Maximum Minimax
• Gọi 𝑝: xác suất người chơi A chọn chiến lược 𝑎1 ;

→ 1 − 𝑝 : xác suất người chơi A chọn chiến lược 𝑎2 .
• Nếu người chơi B chọn chiến lược 𝑏1 thì:

𝐸𝑉 = 𝑝. 4 + 1 − 𝑝 . 11 = 11 − 7𝑝
• Nếu người chơi B chọn chiến lược 𝑏2 thì:

𝐸𝑉 = 𝑝. 8 + 1 − 𝑝 . 5 = 3𝑝 + 5
• Để tìm xác suất tối ưu cho Người chơi A, chúng ta cho hai
giá trị trung bình bằng nhau và giải phương trình tìm 𝑝.
𝑝. 4 + 1 − 𝑝 . 11 = 𝑝. 8 + 1 − 𝑝 . 5
⇔ 11 − 7𝑝 = 5 + 3𝑝
⇔ 𝑝 = 0.6
• Vậy, người chơi A nên chọn:

 Chiến lược 𝑎1 với xác suất 0.6;
 Chiến lược 𝑎2 với xác suất 0.4.
Mixed Strategy Example
Hãy xem xét trò chơi hai người có tổng bằng 0 như bên
dưới. Các maximin không bằng minimax. Do đó, không có
một chiến lược tối ưu thuần túy.
Player B
Row
b1 b2 Minimum
Player A
Maximin
a1 4 8 4
a2 11 5 5
Column
11 8
Maximum Minimax
• Gọi 𝑞: xác suất người chơi B chọn chiến lược 𝑏1 ;

→ 1 − 𝑞 : xác suất người chơi B chọn chiến lược 𝑏2 .
• Nếu người chơi A chọn chiến lược 𝑎1 thì:

𝐸𝑉 = 𝑞. 4 + 1 − 𝑞 . 8 = 8 − 4𝑞
• Nếu người chơi A chọn chiến lược 𝑎2 thì:

𝐸𝑉 = 𝑞. 11 + 1 − 𝑞 . 5 = 6𝑞 + 5
• Để tìm xác suất tối ưu cho Người chơi B, chúng ta cho hai
giá trị trung bình bằng nhau và giải phương trình tìm 𝑝.
𝑞. 4 + 1 − 𝑞 . 8 = 𝑞. 11 + 1 − 𝑞 . 5
⇔ 8 − 4𝑞 = 5 + 6𝑞
⇔ 𝑞 = 0.3
• Vậy, người chơi B nên chọn:

 Chiến lược 𝑏1 với xác suất 0.3;
 Chiến lược 𝑏2 với xác suất 0.7.
Expected gain
Giá trị của trò chơi: per game
for Player A
• Đối với người chơi A
𝐸𝑉 = 0.6 × 4 + 0.4 × 11 = 6.8
• Đối với người chơi B

𝐸𝑉 = 0.3 × 4 + 0.7 × 8 = 6.8
Expected loss
per game
for Player B
Giả sử rằng bảng tóm tắt cho trò chơi 2 người có tổng bằng 0
được cho bên dưới. Ở đây, rõ ràng không có chiến lược
thuần túy tối ưu.
Player B
Row
b1 b2 b3 Minimum
Player A
a1 6 5 -2 -2
a2 1 0 3 0
a3 3 4 -3 -3
Column Maximin
Maximum 6 5 3
Minimax
Dominated Strategies Example
Nếu một trò chơi lớn hơn 2 x 2 có chiến lược hỗn hợp, trước
tiên chúng ta tìm kiếm các chiến lược thống trị để giảm kích
thước của trò chơi.
Player B
Player A b1 b2 b3
a1 6 5 -2
a2 1 0 3
a3 3 4 -3
Trong bảng trên, chiến lược 𝑎3 bị “thống trị” bởi chiến lược
𝑎1 . Vì vậy, đối với người chơi A, chiến lược 𝑎3 có thể được
loại bỏ.
Tương tự, đối với người chơi B, chiến lược 𝑏1 bị thống trị
bởi 𝑏2 . Và do đó có thể bỏ qua.
Player B
Player A b1 b2 b3
a1 6 5 -2
a2 1 0 3
Trò chơi 3 x 3 đã được giảm xuống còn 2 x 2.
Player B
Player A b2 b3
a1 5 -2
a2 0 3
Bài toán này được giải bằng chiến lược gì (tối ưu thuần
túy hay hỗn hợp)? Vì sao?
Vận dụng
• Hai công ty cạnh tranh nhau để giành thị phần nước giải
khát. Mỗi công ty đã làm việc với một công ty quảng cáo để
phát triển các chiến lược quảng cáo thay thế cho năm tới.
• Một loạt các quảng cáo trên truyền hình, online, trưng bày
tại cửa hàng, v.v. cung cấp ba chiến lược khác nhau cho mỗi
công ty. Bảng sau đây tóm tắt sự thay đổi dự kiến về thị phần
của Công ty A khi hai công ty lựa chọn chiến lược quảng cáo
cho năm tới. Giải pháp tối ưu cho trò chơi này đối với mỗi
người chơi là gì? Giá trị của trò chơi là gì?
Công ty B
𝒃𝟏 𝒃𝟐 𝒃𝟑
𝒂𝟏 -2 1 0
𝒂𝟐 2 5 6
Công ty A
𝒂𝟑 6 -1 0
Củng cố & Dặn dò
• Lý thuyết trò chơi là gì? Thế nào là trò chơi hai người có
tổng bằng 0?
• Chiến lược tối ưu thuần túy
• Chiến lược hỗn hợp
• Chiến lược thống trị

Two-Person Zero-Sum Game
Sinh viên tự thamExample
khảo #2
 Competing for Vehicle Sales

Let us continue with the two-dealership game
presented earlier, but with a change to one payoff.
If both Dealership A and Dealership B choose to
offer a 0% loan, the payoff to Dealership A is now
an increase of 3 vehicle Sales per week. (The
revised payoff table appears on the next slide.)
khảo #2
 Payoff Table: Number of Vehicle Sales

Gained Per Week by Dealership A
(or Lost Per Week by Dealership B)
Dealership B
Cash Free 0%
Rebate Options Loan
Dealership A b1 b2 b3
Cash Rebate a1 2 2 1
Free Options a2 -3 3 -1
0% Loan a3 3 -2 3
khảo #2
 The maximin (1) does not equal the minimax (3), so a

pure strategy solution does not exist for this problem.
 The optimal solution is for both dealerships to adopt a
mixed strategy.
 There are no dominated strategies, so the problem
cannot be reduced to a 2x2 and solved algebraically.
 However, the game can be formulated and solved as a
linear program.
Two-Person Zero-Sum Game Example #2
 Let us first consider the game from the point of view of

Dealership A.
 Dealership A will select one of its three strategies based
on the following probabilities:
PA1 = the probability that Dealership A selects strategy a1

 Weighting each payoff by its probability and summing

provides the expected value of the increase in vehicle
sales per week for Dealership A.
Dealership B Strategy Expected Gain for Dealership A

b1 EG(b1) = 2PA1 – 3PA2 + 3PA3
b2 EG(b2) = 2PA1 + 3PA2 – 2PA3
b3 EG(b3) = 1PA1 – 1PA2 + 3PA3
 Define GAINA to be the optimal expected gain in vehicle

sales for Dealership A, which we want to maximize.
 Thus, the individual expected gains, EG(b1), EG(b2) and
EG(b3) must all be greater than or equal to GAINA.
 For example,
2PA1 – 3PA2 + 3PA3 > GAINA
 Also, the sum of Dealership A’s mixed strategy
probabilities must equal 1.
 This results in the LP formulation on the next slide …..
 Dealership A’s Linear Programming Formulation
Max GAINA
s.t.
2PA1 – 3PA2 + 3PA3 – GAINA > 0 (Strategy b1)
2PA1 + 3PA2 – 2PA3 – GAINA > 0 (Strategy b2)
1PA1 – 1PA2 + 0PA3 – GAINA > 0 (Strategy b3)
PA1 + PA2 + PA3 = 1 (Probabilities sum to 1)
PA1, PA2, PA3, GAINA > 0 (Non-negativity)
 Computer Solution: Dealership A
OBJECTIVE FUNCTION VALUE = 1.333

VARIABLE VALUE REDUCED COSTS
PA1 0.833 0.000
PA2 0.000 1.000
PA3 0.167 0.000
GAINA 1.333 0.000
 Computer Solution: Dealership A

CONSTRAINT SLACK/SURPLUS DUAL VALUES
1 0.833 0.000
2 0.000 -0.333
3 0.000 -0.667
4 0.000 1.333
 Dealership A’s Optimal Mixed Strategy

• Offer a cash rebate (a1) with a probability of 0.833
• Do not offer free optional equipment (a2)
• Offer a 0% loan (a3) with a probability of 0.167
The expected value of this mixed strategy is a gain of

1.333 vehicle sales per week for Dealership A.
 Let us now consider the game from the point of view of

Dealership B.
 Dealership B will select one of its three strategies based
on the following probabilities:
PB1 = the probability that Dealership B selects strategy b1

 Weighting each payoff by its probability and summing

provides the expected value of the decrease in vehicle
sales per week for Dealership B.
Dealership A Strategy Expected Loss for Dealership B

a1 EL(a1) = 2PB1 + 2PB2 + 1PB3
a2 EL(a2) = -3PB1 + 3PB2 – 1PB3
a3 EL(a3) = 3PB1 – 2PB2 + 3PB3
 Define LOSSB to be the optimal expected loss in vehicle

sales for Dealership B, which we want to minimize.
 Thus, the individual expected losses, EL(a1), EL(a2) and
EL(a3) must all be less than or equal to LOSSB.
 For example,
2PA1 + 2PA2 + 1PA3 < LOSSB
 Also, the sum of Dealership B’s mixed strategy
probabilities must equal 1.
 This results in the LP formulation on the next slide …..
 Dealership B’s Linear Programming Formulation

Min LOSSB
s.t.
2PB1 + 2PB2 + 1PB3 – LOSSB < 0 (Strategy a1)
-3PB1 + 3PB2 – 1PB3 – LOSSB < 0 (Strategy a2)
3PB1 – 2PB2 + 3PB3 – LOSSB < 0 (Strategy a3)
PB1 + PB2 + PB3 = 1 (Probabilities sum to 1)
PB1, PB2, PB3, LOSSB > 0 (Non-negativity)
 Computer Solution: Dealership B
OBJECTIVE FUNCTION VALUE = 1.333

VARIABLE VALUE REDUCED COSTS
PB1 0.000 0.833
PB2 0.333 0.000
PB3 0.667 0.000
LOSSB 1.333 0.000
 Computer Solution: Dealership B

CONSTRAINT SLACK/SURPLUS DUAL VALUES
1 0.000 0.833
2 1.000 0.000
3 0.000 0.167
4 0.000 -1.333
 Dealership B’s Optimal Mixed Strategy

• Do not offer a cash rebate (b1)
• Offer free optional equipment (b2) with a probability of
0.333
• Offer a 0% loan (b3) with a probability of 0.667
 The expected payoff of this mixed strategy is a loss of

1.333 vehicle sales per week for Dealership B.
 Note that expected loss for Dealership B is the same as
the expected gain for Dealership A. (There is a zero-
sum for the expected payoffs.)
Other Game Theory Models
 Two-Person, Constant-Sum Games

(The sum of the payoffs is a constant other than zero.)
 Variable-Sum Games
(The sum of the payoffs is variable.)
 n-Person Games
(A game involves more than two players.)
 Cooperative Games
(Players are allowed pre-play communications.)
 Infinite-Strategies Games
(An infinite number of strategies are available for the
players.)
End of Chapter 5, Part B

Chuong 4 - Lý Thuyet Tro Choi

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chuong 4 - Lý Thuyet Tro Choi

Uploaded by

Copyright:

Available Formats

Độ thỏa dụng và Lý thuyết trò chơi

Lý thuyết trò chơi

1. Lý thuyết trò chơi là gì ?

2. Bài toán cạnh tranh để giành thị phần (tổng bằng 0)

3. Xác định một giải pháp chiến lược thuần túy

4. Xác định một giải pháp chiến lược hỗn hợp

5. Chiến lược thống trị

• Trong lý thuyết trò chơi, có hai hoặc nhiều người ra quyết

• Ví dụ về những người chơi cạnh tranh là các đội, quân đội,

Có hai người tù A và B bị bắt vì tội cướp của. Cảnh sát cách ly

Người tù B không Người tù B

Nếu là người tù, chiến lược của bạn là gì?

Trò chơi hai người có tổng bằng 0:

• Có hai người chơi cạnh tranh trong trò chơi.

• Số dư lãi và lỗ mất của trò chơi có tổng bằng không.

Ví dụ. Bài toán cạnh tranh để bán xe

Giảm giá Tùy chọn Cung cấp khoản

Giảm giá tiền 2 2 1

𝑏1 𝑏2 𝑏3 Mức tối thiểu

𝑏1 𝑏2 𝑏3 Mức tối thiểu

Mức tối đa mỗi 2 3 1

𝑏1 𝑏2 𝑏3 Mức tối thiểu

Mức tối đa mỗi 2 3 1

• Gọi 𝑝: xác suất người chơi A chọn chiến lược 𝑎1 ;

• Nếu người chơi B chọn chiến lược 𝑏1 thì:

• Nếu người chơi B chọn chiến lược 𝑏2 thì:

• Vậy, người chơi A nên chọn:

• Gọi 𝑞: xác suất người chơi B chọn chiến lược 𝑏1 ;

• Nếu người chơi A chọn chiến lược 𝑎1 thì:

• Nếu người chơi A chọn chiến lược 𝑎2 thì:

• Vậy, người chơi B nên chọn:

• Đối với người chơi B

Trò chơi 3 x 3 đã được giảm xuống còn 2 x 2.

• Chiến lược tối ưu thuần túy

• Chiến lược hỗn hợp

• Chiến lược thống trị

 Competing for Vehicle Sales

 Payoff Table: Number of Vehicle Sales

 The maximin (1) does not equal the minimax (3), so a

 Let us first consider the game from the point of view of

PA1 = the probability that Dealership A selects strategy a1

 Weighting each payoff by its probability and summing

Dealership B Strategy Expected Gain for Dealership A

 Define GAINA to be the optimal expected gain in vehicle

 Dealership A’s Linear Programming Formulation

 Computer Solution: Dealership A

OBJECTIVE FUNCTION VALUE = 1.333

 Computer Solution: Dealership A

 Dealership A’s Optimal Mixed Strategy

The expected value of this mixed strategy is a gain of

 Let us now consider the game from the point of view of

PB1 = the probability that Dealership B selects strategy b1

 Weighting each payoff by its probability and summing

Dealership A Strategy Expected Loss for Dealership B

 Define LOSSB to be the optimal expected loss in vehicle

 Dealership B’s Linear Programming Formulation

 Computer Solution: Dealership B

OBJECTIVE FUNCTION VALUE = 1.333

 Computer Solution: Dealership B

 Dealership B’s Optimal Mixed Strategy

 The expected payoff of this mixed strategy is a loss of

 Two-Person, Constant-Sum Games

You might also like