You are on page 1of 189

LÝ THUYẾT TRÒ CHƠI

TS.VƯƠNG QUÂN HOÀNG
DHVP Research & ĐHTH Bruxelles
E-mail: dhvp.economics@gmail.com

Bản Thảo Tài Liệu Nghiên Cứu

Hà Nội - Ngày 1 tháng 4 năm 2011

LÝ THUYẾT TRÒ CHƠI

Vương Quân Hoàng

Mục lục

Mục lục iii

Danh mục hình vẽ v

Danh mục bảng biểu vii

Lời giới thiệu ix

1 Trò Chơi 2-Người Tổng-0 Hữu Hạn 1
1.1 Những nét cơ bản . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Tìm nghiệm trò chơi kích thước 2 × n và m × 2 . . . . . . 3
1.2.1 Giải các trò chơi 2 × n . . . . . . . . . . . . . . . . 3
1.2.2 Trò chơi m × 2 . . . . . . . . . . . . . . . . . . . . 5
1.2.3 Tính trội tuyệt đối . . . . . . . . . . . . . . . . . . 7
1.3 Một số ví dụ và tính chất trò chơi ma trận . . . . . . . . . 9

2 Trò Chơi 2-Người Hữu Hạn 17
2.1 Cơ sở lý thuyết . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Tìm điểm cân bằng Nash . . . . . . . . . . . . . . . . . . 19
2.2.1 Cân bằng Nash thuần . . . . . . . . . . . . . . . . 19
2.2.2 Trò chơi bimatrix 2 × 2 . . . . . . . . . . . . . . . 21
2.2.3 Tính trội tuyệt đối . . . . . . . . . . . . . . . . . . 23
2.3 Một số ứng dụng và bài toán minh họa . . . . . . . . . . . 26

3 Dạng Mở Rộng Hữu Hạn 35
3.1 Bài toán dạng mở . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Dạng chiến lược . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Quy nạp lùi và hoàn chỉnh trò chơi con . . . . . . . . . . 39

i

.2 Cân bằng Nash .1 Mô hình đơn giản. . . . . 73 5. . . . . . . . . . . . 87 6. . . . 93 6. . . . . 76 5. . . . . 54 4.1 Cân bằng hoàn hảo trò chơi con . . . . . . . . . . . . . . . . . . . . . . . . . . thông tin không đầy đủ . . . . . . . . . . . . . . . . . .1. . . 87 6. . . . . . . . . . . . . . . . . . . . . . . .2 Tập lõi . . . . . . 105 7. . . . . . . . . . . . . .1 Bài toán xuất phát . 91 6. . . thông tin không đầy đủ . .2 Cạnh tranh số lượng Cournot . . . .nucleolus .2. . . . . . . . 116 8. . . . . . . . . . .1. . . . . 118 8. . . . . . . . .ii ⃝ c 2011 . . . . 102 7. . . . . .4 Cân bằng Bayes hoàn hảo .2 Trò chơi tĩnh. . . . . . . . .4 Hạch nhân . . . . 123 . . . .1 Nghịch lý người tù . . . . . . . . . . . . . . . . . . . . . .3 Giá trị Shapley . . . . . 69 5.2. . . . . . . . . . . . . . .5 Chiến lược hỗn hợp và thông tin không đầy đủ . . 121 8. . . . . . .2 Quan sát tổng quát . .1 Trò chơi 2-NC đối xứng và chiến lược ổn định tiến hóa . . 93 6. . . . . . . . . . . . . . . . 43 4 Trò Chơi Hữu Hạn Thông Tin Không Đầy Đủ 53 4. . . 107 8 Hợp Tác Chuyển Đổi Lợi Ích 115 8. 71 5. . . . . . . . . . . . . . . . 79 6 Trò Chơi Lặp Lại 87 6. . . . .3 Cạnh tranh giá Bertrand . . . . . . . . . . . . . . . . . . . . . . . . . .3 Trò chơi tín hiệu . .3 Trò chơi bất đối xứng . . . . . . . 59 5 Bất Hợp Tác 69 5.2. . . . 70 5. . . . . . 115 8. . . . . . . .4 Cân bằng Stackelberg . . . . . . . . .1 Ví dụ trò chơi bimatrix khác: . . . . . . . .1 Khuôn khổ tổng quát: trò chơi chiến lược . 95 7 Trò Chơi Tiến Hóa . .2 Động học bộ sao chép và tính ổn định tiến hóa .Vương Quân Hoàng 3. . . . . . .1. . . . . . 54 4. . . . . . . . . . . . . . . . .1 Nhóm đặc trưng . . . .2 Mô hình đơn giản. .2. . . . 75 5. . .1 101 7. . . . .2 Một định lý dân gian cho cân bằng Nash .1 Ví dụ và các ý niệm cơ bản . thông tin đầy đủ . . .

. .1 Định lý Minimax . 158 11. . 152 11 Công Cụ Toán Học 157 11. . . . . . . 157 11. . .5 Định lý Birkhoff–von Neumann . . . . . . . . .Lý Thuyết Trò Chơi . . . . . . . . 133 9. 151 10. . . . . . . . . . . 160 11. . . . .2 Các bổ đề về lựa chọn thay thế . . 133 9. . . . . . . . . . . . . . . . . . . . 160 Phụ lục a Phụ lục tra cứu a . . .1 Thuật ngữ và khái niệm thường sử dụng . . 138 10 Trò Chơi Ma Trận 151 10. . . . . . . . .1 Các dạng bài toán mặc cả . . . . . . . . . . . .4 Một số định lý điểm bất động . . . . . . . . . . . . .1. . . . . . . . . .1 Nghiệm Nash cho bài toán mặc cả . . .DHVP Research iii 9 Mô Hình Hợp Tác 133 9. .2 Nền kinh tế trao đổi . . . . . . . . . . .2 Phát biểu hệ thống về quy hoạch tuyến tính . . . . . . . . . . . . 160 11.3 Định lý đối ngẫu của quy hoạch tuyến tính . . . . . .

LÝ THUYẾT TRÒ CHƠI .

.thông tin hoàn hảo . . . . . . . . . . . . .2 Sơ đồ cây . . . . . . . . . . . 116 8. . . . . . .1 Sơ đồ β2 . . . . . . . . . . . . . . . . . . . . 40 3. . . . . .2 Sơ đồ β2 . .Danh mục hình vẽ 2. 78 6. . . 42 3. . . . . . . . . . . . . 134 9. .2 Trò chơi tín hiệu 1 . . . . thông tin không đầy đủ . . . . . . . . . . . . . . . . . . . . . . .1 Xung đột sở thích giới tính. . . .2 Hàm lợi ích của hãng i khi độc quyền Bertrand . . . . . . . . . . . 37 3. .4 Sơ đồ cây 3-NC . . . . 120 9. . . . . . . . . . . . . . . .2 δ và lợi ích giới hạn tại G∞ p (δ) . . . . . . . . . . . . . . 36 3. . . . . . . . . . . . . . . . . . . 27 3.2 Bài toán mặc cả 2-NC . . .1 Sơ đồ trò chơi dạng mở . . . . . .3 Lược đồ dạng mở trò chơi Stackelberg . . . . . 56 4. . . 60 5.1 Cournot 1 . . . . . . . . . .2 Tập C trò chơi 3-TP . . .1 Sơ đồ hợp tác tải điện 3-TP . . . . . 45 4. . . . . . . 78 5. . . . . . . .1 Bài toán mặc cả: phân chia . . . . . . . . . . . . . . . . . . . . . . . . . . .thông tin hoàn hảo . . . .1 δ và lợi ích giới hạn tại G∞ p (δ) . . . . . . . . . . . . . . . . . . . . . . . .3 Sơ đồ cây rút gọn . . . . . . . . . . . . . . .5 Sơ đồ 3-NC cân bằng Bayes . . . . . 144 v . . 108 8. . . . . . . . . . 135 9. . . . . . 96 7. . . . .1 Sơ đồ pha của trò chơi tiến hóa bất đối xứng . . . . . . .4 Cân bằng Stackelberg . . 78 5. . . . . . . . . . . .4 Tập lõi và cân bằng Walras . . . . . . .3 4 điều kiện Nash về nghiệm mặc cả . . . . . . . . . . . . . . . 96 6. . . . . . . 22 2. . . . . 136 9. . . . . . . . . 72 5. . . . . . . . . .

1 Giải thích hình học bổ đề Farkas . . . . .Vương Quân Hoàng 11. .vi ⃝ c 2011 . . . . . . . 159 . . .

. . . . . . . . . . . . . . . . . . . . . 126 vii . . . . . . 118 8. . . . 124 8. .7 Phép thử hạch nhân trò chơi 3-TP (b) . . . . . 122 8. . . . . . . . . . . . .Danh mục bảng biểu 4. . 119 8. . . . . . . . . . . . . . . . . . . .4 Mô hình hoán vị lịch hẹn .1 PPXS theo đặc trưng của NC có 2 đặc trưng . . . . . . .2 Giá trị trò chơi găng tay . . . 116 8. . . . . . . . . . . . . .5 Giá trị Shapley cho TU-game 3-TP . 58 8. . . . .1 Liên minh lưới điện 3-TP . .6 Phép thử hạch nhân trò chơi 3-TP . . . . 120 8. . . . . . . . . . . . . . .3 Giá trị theo sở nguyện NC . .

LÝ THUYẾT TRÒ CHƠI .

LTTC nhanh chóng lan tỏa sang nhiều lĩnh vực khoa học xã hội liên quan tới hành vi con người. Đó là lý do mà tài liệu này ra đời. nhưng ít ồn ào. hoặc đông hơn nữa. phương tiện duy nhất là cứu cánh cho các phân tích khoa học hợp lý. khi mà người tiêu dùng bày tỏ sự bức xúc vì hàng hóa kém cỏi về chất lượng cho mức giá tiền phải trả nhiều một cách không tương xứng. Khẩu khí này rất đượm hương vị LTTC! Gọi là lý thuyết. Có lẽ chỉ có nhánh thống kê toán là có thể sánh với lý thuyết trò chơi về mức độ ứng dụng rộng rãi. bởi vì lĩnh vực này cung cấp các kỹ thuật toán học để phân tích các tình huống trong đó hai cá nhân. Nó đã bước qua ranh giới thuần túy dành cho các nhà toán học để trở thành lĩnh vực ứng dụng phân tích kinh tế. khó thu thập. tiến hành ra các quyết định. Tuy nhiên. đã có vị quan chức gợi ý: Vậy thì “ông” người tiêu dùng phải thông thái thôi. trong các môi trường thống kê khó hoạt động do tình trạng “dữ liệu bẩn” hay quá rời rạc. chính sách dồi dào tiềm năng. và trở thành một công cụ không gì sánh nổi trong việc cung cấp logic và lập luận phân tích sâu.Lời giới thiệu Lý thuyết trò chơi (LTTC) từ nửa sau của Thế kỷ XX được gọi là “cuộc cách mạng kinh tế học thầm lặng” diễn ra rất mạnh mẽ.” Còn nhớ ở Việt Nam năm 2009. mà các quyết định đó gây ra ảnh hưởng lên lợi ix . có tính tiên lượng cao (tương đương với thống kê) còn lại chỉ có lý thuyết trò chơi. và tự đặt LTTC như một bộ phận không thể tách rời của các nguyên lý kinh tế toán. Lý thuyết trò chơi: nét đại lược Vậy LTTC là gì? Trước tiên đó là hệ thống nghiên cứu về các mô hình toán học đặc tả sự xung đột và hợp tác giữa “các cá nhân ra quyết định một cách khôn ngoan.

với cái tên như Bertrand. chiến lược quân sự lại còn càng cần hơn. chính trị gia. vì họ phải xử lý quan hệ đa chiều phức tạp giữa các đám đông thuộc cấp. LTTC hiện đại – với dáng dấp như một ngành khoa học hoàn chỉnh hôm nay – coi như được đánh dấu từ thế kỷ XX. v. cùng với sự phát triển của bộ môn xác suất.v. và cuốn sách rất ấn tượng của Von Neumann và Morgenstern (Theory of Games and Economic Behavior. Von Neumann (1928). Những nghiên cứu lớn đã xuất hiện từ thế kỷ XIX. cũng là nơi nhiều vĩ nhân của ngành vật lý sản sinh ra những đóng góp tạo ra bước tiến khổng lồ của khoa học vật lý nhân loại.. lẩn khuất trong các lĩnh vực xã hội. Nơi sinh ra những đóng góp lớn của lý thuyết trò chơi. 173: 1304-1308. đối tác-đối tượng. Tuy vậy. Lý thuyết trò chơi hiện đại nợ nần nhiều đóng góp rất lớn của Prince- ton. LTTC cung cấp sự thấu hiểu mà các nhà nghiên cứu ở tất cả (xin lưu ý là “tất cả”) các nhánh của các lĩnh vực khoa học xã hội rất cần để nhận biết các vấn đề hành vi con người. xã hội. Sự gần gũi về mặt không gian này.Vương Quân Hoàng ích của (những) người khác có mặt trong tình huống (trò chơi).” Comptes Rendus de l’Académie des Sciences. Như vậy. và rất nhiều đóng góp ban đầu được công bố trong khoảng thời gian Thế chiến Đệ Nhị. 1921). LTTC hiện diện từ rất lâu rồi. Emile Borel (“La théorie du Jeu et les équations intégrales à noyau symétrique. quân sự. Vol. cho dù không mang cái tên hiện đại như ngày hôm nay.x ⃝ c 2011 . 1944). theo các nhà nghiên cứu về lịch sử phát triển . Các nhà kinh doanh. với những tác phẩm trứ danh của Zermelo (1913).

nhưng không quá quan trọng. và điều này đã trực tiếp đe dọa sự tồn tại của toàn bộ nền văn minh nhân loại. Yêu cầu bức bách dẫn tới sự kỳ vọng lớn lao rằng ngành khoa học xã hội cũng sẽ đạt được những bước tiến đủ lớn. Về bản chất công việc. trong khi vẫn có thể duy trì tính tổng quát cho cả các trường hợp vô cùng rắc rối của đời sống thực. kèm theo đó là các ví dụ mang tính chất ước đoán về các tình huống. thường phải được đơn giản hóa đi (một cách phi thực tế). Trong thời kỳ đầu thế kỷ XX này. nhằm cô lập một nhóm vấn đề phức tạp về một số ít vấn đề rất căn bản của bản chất xung đột hay hợp tác. Sự hy vọng lớn lao này là động lực mạnh mẽ khiến rất nhiều nhà toán học và khoa học xã hội miệt mài nghiên cứu thúc đẩy lý thuyết trò chơi trong nửa còn lại của thế kỷ XX. thông qua việc tìm hiểu.Lý Thuyết Trò Chơi . Tính đơn giản này giúp giải quyết vấn đề được thuận lợi hơn. Điều này cũng là chuyện thường thấy trong rất nhiều ngành khoa học khác nữa: Gạt bỏ các chi tiết dù là có thực. các nhà nghiên cứu LTTC thực ra bỏ công sức nhằm hiểu được bản chất của xung đột và hợp tác. có khả năng cung cấp nhận thức sâu sắc tương xứng với những tiến bộ khoa học vật chất. để tập trung cho một số ít các câu hỏi lớn. xét ở góc nhìn rộng rãi. những tiến bộ lớn diễn ra trong tất cả các nhánh của các ngành khoa học vật lý đã sản sinh ra nghịch lý và sự xung đột tiềm tàng về vũ khí hạt nhân. hành vi của cuộc sống.DHVP Research xi tri thức nhân loại. nhằm . nó là kết cục tất yếu. nhưng lại không đủ tri thức để tạo ra các hệ thống xã hội có thể giúp điều hòa hành vi của con người trong bối cảnh xung khắc tới mức sẵn sàng tiêu diệt nhau. cuốn hút và những gì chứa đựng hứa hẹn lớn lao của lý thuyết trò chơi là kết quả của vị trí trung của lý thuyết trò chơi. Cuối cùng thì mong mỏi đó cũng được đền đáp. Bằng chứng rất thực về sức mạnh của lý thuyết trò chơi có thể đặc trưng bởi quá trình mắn đẻ các ứng dụng quan trọng của nó trong kinh tế học và đời sống kinh tế toàn cầu. xây dựng các mô hình định lượng. không thể bỏ qua. Phần lớn sự hấp dẫn. Tiến bộ khoa học vật chất có vẻ như giúp con người biết cách thiết kế các hệ thống vật lý để khai thác vật liệu tạo năng lượng phóng xạ. không hề tình cờ hay ngẫu nhiên. với tư cách nền tảng toán học và logic cho tất cả các ngành khoa học xã hội. có tính căn nguyên và đảm bảo học thuật. đặc biệt là vật lý lý thuyết và ứng dụng. Khái niệm “trò chơi” ở đây chỉ là quy ước về mặt ngôn ngữ. Và như vậy. Các ví dụ thì như chúng ta vẫn thấy.

Tháng 6-2011 TS. người chơi có tính hợp lý.net). các cá nhân có xu hướng tối đa hóa giá trị kỳ vọng của đại lượng “sống sót” hoặc “thích nghi sinh sản. Do cách gọi. có thể sử dụng cho giảng dạy và in ấn rộng rãi.) Điều kiện để nghiên cứu là hai giả thiết: Thứ nhất. đặc biệt là đưa vào các nghiên cứu ứng dụng kinh tế . các cơ quan phức tạp (như cơ thể con người. thậm chí rất nghiêm túc và bằng trí khôn chuẩn mực. sẽ còn phải gia công rất nhiều. Nguyễn Thu Hoài tham gia trợ giúp một số công việc liên quan. theo hướng làm tăng xác suất sống sót và duy trì sinh sản (tái tạo các thế hệ). theo cách nhìn của chọn lọc tiến hóa. Ngoài ra. chứ không có chơi bời gì hết.vietnamica. Quá trình biên soạn tài liệu có đóng góp quan trọng của Trần Trí Dũng và Nguyễn Xuân Dũng.net .xã hội mà LTTC đã và đang giải quyết rất hiệu quả. đưa ra nhiều ngụ ý chính sách tốt.xii ⃝ c 2011 . Trong một vũ trụ mà sự hỗn loạn tăng lên là một quy luật vật lý. Để trở thành một tài liệu hoàn chỉnh. Biên soạn Tài liệu này được biên soạn với mục đích trước tiên làm tài liệu nghiên cứu nội bộ của văn phòng nghiên cứu DHVP Research (w: www. Như thế. Hà Nội . phục vụ các nghiên cứu ứng dụng về chính sách kinh tế trong giai đoạn 2011-2015.Vương Quân Hoàng ám chỉ bất kỳ tình huống xã hội nào có liên quan tới ít nhất 2 người. Vương Quân Hoàng e: vuong@vietnamica.” Nói chính xác là họ ra các quyết định. Thứ hai. Hành vi nhất quán tối đa hóa mức thỏa dụng còn được nhận biết từ các mô hình chọn lọc tiến hóa. hay tổ chức xã hội) chỉ có thể tồn tại nếu biết cách điều chỉnh hành vi. chúng ta để dành các thảo luận kỹ thuật cho phần nội dung sâu của các chương tiếp theo sau đây.” Có lẽ. người chơi sử dụng trí khôn để ra quyết định. các cá nhân liên quan tới một trò chơi thì đều được gọi là “người chơi.

tức là pi = 1.1 Chiến lược chơi của người chơi số 1 (gọi tắt là NC1) là một phân phối xác suất p tương ứng với các dòng của ma trận A. Chiến lược thuần này có thể ký hiệu là ei . . ∀i = 1. . Chiến lược p của NC1 gọi là ‘thuần’ nếu chiến lược được đó lựa chọn dòng thứ i một cách chắc chắn. tức là một phần tử của tập ∑ m ∆ := {q = (q1 . Trò chơi ma trận là một ma trận A kích thước m × n chứa các số thực. . bé nhất là bằng 1. chiến lược của người chơi 2 (NC2) là một PPXS q trên các cột của A. . qn ) ∈ R | n n qj = 1. n là các số nguyên dương. . .1 Những nét cơ bản Các dữ liệu của trò chơi 2-người tổng-0 hữu hạn có thể được tóm tắt vào một ma trận. do đó loại trò chơi này còn được gọi là trò chơi ma trận. . pm ) ∈ Rm | pi = 1. . . . .Chương 1 Trò Chơi 2-Người Tổng-0 Hữu Hạn 1. Tương tự. chiến lược của NC1 là một phần tử của tập ∑ m ∆m := {p = (p1 . m}. 1 Như vậy m. Điều đó có nghĩa là. . . với m hàng. qj ≥ 0. . pi ≥ 0. . 1 . n cột. ∀j = 1. . n}.

(1. q ∈ ∆n . (1. nếu và chỉ nếu q là chiến lược minimax. Khi này NC2 nhận được −pAq (tức là trả). tương ứng vị trí dòng i và cột j trong A. chiến lược q của NC2 gọi là ‘thuần’ nếu lựa chọn cột thứ j một cách chắc chắn.1) với các chiến lược thuần ej . tương ứng với lựa chọn của NC2. Giả sử NC1 chơi chiến lược hỗn hợp p và NC2 q.1) Theo cách tương tự.2) Một cách dễ hình dung. Để giải bài toán trò chơi dạng ma trận như trên. n. thì lợi ích của NC1 thu về tương ứng∑với một ∑ dãy PPXS (chính là ý nghĩa của chiến lược hỗn hợp) là: pAq = m n pi qj aij . 2.2 ⃝ c 2011 . . nghĩa là pAq ≤ v bất kể NC1 lựa chọn chiến lược p nào. 2. ký hiệu là ej . tức là qj = 1.Vương Quân Hoàng Tương tự vậy.2 Nhà toán học Von Neumann chứng minh rằng với mọi trò chơi ma trận A. tức là lựa chọn chiến lược thuần ei . Chiến lược q của NC2 đảm bảo chỉ phải chi phí tối đa v mà NC2 phải trả NC1. Nếu NC1 chơi hàng i. Còn minimax là lựa chọn PPXS sao cho NC2 tối thiểu hóa giá trị thiệt hại lớn nhất tương ứng với lựa chọn của NC1. ta cần thêm khái niệm chiến lược maximin và minimax sau đây. chiến lược minimax q của NC2 nếu như: min{pAq} ≤ min{pAq′ } ∀q′ ∈ ∆n . sẽ tồn tại một trị số v = v(A) có tính chất như sau: 1. 2 Chứng minh chặt chẽ hơn luận điểm này sẽ được trình bày sau. . Chiến lược p của NC1 đảm bảo thu về lợi ích tối thiểu v cho NC1. nghĩa là pAq ≥ v bất kể NC2 lựa chọn chiến lược q nếu và chỉ nếu p là chiến lược maximin. thì NC1 nhận được lợi ích tài chính aij . . Ý nghĩa của ma trận A như sau. Chiến lược p được gọi là max- imin cho NC1 trong trò chơi ma trận A nếu như min{pAq} ≥ min{p′ Aq} ∀p′ ∈ ∆m . Chiến lược maximin và minimax. Như vậy. trong khi NC2 nhận được −aij (nghĩa là trả). chỉ cần kiểm tra sự thỏa mãn dấu ≥ của bất đẳng thức (1. đối với NC1 chiến lược maximin là lựa chọn PPXS sao cho anh ta tối đa hóa giá trị lợi ích nhỏ nhất. để biết được lựa chọn p có phải chiến lược maximin hay không. với từng giá trị j = 1. . .

1. tức là ei . Từ đó ta thấy rằng. 1.2. thì NC1 có thể đảm bảo nhận được giá trị lợi ích tối thiểu aij bằng cách chơi chiến lược thuần theo dòng i. Điểm yên ngựa. j) trong ma trận A được gọi là điểm yên ngựa . đồng thời ej là chiến lược minimax tối ưu của NC2. với một ma trận A bằng số cụ thể có kích thước 2 × 4.nếu như aij ≥ akj với mọi giá trị k = 1. Theo suy luận này. NC2 đảm bảo chỉ phải trả tối đa −aij bằng cách lựa chọn chiến lược thuần cột ej .saddlepoint . Một vị trí xác định bởi cặp (i. . Các chiến lược maximin và minimax như vừa nói được gọi là các chiến lược tối ưu tương ứng với NC1 và NC2. Giá trị tại điểm yên ngựa aij có ý nghĩa là điểm có giá trị lớn nhất trong cột j và nhỏ nhất trong hàng i.e = . . và e = . Tương tự. . ei mà maximin tối ưu của NC1. e2 = 2 ( ) ( ) ( ) 2 3 4 4 1 . n. . ( ) 10 2 4 1 A= 2 10 8 12 ( ) 10 Ta đặt các chiến lược thuần theo cột lần lượt là e1 = . và aij ≤ aik với mọi k = 1. nếu (i. .1 Giải các trò chơi 2 × n Xét trò chơi 2-dòng và n-cột. Khi nói rằng ‘giải bài toán’ trò chơi A nghĩa là ta ám chỉ việc xác định các chiến lược tối ưu. đồng thời cả giá trị của trò chơi. .2 Tìm nghiệm trò chơi kích thước 2 × n và m×2 Tiếp theo. v = v(A) được gọi là giá trị của trò chơi A. . aij chắc chắn phải là giá trị của trò chơi A. j) là điểm yên ngựa.Lý Thuyết Trò Chơi . v(A) = aij .DHVP Research 3 Trong thuật ngữ của chúng ta. 10 8 12 . . ta xét cách tìm nghiệm trò chơi ma trận và khái niệm nghiệm trội có liên quan tới kỹ thuật xử lý bài toán ma trận. m.

(1. e3[p]. ( 21 20 32 . Bây giờ.11 p. .4 p.0. {p. ( 12 . e4[p_] := 12 . 1 − p) bất kỳ của NC1.Vương Quân Hoàng Các chiến lược thuần trên là của NC2 (do lấy theo cột). 1] như đã nói. và đây cũng là giá trị của trò chơi v(A) = 6. Có 4 điểm đáng chú ý của đồ thị này là (0. ta thu được đường bao đáy của miền tạo bởi toàn bộ 4 đoạn thẳng trong khoảng p = [0. ta sẽ có một hệ thống như sau: pAe1 = 10p + 2(1 − p) pAe2 = 2p + 10(1 − p) pAe3 = 4p + 8(1 − p) pAe4 = p + 12(1 − p) Sử dụng Mathematica vẽ đồ thị hệ các phương trình tuyến tính ở trên ta có: In[1]:= e1[p_] := 8 p + 2. In[3]:= Plot[{e1[p]. ta xét chiến lược chơi hỗn hợp p = (p. e2[p_] := 10 .8 p. e2[p].1}]. 21 ). 6). e3[p_] := 8 . Thiết lập các mức lợi ích kỳ vọng NC1 thu được tương ứng với mỗi chiến lược thuần ở trên của NC2. 2). Đây là các điểm mà khi nối lại.3 3 Có thể dễ dàng chứng minh tính duy nhất của chiến lược tối ưu maximin từ hệ phương trình. cũng như quan sát qua đồ thị. e4[p]}. 1). Khi p = 1/2 cũng là lúc toàn bộ hệ này thu được giá trị maximin là 6.4 ⃝ c 2011 .

2. . 12). ta sẽ loại được q4 do q4 = 0. q4 )| ≤ q1 ≤ . . .DHVP Research 5 Đó là với NC1. q2 đều không thể lớn hơn 1/2. q3 . dạng tổng quát của chiến lược minimax cho NC2 là q = (q1 . e2 = (2. đây là cách xử lý để đưa đầu bài về dạng dễ giải quyết hơn. Tập hợp các chiến lược tối ưu cho NC2 có dạng: 1 1 {q = (q1 . ta lại thu được một hệ: 6 = 10q1 + 2q2 + 4q3 6 = 2q1 + 10q2 + 8q3 1 = q1 + q2 + q3 Hệ này rút gọn xuống thành: 1 = 3q1 − q2 1 = q1 + q2 + q3 Từ đây có thể thấy rằng. 10). Thực ra. q3 . điều này mâu thuẫn với nhận thức lúc trước rằng NC2 chỉ trả nhiều nhất là bằng v(A). i = 1. khi q1 = 1/3 → q2 = 0. . Cả q1 .Lý Thuyết Trò Chơi . 2). q4 = 0}. vì nếu như q4 > 0 thì chi phí của việc chơi chiến lược thuần e4 là 21 · 1 + 12 · 12 > 6. q4 ). 8). Lợi dụng việc xác định được v(A) = 6. q2 = 3q1 − 1. và q1 = 1/2 → q2 = 1/2. q2 . Ràng buộc với q3 không xác định. ta lại có tình . e4 = (1. còn các chiến lược tối ưu minimax của NC2 sẽ có hình dạng ra sao? Trước tiên. Tiếp tục lợi dụng v(A) = 6 và p∗ = 1/2 đã biết. 3 2 1. e3 = (4. sau khi biết q4 = 0. q2 . do với số cột n = 2.2 Trò chơi m × 2 Giả sử ta chuyển vị ma trận 2 × 4 vừa rồi thành trò chơi 4 × 2 có dạng:   10 2  2 10  A=  4 8   1 12 Bây giờ ta viết lại dạng các chiến lược thuần ei . 4: e1 = (10.

dạng tương tự khi trước q = (q. GridLines -> Automatic] Ta nhận thấy 3 điểm đáng chú ý là các điểm tạo thành đường bao phía trên của vùng xác định bởi các đoạn thẳng của hệ phương trình trên (0. (1. nếu NC1 chơi chiến lược thuần ei . ta thiết lập hệ các lợi ích cho NC1."Player 1 Payoff"}. điểm giao nhau giữa đường 12 − 11q và 8q + 2. Trong các điểm có giá trị lớn nhất nằm trên đường bao đi qua 3 điểm này. ( 10 118 19 . điểm có trị số nhỏ nhất là ( 10 118 19 .e4[q]}. 1 − q). e2[q_]:=10-8*q.1}. 5 NC1 nhận giá trị theo dòng của ma trận A. 10). tương ứng với chiến lược q của NC2. . e2[q].Vương Quân Hoàng huống NC2 có chiến lược với PPXS đơn giản. AxesLabel -> {"q". . 4. . . 19 ).5 e1 Aq = 10q + 2(1 − q) = 8q + 2 e2 Aq = 2q + 10(1 − q) = 10 − 8q e3 Aq = 4q + 8(1 − q) = 8 − 4q e4 Aq = q + 12(1 − q) = 12 − 11q Ta xử lý sơ bộ trên đồ họa Mathematica qua một số lệnh sau: In[1]:= e1[q_]:=8*q+2. In[4]:= Plot[{e1[q]. Đây cũng là điểm cho biết chiến lược giá trị phải trả minimax tối ưu cho NC2. . In[2]:= e3[q_]:=8-4*q.e3[q]. i = 1.6 ⃝ c 2011 . 19 ). e4[q_]:=12-11*q. 4 Lưu ý: Trong bài toán A2×n thì PPXS của chiến lược ký hiệu là p.4 Tiếp theo. 12).{q.0.

7 Trong tài liệu này. p4}] Out[17]={{p1 -> 11/19. và là chiến lược maximin cho NC1 dưới đây7 In[17]:= Solve[{10 p1 + p4 == 118/19. tận dụng kết quả đã biết của q∗ và v(A) = 118 19 . do đó nếu p2 . 19 ). {p1. Dựa trên đồ thị ở trên. Trước hết. chúng ta sử dụng Mathematica cho các tính toán số để tiết kiệm thời gian. p2 . 6 Khi thay giá trị q = 10 19 vào hai phương trình 2 và 3. Cả hai giá trị này đều nhỏ hơn v(A). và tương ứng với nó là chiến lược minimax 10 9 tối ưu với NC2 là q∗ = ( 19 .2. . ta xét khái niệm. cần tìm một phép kết hợp giữa e1 và e4 sao cho chiến lược này tạo ra lợi ích không nhỏ hơn 118 19 với mọi giá trị q. p3 . ta thu được các giá trị lợi ích cho NC1 lần lượt là 11019 . 112 19 . 2*p1 + 12*p4 == 118/19}. do hai đường này nằm dưới đường bao phía trên tạo bởi e1 Aq và e4 Aq. thông qua việc loại bỏ bớt các chiến lược thuần không thích hợp. 1. p4 -> 8/19}} Rõ ràng p1 + p4 = 1 cũng thỏa mãn nốt điều kiện thứ 3. 0.DHVP Research 7 Giá trị của trò chơi là 11819 . p4 ). 19 ).Lý Thuyết Trò Chơi .6 Như vậy. p2 = p3 = 0. 0.3 Tính trội tuyệt đối Tính trội tuyệt đối (strict domination) là một kỹ thuật nhằm giúp việc phân tích nghiệm của một TC được thuận lợi hơn. p3 ̸= 0 thì chiến lược p không thỏa mãn tính chất maximin. Điều kiện này dẫn tới việc khai triển p theo hai cột của A như sau: 118 10p1 + 2 · 0 + 4 · 0 + p2 = 19 118 2p1 + 10 · 0 + 8 · 0 + 12p2 = 19 p1 + 0 + 0 + p4 = 1 Ta tìm được cặp nghiệm duy nhất. Cuối cùng. ta kết luận chiến lược tối ưu maximin .và cũng là duy nhất .cho NC1 có 11 8 dạng ( 19 . Tiếp theo là nhiệm vụ xác định chiến lược tối ưu cho NC1 p = (p1 .

.5. {0. . NC1 chơi theo hàng. e3 lép vế. 0). Để làm rõ khái niệm này. . chúng ta xét minh họa bằng ví dụ số như sau. Gọi A là một trò chơi ma trận kích thước m×n và i là một dòng (hàng) của A. Một chiến lược thuần ei gọi là lép vế (strictly dominated) nếu như tồn tại một chiến lược hỗn hợp p = (p1 . pm ) ∈ ∆m với pi = 0 sao cho pAej > ei Aej .3/4. 5. {{6. và dòng 3 có thể loại khỏi trò chơi. . pA > e3 A bất kể PPXS q ra sao. 12 12 3 2 1 Thực hiện phép nhân này trong môi trường Mathematica In[2]:= {{7/12. với mọi j = 1. 17/6}} ta thu được kết quả p · A = (3 12 . Giả sử PPXS tạo thành chiến lược 7 5 hỗn hợp của NC1 là p = ( 12 .{0. ta thực hiện phép tính:   ( ) 6 0 2 p·A= 7 5 0  0 5 4 . 34 .0. . 4}. In[7]:= B. Tương tự như vậy.Vương Quân Hoàng Tính trội tuyệt đối. 2 12 1 . Cho ma trận A3×3 :   6 0 2 A =  0 5 4 . 2. . . . .Transpose[q] Out[7]= {{3/2}. 1}} Out[2]= {{7/2. .{15/4}} . gọi j là một cột của A. Rõ ràng. 25/12. {3. với mọi i = 1. m. 0. 12 . Tính B · q qua Mathematica. 0). 0}} . 3 2 1 Theo quy ước.2}. ta thu được: In[5]:= B={{6. .8 ⃝ c 2011 . . 5/12.0}}. . qn ) ∈ ∆n với qj = 0 sao cho: ei Aq < ei Aej .4}}. ta thu được: ( ) 6 0 2 B= . . 2 56 ). Theo định nghĩa. In[6]:= q={{1/4. . . Chiến lược thuần ej gọi là lép vế nếu tồn tại q = (q1 . 2}. n. 0 5 4 Bây giờ ta xét tiếp chiến lược q = ( 14 .

11 ).vì cả hai điểm yên ngựa đều nằm trên hàng thứ 2. 1 − q).Lý Thuyết Trò Chơi .p] Out[24]= {{p \[Rule] 5/11}} 5 6 Như vậy p = ( 11 . thông qua xét q = (q. NC2 sẽ không sử dụng phương án chơi cột 3. và ma trận tiếp tục được rút gọn còn: ( ) 6 0 C= . và ta sẽ thu được kết quả hoàn toàn trùng khớp (do tính chất 5 6 đối xứng qua trục chuyển vị: q = ( 11 . 0 5 Ở dạng ma trận rút gọn đơn giản này. do chắc chắn NC1 sẽ chơi hàng 2 . việc giải bài toán trở nên thuận lợi và nhanh chóng. và giải ra được: In[24]:= Solve[6*p==5-5*p. tương ứng v(A) = 30 11 . 0 0 −1 2 Giải bài toán trò chơi ma trận A. Cho trò chơi ma trận (3 × 4) như sau:   2 −1 0 2 A= 2 0 0 3 . PPXS thể hiện chiến lược maximin của . Xét PPXS p = (p. a23 . 1. ta xét tiếp chiến lược cho NC2. ma trận A tồn tại hai điểm yên ngựa là a22 . do đó sẽ không có chiến lược thuần cho NC1 đảm bảo tính chất maximin.DHVP Research 9 So sánh ta thấy ngay rằng ( 3 ) ( ) 2 B·q= 2 < = B · e3 3 12 4 Từ đây suy ra. Xét một cách đơn giản. Theo định nghĩa của điểm yên ngựa. Giá trị trò chơi v(A) = a22 = a23 = 0. Hiển nhiên giá trị trò chơi 30 vẫn là v(A) = 11 . do đó.3 Một số ví dụ và tính chất trò chơi ma trận Ví dụ 4. 11 ). Tương tự vậy. 1 − q) với từng chiến lược thuần của NC2. Bản thân trò chơi C không có điểm yên ngựa. ta dễ dàng thu được pAe1 = 6p và pAe2 = 5 − 5p.

q. 1) và (4. Giải ma trận   1 3 1 A =  2 2 0 . Cho A là một trò chơi ma trận m × n.10 ⃝ c 2011 . l) là hai điểm yên ngựa. 0 3 2 Ví dụ 6. với mọi giá trị 0 ≤ q ≤ 1. 0). 1 − q. ta có thể giả sử chiến lược minimax qua PPXS dạng q = (0. 1 − q. 0. p có tính duy nhất. Giải ma trận   1 0 2 A =  4 1 1 . thì aij = akl .Vương Quân Hoàng NC1 là chiến lược thuần. 3 1 3 Tính chất 9. Như vậy q = (0. 4) là các điểm yên ngựa. 1 và giá trị minimax NC2 lựa chọn đương nhiên là 0 tương ứng với trường hợp NC1 lựa chọn phương án maximin. Giải ma trận   16 12 2  2 6 16  A=  8 8 6 .  0 7 8 Ví dụ 7. 1. . Hãy chỉ ra rằng bất kỳ 2 điểm yên ngựa nào cũng có cùng giá trị. A có ít nhất 2 điểm yên ngựa khác nữa. 1 2 0 5 Ví dụ 8. 0) là nghiệm cuối cùng. Còn xét NC2. và có dạng p = (0. Tính chất 10. q. Chứng minh rằng. j) và (k. Ví dụ 5. nghĩa là nếu (i. 0). Hiển nhiên. Nếu A(4×4) là trò chơi trong đó (1. Triển khai ta có được so sánh 3 giá trị 1. Giải ma trận ( ) 3 1 4 0 A= .

Hãy tìm một ví dụ trò chơi ma trận kích thước (4 × 4) có chính xác 3 điểm yên ngựa.DHVP Research 11 Ví dụ 11. .Lý Thuyết Trò Chơi .

Vương Quân Hoàng .12 ⃝ c 2011 .

Lý Thuyết Trò Chơi .DHVP Research 13 VQG ghi chú: .

Vương Quân Hoàng .14 ⃝ c 2011 .

Lý Thuyết Trò Chơi .DHVP Research 15 VQG ghi chú: .

LÝ THUYẾT TRÒ CHƠI .

Hai ví dụ rất điển hình của lớp trò chơi này là hai bài toán rất quen tên với giới nghiên cứu: “Nghịch lý người tù. 2. thường được ghép vào làm một . ta có thể xem xét một lớp nhiều trò chơi hơn. 2 Tương ứng với những thuật ngữ ngày nay không xa lạ với các giáo trình là “Prisoners’ dilemma” và “Battle of sexes.1 Cơ sở lý thuyết Dữ liệu cho bài toán trò chơi 2-người với số chiến lược thuần hữu hạn được trình bày qua 2 ma trận.” 17 . trong đó mỗi NC lựa chọn phương án từ nhiều chiến lược thuần hoặc là “ngẫu nhiên hóa”1 các chiến lược này. Tính trội tuyệt đối đã giới thiệu khi trước cũng được đưa ra ứng dụng nhằm hỗ trợ việc tìm ra các cân bằng Nash.ta sẽ gọi là ma trận cặp (bimatrix). bổ sung thêm các ý tưởng được gọt giũa sắc bén và gia tăng thêm công cụ. 1 Từ khái niệm randomize mà chúng ta sẽ làm rõ nội dung sau. Hỗ trợ cho chương này là Chương 12.”2 Mô hình và ý niệm về “cân bằng Nash” có vai trò quan trọng để dẫn dắt việc tìm kiếm các điểm cân bằng Nash trong số các chiến lược thuần của các bài toán.” và “Xung đột giới. có tính chất sát thực hơn với các ứng dụng kinh tế xã hội.Chương 2 Trò Chơi 2-Người Hữu Hạn Chương thứ hai này đề cập tới trò chơi 2-người. Bài toán ta sẽ xét ở đây không yêu cầu trò chơi phải có tổng bằng 0. Do nới lỏng yêu cầu này.

Ý niệm của phản ứng tối ưu trước hết có thể diễn đạt bằng lời như sau. Cách hiểu trò chơi (A. và cần giải thích ý nghĩa của chúng trong trò chơi. B) nếu pAq ≥ p′ Aq với mọi p ∈ ∆m . thì cân bằng Nash cũng được gọi là cân bằng Nash thuần. là các phần tử tương ứng của A và B. Chiến lược p của NC1 gọi là phản ứng tối ưu với chiến lược q của NC2 trong một trò chơi bimatrix kích thước m × n . thì NC1 nhận lợi ích aij . Một trò chơi ma trận cặp (bimatrix) là một cặp ma trận có kích thước m × n ký hiệu (A. và NC2 nhận bij . Về sau này. luôn tồn tại một cân bằng Nash. q được gọi là phản ứng tối ưu với chiến lược p của NC1 nếu như pBq ≥ pBq′ với mọi q ∈ ∆n . tập hợp chiến lược và lợi ích kỳ vọng vẫn giống như bài toán ma trận ở chương trước. ký hiệu p∗ . Nếu như NC1 (theo quy ước là chơi theo hàng. Một cặp chiến lược. chiến lược của mỗi NC chính là phản hối tối ưu với người kia. cột. mà ngược lại là vì có nhiều điểm cân bằng Nash. Khái niệm phản ứng tối ưu. Bây giờ chúng ta xét tới định nghĩa của cân bằng Nash. hoặc dòng) mà chơi hàng (i) và NC2 chơi cột j. nhiều người chơi. B) như sau. B).Vương Quân Hoàng Định nghĩa. Cân bằng Nash. thông qua hiểu biết hay phỏng đoán cá nhân về các chiến lược mà đối thủ có thể lựa chọn. cân bằng Nash sẽ còn được mở rộng cho nhiều loại trò chơi khác nữa. Nói rộng ra. Cân bằng Nash chúng ta vừa nêu là cho trò chơi đang xét: 2-người. và q∗ là phản hồi tối ưu của NC2 khi NC1 theo lựa chọn chiến lược p∗ .ký hiệu là (A. bản thân ý niệm cân bằng Nash được phát triển không phải để tìm một điểm cân bằng Nash. nhiều tập chiến lược và nhiều loại hàm lợi ích tương ứng. Tương tự như trên. Bản . q∗ . Giáo sư John Nash chứng minh rằng. Nếu p∗ và q∗ là các chiến lược thuần. Một NC có tính toán hợp lý và vị lợi sẽ luôn tìm cách tối đa hóa lợi ích kỳ vọng của mình. với trò chơi đang xét của chúng ta. hữu hạn dòng. được gọi là cân bằng Nash nếu như p∗ là phản hồi tối ưu của NC1 khi NC2 chơi chiến lược q∗ . Vấn đề trung tâm cần lưu ý với các bài toán thuộc lớp trò chơi bất hợp tác (noncooperative game ) là khái niệm phản ứng tối ưu (best reply).18 ⃝ c 2011 . Các ý niệm và ký hiệu với chiến lược thuần và hỗn hợp. Kết luận đáng chú về mặt lý thuyết là tại điểm cân bằng Nash.

Một lưu ý bên lề nữa là. Tiếp theo. việc tìm tất cả các điểm cân bằng Nash của một trò chơi bimatrix bất kỳ là việc rất khó.1 Cân bằng Nash thuần Để tìm cân bằng Nash trong trò chơi bimatrix.về cách mà NC1 sẽ chơi.DHVP Research 19 thân việc lựa chọn và thu hẹp lựa chọn trong nhiều điểm cân bằng Nash của một trò chơi là một câu hỏi rất khoa học và phù hợp với tư duy logic của người giải trò chơi. Ta cần minh họa trò chơi dưới đây để làm rõ ý tưởng vừa nêu. bản thân định nghĩa về cân bằng Nash không hề đề cập đến khả năng trên thực tế liệu người chơi có lựa chọn cân bằng Nash để thực hiện ý đồ hay không. Đây là khái niệm do von Neumann và Morgenstern đưa ra. hoặc sự phỏng đoán. xác định các phản hồi tối ưu của NC1 với từng chiến lược thuần của NC2. 2 × 3. 3 × 2 bằng cách sử dụng đồ thị.2 Tìm điểm cân bằng Nash Trước tiên. 2.2. trước hết ta có thể xác định các phản hồi tối ưu thuần của NC2 với từng chiến lược thuần của NC1. Liệu chiến lược hỗn hợp có nghĩa là NC trên thực tế ngẫu nhiên hóa khi chơi trò chơi không? Ở đây.tức là NC2 . ý nghĩa của một chiến lược hỗn hợp là gì. của NC kia .Lý Thuyết Trò Chơi . Các cặp chiến lược đồng thời là phản hối tối ưu của cả hai NC trong trò chơi chính là các điểm cân bằng Nash của trò chơi. Chúng ta cũng còn một câu hỏi nữa từ ý niệm cân bằng Nash cần trả lời. Với các ma trận kích thước lớn hơn nữa. Đó là. ta cần biết rằng. Rồi tiếp theo. Như vậy.biểu thị niềm tin. trước mắt ta tạm thời giới hạn nhiệm vụ lại trong phạm vi tìm tất cả các cân bằng Nash thuần của trò chơi bimatrix. một cách hiểu phổ biến và khác đi là: một chiến lược hỗn hợp của một NC . chiến lược hỗn hợp là hiện thân của tính bất trắc chiến lược của những NC trong một trò chơi. 2. Chúng ta sẽ còn đề cập lại những câu hỏi và khái niệm vừa nêu ở các phần sau. .chẳng hạn NC1 . việc giải bằng đồ thị rất khó khăn và hầu như không thể. chúng ta xem xét việc tìm cân bằng Nash cho các bimatrix kích thước 2 × 2. Ở đây.

0. 0)). 0 1. 3 1. W X Y Z   T 2. tất cả các cặp chiến lược có dạng (T. Giả sử trong bài toán trên. 4  B 2∗ . 0. 2 M  0. 0). 5∗ 4. W ). Theo cách viết dạng mở rộng ((1. 0. (T.20 ⃝ c 2011 . (0. (0. chúng ta cũng có thể chỉ ra rằng. 3 Cũng có thể sử dụng cách ký hiệu khác đi mà vẫn biểu thị cùng ý nghĩa các điểm cân bằng Nash của trò chơi đang xét. NC2 lựa chọn chiến lược hỗn hợp (q. ((1. 0. Lựa chọn này dẫn tới lợi ích của NC2 trong trường hợp này có giá trị 2q+0+0+2(1−q) = 2. ta cũng phải xét đến các phản ứng tối ưu có tính hỗn hợp đối với một chiến lược thuần của đối thủ để kết luận xem liệu chiến lược thuần này có khả năng xảy ra ở điểm cân bằng Nash hay không. 0. 0 Tiếp theo. 1.3 Xét một cách chặt chẽ. 0 1. W X Y Z   T 2∗ . 0 3 điểm cân bằng Nash ta tìm được từ các chiến lược thuần là (T. e3 . chiến lược hỗn hợp này cũng không đem lại giá trị lớn hơn trường hợp chiến lược thuần (1. 0 hay (0. (1. 0 2. 4 3. 0. 4 3∗ . 4  B 2. 0. 1 3 ∗ . e4 . 0. 0. 1 3. 0. 1. Bên cạnh đó. có thể nhận thấy bất kỳ một phản ứng tối ưu hỗn hợp nào cũng là một tổ hợp các phản ứng tối ưu thuần. 0. 1 − q) để đáp ứng chiến lược thuần T của NC1. 1∗ 5∗ . ta xác định phản hồi tối ưu của NC2. 0. Theo cách viết cặp chiến lược thuần: e1 . 0 1. 1 1. . 1∗ 5. 0. 4  B 2. 1 3. 1∗ 1. 1 − q)) với 0 ≤ q ≤ 1 đều là các điểm cân bằng Nash của trò chơi bimatrix này. 5∗ 4. 3 1. 2∗ M  0. e1 . Z) và (B.Vương Quân Hoàng W X Y Z   T 2. 0)). 4 3. 0). (q. 1∗ 1. Tuy vậy. 5 4. e3 . Tuy vậy. 0 2. do đó không thể tạo ra lợi ích lớn hơn. 2∗ 4∗ . 2∗ 4. ((0. 0. 1). 3 1. 0. 0 Trước tiên. 2∗  M 0. e1 . Y ). 1). 2 4. 0 2. ta xác định phản hồi tối ưu của NC1. 0)). 1 5.

gọi tập toàn bộ các phản ứng tối ưu của NC1 đối với PPXS (q. Trong trường hợp q = 34 . . Ta biết rằng. Cụ thể. trong khi giá trị còn lại tối thiểu bằng.Lý Thuyết Trò Chơi . Xét tổng quát chiến lược hỗn hợp q. 1 − q). Như vậy.4 Còn trường hợp khi lợi ích chơi T và B bằng nhau: 2q + 0(1 − q) = q + 3(1 − q).2 Trò chơi bimatrix 2 × 2 Phần tiếp theo này đề cập cách sử dụng đồ thị để tìm nghiệm của trò chơi ma trận cặp (bimatrix) kích thước 2 × 2. của NC1 và NC2. 2. Giả sử. 2 0. 2. 1 − p) của NC1 đều là phản ứng tối ưu. thì mọi chiến lược hỗn hợp dạng p = (p. Tương tự. 3. 2. thì 4 Tức là đổi chiều dấu: 2q + 0(1 − q) < q + 3(1 − q).2.DHVP Research 21 Ta cũng lưu ý rằng điểm cân bằng Nash không bắt buộc mang lại giá trị lợi ích tối ưu Pareto. 3 Hai điểm cân bằng Nash trong các chiến lược thuần của trò chơi (A. B) = B 1. chỉ xảy ra khi q = 43 . 1 − p. 2 và 3. chọn T khi q > 34 . với trò chơi cho dưới đây. một cặp lợi ích được gọi là tối ưu Pareto nếu như không còn cặp giá trị nào khác lớn hơn. 1 − q) của NC2 là β1 (q. 0 (tức là T )? Rõ ràng là chỉ khi lợi ích kỳ vọng thu được từ chiến lược thuần T lớn hơn khi lựa chọn B hay bất kỳ tổ hợp nào giữa T và B qua PPXS p. ta tóm tắt lại lô-gic vừa trình bày của các phản ứng tối ưu. hoặc ít nhất có một trong hai giá trị hơn. khi q < 34 . bằng chứng dễ thấy là cặp 4. 1 (A. ta đi tìm các phản ứng tối ưu của cả hai NC. 1 3. B) này là 2. Khi nào phản ứng tối ưu của NC1 là 1. 4 có giá trị lớn hơn hẳn các cặp cân bằng Nash 2. 1 − q của NC2. NC1 chọn T khi: 2q + 0(1 − q) > q + 3(1 − q) Như vậy. Để tìm tất cả cân bằng Nash cho trò chơi này. L R ( ) T 2. 3. thì B là phản ứng tối ưu. Bây giờ.

1) và (2. 14 )). lại gọi tập các phản ứng tối ưu của NC2 đối với (p. 1)) và (( 32 . 0). ((0. Như vậy.22 ⃝ c 2011 . 1 − p) = {(q.2)  {(0. các cân bằng Nash là các điểm giao nhau giữa 2 đường đồ thị cho bởi các hàm (2.1). 13 ). 1)} nếu 0 < q < 34 Theo cùng lô-gic. β2 ở hình trên) là: ((1.Vương Quân Hoàng   {(1. và q∗ ∈ β2 (p∗ ).được biểu thị qua đồ thị (2. 0)). 1 − q) = {(p. thì ta cũng có:   {(1. . Hình 2. các điểm cân bằng Nash là sự kết hợp chiến lược p∗ . (1.2) . 1 − p) là β2 (p. 1 − p)|0 < p ≤ 1} nếu q = 34 (2. 1)} nếu 0 < q < 23 Theo cách hiểu của trò chơi. q∗ sao cho p∗ ∈ β1 (q∗ ). 1). 1 − p). (0.1)  {(0. 1 − q)|0 < q ≤ 1} nếu p = 23 (2. 0)} nếu 34 < q ≤ 1 β1 (q.1: Sơ đồ β2 1 Nash-E 2/3 q Nash-E Nash-E 0 p 2/3 1 3 điểm cân bằng Nash của trò chơi (qua 3 chấm tròn là nơi giao cắt các đường β1 . 0)} nếu 23 < p ≤ 1 β2 (p. ( 34 .

. . . . . khi so với chiến lược X.3) B 0. . 0. . . . chiến lược thuần ej theo cột j là lép vế nếu tồn tại một PPXS q = (q1 . 4 1. . n. 2 0. . Về tính trội tuyệt đối. sao cho ei Bq > ei Bej với từng giá trị i = 1. pm ) sao cho: pAej > ei Aej với từng giá trị j = 1. thì kích thước ma trận sẽ giảm dần. . . trong PPXS q nào đó thích hợp thì rõ ràng q2 = 0. . Bây giờ ra ‘dò thử’ chiến lược thuần X. 1 2. cái nào sau không ảnh hưởng tới kết quả cuối cùng. . B) với bài toán (2.3). Ta áp dụng cách hiểu về tính trội tuyệt đối cho trường hợp ma trận bimatrix (A. . Tiếp theo. Hơn nữa. với trò chơi (A. 5  (2. . . cho tới khi không còn tồn tại chiến lược thuần lép vế nào nữa. Rút gọn kính thước ma trận trò chơi bimatrix: Cho trò chơi ma trận bimatrix sau: W X Y Z   T 2. 0 4. Lý thuyết đã chứng minh rõ rằng. . ta nhận thấy nếu xét các chiến lược thuần theo dòng (NC1). không có điểm cân bằng Nash nào vô tình bị loại bỏ. qi = 0. thì không có chiến lược thuần nào bị lép vế hoàn toàn so với một chiến lược thuần khác đang có. hay theo cột (NC2). 4 3. thứ tự của việc loại bỏ các chiến lược lép vế cũng không quan trọng. . . Hãy xem thử tồn tại một PPXS q nào đó có tính trội tuyệt đối so với X hay không. qn ). Tương tự. m. khi này ta xét thử PPXS (q. chúng ta cùng xem xét một ví dụ ứng dụng để minh họa. 0 M  1.3 Tính trội tuyệt đối Về cơ bản. nếu như tồn tại một chiến lược hỗn hợp p = (p1 .2. 0 3. Ta sẽ phải thiết lập các biểu thức ei Bq rồi đặt bất đẳng thức với dấu lớn hơn khi so với từng phần tử tương ứng theo dòng của véc-tơ cột thứ 2 của B. 1 3. để tìm các điểm cân bằng Nash nhiều khi ta có thể rút gọn kích thước của trò chơi. . khi làm theo cách loại trừ để giảm kích thước ma trận như vừa nêu. và cũng không có cân bằng Nash nào nảy sinh ra do giảm kích thước. Lại giả sử tiếp trường hợp q4 = 0. .Lý Thuyết Trò Chơi . . 3 Đầu tiên. B)m×n một chiến lược thuần i e tương ứng với hàng i gọi là lép vế.DHVP Research 23 2. 0). thông qua loại bỏ các chiến lược lép vế. Khi loại bỏ các chiến lược thuần bị lép vế tìm được theo dòng hay cột. 2 2. 1 2. cái nào trước. . Như vậy. 1 − q. pi = 0. điều này như ta đã biết nghĩa là q2 = 1.

ta thử tìm kiếm khả năng chiến lược thuần M (dòng 2) lép vế .24 ⃝ c 2011 . Ta sẽ rút gọn trò chơi thành (2. nên ta mới đề xuất dạng phân phối ở đó xác suất dòng thứ 2 được gán bằng 0 trong p = (p. 0. khi đã quan sát trò chơi rút gọn (2.Vương Quân Hoàng 2q + 1 · 0 + 2(1 − q) + 0 · 0 > 1 0q + 1 · 0 + 4(1 − q) + 5 · 0 > 1 4q + 1 · 0 + 0(1 − q) + 3 · 0 > 1 Rút gọn lại ta có được 2 > 1 3 > 4q 4q > 1 Bất đẳng thức đầu tiên đương nhiên đúng. 0. 4 1.4): W Y Z   T 2. 0 3. ta áp dụng điều kiện của tính trội tuyệt đối cho (A) để thiết lập các bất đẳng thức cho điều kiện của p phù hợp. Nếu tồn tại p như vậy. 3 chính là (1. tất cả các bất đẳng thức xuất phát đều có vế trái lớn hơn vế phải. 2 0. đây chính là dòng M của (A). nên cần so sánh với e2 Aej với j lần lượt nhận các giá trị 1. 5  (2. 1 − p) trong điều kiện p hợp lý nào đó.4) B 0. 2.5 Bây giờ. Do NC1 (tương ứng (A)) chơi theo hàng. và X có thể được loại khỏi trò chơi. Như vậy. X lép vế khi q trong khoảng giá trị vừa tính ra. 0 2. Sau đó. 4 3. 1). 2 2. 6 Để thỏa mãn tính trội tuyệt đối. .trước một chiến lược hỗn hợp p = (p. 2. ta tính pAej và so sánh từng hàng lần lượt với các phần tử của M nói trên. 3 Bây giờ. để thu được hệ bất đẳng thức:6 5 Do M lép vế.4). 1 − p). 0 M  1. Điều kiện để 2 bất đẳng thức còn lại được thỏa mãn dễ thấy là 14 < q < 34 . ta khẳng định rằng M lép vế trước chiến lược hỗn hợp p như giả định.nghĩa là p2 = 0 .

và NC1 không còn phải đắn đo.6). 1 − p) đều mang lại cùng lợi ích.4) trở thành (2.6) B 0.5) ta nhận thấy trong (B) xuất hiện W có tính trội tuyệt đối so với Z do đó.DHVP Research 25 p · 2 + 0 · 1 + (1 − p) · 0 > 1 p · 2 + 0 · 2 + (1 − p) · 3 > 2 p · 0 + 0 · 1 + (1 − p) · 3 > 1 Rút gọn hệ này. khi q = 1/3 thì mọi chiến lược p = (p. Ngược lại.5) B 0. 4 3. NC1 sẽ lựa chọn T khi: 2q + 2(1 − q) > 0q + 3(1 − q) Nghĩa là q < 1/3. . Từ 2 bất đẳng thức còn lại. 4 3. ta thu được điều kiện cho p là: 12 < p < 23 . 3 Ngay lập tức. và ta đã rút gọn về trò chơi () kích thước 2 × 2: W Y ( ) T 2. 0 3.5). Điều này khẳng định việc loại bỏ M khỏi chiến lược thuần của NC1. ta tiếp tục loại chiến lược Z của (2. 0 Bây giờ ta chuyển qua giải trò chơi (2. 1 − q). 2 2. 2 (2. và tiếp tục rút gọn (2. ở trò chơi mới (2. thì lựa chọn B khi: 2q + 2(1 − q) < 0q + 3(1 − q).5) W Y Z ( ) T 2. Như vậy. 2 0. 2 2. 0 (2. Giả sử NC2 có PPXS tổng quát dạng (q.Lý Thuyết Trò Chơi . ta dễ dàng có được: 2p > 1 3−p > 0 2 > 3p Bất đẳng thức thứ 2 của hệ này tầm thường.

Tương tự. thì mỗi công ty hưởng lợi 2 tỷ. 1 − q) của NC2 là β1 (q. 1 − q)|0 ≤ q ≤ 1} nếu p = 1 Ta có sơ đồ hình học biểu diễn hai hàm phản ứng tối ưu của NC1.3 Một số ứng dụng và bài toán minh họa Ứng dụng 3: Hai công ty nhựa Hồ Tây và Trúc Bạch trực tiếp cạnh tranh trên địa bàn Hà Nội cân nhắc việc sản xuất sử dụng ghế ngoài trời và trong nhà. mọi (q. 0))| 31 ≤ q ≤ 1}.26 ⃝ c 2011 .(2. ta tóm tắt lại: { {(1. Rõ ràng. 1 − q))| 13 ≤ q ≤ 1}. Như vậy. Trường hợp p > 1 không xảy ra. 1 − q) đều là phản ứng tối ưu. tập hợp các chiến lược hỗn hợp là tập các PPXS sau: {((1. 1 − q) = {(p. 0. thì   {(1.Vương Quân Hoàng nghĩa là q < 1/3. chọn W khi: 2p + 4(1 − p) > 2p + 0(1 − p). (q. thì lợi ích đem lại cho . Từ đây. 0). 2. Sơ đồ này cho biết vô số cân bằng Nash là phản ứng tối ưu có thể tìm thấy do toàn bộ đoạn thẳng nối hai điểm tròn (trên sơ đồ) đều thỏa mãn các tính chất mong muốn. ta suy ra tập các cân bằng Nash ở dạng của trò chơi bimatrix ban đầu (nghĩa là khi chưa rút gọn) sẽ có dạng: {((1. 1)} nếu 13 < q ≤ 1 Bây giờ ta lại xét phản ứng tối ưu của NC2 với PPXS chiến lược thuần NC1 có dạng (p.8) {(q. (q. Nếu cả hai cùng sản xuất ghế trong nhà. Tóm tắt lại. 1 − p)|0 ≤ p ≤ 1} nếu q = 13 (2. 1 − p) = (2.7)  {(0. Khi p = 1. 1 − q). Cả hai mặt hàng ghế thúc đẩy doanh số hàng hóa nhựa. 1 − q. gọi tập toàn bộ các phản ứng tối ưu của NC1 đối với PPXS (q. 0). 0. NC2 trong H. tức là p < 1. Nếu cả 2 công ty cùng sản xuất ghế ngoài trời. do đó không nằm trong tập phản ứng tối ưu của NC2.2) dưới đây. 0)} nếu 0 ≤ p < 1 β2 (p. 0)} nếu 0 ≤ q < 13 β1 (q. 1 − p).

Ứng dụng 5: Trò chơi tiền lương. thì mỗi công ty thiệt hại 1 tỷ. Nếu hai công ty lựa chọn loại ghế khác nhau. và -1. . Giải tập hợp toàn bộ các điểm cân bằng Nash của trò chơi. Yêu cầu: Dựng mô hình trò chơi bimatrix. Nông dân cũng có thể thất bại trong việc cố gắng mở rộng cơ hội việc làm và thu nhập.2: Sơ đồ β2 1 Nash-E q 1/3 Nash-E 0 p 1 mỗi công ty là 1 tỷ. Xác định tập các điểm cân bằng Nash thể hiện chiến lược phản ứng tối ưu giữa CP và ND. Hai công ty đều có một vị trí tuyển dụng mới.1 nếu CP không hỗ trợ và ND vẫn nỗ lực tự tìm kiếm việc làm. Giả sử nông dân chỉ tìm kiếm cơ hội tăng việc làm và thu nhập từ công việc nếu không có nguồn phúc lợi do chính phủ hỗ trợ.DHVP Research 27 Hình 2. Lợi ích tương ứng cho CP và ND là 3. Một chính phủ có kế hoạch hỗ trợ tài chính cho nông dân tăng việc làm và thu nhập. Ứng dụng 4: Trò chơi phúc lợi. 2) đưa ra mức lương wi .Lý Thuyết Trò Chơi .2 nếu CP cấp phúc lợi và ND cố gắng tìm kiếm thêm cơ hội việc làm.3 nếu CP hỗ trợ và ND không nỗ lực. và 0. Giả sử công ty i (i = 1. Yêu cầu: Dựng trò chơi bimatrix cho ứng dụng này. trong đó 0 < 12 w1 < w2 < 2w1 và w1 ̸= w2 .0 trong trường hợp CP không hỗ trợ và ND cũng không cố gắng vận động. là -1.

2 8. 8 4. Xác định các tổ hợp giữa hai chiến lược thuần W. người đó sẽ có việc làm. Nếu chỉ có một công nhân nộp đơn cho một công ty. Yêu cầu: Xây dựng trò chơi tuyển dụng này. 6 2. Tìm các điểm cân bằng Nash của trò chơi bimatrix (2. Hai công nhân đồng thời phải quyết định nộp đơn cho công ty 1 hay công ty 2. 4 1. Mỗi phần trăm thị phần giành được đem lại lợi ích tài chính là 1. Mỗi đảng muốn có càng nhiều ứng viên trong ủy ban càng tốt. Một ủy ban được lập ra gồm có 3 người.9) B 4. và quảng cáo giúp tăng thị phần 20%. sẽ rút thăm những người có cùng số phiếu (xác suất phân phối đều). Trong số 6 ứng viên. Hai đảng tranh cử mỗi đảng có 3 phiếu bầu có thể sử dụng phân phối có 3 ứng viên. Ứng dụng 7: Trò chơi phiếu bầu. Bài tập 8: Loại bỏ chiến lược lép vế. 5 (2. mỗi người có thể nộp đơn cho duy nhất chỉ một công ty. Tìm các điểm cân bằng của trò chơi này. Không cần quảng cáo thì mỗi công ty chiếm thị phần là 50%. trong khi công ty kia thì mất đi tương ứng. Ứng dụng 6: Trò chơi quảng cáo.28 ⃝ c 2011 . Bài tập 9: Cân bằng Nash. Chi phí quảng cáo là 10. công ty sẽ thuê một trong hai người một cách ngẫu nhiên (với xác suất 1/2) và người kia sẽ thất nghiệp (lợi ích bằng 0). Tổng quy mô thị trường của sản phẩm này không đổi. 6 4. Hai công ty bán cùng loại sản phẩm. nếu cả hai cùng nộp đơn cho một công ty.Vương Quân Hoàng Giả sử có 2 công nhân. Cho ma trận bimatrix sau W X Y Z ( ) T 6. 4 Tìm các chiến lược thuần của NC1 và NC2 bị lép vế so với một chiến lược thuần khác. 5 6. Hai công ty quyết định việc tham gia quảng cáo đồng thời và độc lập với nhau. Y của NC2 có tính trội tuyệt đối so với X. 3 ứng viên nào nhận được nhiều phiếu bầu nhất sẽ được lựa chọn vào ủy ban. .10). trong trường hợp số phiếu bằng nhau.

Trò chơi (2.11) có chứa tham số a ∈ R. 0 1. 1 .DHVP Research 29 W X Y   T 2. 0 2. Xác định các cân bằng Nash cho mọi giá trị có thể của tham số a. 1 4. L R ( ) T 1. 3 0.10) B 1. 0 (2. 3  (2.11) B 0. 4 1. 2 2. 2 3. 2 M  3. 1 a.Lý Thuyết Trò Chơi . 0 Bài tập 10: Trò chơi tham số.

Vương Quân Hoàng .30 ⃝ c 2011 .

DHVP Research 31 VQG ghi chú: .Lý Thuyết Trò Chơi .

32 ⃝ c 2011 .Vương Quân Hoàng .

DHVP Research 33 VQG ghi chú: .Lý Thuyết Trò Chơi .

LÝ THUYẾT TRÒ CHƠI .

Trong sơ đồ này. Nếu rơi vào nhánh U .1 Bài toán dạng mở Trò chơi dạng mở được đặc tả bằng một cây trò chơi. hoặc là nút kết thúc (đưa ra giá trị lợi ích). Nút trên cùng gọi là gốc xuất phát của cây trò chơi. nút gốc là một nút quyết định của NC1. NC2 nhận thức được 3 lựa chọn này của NC1. với xác suất 1/3 thì sẽ đến lượt NC2 quyết 35 . chứa các nút và nhánh. B. D.move of nature hoặc chance move). Nếu NC1 đi bước C. và là xuất phát điểm của trò chơi. C. 3.Chương 3 Dạng Mở Rộng Hữu Hạn Trong phần này. nút quyết định. perfection trò chơi con. Mỗi nút là một nút quyết định hoặc nút may rủi. thì sẽ xuất hiện một bước may rủi. Cặp 2 nút được nối bằng gạch đứt nét này được gọi là tập thông tin của NC2. Sự kiện đầu tiên của NC2 trong sơ đồ là đường gạch đứt quảng nối giữa hai nút quyết định bên hai nhánh trái. Với tập thông tin này. NC2 biết rằng tiến hành trò chơi sẽ dẫn tới một trong hai nút quyết định khi NC2 đến lượt. Mỗi nhánh tương ứng với một hành động của NC hoặc là lựa chọn có tính may rủi (còn gọi là bước chuyển động vô thức . chia 2 nhánh U. Khi này. Từ đây. ta xét loại bài toán được gọi là dạng mở rộng và một loạt các khái niệm liên quan như thời điểm quyết định. tuy nhiên lại không thể đoán biết là bước chơi trước của NC1 sẽ dẫn tới điểm nào. cân bằng Bayes hoàn hảo. quy nạp lùi. bước chuyển động. r. NC1 sẽ lựa chọn trong 3 bước chuyển động A. NC2 có 2 quyết định l.

Những trò chơi chứa tập thông tin không tầm thường gọi là trò chơi với thông tin không hoàn hảo.2 Dạng chiến lược Trong trò chơi dạng mở (3. với xác suất 3/4 sẽ đến lượt NC1.là một kế hoạch hoàn chỉnh để chơi toàn bộ trò chơi. Ngược lại là trò chơi hoàn hảo. b.1: Sơ đồ trò chơi dạng mở NC1 C May rủi A B 1/4 3/4 U D NC2 NC1 NC2 l r l r L R a b 4 7 6 4 0 8 8 0 1 2 3 0 0 4 8 8 định. b. Còn lại các nút ở hàng cuối là các nút kết thúc. Trong trò chơi ví dụ ở sơ đồ cây phía trên. C.36 ⃝ c 2011 .theo cách hiểu của LTTC . Các nút kết thúc cũng gọi là tập thông tin. R.Vương Quân Hoàng Hình 3. 3. và NC2 là l. a. Chiến lược . ngược lại ở nhánh D. Hành động là một bước chơi có thể xảy ra của một NC trước một tập thông tin.1) là “Chuyển động đầu tiên là bước C.1) đang xét. sau đó nếu bước may . R. Ví dụ về một chiến lược của NC trong sơ đồ trò chơi (3. B. L. Tập thông tin chứa (nối) ít nhất 2 nút quyết định gọi là tập thông tin không tầm thường. r. có hai khái niệm khác biệt cần lưu ý là hành động và chiến lược. Ta cũng lưu ý các ký hiệu nhánh L. NC1 có các hành động A. và NC2 dòng dưới. chỉ chứa các tập thông tin tầm thường thu được qua các nút đơn nhất. nhưng có tính chất tầm thường. Các cặp giá trị tại mỗi nút kết thúc cho biết lợi ích của NC1 ở hàng trên. a.

Lý Thuyết Trò Chơi . nhưng không thể xảy ra trong sơ đồ trò chơi. NC2 biết chính xác mình cần đi bước nào sau bước A hoặc B của NC1. có thể viết lại khái niệm chiến lược chơi là một dãy các hành động.2). LTTC vẫn chấp nhận đây là một phương án hoàn chỉnh các nước chơi để hoàn tất một trò chơi.2). tồn tại chiến lược chơi: “Chơi l nếu NC1 chơi A hoặc B.2: Sơ đồ cây .” Với lô-gic bình thường. chỉ có . sau đó nếu kết cục may rủi là D thì chơi nước b. trong kế hoạch chơi trọn vẹn này. Trường hợp này khác hẳn so với khi ta bỏ gạch nối ở nhánh bên trái của sơ đồ (3. với NC1 có thể có chiến lược sau: “Chơi bước A.1).DHVP Research 37 rủi cho kết cục D thì thực thi a. Cuối cùng. do đó phản ánh suy nghĩ này vào cách chơi của mình. vì nếu đã chơi bước A rồi. thì NC1 không còn cơ hội để chơi nước b nữa. NC2 không thể biết NC1 có lựa chọn A hay B hay không.” Điều đáng chú ý là khái niệm chiến lược còn chấp nhận cả kế hoạch hoàn chỉnh. Hình 3. ví dụ như. và trò chơi có thông tin hoàn hảo. Đối với NC2. và chơi L nếu NC2 hành động C và bước may rủi cho kết cục U.” Rõ ràng. như trong sơ đồ (3.thông tin hoàn hảo NC1 C May rủi A B 1/4 3/4 U D NC2 NC2 NC2 NC1 l r l r L R a b 4 7 6 4 0 8 8 0 1 2 3 0 0 4 8 8 Với trường hợp cho ở hình (3. kế hoạch chơi này trông rất kỳ quặc. trong đó tại mỗi tập thông tin của mỗi người chơi. Tuy vậy.

1). rR}. nếu U xuất hiện. và 6 × 8 cặp lợi ích cho H. Xét thử cặp chiến lược (Cb. với xác suất 1/4. rL) trong trò chơi ở lược đồ H. NC2 có tập chiến lược {lL. 3∗ 4. Cb}. 1 4. (3. NC1 khai cuộc với hành động C. lR. do xuất hiện 2 tập thông tin.(3. rlL. Trong cả 2 lược đồ trên. 2∗ 7∗ . Theo cách làm này. rlR. trò chơi có thể được rút gọn trò chơi đi một bước kiểu ma trận cặp. tập chiến lược của NC2 có dạng {llL. với sơ đồ H. 6 2. 0). Tương ứng với H. 0 4.3 6. thì NC2 đi nước b. 0  . 2∗  Ba   6 ∗ . 7∗ 0. 1 7 ∗ .(3. Một khi đã xác định được các tổ hợp chiến lược của người chơi trong trò chơi (trong các ví dụ đang xét là cặp chiến lược.1). 6 8∗ . rrR}. Như vậy. có thể đi tới tính toán giá trị lợi ích theo hành trình của sơ đồ cây. thì chiến lược của NC1 đều có 2 hành động. Trước tiên. NC1 có 3 hành động có thể thực hiện ở tập thông tin 1.1) và (3.2). thông tin không hoàn hảo. lrL. cặp lợi ích sinh ra là (0. 2∗ 7∗ . Ca. 0 4. 1 4. và 2 ở nút tập thứ 2. 3∗ 4.(3. ngược lại nếu là D. Theo đó. Bb. 6 2. rL. tập chiến lược của NC1 có thể được ký hiệu là {Aa. Ba.1).38 ⃝ c 2011 . rrL. Nhưng trong H. Lợi ích kỳ vọng cho NC1 là 0. NC2 đánh L.2). và NC2 là 6. với NC2 thì tập chiến lược khác biệt lớn giữa hai sơ đồ (3. 2∗ Ab   4. 0   Ca  6. Lý do quan trọng bậc nhất của việc xét tập chiến lược là vì qua đó. 1 7 ∗ .Vương Quân Hoàng duy nhất một bước đi (hành động) được thực hiện. 7∗  Cb 0. 3∗ 6. 6 8 ∗ . llR. lrR.2). 8). Khi này. và 3/4 là (0.(3. 7∗ . có thể tính ra 6 × 4 cặp lợi ích cho trò chơi H. sau đó là bước may rủi. trong đó có 1 tập là tầm thường. Tuy nhiên. 7∗ 6.1) Bb  ∗ ∗ 6 .1). Ab.(3.(3. Các cặp lợi ích này được viết lại thành dạng một ma trận cặp (bimatrix) lợi ích (kỳ vọng) như sau. ta thu được: lL lR rL rR   Aa 4.

ta có cặp chiến lược (Ca. 6 Cb 0. và biến đổi chúng thành các nút kết thúc với các giá trị lợi ích được tính ra từ bước chơi tối ưu. 7∗ 0. trò chơi dạng mở với thông tin hoàn hảo. Có thể tiến hành phân tích trò chơi này dựa trên nguyên lý quy nạp lùi. 0  6. có thể hình dung trực giác kết luận này. có tên gọi điểm cân bằng quy nạp lùi. trong trò chơi rút gọn.3 6. 6 (3. 1 7∗ . 3∗ 4. . 6 8∗ . Ở sơ đồ rút gọn ở H. 6 8∗ . 1 4. Điều này đúng với các cân bằng Nash thuần. 1 4. 1 7∗ . 2∗ 7∗ . 6 2. 0 6. 1 4. ta nhận thấy trò chơi thông tin hoàn hảo có ít nhất một cân bằng Nash trong các chiến lược thuần. 1 4. 3∗ 6. 2∗  7. lựa chọn tối ưu của NC1 là C. chiến lược của NC2 đã được xác định hoàn toàn là lựa chọn rlR.2) trở thành dạng H.3).3).2). 7∗ 0. Do A mang lại lợi ích 7. NC1 chọn bước đi đem lại lợi ích tối đa. 2∗ 7. 7). 3. 3∗ 4. Từ đó suy ra. 2∗ 7.(3. 2∗  Ba   6 ∗ . và B mang lại 6. 2∗ Ab   4. nhưng việc chứng minh điều này không đơn giản.3 Quy nạp lùi và hoàn chỉnh trò chơi con Xét trò chơi ở sơ đồ H. NC1 chọn a trong tập thông tin bên dưới.Lý Thuyết Trò Chơi . Đây là một trong 10 điểm cân bằng Nash của trò chơi dạng chiến lược (3. Ta bắt đầu với các nút ngay trước nút kết thúc.(3. 7∗ 0. 0 4. 2∗ 7.2) Trò chơi ma trận cặp như trên được gọi là dạng chiến lược của trò chơi dạng mở. và nói chung cũng đúng với các cân bằng Nash trong chiến lược hỗn hợp. 1 4. 3∗ 4. 2∗ 7∗ . 3∗ 4. 0 4. 6 2. 0  Bb  ∗ ∗ 6 . 6 8 ∗ .2).(3.(3. thì có: llL llR lrL lrR rlL rlRrrR rrL   Aa 4. 7∗ 6. Các nhà toán học đã chứng minh rằng áp dụng nguyên lý quy nạp lùi luôn tìm ra một cân bằng Nash (thuần).DHVP Research 39 và tương ứng H. 7∗ 6. 1 4. Quy nạp lùi như trên giúp thu gọn trò chơi H. rlR) với cặp lợi ích tương ứng (8. 3∗ 4. và điểm này có thể tìm ra bằng phương pháp quy nạp lùi. 0 6. 7∗ 2. Tiếp theo. C có lợi ích kỳ vọng 8 ( 14 + 34 ) × 8. Bên cạnh đó. 7∗  8∗ . 0  6.(3. 3∗ 4. 7∗ 6∗ . 0   Ca 6∗ . 6 2.2). Định nghĩa cân bằng Nash cho trò chơi dạng mở cũng đồng thời là cân bằng Nash của dạng chiến lược.

rrR): chúng đều dẫn đến quỹ đạo (Ca.6) 4 trò chơi bắt đầu từ 4 nút ngay trước nút kết thúc.(3. Ta quan sát thấy tồn tại nhiều điểm cân bằng Nash khác trong trò chơi tạo ra cùng kết cục hay quỹ tích. mà sau đó không bị kết nối với cây trò chơi qua một tập thông tin nào sau đó. chẳng hạn như (Ca. trong trường hợp này là (Ca.(3. bao gồm: (1) toàn bộ trò chơi.. (3. (Ca. rlR)) . sự kết hợp đó buộc phải sinh ra một điểm cân bằng Nash ở tất cả các trò chơi con. Cách tổng quát để tiến hành quy nạp lùi là sử dụng ý tưởng về trò chơi con (subgame perfection). Kết cục quy nạp lùi ám chỉ các bước triển khai chơi thực sự. R).3: Sơ đồ cây rút gọn .40 ⃝ c 2011 .Vương Quân Hoàng Hình 3.trong trò chơi đang xét là (Ca. trong đó NC2 có ít nhất một quyết định dưới mức tối ưu.” Trò chơi trong sơ đồ H. (2) trò chơi bắt đầu từ bước may rủi.5. với định nghĩa trò chơi con như sau: “Một trò chơi con là một phần bất kỳ của một cây trò chơi. Định nghĩa của điểm cân bằng hoàn hảo của trò chơi con như sau: Đó là một kết hợp chiến lược dẫn đến cân bằng Nash trong tất cả các trò chơi con.2).thông tin hoàn hảo NC1 C May rủi A B 1/4 3/4 U D 7 6 8 8 2 3 4 8 Cũng cần phân biệt giữa điểm cân bằng quy nạp lùi . Xét H.2) có tới 6 trò chơi con khác nhau.và kết cục quy nạp lùi. nguyên lý quy nạp lùi giúp đảm bảo rằng mọi người chơi luôn đi bước tối ưu. nhưng lại khác nhau ở phần bên trái của cây trò chơi. Do toàn bộ trò chơi cũng chính là trò chơi con. nên một điểm cân bằng như thế bắt buộc phải là cân . khởi đầu ở một nút quyết định đơn của một NC hoặc là một nút may rủi. Như vậy. R). và (Ca. hay nói một cách tương đương khác là một quỹ tích cân bằng. để một kết hợp chiến lược trở thành cân bằng hoàn hảo của trò chơi con. llR). thậm chí ngay cả ở những phần của cây trò chơi không thực sự được chơi trên thực tế.4. lrR).

(3. và a. các điểm cân bằng quy nạp lùi và cân bằng hoàn hảo trò chơi trùng nhau. Trong trò chơi thông tin hoàn hảo.3). rlR). ràng buộc của phép hoàn chỉnh trò chơi con là. Trong số 6 điểm cân bằng Nash của trò chơi ma trận cặp (??). lR) và (Ca. và NC này không thể quyết định giữa l và r. NC lựa chọn tối ưu trong cả trò chơi con khởi đầu từ nút may rủi. ta lưu ý tới thực tế là trò chơi này chỉ có 2 trò chơi con duy nhất là (1) toàn bộ. (2. phép hoàn chỉnh trò chơi con có khả năng ứng dụng tổng quát hơn so với của nguyên lý quy nạp lùi thông qua trò chơi cho ở cây H. . rlR). Tổng kết lại. Vì thế.4).1 Trong ví dụ này. Tiếp theo. rR). NC1 đi bước a. Cân bằng hoàn hảo đó cũng phải dẫn đến một điểm cân bằng trong cả 4 trò chơi con một người chơi trước nút kết thúc. điểm cân bằng hoàn hảo trò chơi con duy nhất của trò chơi này là (Ca. và suy ra. Trong trò chơi này.Lý Thuyết Trò Chơi . ta tìm (các) cân bằng Nash và điểm duy nhất thỏa mãn là (Ca. vì lý do NC2 không biết liệu NC1 sẽ đi bước A hay B trong khi NC2 phải lựa chọn một bước đi trong tập thông tin phía nhánh trái. Suy ra rằng. khi này tồn tại: (1) toàn bộ trò chơi. Còn với phép hoàn chỉnh trò chơi con. Do đó. NC2 đi R. l.(3. R. Như vậy. một điểm cân bằng hoàn hảo của trò chơi con bắt buộc luôn phải là một cân bằng Nash. và sự kết hợp chiến lược này là điểm cân bằng Nash của toàn bộ trò chơi. 1 Có thể coi các điểm cân bằng Nash cho trò chơi 1-NC là NC đó sẽ chọn bước đi có lợi tối ưu.1). Về trò chơi con. và đây cũng là điểm cân bằng quy nạp lùi. và (4) trò chơi con khởi đầu từ bước may rủi. nguyên lý quy nạp lùi không áp dụng được cho nhánh bên trái của cây trò chơi. cả 10 cân bằng Nash của sơ đồ đang xét đều là ứng viên cho điểm cân bằng hoàn hảo đó. Trò chơi này có 3 người chơi và phép quy nạp lùi không áp dụng được. nó có nghĩa là các bước đi r. Và đây là hai điểm cân bằng hoàn hảo trò chơi con của H. tìm hiểu trò chơi với thông tin không hoàn hảo trong sơ đồ H. Có thể thấy rằng.1).(3. và (2) trò chơi khởi đầu từ nút quyết định của NC2.DHVP Research 41 bằng Nash của toàn bộ trò chơi. chỉ còn hai điểm cân bằng phù hợp là (Ca.3) 2 trò chơi con theo kết cục U và D. Trò chơi (2) diễn ra giữa NC2 và NC3 có dạng chiến lược (3.

4: Sơ đồ cây 3-NC NC1 A B NC2 2 L R 0 0 NC3 l r l r 3 0 0 1 3 0 0 1 1 0 0 3 l r ( ) L 3. 0 .Vương Quân Hoàng Hình 3.3) R 0. 3 Trò chơi dạng chiến lược (3. 1∗ 0. trong khi đánh B thu về 2. r). NC1 rõ ràng chơi B vì đánh nước A chỉ thu về lợi ích là 1. 0∗ . Do đó. l) và (B. L.42 ⃝ c 2011 . Dạng chiến lược của trò chơi được thể hiện trong các ma trận lợi ích khi NC1 đánh A và B. (3. hai cân bằng trò chơi con hoàn hảo là (A. 0∗ . 0. l) và (R. 1 0. 0∗ 1:A 1:B R 0. r). 0∗ . l r l r ( ) ( ) L 3∗ . thu về lợi ích bằng 3. 3∗ . 0∗ . nếu chơi theo chiến lược cân bằng đầu tiên. R. ta có thể tính trước tiên các cân bằng Nash của toàn bộ trò chơi. thì NC1 chơi A. Nếu theo điểm cân bằng thứ hai trong trò chơi con. 0∗ 2∗ . 0 1. 0∗ 2∗ . 0∗ . Như vậy. 0 1. 0 L 2. 1∗ .3) có 2 điểm cân bằng Nash thuần là (L. 0. 3∗ R 2∗ . Một cách khác là.

Điều kiện thứ nhất được gọi là tính nhất quán Bayes về niềm tin. Trò chơi này có một tập thông tin không tầm thường. Trong trò chơi đang xét. và điều kiện thứ hai là tính hợp lý tuần tự. Mức kỳ vọng từ lựa chọn l của NC2 là α · 1 + (1α) · 3 = 32α và từ hành vi chọn r là α · 2 + (1α) · 0 = 2α. (B.DHVP Research 43 Trong các ma trận này. Điều kiện đầu phát biểu rằng niềm tin cần thỏa mãn cập nhật thông tin dạng Bayes đối với các chiến lược bất kỳ khi nào có thể. r). Cân bằng hoàn hảo trò chơi con là cân bằng thực hiện được phối hợp chiến lược chơi (L. l) hoặc (R. Nếu tập thông tin tầm thường (tức là chỉ là một nút đơn) thì niềm tin đó cũng tầm thường. R. (B. Trước tập thông tin không tầm thường.Lý Thuyết Trò Chơi . L. r).1). vì vậy niềm tin sẽ gán xác suất 1 cho mỗi nút tương ứng. Xét một tập thông tin của một NC trong trò chơi dạng cây. Điều kiện sau yêu cầu NC cần hành động nhằm tối đa hóa lợi ích kỳ vọng dựa trên niềm tin của mình. r cho kỳ vọng tối đa nếu α ≥ 3/4. Ta xét ví dụ minh họa (3. L. NC2 cần lựa chọn hành vi tối đa hóa lợi ích kỳ vọng. l). l). hoặc trên các hành động đáp ứng trước tập thông tin đó. lựa chọn C luôn tối ưu. điều này có nghĩa là khi α ≤ 3/4. R. Vì thế. với NC1. tức là gán xác suất bằng 1 cho nút quyết định duy nhất đó. 3. với yếu tố . phản ứng tối ưu được đánh dấu sao. chiến lược chọn l là tối ưu nếu như 32α ≥ 2α. Giả sử niềm tin của NC2 trước tập thông tin này được cho bởi xác suất α cho nút bên trái và 1 − α cho nút bên phải. Và. Các cân bằng Nash thuần thu được là (A. và 2) Những NC lựa chọn một cách tối ưu với sự tồn tại của các niềm tin đã biết. và (B. NC1 phải so sánh lợi ích từ cả hai ma trận để cân nhắc. r) dẫn ta tới kết luận về hai điểm cân bằng nói ở trên.4 Cân bằng Bayes hoàn hảo Các khái niệm cân bằng Nash và cân bằng trò chơi con hoàn hảo còn được tiếp tục phát triển tinh tế hơn qua khái niệm cân bằng Bayes hoàn hảo. Một niềm tin của NC đó chỉ đơn giản hiểu là một PPXS qua các nút của tập thông tin. Mọi tập thông tin khác đều tầm thường. Một cân bằng Bayes hoàn hảo của một trò chơi dạng cây (mở rộng) là một sự kết hợp các chiến lược và một quy ước về niềm tin sao cho hai điều sau đây được thỏa mãn: 1) Niềm tin nhất quán với các chiến lược đang xét. Áp dụng điều kiện (2) ngụ ý NC2 cần lựa chọn R và NC1 chọn a tại các tập thông tin tương ứng.

cân bằng Bayes hoàn hảo duy nhất có được là (Ca. bất kể trị số niềm tin của NC2 trước tập thông tin không tầm thường ở mức nào. Ta có thể tìm các cân bằng trò chơi con hoàn hảo và các xác suất gán niềm tin tương ứng. và vì thế cũng là một cân bằng Nash. Nếu sử dụng quy nạp lùi. Ta lại lưu ý rằng đây chính là hai cân bằng trò chơi con hoàn hảo. ta thay cặp lợi ích (4. rõ ràng không khả năng NC2 gán niềm tin để r là lựa chọn tối ưu. lL). NC2 rõ ràng chọn L. Điều này có nghĩa là ta có thể chọn bất kỳ giá trị α nào mong muốn. và (Ca. Đồng thời. Kiểm tra nhanh ta có các cân bằng trò chơi con hoàn hảo vẫn là (Ca. Đương nhiên NC2 tỉnh táo sẽ không bao giờ lựa chọn r tại tập thông tin không tầm thường vì l đem lại lợi ích lớn hơn. (Ca.Vương Quân Hoàng kết cục R. trong khi l đem lại 3. Điều kiện của cân bằng Bayes có ảnh hưởng mạnh hơn phép hoàn chỉnh trò chơi con. Bây giờ. 1 − α) đã giả sử. ta cũng nhận thấy một cân bằng Bayes hoàn hảo luôn đóng vai trò cân bằng trò chơi con hoàn hảo. bằng cách gán các xác suất cho các nút của một tập thông tin. lL). nhưng phép hoàn chỉnh trò chơi con lại không loại bỏ khả năng này. chỉ có điều bây giờ được hỗ trợ bởi ý niệm về mức độ tin tưởng của NC2 vào tập thông tin không tầm thường của mình. đó là (Ca. chúng ta cũng tạo điều kiện để áp dụng nguyên lý quy nạp lùi. ta có thể áp dụng quy nạp lùi. rL) khi α ≥ 3/4. giả sử NC3 chọn l. điều kiện (1) của cân bằng Bayes hoàn hảo dẫn đến kết cục α = 1: điều này có . và vì thế xác suất [α] không được hiệu chỉnh Bayes. r đem lại lợi ích 2α. Theo cách khác. 3). Với PPXS (α. bắt đầu với NC3.5). về cơ bản ta có 2 cân bằng Bayes hoàn hảo. Một cách chặt chẽ thì. Suy ra. Thực ra. rL). a cho trước: C cho lợi ích 8 trong khi đó A. Từ đó suy ra. l là lựa chọn tối ưu nếu α ≥ 3/4. Khi này. Nếu NC3 lựa chọn l thì lợi ích (kỳ vọng) là α. bằng việc tính xác suất có điều kiện khả năng chạm tới nút trái hay phải của tập thông tin NC2. B chỉ mang lại tối đa là 7. Tuy thế. Một minh họa khác là trò chơi 3-NC trong sơ đồ (3. Còn nếu NC3 chọn r. mà 0 ≤ α ≤ 1 Vậy thì. 1) sau A và l bằng cặp (4. Nhưng nếu NC1 không lựa chọn A hoặc B thì điều kiện (1) không đặt ra ràng buộc nào với niềm tin [α] của NC2. Giả sử vẫn xét trò chơi này. Có hai cách tìm các cân bằng Bayes hoàn hảo của sơ đồ chơi này. nhưng tương ứng với giá trị α đó NC2 cần lựa chọn tối ưu. tức là.44 ⃝ c 2011 . thì lợi ích là 33α. nếu NC1 chọn C thì tập thông tin không tầm thường của NC2 không có khả năng sử dụng. lL) ứng với niềm tin α ≤ 3/4. và r tối ưu nếu α ≤ 3/4.

và như vậy ta có được cân bằng Bayes hoàn hảo (B. L. khi này 1 = α > 3/4. r) với niềm tin α = 0.DHVP Research 45 Hình 3. NC1 cần chơi B. Rốt cục. R. do đó NC3 chọn r trên thực tế. NC2 về logic sẽ chơi R. l) với niềm tin α = 1. chúng ta có một điểm cân bằng Bayes hoàn hảo (A. điều này dẫn đến α = 0. Nếu NC3 chơi r.Lý Thuyết Trò Chơi . NC1 lựa chọn A. Lúc này. thu được lợi ích 3 (thay vì chơi B để đạt 2). Rõ ràng. nên l chính là hành vi tối ưu của NC3.5: Sơ đồ 3-NC cân bằng Bayes NC1 A B NC2 2 L R 0 0 [α] [1 − α] NC3 l r l r 3 0 0 1 3 0 0 1 1 0 0 3 nghĩa là NC3 trên thực tế phải tin rằng NC2 đã lựa chọn L. Như vậy. .

46 ⃝ c 2011 .Vương Quân Hoàng .

DHVP Research 47 VQG ghi chú: .Lý Thuyết Trò Chơi .

Vương Quân Hoàng .48 ⃝ c 2011 .

DHVP Research 49 VQG ghi chú: .Lý Thuyết Trò Chơi .

50 ⃝ c 2011 .Vương Quân Hoàng .

Lý Thuyết Trò Chơi .DHVP Research 51 VQG ghi chú: .

LÝ THUYẾT TRÒ CHƠI .

Chương 4

Trò Chơi Hữu Hạn Thông
Tin Không Đầy Đủ

Trong trò chơi với thông tin không đầy đủ, những NC có thể thiếu thông
tin về hành động của NC khác. Mọi trò chơi 1-nước, chuyển động đồng
thời đều thuộc nhóm thông tin không hoàn hảo. Cũng có khả năng NC
của trò chơi loại này không có thông tin về một số tính chất của trò chơi
hay đặc tính của NC. Chẳng hạn, một NC có thể không biết hết thông
tin về các hành vi có thể của những NC khác, hoặc về lợi ích có thể đạt
được của NC khác.
Ở đây, ta xây dựng mô hình trò chơi thông tin không đầy đủ bằng cách
giả định rằng mỗi NC thuộc một số nhóm đặc trưng khác nhau (type)..
Đặc trưng của NC bao quát tất cả các thông tin liên quan (đặc biệt là
hành động và lợi ích) về NC đó. Hơn nữa, cũng giả sử rằng mỗi NC biết
rõ mình thuộc đặc trưng nào, và có một PPXS trên các đặc trưng của
những NC khác. Thường thì các PPXS này được giả định có tính nhất
quán, theo nghĩa rằng, các PPXS này được đúc kết từ một loại PPXS đã
biết, có tính chung nhất, trên tất cả các tổ hợp đặc trưng của NC trong
trò chơi.
Ta vẫn chỉ xét trò chơi có số NC hữu hạn, số nhóm đặc trưng hữu
hạn, và số chiến lược chơi hữu hạn. Các trò chơi này có thể là trò chơi
tĩnh (đồng thời, 1-bước) hoặc động (dạng mở rộng/cây). Một cân bằng
Nash trong bối cảnh này cũng còn được gọi là cân bằng Bayes.

53

54 ⃝
c 2011 - Vương Quân Hoàng

4.1 Nhóm đặc trưng
Ta xét một tập hợp người chơi, N = {1, 2, ..., n}. Với mỗi NC i ∈ N , tồn
tại một tập hữu hạn các đặc trưng Ti mà NC đó có thể sở hữu. Nếu ta ký
hiệu T = T1 × T2 × · · · × Tn cho tập hợp T = {(t1 , t2 , . . . , tn )|t1 ∈ T1 , t2 ∈
T2 , . . . , tn ∈ T n},1 thì một trò chơi thông tin không đầy đủ quy định một
trò chơi với mọi tổ hợp có thể t = (t1 , t2 , . . . , tn ) ∈ T . Ta giả định rằng
mỗi NC i biết rõ đặc trưng ti của mình, và với đặc trưng ti đó sẽ gán
các xác suất p(t1 , . . . , ti−1 , ti+1 , . . . , tn |ti ) cho tất cả các tổ hợp đặc trưng
t1 ∈ T1 , . . . , ti−1 ∈ Ti−1 , ti+1 ∈ Ti+1 , . . . , tn ∈ Tn của những NC khác
Thông thường, các xác suất nói trên được tính ra từ một phân phối
xác suất chung p trên T , trong đó p(t) là xác suất mà tổ hợp đặc trưng là
t. Hơn nữa, giả định mỗi NC i, ngoài đặc trưng ti của mình, còn nhận
thức rõ về PPXS p. Vì thế, nếu NC i có đặc trưng ti , thì NC này có thể
tính được xác suất mà loại tổ hợp đặc trưng của những NC khác là véc-tơ
(t1 , . . . , ti−1 , ti+1 , . . . , tn ). Xác suất này bằng xác suất có điều kiện

p(t1 , . . . , ti−1 , ti , ti+1 , . . . , tn )
p(t1 , . . . , ti−1 , ti+1 , . . . , tn |ti ) = ∑ ′
p(t1 , . . . , t′i−1 , ti , t′i+1 , . . . , t′n )

trong đó, tổng ở mẫu được tính ra từ tất cả các đặc trưng có thể của
những NC khác, tức là trên mọi khả năng t′1 ∈ T1 , . . . , t′i−1 ∈ Ti−1 , t′i+1 ∈
Ti+1 , . . . , t′n ∈ Tn . Do đó, tổng ở mẫu này chính là xác suất để NC i có
đặc trưng ti .
Một NC trong trò chơi thông tin không đầy đủ có thể hành động phụ
thuộc vào đặc trưng cá nhân của riêng mình, nhưng không phụ thuộc
vào đặc trưng của những NC khác. Tuy nhiên, vì NC này biết được các
xác suất của các đặc trưng của NC khác, nên có thể tính toán được lợi
ích kỳ vọng của từng bước chơi.

4.2 Trò chơi tĩnh, thông tin không đầy đủ
Ví dụ được đưa ra dưới đây giúp minh họa trò chơi tĩnh thông tin không
đầy đủ, với những khái niệm chúng ta vừa cung cấp ở trên.
1
Tức là tập hợp của tất cả các tổ hợp các đặc trưng có thể tồn tại trong trò chơi.

Lý Thuyết Trò Chơi - DHVP Research 55

Xung đột sở thích giới tính: Tình huống xảy ra giữa một chàng
trai và một cô gái, muốn hẹn gặp nhau, hoặc xem một trận bóng đá,
hoặc dự một buổi diễn ba-lê. Hai người đều không nhớ về quyết định đi
đâu trong lần hẹn. Họ ở khác chỗ nhau và phải tự quyết định đi đâu; dĩ
nhiên giả sử không có phương tiện thông tin để liên lạc. Mục tiêu chính
là phải gặp được nhau. Chàng trai thích bóng đá hơn, ngược lại cô gái
thích ba-lê hơn.2
Trong bài toán này, NC1 không biết liệu NC2 (cô gái) muốn hò hẹn
với anh ta hay không, nghĩa là không thể chắc chắn bản thân mình muốn
lựa chọn Yes hay No. Mô hình được viết lại cho tính bất trắc chiến lược
này như sau.

S B S B
( ) ( )
S 2, 1 0, 0 S 2, 0 0, 2
Y : Y : (4.1)
B 0, 0 1, 2 B 0, 1 1, 0

trong đó, S là đi xem đá bóng (viết tắt chữ Soccer) và B là ba-lê. Chàng
trai là người chơi theo hàng (NC1) và cô gái theo cột (NC2). Tình huống
cần hợp tác này liên quan trực tiếp tới sự tổ hợp các lựa chọn cá nhân,
và khái niệm cân bằng Nash.3
NC1 gán xác suất bằng 1/2 cho mỗi trò chơi con Y, N . NC2 cũng biết
thông tin này. Theo cách chúng ta định nghĩa ở trên về đặc trưng thì
điều này có nghĩa là NC1 chỉ có 1 đặc trưng, biểu thị qua 1. Nhưng NC2
có 2 đặc trưng là Y và N . Hai tổ hợp đặc trưng của trò chơi là (1, y) và
(1, n), đều có xác suất xuất hiện là 1/2.
NC2 biết rõ đặc trưng của NC1 cũng như của bản thân, có nghĩa là
biết chắc trò chơi nào đang diễn ra. NC1 thì phải gán xác suất cho từng
đặc trưng của NC2, đều là 1/2. Sơ đồ dạng cây của tình huống xung đột
nói trên được cung cấp trong H.(4.1), có thể giúp giải quyết việc tìm cân
bằng Nash thuận lợi hơn.
Sơ đồ cho biết trò chơi bắt đầu ở nút May-Rủi, và đi đến lựa chọn
một trong hai ma trận cặp để chơi, với xác suất 1/2. Theo diễn đạt về
đặc trưng NC, trò chơi này lựa đặc trưng của NC2. NC2 được thông tin,
2
Peter, Hans (2008) Game theory: a multi-leveled approach. Springer Verlag,
Heidelberg, Germany.
3
Nash, John F. (1951) “Non-cooperative games.” Annals of Mathematics,
54:286–295.

56 ⃝
c 2011 - Vương Quân Hoàng

Hình 4.1: Xung đột sở thích giới tính, thông tin không đầy đủ
May-Rủi
1/2 1/2

Y N
NC2 NC2

S B B

S B NC1 S B
S B S B

2 0 0 1 2 0 0 1
1 0 0 2 0 1 2 0

nhưng NC1 thì không. NC2 có 4 chiến lược khác nhau, nhưng NC1 chỉ
có 2. Từ sơ đồ dạng chiến lược của trò chơi, có thể quan sát thấy mọi
cân bằng Nash đều có tính hoàn hảo trò chơi con, vì không có trò chơi
con nào không tầm thường. Đồng thời, mọi cân bằng Nash đều hoàn
hảo Bayes, tập thông tin không tầm thường duy nhất (của NC1) sẽ được
tận dụng cho dù NC2 có đi phương án nào, như vậy niềm tin hoàn toàn
được xác định qua chiến lược của NC2 nhờ bổ sung thông tin Bayes.
Dạng chiến lược của trò chơi cho ở H.(4.2). Trong sơ đồ, chữ cái đầu
tiên trong một chiến lược của NC2 cho biết NC2 chơi gì nếu Y xuất hiện
ở bước May-Rủi. Tương tự, chữ cái thứ 2 tương ứng với trường hợp N .
Phản ứng tối ưu được đánh dấu.

SS SB BS BB
( )
S 2∗ , 0.5 1∗ , 1.5∗ 1∗ , 0 0, 1
(4.2)
B 0, 0.5 0.5, 0 0.5, 1.5∗ 1∗ , 1∗
Từ dạng chiến lược, thấy rằng trò chơi có cân bằng Nash thuần duy
nhất là (S, SB). Trong cân bằng này, NC1 chọn S, đặc trưng Y của NC2
chọn S và đặc trưng N của NC 2 chọn B.
Điểm cân bằng này cũng còn gọi là cân bằng Bayes, tuy nhiên nó là

0 0. Do đó.1). Khi này. 0 S B S B ( ) ( ) S 2. Do vậy. NC1 lựa chọn S tại điểm cân bằng. Một phương án tìm các cân bằng Nash của trò chơi này là phác họa dạng sơ đồ cây và tính ra các dạng chiến lược tương ứng. nếu như NC1 chọn B. 2 Y : Y : (4. 1 1. Các trò chơi này tương ứng với 4 tổ hợp đặc trưng có thể của NC1 và NC2. trong tình huống này. 0 0. 0 Chúng ta có 4 trò chơi ma trận cặp trong dạng chiến lược cho bởi (4. SB) là cân bằng Nash. Giả sử rằng. 2 B 0. Trường hợp thông tin không đầy đủ từ cả hai phía Đây là một ví dụ của việc tiếp tục chỉnh sửa đầu bài của trò chơi xung đột lợi ích giới tính vừa đề cập ở trên. Mặt khác. Cách khác là kiểm tra một cách hệ thống 16 cặp chiến lược có thể.Lý Thuyết Trò Chơi .4). Cân bằng Nash thuần của một trò chơi dạng này có thể xác định mà không cần vẽ sơ đồ cây hay tính ra ma trận dạng chiến lược. 0 1. không có điểm cân bằng khi NC1 lựa chọn B.DHVP Research 57 một cân bằng Nash của một dạng trò chơi sơ đồ cây theo một quy cách phù hợp. thế nên nếu NC2 lựa chọn B thì chỉ thu được lợi ích kỳ vọng 0. không NC nào biết chắc liệu rằng NC kia có muốn gặp mình không. 0 1. 1 0. thì phản ứng tối ưu của NC2 chứa đặc trưng Y là B.5.3) và (4.4) B 0. 0 S 2.5. 2 B 0. nếu đặc trưng của cô ta là N . phản ứng tối ưu của NC2 là chơi S nếu cô gái có đặc trưng Y . và lựa chọn B. Từ đây ta cũng có PPXS của 4 tổ hợp đặc trưng này trong bảng (4. 0 S 2. S B S B ( ) ( ) S 2. 1 1. Trong trò chơi mới này. trong khi đó nếu chơi S thì lợi ích của NC2 là 1. 2 Y : Y : (4. còn đặc trưng N thì là S. . Lợi ích của NC1 là 0. 1 0. Lợi ích kỳ vọng của NC1 là 1. (S.3) B 0.

là SB và BB. với N2 của NC2.1: PPXS theo đặc trưng của NC có 2 đặc trưng t Y1 Y2 Y1 N2 N1 Y2 N1 N2 p(t) 2/6 2/6 1/6 1/6 PPXS phụ thuộc theo loại có thể tính từ bảng (4. Tính toán theo cách tương tự cho thấy NC2 có 2 phương án phản ứng tối ưu. Kết hợp lại. p(Y1 |N2 ) = 2/3. Từ đó suy ra. Nếu NC2 chọn B thì kỳ vọng là (2/3) · 0 + (1/3) · 0 = 0.58 ⃝ c 2011 . theo cùng lô-gic đã lập . trong trường hợp này. Tương tự. p(N1 |Y2 ) = 1/3. phản ứng tối ưu của đặc trưng Y2 là S. Chọn B đem lại (1/2) · 0 + (1/2) · 1 = 1/2. Như thế chơi S đem lại cho đặc trưng Y1 của NC1 một mức kỳ vọng lợi ích là (1/2) · 2 + (1/2) · 0 = 1. SB) là cân bằng Nash. Khi đó. các xác suất có điều kiện (theo loại đặc trưng) khác được tính ra kết quả từ bài toán như sau: p(N2 |Y1 ) = 1/2. Ta kết luận rằng. p(Y1 |Y2 ) = 2/3. thì chiến lược tối ưu của NC1 là SS. p(Y1 Y2 ) 2/6 p(Y2 |Y1 ) = = = 1/2 p(Y1 Y2 ) + p(Y1 N2 ) (2/6 + 2/6) Theo cách này. Tương tự.Vương Quân Hoàng Bảng 4. S vẫn là phản ứng tối ưu cả khi đặc trưng là N1 . với đặc trưng N1 thì chọn S đem lại lợi ích (1/2) · 0 + (1/2) · 2 = 1 trong khi đó chọn B đem lại 1/2. ký hiệu đầu của chiến lược lựa chọn tương ứng với đặc trưng Y và chữ đứng sau ứng với N ). Nếu NC2 chọn SB.1). theo công thức Bayes xác suất toàn phần (). Suy ra rằng. và B đem lại 2. phản ứng tối ưu của NC2 đáp ứng lại chiến lược SS của NC1 là SB. cho nên S là phản ứng tối ưu cho đặc trưng Y1 của NC1. tức là chàng trai chọn S (chữ S đứng trước) nếu đặc trưng của anh ta là Y1 và cũng S (chữ đứng sau) ngay cả khi đặc trưng là N1 . lợi ích kỳ vọng cho đặc trưng Y2 của NC2 nếu như cô ta chọn S là (2/3) · 1 + (1/3) · 1 = 1. (Trong toàn bộ biện luận này. p(Y2 |N1 ) = 1/2. p(N2 |N1 ) = 1/2. phản ứng tối ưu của NC1 trước chiến lược chơi SB của cô gái là SS. B là phản ứng tối ưu. Vì thế. chọn S cho lợi ích 0. p(N1 |N2 ) = 1/3. giả sử rằng NC1 chọn SB. Giả sử NC1 chọn chiến lược SS. Tiếp theo. (SS.

và không có phương án tối ưu SB. sau đó trò chơi kết thúc. Các điểm cân bằng này còn được gọi là cân bằng Nash có tính chất Bayes.4 Trò chơi tín hiệu (hữu hạn) khởi đầu với bước May-Rủi dẫn đến lựa chọn đặc trưng của NC1. Thứ ba. NC1 có thông tin về các loại đặc trưng của mình. (1973) “Job market signalling. Trong khi đó. phản ứng tối ưu của NC1 là BS. bằng cách bắt đầu trò chơi với nút May-Rủi. rồi mới chuyển động. nhưng đặc trưng N2 của NC2 lại hướng đến phương án B. (2) Loại đặc trưng Y1 của NC1 dẫn đến lựa chọn B. NC2 chọn BB. NC2 quan sát lựa chọn của NC1. 87: 355–374. tổ hợp này cũng không tạo thành cân bằng Nash. giả sử rằng. Suy ra. 4. BB) chính là một cân bằng Nash. Điều này chứng tỏ đây không phải là cân bằng Nash.” Quarterly Journal of Eco- nomics. Còn phương án NC2 là BB. BB không phải bộ phận của cân bằng Nash ta mong muốn. tổ hợp này không tạo thành cân bằng Nash. Cuối cùng ta lại giả sử rằng NC1 đi BB. NC2 có hai phản ứng tối ưu là BS và BB. tại đó lựa chọn loại đặc trưng của NC. Michael A. phản ứng tối ưu của NC1 là SS và không phải BS. cả 2 đặc trưng của NC2 đều có lựa chọn B tối ưu. mà trong đó những NC chuyển động tuần tự.DHVP Research 59 luận lúc trước. Mô hình bài toán này được gọi là trò chơi tín hiệu bởi lẽ chuyển động của NC1 có thể là tín hiệu nhận biết loại đặc trưng. trong khi N1 là S. Nếu NC2 chọn BS. Có thể kết luận rằng trò chơi đang xét có 2 cân bằng Nash thuần: (1) Cả hai loại đặc trưng của NC1 dẫn đến lựa chọn S. đặc trưng Y2 của NC2 cũng dẫn tới hành động S. dạng mở rộng có thể mô hình hóa các trò chơi thông tin không đầy đủ. và lúc này tổ hợp chiến lược (BS. nhưng NC2 thì không có thông tin về đặc trưng này.Lý Thuyết Trò Chơi . NC1 chọn chiến lược BS. Trường hợp. chiến lược tối ưu của NC1 là BS. Spence đã xây dựng mô hình trò chơi tín hiệu thị trường đặc trưng cho loại bài toán này. thông tin không đầy đủ. 4 Spence. chứ không phải SB.3 Trò chơi tín hiệu Dạng mở rộng của trò chơi có thể giúp nghiên cứu loại trò chơi tĩnh. . Một lớp trò chơi quan trọng này là lớp trò chơi phát tín hiệu. dẫn đến NC1 cần phản ứng lựa chọn tốt nhất SS và không phải BB. NC1 hành động trước. NC2 phản ứng tối ưu qua BS. và. Xét tổng quát hơn. GS. Như vậy.

2). ud. NC2 có tập chiến lược {uu. và ký hiệu sau là của đặc trưng t′ . NC1 có tập chiến lược {LL.5). Hình 4. Theo ngôn ngữ của chúng ta.2). uu) and (LL. có hai tổ hợp đặc trưng là (t. 2 d d Trong trò chơi này. Dạng chiến lược của trò chơi này được tính theo cách đã quen thuộc và cho ta ma trận cặp (4.Vương Quân Hoàng và nhờ đó NC2 có thể suy diễn ra thông tin nào đó về đặc trưng của NC1. 4 1/2 2. NC1 biết được kết cục của bước May-Rủi. du. LR. dd}. nhưng NC2 không có thông tin này. 0 u u [1 − α] [1 − β] 0. một phương án là tính ra được dạng chiến lược của trò chơi. RL.60 ⃝ c 2011 . trong đó ký hiệu chữ cái đầu là hành động của đặc trưng t. 6 4. 0 1/2 0. Ví dụ trò chơi tín hiệu: Ta xét sơ đồ trò chơi tín hiệu 1 trong hình (4. 2 L t′ R 4. RR}. trong đó chữ cái đầu là bước đi tương ứng với việc NC1 lựa chọn L (do đó. đến nhánh trái của tập thông tin NC2). Để phân tích trò chơi và tìm các cân bằng Nash (thuần).2: Trò chơi tín hiệu 1 2. và ký hiệu sau tương ứng hành động thực hiện nếu như NC1 lựa chọn R (do đó. Từ các phản ứng tối ưu (thuần) cho thấy trò chơi này có 2 cân bằng Nash là (RL. và cả 2 NC đều có 4 chiến lược chơi. . 2 u u [α] L t R [β] 8. đến nhánh phải của tập thông tin NC2). 2) và (t′ . 0 d d NC2 May-Rủi NC2 0. xác suất đều là 1/2. ud).

trong trò chơi này u tối ưu với mọi trị số của α). Tiếp theo. cặp chiến lược (RL. Cân bằng này gọi là cân bằng gộp (pooling equilibrium) vì nó gộp các đặc trưng của NC1 trong cùng lô-gic cân nhắc. Tiếp tục xét cân bằng (RL. hành động của NC1 không cho biết thông tin về đặc trưng của NC1. Tính toán cân bằng Bayes hoàn hảo trong dạng mở rộng: Có thể tính cân bằng Bayes hoàn hảo không cần qua dạng chiến lược bằng cách trước tiên giả định tồn tịa cân bằng khi NC1 chọn LL. 7∗ 4. Điều kiện nhất quán độ tin cậy yêu cầu rằngα = 0 và β = 1.DHVP Research 61 uu ud du dd   LL 3. 5∗ 2. β ≤ 2/3. vì thế 4(1β) ≥ 2β. ud). 2 0. lợi ích kỳ vọng của NC2 khi chọn d cần tối thiểu lớn bằng kỳ vọng khi chọn u.5) RL  4∗ . 7∗ 3∗ . uu). xét cân bằng Nash (LL. phù hợp với điều kiện về tính hợp lý tuần tự.Lý Thuyết Trò Chơi . hành vi của NC1 là tín hiệu về đặc trưng của anh/chị ta. vì những đặc trưng này dẫn đến hành động khác biệt. cân bằng này giúp bộc lộ thông tin. 1 1. 3 2. 1 1. 1 LR   2. Tại cân bằng này. xác suất phụ thuộc của hai nút quyết định ở tập thông tin phía trái của NC2 đều bằng 1/2. Nói cách khác. tập thông tin bên tay phải không có ý nghĩa (xác suất bằng 0). (LL. 4 2. ud) là cân bằng Bayes hoàn hảo với niềm tin α = 1/2 và β ≤ 2/3. đó là vì mỗi đặc trưng của NC1 đều dẫn tới phản ứng L. vì thế cả hai cân bằng này đều là cân bằng trò chơi con tầm thường. Từ đó ta thấy rằng. Do đó . Điều kiện nhất quán dẫn đến α = 1/2. 2   (4. Suy ra. Suy ra. Với niềm tin cho trước này uu là phản ứng tối ưu của NC2. Như vậy. uu) là cân bằng Bayes hoàn hảo với niềm tin α = 0 và β = 1. Nhưng các trị số xác suất tin cậy này cần thỏa mãn rằng. 1  RR 3. 0 5∗ . 5∗ 5∗ . Điểm cân bằng này được gọi là cân bằng phân chia: nó phân định hai loại đặc trưng của NC1. 1β) không bị ràng buộc bởi các điều kiện nhất quán vì ở điểm cân bằng. Niềm tin (β. 1 4. Với α = 1/2 có thể suy diễn rằng u là phản ứng tốt nhất với tập thông tin trái của NC2 (trên thực tế. Tại đây. hành động của NC2 d là tối ưu tại tập thông tin bên phải của NC2. 2∗ Ta quan sát thấy rằng trò chơi con duy nhất là toàn bộ trò chơi. 2∗ 3.

Trước chiến lược ud của NC2. hành vi tối ưu của NC2 là u nếu β ≥ 2/3. và NC2 có phương án tối ưu tại tập thông tin bên trái sau bước L là u. và là d nếu β ≤ 2/3. Thứ hai. giả sử NC1 chọn RR thì β = 1/2 và NC2 chọn d sau bước R. do vậy đây không thể là điểm cân bằng.62 ⃝ c 2011 . Với hành động uu. Nhưng nếu thế thì đặc trưng t của NC1 sẽ được cuộc thông qua hành động chọn R thay cho L. do đó đây không phải một cân bằng. uu) là cân bằng Bayes hoàn hảo (phân chia) với niềm tin α = 0. β = 1. và phản ứng tối ưu của NC2 là ud. ud) với α = 1/2 và β ≤ 2/3 là một cân bằng Bayes hoàn hảo (gộp). β = 1. thì không có đặc trưng nào của NC1 dẫn tới lựa chọn R thay cho L. Cuối cùng. thì đặc trưng t của NC1 được cuộc bằng cách chọn chơi L chứ không phải R. Nếu NC2 chọn u sau R. suy ra (RL. NC1 phản ứng tối ưu qua RL. thì đặc trưng t của NC1 sẽ được cuộc thông qua việc chọn R thay vì L. Vì thế RR không phải là cấu thành của một cân bằng. và NC2 phản ứng tối ưu qua uu. Sau bước L.Vương Quân Hoàng β = 1/2 theo điều kiện nhất quán. Còn nếu NC2 chọn d sau R. Tại tập thông tin bên phải. giả sử NC1 chọn RL thì α = 0. Trị số niềm tin của NC2 là α = 1 và β = 0. phản ứng tối ưu của NC2 là u bất kể mọi giá trị của α. Thứ ba. giả sử NC1 chọn LR tại điểm cân bằng. . Ta đã lập luận ở trên rằng (LL.

DHVP Research 63 .Lý Thuyết Trò Chơi .

64 ⃝ c 2011 .Vương Quân Hoàng VQG ghi chú: .

DHVP Research 65 .Lý Thuyết Trò Chơi .

66 ⃝ c 2011 .Vương Quân Hoàng VQG ghi chú: .

Lý Thuyết Trò Chơi .DHVP Research 67 .

Vương Quân Hoàng VQG ghi chú: .68 ⃝ c 2011 .

. cạnh tranh Bertrand. chúng ta chỉ ra rằng các phương tiện LTTC có thể được áp dụng cho rất nhiều tình huống xung đột khác nhau.. một khi đã xác định được NC. . và mặc cả tuần tự.Chương 5 Bất Hợp Tác Chúng ta vừa tìm hiểu một số dạng trò chơi bất hợp tác trong đó NC có số chiến lược hữu hạn. lợi ích liên quan. Với trò chơi thông tin không đầy đủ. chiến lược hỗn hợp với xác suất khách quan. . Sn . ý niệm cân bằng Stackelberg. 5. hoàn chỉnh trò chơi con và tìm cân bằng Bayes cũng có thể ứng dụng cho các trò chơi dạng mở rộng tổng quát. Trong một tình huống trò chơi lý thuyết. u1 . . . Các ý tưởng cơ bản của LTTC đã được đề cập có thể ứng dụng cho những trò chơi có tính tổng quát hơn rất nhiều. . đấu giá. . khái niệm đặc trưng NC và cân bằng Nash Bayes có thể áp dụng kể cả có vô số chiến lược. Các kỹ thuật xử lý như quy nạp lùi. được lần lượt đề cập. . . S1 . thì các khái niệm về phản ứng tối ưu và cân bằng Nash có thể áp dụng được. un ). chiến lược có thể. Trong chương này. trong đó: 69 . Các bài toán quan trọng với nhận thức LTTC như cạnh tranh Cournot với thông tin đầy đủ/không đầy đủ.1 Khuôn khổ tổng quát: trò chơi chiến lược Một trò chơi chiến lược n-NC là một bộ 2n + 1 số G = (N. Trước tiên một số khái niệm quan trọng đã bàn sẽ được đề cập ở mức độ tổng quát hóa cao hơn.

. . . sn ) ≥ ui (s1 . . (b) Với mọi i ∈ N . . . s′i .. Rõ ràng là một chiến lược bị lép vế sẽ không bao giờ được xuất hiện trong một cân bằng Nash. Ta cũng thấy trò chơi ma trận và ma trận cặp đã đề cập trong các phần trước là những trường hợp đặc biệt của khuôn khổ tổng quát vừa giới thiệu. nghĩa là. . Một cân bằng Nash của trò chơi G là một tổ hợp chiến lược . . . .70 ⃝ c 2011 . . . sao cho ít nhất có một trong các bất đẳng thức ở trên là chặt. . . . n}. si−1 . si+1 . . với n ∈ N . . . . s∗n ). sn ) ∈ S1 × · · · × Si−1 × Si+1 × · · · Sn . . . 5. s∗i là phản ứng tối ưu đối với (s∗1 . các khái niệm cân bằng Nash hay tính trội đã bàn khi trước cũng là các trường hợp đặc biệt. . . . sn ) ∈ S1 × · · · Si−1 × Si+1 × · · · × Sn . . . . . . . . . .ký hiệu: (s1 . sn ). . ui (s1 . si+1 . . . si . . sn ) → R chính là lợi ích của NC i. . (c) Với mọi i ∈ N . Phản ứng tối ưu của NC i đối với một tổ hợp chiến lược của những NC khác . . ta tìm hiểu mô hình nổi tiếng mang tên Cournot ở mức độ giản dị. . . si . . si . . . . . si−1 . . Chiến lược s′i ∈ Si của NC i bị lép vế tuyệt đối so với si ∈ Si nếu như ui (s1 . . . sn ) . . si+1 . s∗n ) ∈ S . sn ) với mọi (s1 . si−1 . . Tương tự. sn ) với mọi (s1 .2 Cạnh tranh số lượng Cournot Ở mục này. . . . . . . . tức là với mọi tổ hợp chiến lược của những NC khác không phải i. s′i . . chủ yếu để minh họa cho khuôn khổ tổng quát như mục tiêu đã nêu ở trên. si−1 . . . sn ) ≥ ui (s1 . ui : S = S1 × · · · × Sn → R là hàm lợi ích của NC i. . . . . si+1 .ký hiệu (s∗1 . . . si+1 . Si là tập chiến lược của NC i. . . si+1 . si−1 .sao cho mỗi NC i. . sn) ∈ S trong đó s1 ∈ S1. . sn ∈ Sn . s∗i+1 . si−1 . si−1 . .Vương Quân Hoàng (a) N = {1. . . . . là tập hợp NC trong trò chơi. . . Chiến lược s′i ∈ Si là lép vế tương đối so với si ∈ Si nếu như ui (s1 . . si−1 . .. n ≥ 1. với mọi tổ hợp chiến lược (s1. . s∗i−1 .là một chiến lược si ∈ Si sao cho: ui (s1 . . . . . si−1 . . . si+1 . . . si+1 .. si+1 . . sn ) > ui (s1 . . . . . . s′i . với mọi s′i ∈ Si . . .

New York. q2 ) for all q1 . Π2 (q1C . A (1838) Recherches sur les principes mathématiques de la théorie des richesses. Giá cả tùy thuộc vào tổng cung: cung càng cao thì giá càng giảm. Hàm phản ứng của NC1 là β1 (q2 ) tìm được nhờ giải bài toán tối đa hóa: max Π1 (q1 . trong đó { a − q1 − q2 nếu q1 + q2 ≤ a P (q1 . trong đó các chiến lược chơi là các mức cung hàng hóa ra thị trường và các hàm lợi ích là các mức lợi nhuận. Đối với trường hợp a − c < q2 ≤ a. q2 ) = 0 nếu q1 + q2 > a chính là giá thị trường của hàng hóa và c là chi phí biên. của các phản ứng tối ưu qua lại lẫn nhau. cho đạo hàm bậc nhất a − 2q1 − q2 − c (theo q1 ) bằng 0. Để tìm cân bằng này. q2C ≥ 0. ta thu được q1 = (a − c − q2 )/2. q2 ) − cqi . (c) Hàm lợi ích của NC thứ i là Πi (q1 . trước tiên ta tính các hàm phản ứng tối ưu.DHVP Research 71 5. với phần tử tiêu biểu qi . Đầu bài này dẫn đến trò chơi 2-NC. Với q2 ≤ a − c. q2C ). lợi nhuận tối ưu khi q1 = 0 vì nếu không thì lợi nhuận sẽ âm. q2C ) ≥ Π2 (q1C . Mỗi hãng cung cấp một lượng hàng này trên cùng thị trường. Cân bằng này được đặt tên là cân bằng Cournot. . q2C ). q2C ) ≥ Π1 (q1 . trong khi đó tạm coi như chi phí cố định bằng 0.Lý Thuyết Trò Chơi . tức là: Π1 (q1C .1 Ta xét trò chơi có quy cách cụ thể như sau: (a) Tập NC là N = {1. 2 có tập chiến lược tương ứng ký hiệu là Si = [0. q2 ) q1 ≥0 với từng giá trị cho trước của q2 ≥ 0. Một cân bằng Nash trong trò chơi này là cặp (q1C . 2}. thông tin đầy đủ Hai hãng sản xuất hàng hóa đồng nhất và cạnh tranh nhau về số lượng sản phẩm. với q1C . bản dịch tiếng Anh (1897) của Macmillan. q2 ≥ 0 . ∞).1 Mô hình đơn giản. Ở mức độ ít phức tạp giá phụ thuộc tuyến tính vào tổng cung. q2 ) = qi P (q1 . với mọi q1 . 1 Cournot. (b) Mỗi NC i = 1. và chi phí biên không đổi. Trên thực tế. Với q2 ≤ a cân bằng này có nghĩa là tối đa hóa hàm: q1 (a − q1 − q2 ) − cq1 = q1 (a − c − q1 − q2 ) với q1 ≥ 0. với a > c ≥ 0. q2 ≥ 0. Lợi nhuận tính bằng tổng doanh thu trừ đi tổng chi phí.2.

2)   {0} nếu a < q1 và c > 0  {[0. . kết quả thu được là: ( ) C C a−c a−c (q1 . NC1 tối đa hóa lợi nhuận −cq1 khi q1 = 0 nếu c > 0 và q1 ∈ [0. ta cũng thu được hàm phản ứng của NC2 (5.2):  1   { (a − c − q1 )} nếu q1 ≤ a − c  2 {0} nếu a − c < q1 ≤ a β2 (q1 ) = (5. Nếu q2 > a. q2 ) = 0 sẽ độc lập với lựa chọn q1 .72 ⃝ c 2011 . ∞) nếu c = 0.Vương Quân Hoàng Hình 5. 3 3 . ∞)} nếu a < q2 vàc = 0 Tương tự vậy.1: Cournot 1 q2 a−c a−c 2 qC 0 q1 a−c a−c 2 q1 + q2 ≤ a trong các trường hợp trên. q2 ) = . Tổng kết lại ta có hàm phản ứng (5.1) của NC1 dưới đây:  1   { (a − c − q2 )} nếu q2 ≤ a − c  2 {0} nếu a − c < q2 ≤ a β1 (q2 ) = (5. và như vậy. ∞)} nếu a < q1 và c = 0 Cân bằng Nash là giao điểm của hai hàm phản ứng tối ưu. thông qua giải đồng thời hệ q1 = (a − c − q2 )/2 and q2 = (a − c − q1 )/2. thì P (q1 .1)   {0} nếu a < q2 và c > 0  {[0.

·) là hàm lợi ích từ mô hình Cournot. 2}. Chúng ta không ngạc nhiên trong trò chơi khi cân bằng (q1C . ∞) × [0. nhưng hãng 1 chỉ biết cH có xác suất ϑ. q2 ) + Π2 (q1 .2 Mô hình đơn giản. Ở đây qH là số lượng được lựa chọn nếu NC2 có đặc trưng cH . ta giải quyết bài toán: max ϑ[q1 (a − c − q1 − qH )] + (1 − ϑ)[q1 (a − c − q1 − qL )]. ∞) với phần tử (qH . cả hai NC có thể đều hưởng lợi ích từ việc tối đa hóa lợi ích. Như vậy. Hãng 2 biết thông tin về chi phí. qL ). phần diện tích nằm trong vùng giao giữa hai đường cong bên dưới q C chứa các cặp chiến lược có tính Pareto- vượt trội so với cân bằng Nash. Cho q1 = q2 = (a − c)/4 đều mang lại cho mỗi NC lượng lợi nhuận (a − c)2/8. qua việc giải bài toán: max Π1 (q1 . và ít nhất vượt trội cho một trong hai NC. q2 ) được xem là tối ưu Pareto (Pareto optimal) nếu không tồn tại một cặp (q1′ . Trên hình (5. qL ) = ϑΠi (q1 . với mọi i = 1. Chi phí của hãng 1 là c và là thông tin các bên đều biết.q2≥0 Các điều kiện bậc nhất dẫn đến phương trình a − 2q1 − 2q2 − c = 0.Lý Thuyết Trò Chơi . và của NC2 là [0. qH. qH ) + (1 − ϑ)Πi (q1 . q2′ ) khác sao cho các lợi ích theo đó ít nhất ngang bằng cho cả hai NC. trong đó Πi (·. b) Tập chiến lược của NC1 là [0. và ta thay đổi một giả thiết rằng chi phí biên của hãng thứ 2 hoặc ở mức cao cH . Trò chơi tương ứng được xác lập như sau: a) Tập NC là {1. có dạng: Πi (q1 . c) Các hàm lợi ích của NC là các hàm kỳ vọng. và qL là số lượng khi đặc trưng là cL . hoặc ở mức thấp cL : cH > cL ≥ 0.DHVP Research 73 Tính tối ưu Pareto Cặp chiến lược (q1 . Để tìm cân bằng Nash (Bayes) trước tiên tính hàm phản ứng tối ưu của NC1. hoặc cL xác suất 1 − ϑ. thông qua cực đại 1(q1. NC1 chỉ có một đặc trưng. qH . qL) trên khoảng q10. 2. mỗi NC chỉ nhận được mức lợi ích (a − c)2/9.1). q1 ≥0 . tại mỗi điểm thuộc miền đó. với qH và qL coi như đã cho.2. cho nên bất kỳ cặp (q1 . Ví dụ. các lợi ích đi kèm ít nhất ngang bằng so với tại cân bằng Nash. qL ). còn NC2 có hai đặc trưng cH và cL . thông tin không đầy đủ Vẫn xét bài toán trên. q1. Do đó. trong khi đó. 5. q2C ) không có tính chất tối ưu Pareto. và tốt hơn với ít nhất một NC. q2 ) ≥ 0 với q1 + q2 = (a − c)/2 đều thỏa mãn. q2 ). ∞) với phần tử điển hình q1 . ở cân bằng Nash.

Vương Quân Hoàng Giả sử rằng qH . giải bài toán này bằng cách lấy cực đại hai phần riêng rẽ. qL ≤ a − c. qH . cho ta nghiệm là cân bằng Nash.qL ≥0 Vì phần trước của hàm chỉ phụ thuộc vào qH và phần sau chỉ qL . hãng này thu được lợi ích từ thực tế rằng hãng 1 không biết chắc về chi phí. ta xét với q1 cho trước. bài toán được giải qua việc đặt đạo hàm bậc nhất theo q1 bằng 0. . Nghiệm thu được là bộ 3: a − 2c + ϑcH + (1 − ϑ)cL q1C = 3 a − 2cH + c 1 − ϑ C qH = + (cH − cL ) 3 6 a − 2cL + c ϑ qLC = − (cH − cL ). Đặc trưng chi phí cao của hãng 2 khiến hãng này sản xuất nhiều hơn trong trường hợp thông tin đầy đủ.5). đây chính là cân bằng Cournot-Nash có tính chất Bayes của trò chơi. Nghiệm này cần được so sánh với cân bằng Nash trong mô hình đầy đủ thông tin ở trên.4.5.5) 2 Giải đồng thời hệ (5.3) 2 So với bài toán gốc thì thay đổi số lượng kỳ vọng bây giờ là ϑqH +(1−ϑ)qL thay cho q2 .74 ⃝ c 2011 . (5. điều này dẫn đến: a − c H − q1 qH = qH (q1 ) = (5. bài toán có dạng: max ϑ[qH (a − cH − q1 − qH )] + (1 − ϑ)[qL (a − cL − q1 − qL )]. Với NC2.3. qL ≤ a − c (sau đó ta sẽ kiểm tra tính hợp lý của giả thiết này với điểm cân bằng).5. và rằng q1 ≤ a − cH và qH . dẫn tới: a − c − ϑqH − (1 − ϑ)qL q1 = q1 (qH .4) 2 và a − cL − q1 qL = qL (q1 ) = . (5. Giả sử q1 ≤ a − cH (và do đó q1 ≤ a − cL ). và do đó hãng 1 sản xuất ít đi so với mức tối ưu khi hãng này biết chắc rằng hãng 2 có mức chi phí cao hơn. 3 6 Giả sử các tham số của trò chơi đảm bảo cả 3 giá trị này không âm. qL ) = .

0} với mọi p ≥ 0. tối đa hóa lợi ích và trở thành mức giá cạnh tranh độc quyền pM = 12 (a + c). Nếu p2 = c. Giả sử nhu cầu q đối với sản phẩm cho bởi q = q(p) = max{a − p. Nếu p2 < c. p2 ) = 1 (p2 − c)(a − p2 ) nếu p1 = p2 và p2 ≤ a  2 0 trong các trường hợp khác Trên phương diện LTTC. p2 ) = 1 (p1 − c)(a − p1 ) nếu p1 = p2 và p1 ≤ a  2 0 trong các trường hợp khác Tương tự vậy. Tập phản ứng tối ưu khi này là khoảng [c.2 ở trên tương ứng với các tập chiến lược [0. tập các phản hồi tối ưu là toàn bộ khoảng (p2 . các hàm lợi ích của NC1. ∞). Nếu c < p2 ≤ pM .3 Cạnh tranh giá Bertrand Xét hai hãng cạnh tranh giá trên cùng loại sản phẩm. Nếu hãng 1 đặt mức giá p1 và hãng 2 mức p2 . Nếu giá bằng nhau. và lợi nhuận tăng tương ứng khi giá tăng tiến đến mức giá độc quyền. Giá có một vai trò đặc biệt quan trọng trong đầu bài này. p2 . tập phản ứng tối ưu của NC1 là tập rỗng. thì bất kỳ mức giá p1 ≤ p2 đều mang lại lợi ích nhỏ hơn 0. và p1 ≥ p2 mang lại lợi ích 0. trong khi đó p1 > p2 có mức lợi ích là 0. ∞). Do đó. Hãng nào đưa ra mức giá thấp hơn sẽ bán được cho toàn bộ thị trường. Dạng hàm lợi nhuận của bài toán này là dạng toàn phương. lợi nhuận hãng 2 cho bởi:   (p2 − c)(a − p2 ) nếu p2 < p1 vàp2 ≤ a Π1 (p1 .DHVP Research 75 5. thì bất kỳ mức giá p1 < p2 đều có lợi ích âm cho NC1. thì phản hồi tối ưu của NC1 là mức giá thấp hơn p2 và càng tiến tới sát mức giá độc quyền càng tốt. Để tìm cân bằng Nash (trường hợp này còn có tên cân bằng Bertrand) ta trước hết tính các hàm phản ứng tối ưu. Mỗi hãng có cùng mức chi phí biên 0 ≤ c < a. . một mức giá nằm trong khoảng giữa p1 và p2 vẫn đủ tốt để cân nhắc. Vì thế. Để xác định hàm phản ứng tối ưu của NC1 β1 (p2 ) ta biện luận riêng các trường hợp. ∞) và các nhân tố đặc trưng p1 . và chi phí cố định giả định bằng 0. trong tình huống này. nhưng mức giá đó lại không tồn tại: với mọi mức giá p1 < p2 .Lý Thuyết Trò Chơi . một khi nhờ giá mà một hãng có thể chiếm toàn thị trường. hai hãng chia đôi thị phần. thì lợi nhuận của hãng 1 xác định bởi:   (p1 − c)(a − p1 ) nếu p1 < p2 vàp1 ≤ a Π1 (p1 .

mỗi NC cải thiện bằng cách hạ giá. Nếu như p1 < pM . Giả sử. tuy vậy nếu p1 > c. Minh họa cho bởi Hình (5. cũng là một mâu thuẫn. Cũng có thể lập luận đi tới kết cục này không cần tính hàm phản ứng tối ưu. theo β2 (p1 ). Nếu p2 > c. hoặc trực tiếp khảo sát điều kiện như sau. 5. thì NC2 cũng làm tương tự. Nếu p1 ≥ pM . Nếu p2 = c. tại điểm cân bằng.Vương Quân Hoàng Nếu p2 > pM thì phản ứng tối ưu duy nhất của NC1 chính là giá độc quyền pM . bây giờ ta giả định tình huống khác đi (hàm lợi ích vẫn vậy) rằng. nhưng vẫn thấp hơn p2 . và đây chính là điểm cân bằng ta cần tìm. Ta tóm tắt lại các kết cục như sau:   {p1 |p1 > p2 }   nếu p2 < c {p1 |p1 ≥ c} nếu p2 = c β1 (p2 ) =   ∅ nếu c < p2 ≤ pM  M {p } nếu p2 > pM Với NC2. Nhưng khí đó. tại điểm cân bằng. ta luôn có p2 ≥ c. Nếu mức đó lớn hơn c. và NC2 quan . và đây là một mâu thuẫn. p1 = c và p1 = p2 = c là một cân bằng Nash. thì p1 ≥ c. ta có dạng kết cục hoàn toàn tương tự:    {p2 |p2 > p1 } nếu p1 < c  {p2 |p2 ≥ c} nếu p1 = c β2 (p1 ) =   ∅ nếu c < p1 ≤ pM  M {p } nếu p1 > pM Giao điểm của các hàm phản ứng tối ưu này có thể tìm được qua phương pháp đồ thị. Cả hai NC đều hiểu nguyên tắc này. ta luôn có p2 ≥ p1 hoặc p2 = pM . Vì vậy.2).4 Cân bằng Stackelberg Xét lại trò chơi Cournot đầu tiên. Như vậy. thì khả năng duy nhất xảy ra là p2 = pM .76 ⃝ c 2011 . Ta kết luận cân bằng Nash (Bertrand) duy nhất là p1 = p2 = c. thì khả năng duy nhất xảy ra là p1 = pM nhưng khi này p2 lại không thể là phản ứng tối ưu. Nếu mức giá chung này thấp hơn c thì mỗi NC đều có thể cải thiện lợi ích bằng cách tăng giá. NC1 chuyển động trước. p1 ̸= p2 . khả năng duy nhất còn lại là p1 = p2 = c. chẳng hạn p1 < p2 . Do đó. Nếu p2 < c thì phản ứng tối ưu p1 thỏa mãn p1 > p2 . thì NC1 có thể tăng lợi ích thu về bằng cách đặt mức giá cao lên. và do đó điểm cân bằng chỉ có thể là p1 = p2 .

đi ngược về gốc trò chơi. Một chiến lược của NC2 sẽ gán cho mỗi tập thông tin. Nói cách khác. cân bằng hoàn hảo của trò chơi con có thể xác định thông qua quy nạp lùi như sau. 3 Trò chơi này có thông tin đầy đủ. Kết cục cân bằng hoàn hảo trò chơi con theo định nghĩa là các hành động được lựa chọn dựa trên quỹ tích các điểm cân bằng ở dạng trò chơi chiến lược.∞) . Nói một cách chính xác hơn. khởi đầu tư các nút quyết định của NC2. ∞).DHVP Research 77 sát rồi mới chuyển động tiếp theo. thì NC1 sẽ tối đa hóa biểu thức sau: ( ) (a − c − q1 ) q1 a − c − q1 − .2 NC2 có số hành động là vô hạn [0. Cân bằng Stackelberg được minh họa trong Hình (5. q2S = (a − c)/4. Trong mỗi trò chơi con của NC2. 2 Giá trị cực đại đạt được khi q1 = (a−c)/2.4 Khái niệm nghiệm phù hợp cho tình huống này là cân bằng quy nạp lùi hoặc cân bằng trò chơi con hoàn hảo. . ∞)[0. do đó là gán cho từng nút quyết định một hành động. Điều này có nghĩa là NC2 cần chơi tương ứng với hàm phản ứng tối ưu β2 (q1 ) cho bởi hệ (5.Lý Thuyết Trò Chơi . NC1 có tập chiến lược vô hạn [0. NC1 cần lựa chọn q1 ≥ 0 sao cho có thể tối đa hóa Π1 (q1 . Rõ ràng ta thấy được số chiến lược của NC2 cũng là vô hạn. Trò chơi này có dạng chiến lược trong Hình (5. mang yếu tố đặc trưng q1 . điểm cân bằng hoàn hảo trò chơi con này được gọi là cân bằng Stackelberg với NC1 là dẫn dắt và NC2 đi theo. ∞) → [0. Giả sử rằng q1 ≤ a − c (ta cũng dễ dàng kiểm tra rằng.2). và ngược lại với NC2: q1C = q2C = (a−c)/3. Ta hãy kiểm tra để nhận thấy rằng lợi ích của NC1 tại cân bằng Stackelberg cao hơn tại cân bằng Cournot. q2 = β2 (q1 ). q1 > a − c không phải phương án tối ưu). 2 Đường dích-dắc trong sơ đồ biểu thị số hành động nhiều vô kể. ∞). β2 (q1 )). và do đó q2 = β2 ( 12 (a−c)) = (a − c)/4.3 Một chiến lược của NC2 là hàm s2 : [0.3). Như vậy.4). ) với yếu tố đặc trưng q2 . nghĩa là tiếp theo sau mỗi lựa chọn q1 của NC1. Do vậy. NC1 tính đến phản ứng tối ưu của NC2 khi lựa chọn q1 . Như vậy. 4 Biểu diễn toán học của tập chiến lược của NC2 là [0. cân bằng hoàn hảo của trò chơi con là: q1 = (a − c)/2. Trong trường hợp này. kết cục đó là: q1S = (a − c)/2. NC2 cần chuyển động tối ưu. Trò chơi con ở đây là toàn bộ trò chơi và một số lượng vô hạn các trò chơi 1-NC.

Vương Quân Hoàng Hình 5.3: Lược đồ dạng mở trò chơi Stackelberg Hình 5.78 ⃝ c 2011 .2: Hàm lợi ích của hãng i khi độc quyền Bertrand Hình 5.4: Cân bằng Stackelberg .

Chẳng hạn ở điểm cân bằng nói trên. Giả sử rằng cả α lẫn β đều được gán trị số từ một phân phối đồng nhất trên khoảng [0. R) là giá trị không chắc chắn 3 + β. 2:1–23. Hơn nữa. 3 với cân bằng Nash duy nhất là ((p∗ .Lý Thuyết Trò Chơi . Theo cách này. J. trong đó x > 0. Về 5 Harsanyi.DHVP Research 79 5. x].” International Journal of Game Theory. 1 − q ∗ )). 1 − p∗ ). nhưng cách diễn giải này không thuyết phục mấy. . và p∗ = 3/4.5 Chiến lược hỗn hợp và thông tin không đầy đủ Xét trò chơi ma trận cặp: L R ( ) T 2. Nhược điểm của cách hiểu này là: Những niềm tin đó hoàn toàn chủ quan. 1 2. L) là giá trị không chắc chắn 2 + α và lợi ích của NC2 từ (B. bất trắc chiến lược của NC được thể hiện qua niềm tin của họ sẽ được thay thế bằng bất trắc khách quan của bước chuyển động may rủi. và cả hai đều nhận thức được thực tế này. Một cách diễn giải khách là chiến lược hỗn hợp của một NC-A đại diện cho niềm tin của những người chơi khác về cách lựa chọn chiến lược của NC-A. Một cách hiểu là NC trên thực tế ứng xử dựa trên một PPXS tại điểm cân bằng. giả sử lợi ích với NC1 từ chiến lược (T. Trên thực tế. (1973) “Games with randomly disturbed payoffs: a new rationale of mixed strategy equilibrium points. cũng có một số bằng chứng thống kê về cách hiểu này có thể xảy ra trong thực tiễn. NC không có thái độ phân biệt giữa các chiến lược thuần có mặt trong cân bằng với xác suất lớn hơn 0. NC2 tin rằng NC1 sẽ chơi T với xác suất 3/4. Giải nghĩa chiến lược hỗn hợp và cân bằng Nash chiến lược hỗn hợp là một vấn đề tồn tại từ lâu trong LTTC. và không mang lại ý nghĩa rõ rệt về việc vì sao niềm tin đó được hình thành. NC1 biết giá trị đúng của α và NC2 biết β. 0 1. Nhà nghiên cứu Harsanyi đề xuất phương pháp tìm điểm cân bằng Nash của chiến lược hỗn hợp thông qua tìm giới hạn của các cân bằng Nash (Bayes) thuần trong các trò chơi thu được nhờ việc bổ sung tính bất trắc khách quan về lợi ích thu về từ trò chơi. B 3.5 Trong ví dụ của ta. (q ∗ .C. q ∗ = 1/2. đặc biệt là nếu tại cân bằng Nash. 0 G= .

B 3. cho n ∈ [0. Cụ thể hơn. x x x Từ đây có thể nhận thấy T tốt hơn hoặc cùng lắm là bằng B nếu như β ≥ (2b − x)/b. giả sử rằng NC2 lựa chọn chiến lược tương đối đơn giản: đi L nếu β nhỏ. thì lợi ích kỳ vọng là 2 + α nhân với xác suất mà NC2 chơi L. và NC2 biết đặc trưng β. B}. Để tìm phản ứng tối ưu của NC2 trước s1 (a) ta cũng tiến hành lập luận tương tự.Vương Quân Hoàng khía cạnh đặc trưng. Vì vậy. và R nếu β lớn. do đó bằng b/x vì β phân phối đều trên khoảng [0. Nếu đặc trưng β của NC2 dẫn đến lựa chọn L thì lợi ích kỳ vọng là 1 nhân với xác suất mà NC1 chơi T . Vì vậy L tốt hơn hoặc bằng R nếu như β ≤ (x − 4a)/a.” Ngược lại. phản . x]. Các lợi ích mới được cho bởi ma trận cặp: L R ( ) T 2 + . 0 1. đó là một ánh xạ s1 : [0. 3 + Một chiến lược (thuần) của một NC sẽ gán cho từng đặc trưng của NC này một hành động. Gọi chiến lược này là s2 (b). R}. Nếu NC1 chơi T . Ta ký hiệu chiến lược này là s1 (a). x] → {L. lợi ích kỳ vọng với NC1 từ việc lựa chọn T là: b b b (2 + α) · + 2(1 − ) = 2 + α . Như thế. Suy ra. chiến lược sau của NC1 là phản ứng tối ưu trước chiến lược giả định của NC2: “Chơi T nếu nwh α ≥ a và B nếu α < a. và mỗi đặc trưng β > b chơi R. Phản ứng tối ưu của NC1 trước s2 (b) là gì? Giả sử đặc trưng của NC1 là α. rồi công với 2 lần xác suất mà NC2 chơi R. x] sao cho mỗi đặc trưng β ≤ b sẽ chơi L. tức là 1 · (x − a)/x.1 2. lợi ích kỳ vọng của NC1 khi đánh B là: b b b 3· + 1(1 − ) = 1 + 2 . NC1 biết đặc trưng α của mình. Nếu đặc trưng β của NC2 chọn R thì kỳ vọng là 3 + β nhân với xác suất mà NC1 chơi B. x] → {T. dựa trên chiến lược s2 (b) bằng với xác suất mà β lớn nhất là bằng b. 0 . trong đó a = (2b − x)/b. và với NC2 là ánh xạ: s2 : [0. giả sử NC1 đánh s1 (a). x x x Tương tự vậy. với NC1.80 ⃝ c 2011 . Để tìm một cân bằng của trò chơi thông tin không đầy đủ này. Do vậy. Xác suất NC2 đánh L. tức là (3 + β)a/x.

Điều gì xảy ra với các xác suất này một khi mức độ bất trắc giảm đi. Tìm cân bằng Nash và so sánh với bài toán gốc. c = 0. với NC1 thì: √ √ x2 + 16 + 3x4 x/ x2 + 16 + 3 3 lim = lim = . b ∈ [0. Trong cân bằng này.DHVP Research 81 ứng tối ưu của NC2 nếu NC1 chơi s1 (a) là chiến lược . tức là xác √ T trước khi NC biết đặc trưng của mình. x→0 4x x→0 4 4 trong đó phần tử đầu theo quy tắc l’Hôpital. Bài toán Cournot thông tin không đầy đủ Xử lý lại bài toán gốc với các tham số a = 1.ký hiệu s2 (b) . ϑ = 1/2. b = (1/2)(x − 4 + x2 + 16). là (x − a)/x. Tương tự với NC2: √ √ x4 + x2 + 16 1 + x/ x2 + 16 1 lim = lim = . xác suất tiên nghiệm để NC1 chơi T .Lý Thuyết Trò Chơi . Tính cân bằng Nash. ta thấy (s1 (a). c2 . Tương √ tự. x→0 2x x→0 2 2 Nói cách khác.với b = (x − 4a)/a. . Kết hợp các lập luận này. suy ra bằng (x − 4 + x2 + 16)/2x. biện luận các trường hợp tương ứng với giá trị c1 . xác suất tiên nghiệm để NC2 chơi L bằng b/x. Ví dụ và bài toán minh họa Bài toán Cournot với chi phí đối xứng: Xét mô hình Cournot. nghĩa là suất chơi bằng ( x2 + 16 + 3x − 4)/4x. b = (x − 4a)/a. x] thu được: √ √ a = (1/4)(x + 4 x2 + 16). cL = 0. s2 (b)) là cân bằng Nash với a = (2b − x)/b. Giải 2 phương trình này đồng thời cho nghiệm a. c2 ≥ 0. các xác suất đó hội tụ tới một cân bằng Nash của chiến lược hỗn hợp của trò chơi ban đầu. cH = 1/4. nhưng giả thiết thêm rằng các hãng có mức chi phí biên khác nhau: c1 . tức là x → 0? Khi này.

trong đó 0 ≤ s ≤ 1. NC này có thông tin không công khai về năng lực sinh lợi của công ty hiện tại. và sẽ quyết định hoặc chấp nhận hoặc từ chối cuộc chơi. lợi ích là R. dự án sẽ được triển khai. May rủi xác định lợi nhuận của công ty. Nhà đầu tư quan sát s. Nếu nhà đầu tư từ chối thì lợi ích của anh ta là I(1 + r) − I và lợi ích của nhà khởi nghiệp là Π.82 ⃝ c 2011 . 3. (a) Xây dựng trò chơi dạng mở và chiến lược cho trò chơi tín hiệu này. Trò chơi được chơi như sau: 1. Vậy trong hoàn cảnh nào và với lượng cổ phần nào. (b) Tính cân bằng tuần tự nếu có.Vương Quân Hoàng Khởi nghiệp đầu tư: Một doanh nhân khởi nghiệp cần vốn từ bên ngoài để triển khai một dự án hấp dẫn. nhưng không quan sát được Π. trong đó H > L > 0. nhưng lợi ích của dự án mới không thể bóc tách khỏi lợi ích của công ty đang hoạt động. lợi suất của nhà đầu tư là r. với R > I(1 + r). Để xây dựng trò chơi này. Nếu anh ta chấp nhận chơi. lợi ích là s(Π + R) − I và của nhà khởi nghiệp là (1 − s)(Π + R). 2. giả sử rằng lợi nhuận của công ty hiện tại có thể ở mức thấp hay cao Π = L hoặc Π = H. Giả sử lượng đầu tư cần cho dự án là I. Giả sử anh ta chào bán cổ phần cho một nhà đầu tư tiềm tàng để lấy tiền đầu tư. . Nhà khởi nghiệp biết Π và chào bán lượng cổ phần s. 4. Xác suất để Π = L là p.

DHVP Research 83 .Lý Thuyết Trò Chơi .

84 ⃝ c 2011 .Vương Quân Hoàng VQH ghi chú: .

Lý Thuyết Trò Chơi .DHVP Research 85 .

86 ⃝ c 2011 .Vương Quân Hoàng VQH ghi chú: .

(D. 50 30. nếu như các chiến lược hỗn hợp được chấp nhận. C). 60 Gp = . D) là cân bằng Nash duy nhất của trò chơi. (C. Chủ yếu ta sử dụng ví dụ để làm rõ ý tưởng. ta xét lớp bài toán trò chơi lặp lại vô số lần giữa hai NC. ký hiệu D. 1. 2. Các định lý Folk được trình bày cho cả cân bằng Nash và cân bằng hoàn hảo trò chơi con. 30 40. Ta giả định rằng Gp được chơi lặp đi lặp lại vô số lần. (D. và ta giả định rằng tồn tại 87 . và rằng sau mỗi lượt chơi. 40 Trong trò chơi Gp mỗi NC có một hành động trội tuyệt đối.Chương 6 Trò Chơi Lặp Lại Trong chương này. C). 6. tức là họ biết phần tử nào của tập {(C. D)} đã xảy ra. .1 Nghịch lý người tù Xét trò chơi cho ở ma trận dưới đây C D ( ) C 50.1 Cân bằng hoàn hảo trò chơi con Chúng ta quay lại với khái niệm cân bằng trò chơi con hoàn hảo trong các bài toán nhiều vô số lượt chơi. và (D.1. D). tại các thời điểm t = 0. . . 6. . Các bước hiện thực hóa này dẫn đến một dãy vô hạn các lợi ích liên quan. D 60. NC biết bước chơi nào đã được thực hiện.

và ngược lại cũng thế. . Xét bất kỳ t = 0. mỗi NC chỉ chơi cân bằng Nash của một trò chơi con tại mọi thời điểm t. hãy quan sát rằng D∞ là một chiến lược được xác định rõ. mỗi trò chơi con trong tổng số 46 này đều có dạng giống hệt G∞ p (δ). Chẳng hạn. D). (D. tại mỗi thời điểm t. . tức là. một hành động cho mỗi dãy thời gian t của các phần tử từ tập {(C. Chúng ta nói rằng (D∞ . Nếu cả hai NC chơi D∞ thì lợi ích sinh ra là ∞ ∑ 40δ t = 40/(1 − δ) t=0 cho mỗi NC. tại thời điểm t = 6. trong đó δi = δ. 2) thu được ∞ δ t=0 i t (lợi ích từ lượt chơi thứ t). Rõ ràng chiến lược đó có thể rất phức tạp. Mỗi trò chơi con trong G∞ p (δ) về cơ bản tương đương với chính trò chơi đó: sự khác biệt giữa 2 trò chơi con là sự khác biệt giữa hai lịch sử chơi dẫn đến các trò chơi con đó.88 ⃝ c 2011 . (D∞ . . D∞ ) là một cân bằng hoàn hảo trò chơi con. độc lập với lịch sử của trò chơi. D∞ ) là cân bằng hoàn hảo trò chơi con trong ∞ Gp (δ). Một ý niệm nghiệm tự nhiên cho trò chơi này là cân bằng Nash hoàn hảo của trò chơi con. NC1 không thể có cách chơi nào khác ngoài D. với i = 1. ∞ Trước tiên. NC i (i = 1.cho mỗi lịch sử trò chơi tới thời điểm t. . Tức là. xét chiến lược đơn giản: D : chơi D tại từng thời điểm t = 0. . 2. . D)}. Ta sẽ tìm hiểu một vài cân bằng hoàn hảo trò chơi con của G∞ p (δ). Tuy nhiên. Với khái niệm chiến lược là một kế hoạch đầy đủ tiến hành trò chơi. Trò chơi dạng mở rộng vô số bước đi vừa định nghĩa được ký hiệu là G∞p (δ). . cũng có 46 trò chơi con khác nhau. 2. 1. C). chiến lược cần chỉ ra một bước chơi của một NC – một chiến lược thuần hay hỗn hợp . . C). 1. và số lượng các chiến lược khác biệt có thể của tập chiến lược đó có thể rất lớn.Vương Quân Hoàng một nhân tử chiết khấu 0 < δ < 1 sao cho mức lợi ích thu về cuối cùng của mỗi NC là giá trị chiết khấu ∑ ở mức δ của dãy vô hạn các lợi ích. Vì thế. tồn tại 46 lịch sử có thể của các lượt chơi và do đó. Do đó (D∞ . (C. Trước tiên. (D. Chúng ta cần tập trung chú ý vào một số chiến lược đơn giản. D∞ ) dẫn đến một cân bằng Nash trong trò chơi con: biết rằng NC2 luôn chơi D. Ở cân bằng này. và bất kỳ trò chơi con nào khởi đầu từ thời điểm t.

và vì thế phản ứng tối ưu của NC kia cũng làm tương tự. Nếu NC1 chơi T r(C). Chiến lược T r(C) được gọi là chiến lược giữ cò súng. nếu giá trị chiết khấu của khoản thiệt hại này bằng 10δ/(1 − δ). ta có thể phân biệt hai loại trò chơi con có liên quan tới kết hợp chiến lược (T r(C). Theo cách chính thống. (T r(C). tức là chơi C. C) trong quá khứ. Xét trò chơi này tại thời điểm T và giả sử rằng NC2 chơi T r(C). Nếu không.Lý Thuyết Trò Chơi .DHVP Research 89 Một điểm cân bằng hoàn hảo trò chơi con khác nữa như sau. và để giữ cho NC khỏi phá quy luật chơi. T r(C) là chiến lược được định nghĩa rõ. chơi D. Trường hợp này xảy ra nếu và chỉ nếu δ ≥ 1/2. việc từ bỏ nguyên tắc giữ cò súng lại gây ra sự trừng phạt kéo dài từ phía NC kia: cũng chơi D mãi về sau. t=0 t=T . C) trong quá khứ. Như thế. Tuy vậy. T r(C)). Như vậy. tức là chơi theo T r(C). Một người chơi kiểu chiến lược này khởi đầu với phương án C và tiếp tục C miễn là hai NC vẫn tiếp tục C. Tại mỗi giai đoạn của trò chơi. khi có bất kỳ thay đổi nào (không chơi C nữa). Phản ứng tối ưu với sự trừng phạt này là cũng tiếp tục chơi D. Trong loại trò chơi con khác. T r(C) nhắc nhở NC đánh D. thì mỗi NC nhận được lợi ích: ∑∞ 50δ t = 50/(1 − δ). T r(C)) là một cân bằng Nash. C) đã xuất hiện ở các lượt chơi. Một loại là các trò chơi con mà ở đó không phải luôn luôn chơi (C. lợi ích của người này bằng: ∑ T −1 ∞ ∑ 50δ t + 50δ t . và nếu cả hai cùng chơi T r(C). một NC có động lực lợi ích để từ bỏ chơi C và thực hiện hành động trội tuyệt đối D. nếu như δ đủ lớn. NC này chuyển sang chơi D và giữ nguyên tắc chơi D mãi. không có tình trạng từ bỏ quy tắc chơi: Luôn luôn (C. Trong trò chơi loại này. và nhờ đó thu được lợi ích tức thời là 10. trong trò chơi con này. T r(C)) có phải cũng là một cân bằng hoàn hảo trò chơi con không? Câu trả lời là đúng. khoản thiệt hại này cần ít nhất lớn bằng mức lợi ích tức thời do việc từ bỏ quy tắc chơi. tạo ra một khoản thiệt hại 10 kể từ lượt chơi sau trở đi. Điểm then chốt của lập luận như sau. t=0 Liệu (T r(C). Xét chiến lược: T r(C): tại t = 0 và tại mọi thời điểm t sao cho trong quá khứ chỉ có (C.

(C. . một cách tương đương. . thì NC1 nhận được lợi ích ∑ T −1 ∞ ∑ 50δ t + 60δ T + 40δ t . 3. Để hiểu vì sao (T r1.Vương Quân Hoàng Nếu tại thời điểm T . (C. C). D). và mức thiệt hại tương lai chiết khấu là 20(δ 1 + δ 3 + δ 5 + . D). C). (C. xét các chiến lược sau: T r1: chừng nào dãy (C. ta cần có điều kiện rằng lợi ích đầu tiên không bé hơn thứ hai. và điều này sẽ trở thành thực tế nếu như tương lai là một trọng số quan trọng. 5. . 6. }. }. . T r2: chừng nào dãy (C. . . . Nếu khác đi. . (T r(C). )10(δ 2 + δ 4 + δ 6 + . . . ví dụ t = 0. . nó cho biết rằng quá trình hợp tác có thể trở nên bền vững nếu như sự vi phạm có thể bị trừng phạt đủ mạnh. chơi D. . . . Nếu NC1 chơi T r1 và NC2 chơi T r2. . . Phương án tối ưu là vi phạm tại một thời điểm chẵn. thì dãy (C. . D). C). (D. C). . (C. 4. C). . (D.90 ⃝ c 2011 . Hành vi này dẫn đến mức lợi ích trước mắt tăng thêm 10. t=0 t=T +1 Vì vậy. δ ≥ 1/2. . (D. chơi D tại t ∈ {0. mức này lớn hơn 40 là mức thu về nếu vi phạm dãy ngầm thỏa thuận từ đầu và chơi D vĩnh viễn. 7. D). Nếu khác đi. Nói một cách dễ hiểu. 3. dẫn đến bất đẳng thức: 50δ T /(1 − δ) ≥ 60δ T + 40δ T +1 /(1 − δ) hoặc. D). T r2) có thể là một cân bằng hoàn hảo trò chơi con. Sự tồn tại của cân bằng này là lý do quan trọng để chúng ta phải nghiên cứu các trò chơi lặp lại vô hạn lần. C). (D. Ta lưu ý rằng đây là các chiến lược giữ cò súng: Các bên chơi ngầm đồng ý một dãy chơi nhất định. 2. 5. C). giả sử NC2 chơi T r2 và giả sử NC1 tính toán việc từ bỏ nguyên tắc chơi T r1. nhưng sẽ chuyển hướng sang chơi D vĩnh viễn sau một hiện tượng vi phạm quy tắc. chuyển sang chơi D. . (D. 7. chơi C tại t ∈ {1. . . 6. 2. Nói một cách chính xác. D). đã từng xảy ra trong quá khứ từ thời điểm 0 trở đi. (D. chơi D. T r(C)) là một cân bằng hoàn hảo trò chơi con của trò chơi G∞p (δ). . (D. (C. đã từng xảy ra trong quá khứ từ thời điểm 0 trở đi. D). D∞ ) và (T r(C). Ta kết luận rằng với mọi δ ≥ 1/2. chơi D tại t ∈ {1. 4. là kết cục. để tránh phát vỡ quy tắc (và biến T r(C) thành phản ứng tối ưu của NC1 trong trò chơi con). }. D). . }. ). (D. hãy lưu ý rằng tính trung bình một NC thu được lợi ích 45 từ mỗi lượt chơi. Để minh họa một điểm cân bằng hoàn hảo trò chơi con khác với (D∞. chơi C tại thời điểm t ∈ {0. . T r(C)). C).

Ta kết luận rằng với mọi δ ≥ 1/2. Tức là. (D. C) trong α3 . C). T r2) là một cân bằng hoàn hảo trò chơi con trong G∞ p (δ). (D. xét bất kỳ kết hợp nào dạng α1 (50. (T r1. các chiến lược giữ cò súng tương ứng có thể được xây dựng dẫn đến các mức lợi ích này và tạo ra cách chơi vĩnh viễn (D. thì mức thiệt hại phải lớn ít nhất bằng mức lợi ích gia tăng 10. các chiến lược này hình thành nên một cân bằng hoàn hảo trò chơi con trong G∞ p (δ). Hình minh họa dưới đây (6. C) xuất hiện (trong dài hạn) trong một phần của α1 của các giai đoạn. (D. 1 − δ2 1 − δ2 Từ đây rút ra δ ≥ 1/2. D) trong một phần α2 . những người chơi có thể ở mức trung bình đạt được một kết hợp dạng tập lồi của các lợi ích liên quan trong dài hạn. và (D. 50) + α2 (30. αi ≥ 0 với mọi i = 1.DHVP Research 91 Để giữ cho NC1 không từ bỏ nguyên tắc đã ngầm đồng thuận. . 4. .2 Quan sát tổng quát Trong bài toán nghịch lý người tù.Lý Thuyết Trò Chơi . ∑ trong đó αi ∈ R. bằng việc chơi các dãy phần tử phù hợp từ một tập các kết cục khả thi {(C. và 4i=1 αi = 1.1. T r2 ở trên. thì các lợi ích ở trên sẽ đạt được như các giá trị trung bình tại giới hạn. (C. D)} của trò chơi giai đoạn Gp . tương tự như các chiến lược T r(C). D) sau một lần vi phạm. . . do đó: 20δ 10δ 2 − ≥ 10. T r1. C). 6. 30) + α4 (40. Với mức δ đủ lớn. 40).1) cho thấy các mức lợi ích có thể đạt được theo cách này khi lấy giới hạn các mức lợi ích trung bình tại cân bằng hoàn hảo trò chơi con của G∞ p (δ) khi δ đủ lớn. tồn tại một mức δ đủ lớn sao cho cặp lợi ích này có thể thu được thông qua giới hạn trung bình trong dài hạn tại cân bằng hoàn hảo trò chơi con G∞ p (δ). Định đề tiếp theo đây phản ánh chính xác lô-gic này. (C. Một cách tổng quát hơn. D). . D) trong α4 . Bằng việc lựa chọn dãy các kết cục có thể sao cho (C. Một khi các lợi ích trung bình giới hạn này vượt 40 với mỗi N. ta đã tiến hành biện luận rằng mỗi NC luôn chọn phương án D là một cân bằng hoàn hảo trò chơi con của G∞p (δ) với mọi 0 < δ < 1. Với mọi cặp lợi ích trong vùng sẫm màu. 60) + α3 (60.

. .   ∑m ∑ n ∑ m ∑ n  P (G) = αij (aij bij )| αij = 1. Cho 0 < δ < 1. m. định đề này đúng với bất kỳ trò chơi ma trận cặp nào. . j = 1.   i=1 j=1 i=1 j=1 Đối với trò chơi nghịch lý người tù Gp . cũng như bất kỳ cân bằng Nash nào (nhất là cân bằng thuần) trong trò chơi ma trận cặp bimatrix. Cho P (G) là bao lồi của tập {(aij . . Tức là. (60. . sẽ tồn tại một cân bằng hoàn hảo trò chơi con trong G∞ (δ) với lợi ích trung bình giới hạn x. .tức là nhất trí trên PPXS nào đó. . j : αij ≥ 0 . . Vậy thì. Định lý dân gian về cân bằng hoàn hảo trò chơi con: 1 Cho (p∗ . si . Vậy thì sẽ tồn tại một 0 < δx∗ < 1 sao cho với mọi δ ≥ δx∗ . bij ) ∈ R2 |i = 1. . 50). bij )}. .Vương Quân Hoàng Định đề: Gọi G là một trò chơi n-NC bất kỳ (không nhất thiết là hữu hạn lượt đi) và gọi sự kết hợp chiến lược s = (s1 . 1 Gọi là định lý dân gian vì nó tồn tại trước khi hệ thống LTTC được quy chuẩn hóa và trở thành một nhánh nghiên cứu hoàn chỉnh. Cụ thể. sn ) là một cân bằng Nash trong trò chơi G. Định đề này được gọi tên là định lý dân gian. x2 ) ∈ P (G) sao cho x1 > p∗ Aq∗ và x2 > p∗ Bq∗ .92 ⃝ c 2011 . 30). và cho x = (x1 . ∀i. . Các phần tử của không gian này có thể đạt được nếu những NC có thể nhất trí lựa chọn các cặp lợi ích một cách ngẫu nhiên . B) là một ma trận bimatrix cấp m × n. n}. được gọi là chiến lược tương quan (correlated strategy) – trên các cặp lợi ích của tập {(aij . Gọi G = (A. . q∗ ) lf một cân bằng Nash của G. P (G) còn đôi lúc được gọi là không gian lợi ích hợp tác. . P (Gp ) là góc phần tư với các đỉnh (40. mỗi NC i lựa chọn chiến lược si tại mỗi thời điểm t là một cân bằng hoàn hảo trò chơi con trong G∞ (δ). . .) Định đề tiếp theo phát biểu rằng mỗi cặp lợi ích trong P (G) vượt trội tuyệt đối các cặp lợi ích gắn liền với một cân bằng Nash của G có thể thu được khi giới hạn của các lợi ích trung bình tại cân bằng trò chơi con hoàn hảo của G∞ (δ) với δ đủ lớn. . 60). Các phần tử (cặp lợi ích) của P (G) có thể thu được thông qua tính giới hạn trong dài hạn của lợi ích trung bình trong trò chơi lặp lại vô hạn lần G qua một dãy hợp lý các lượt chơi. . 40). (30. và (50.

4. Trong trò chơi G∞ p (δ). vì P (G1 ) không chứa bất kỳ cặp lợi ích nào có trị số lớn hơn (1. và (U. Cân bằng Nash duy nhất là (U. 1). R) được thực hành tại các ván đánh số t = 0. (0. R) tại các ván đánh số t = 0. 8. . Dưới đây. 4). ta thấy những vi phạm (từ bỏ nguyên tắc chơi) có thể bị trừng phạt đủ nặng. thì hành động hỗn hợp 45 . 4. L). D 0. chơi R. L) trong các ván khác Sau bất kỳ lịch sử chơi nào khác với chiến lược hỗn hợp 54 . trong đó cứ mỗi khi trải qua 4 lượt. . Trong trò chơi G1 chiến lược U là chiến lược trội tuyệt đối của NC1. chọn D.2. Sau một lịch sử chơi với (D. Sau một lần vi phạm của NC1. 4 Tập P (G1 ) là một tam giác với các đỉnh (1. . L) được chơi 3 lần. 6. 1 0. . Chúng dẫn đến một dãy các lượt chơi. 0 G1 = . nghĩa là chơi U với xác suất 45 và D với xác suất 15 . ta xét một ví dụ khác đi.Lý Thuyết Trò Chơi . R) lại được chơi 1 lần. 12. L) trong các lượt còn lại. . 0 −1. mỗi NC có thể đảm bảo nhận được lợi ích 40 tại mỗi lượt chơi. vì điểm cân bằng không nhất thiết phải dẫn đến một cân bằng Nash trong trò chơi con trừng phạt. 8. . N2 : Tại t = 0 chơi R. như vậy không thể gọi là trừng phạt nặng. Sau một lịch sử chơi khác. 1) cho mỗi NC.1 Ví dụ trò chơi bimatrix khác: Xét trò chơi ma trận cặp sau L R ( ) U 1. Đối với trò chơi nghịch lý người tù lặp lại vô hạn lần. Định lý dân gian không bổ sung thêm gì vào quan sát này. 0).2 Cân bằng Nash Kết cục sẽ ra sao nếu ta nới lỏng yêu cầu về phép hoàn chỉnh trò chơi con cho một cân bằng Nash trong trò chơi lặp lại vô hạn lần? Khi nghĩ về các chiến lược giữ cò súng. NC1 luôn chơi U và NC2 giữ vững nguyên tắc chơi L là một cân bằng hoàn hảo trò chơi con trong G∞ 1 (δ) với mọi 0 < δ < 1. Sau một lịch sử trong đó (D. thì (D. Lưu ý rằng các chiến lược này là chiến lược giữ cò súng. không có hậu quả nào cụ thể. và (−1.DHVP Research 93 6. Bây giờ xét các chiến lược sau trong trò chơi lặp lại vô hạn lần G∞ 1 (δ): N1 : Tại thời điểm t = 0. . 51 . 12. 15 và NC2 chơi R vĩnh viễn. và (U. và (U.

Vương Quân Hoàng Như vậy. NC2 chơi R vĩnh viễn. NC1 chơi 45 . 4). N2 ) là cân bằng Nash nếu như δ đủ lớn. . Lợi ích trung bình giới hạn trong cân bằng này là 34 (1. nên cả L lẫn R đều có cùng lợi ích kỳ 45 cho NC2. chúng ta lại nói rằng (N1 . Do đó. thời điểm tốt nhất để thực hiện là vào lúc người này được giả sử sẽ chơi D. . 15 tại mọi thời điểm t. đem lại lợi ích 0 cho NC1. Thế thì (U. R) là một điểm yên ngựa. chính . thì phản ứng tối ưu của NC1 là vĩnh viễn chơi U . . . Giả sử NC1 chọn việc vi phạm xảy ra vào t = 0. Nếu NC1 muốn vi phạm luật chơi N1 . NC1 có thể luôn đạt lợi ích tối thiểu bằng 0. Các hành vi thực hiện ở cân bằng này sau một vi phạm có bản chất là các hành động khiến đối thủ nhận được lợi ích maximin. ) + 1(δ 1 + δ 2 + δ 3 + δ 5 + δ 6 + δ 7 + . tức là tại t = 0. vì nếu NC1 chơi N1 thì N2 bắt buộc NC2 phải chơi phản ứng tối ưu mọi ván chơi tại mọi thời điểm t. biểu thức trên cần có kết quả tối thiểu bằng 0. . Do đó. 1 − δ4 1 − δ 1 − δ4 Điều này đúng khi và chỉ khi δ ≥ δ ∗ ≃ 0. (N1 . sau mỗi vi phạm. Ma trận lợi ích của NC1 là: L R ( ) U 1 0 A= . tổng lợi ích đã chiết khấu của NC1 là: −1(δ 0 + δ 4 + δ + . ). Trước tiên. 54. trong một trò chơi con theo sau một lần vi phạm quy tắc. với các giá trị này của δ. . và phản ứng tối ưu của NC1 là chơi U vĩnh viễn. Điều này dẫn đến lợi ích thu về là 0 vĩnh viễn. 47 ). NC không còn chơi ở cân bằng Nash: nếu NC2 chọn R vĩnh viễn. D 0 −1 Giá trị trò chơi A là 0 và trên thực tế (U. R) diễn ra tại t = 0. Để quan sát điều này. bé hơn 1 và càng bé hơn 4. tức là ( 21 .94 ⃝ c 2011 . Tuy nhiên. Để giữ cho NC1 không vi phạm luật chơi. Hơn nữa. xét hành động của NC2 là R. . N2 ) không phải là cân bằng hoàn hảo trò chơi con.. Khi chơi R. Như vậy. tức là: [ ] −1 1 1 + − ≥ 0. Sau đó. . 1) + 14 (−1. 4. (N1 . quan sát rằng NC2 không bao giờ có thể thu lợi từ việc vi phạm. Giả sử NC2 chơi N2 . N2 ) là cân bằng Nash trong G∞ 1 (δ). Nếu không vi phạm.

−v(−B)) = (0.2 Một định lý dân gian cho cân bằng Nash Cho G = (A. nhưng NC1 có thể đảm bảo NC2 không bao giờ có thể nhận được hơn như thế bằng cách giữ nguyên chiến lược ( 45 . Gọi P (G) là không gian lợi ích hợp tác. Định lý dân gian về cân bằng Nash: Đặt x = (x1 . tồn tại một mức δ đủ lớn sao cho cặp lợi ích này có thể thu được bằng cách lấy giới hạn trung bình dài hạn tại cân bằng Nash của trò chơi G∞1 (δ). NC2 có thể đẩy NC1 tới trạng thái chỉ luôn nhận được giá trị 0. Định đề dưới đây tổng quát hóa nhận thức vừa nói của ta về trò chơi G1 . 54 ) có thể đạt được tại giới hạn trung bình của các giá trị lợi ich tại ngay cân bằng Nash của trò chơi G∞ 1 (δ) khi δ đủ lớn. sẽ tồn tại cân bằng Nash trong G∞ (δ) với lợi ích trung bình giới hạn x. B) là một trò chơi ma trận cặp bất kỳ. D 0 −4 Trong trò chơi này ( 45 . . Minh họa cho trong Hình (6. 6. lô-gic tương tự cho ta thấy rằng bất kỳ cặp lợi ích nào trong P (G1 ) mà vượt trội tuyệt đối cặp giá trị (v(A). đem lại giá trị của trò chơi bằng − 45 .2. Tương tự như vậy. 15 ). Gọi v(A) là giá trị của trò chơi ma trận A. Việc giới hạn mức lợi ích này là đòn giáng nặng nhất của NC1 lên NC2.2). ta có L R ( ) U −1 0 −B = . và v(−B) là giá trị của trò chơi −B. Với mỗi cặp lợi ích trong vùng sẫm màu. cấp m × n.Lý Thuyết Trò Chơi . nếu như NC2 vi phạm luật chơi. Như thế. Sẽ tồn tại 0 < δx∗ < 1 sao cho với mọi δ ≥ δx∗ . nếu chúng ta xét ma trận lợi ích B của NC2. x2 ) ∈ P (G) sao cho x1 > v(A) và x2 > −v(−B). Bằng cách sử dụng các trừng phạt trong duy trì chiến lược chơi giữ cò súng này. và đây cũng là trừng phạt nặng nhất mà NC2 có thể giáng vào lợi ích của NC1. khi người này vi phạm quy tắc chơi. NC2 có thể đảm bảo thu được lợi ích tối thiểu 45 .DHVP Research 95 là lựa chọn chiến lược tối ưu của NC2 trong A. 15 ) là một chiến lược tối ưu cho NC1.

2: δ và lợi ích giới hạn tại G∞ p (δ) .1: δ và lợi ích giới hạn tại G∞ p (δ) Hình 6.96 ⃝ c 2011 .Vương Quân Hoàng Hình 6.

Lý Thuyết Trò Chơi .DHVP Research 97 .

Vương Quân Hoàng VQH ghi chú: .98 ⃝ c 2011 .

Lý Thuyết Trò Chơi .DHVP Research 99 .

100 ⃝ c 2011 .Vương Quân Hoàng VQH ghi chú: .

Chương 7 Trò Chơi Tiến Hóa . Tính ổn định của hành trình tiến hóa có ý nghĩa nắm bắt ý tưởng sự kiện đột biến trong sinh học. Tiếp theo. Nó có vai trò quan trọng trong việc xây dựng kết nối với các hệ thống động học và ý niệm LTTC như cân bằng Nash. các trò chơi bất đối xứng sẽ được tìm hiểu sơ bộ. LTTC với hành trình tiến hóa có vai trò quan trọng trong ứng dụng các nguyên lý sinh học tiến hóa cho tới hành vi hợp lý bị chặn của con người. Trước tiên. Ý niệm về nghiệm chủ yếu là một chiến lược ổn định theo diễn biến của sự tiến hóa. ta xét các trò chơi 2-NC đối xứng và các chiến lược ổn định tiến hóa. Các cá thể trong cùng một bộ phận chơi các chiến lược thuần giống nhau. 101 . cùng với việc kết nối ý tưởng replicator dynamics với cân bằng Nash. Ta sẽ lập luận rằng chiến lược ổn định tiến hóa là một phần của một cân bằng Nash. ta đề cập khái niệm replicator dynamics. Cuối cùng. Phần này trình bày mô tả tổng quan về trò chơi tiến hóa.1 Trong một trò chơi tiến hóa. giúp nắm bắt ý tưởng tiến hóa dựa trên tính phù hợp. NC được xem như dân số cộng đồng. Các xác suất trong một chiến lược hỗn hợp của một NC của ma trận cặp được hiểu như như các bộ phận cư dân.

1 . Một chiến lược hỗn hợp p = (p1. Cuộc chiến liên quan tới nơi làm tổ hoặc lãnh thổ kiếm mồi. bij = aji với mọi i. p2) (của NC1 hoặc NC2) được diễn giải một cách tự nhiên là sự biểu thị tỷ trọng các cá thể trong dân số chung được đặc trưng bởi cùng một loại hành vi. . Định nghĩa chính thống về trò chơi đối xứng và cân bằng Nash đối xứng như sau: Định nghĩa trò chơi đối xứng: Gọi G = (A. đó là (( 12 . NC1 và NC2 chỉ là 2 thành viên khác nhau của cùng một cộng đồng dân cư ngẫu nhiên gặp nhau. vì thế một cá thể nào đó không thực sự tiến hành lựa chọn giữa 2 kiểu hành vi đặc trưng. Kiểu hành vi đặc trưng được quy định bởi gien. . Trong bối cảnh này. Dove 1. m). Trò chơi này có tính chất đối xứng. 2 Trò chơi này mô phỏng tình huống sau. . tiếp sau đây ta quan tâm cụ thể tới các cân bằng Nash đối xứng. Dưới đây là một tính chất đã được chứng minh. q ∗ ) của G có tính đối xứng nếu như p∗ = q ∗ . Các cá thể của một nhóm dân cư lớn gặp nhau một cách ngẫu nhiên. và ta cần một định nghĩa chính thức về tính chất này. ( 12 .Vương Quân Hoàng 7. p1 × 100% của dân số là diều-hâu và p2 × 100% là bồ-câu.102 ⃝ c 2011 . 0 3. và cư xử một cách sấn sổ (diều hâu-Hawk) hoặc thụ động (bồ câu-Dove). . 3 2. B) là một trò chơi ma trận cặp cấp m × n. j = 1. ví dụ như số lượng sinh sản. Theo cách hiểu này. Nói cách khác.1 Trò chơi 2-NC đối xứng và chiến lược ổn định tiến hóa Một ví dụ rất kinh điển của LTTC tiến hóa là trò chơi Diều Hâu-Bồ Câu (Hawk-Dove): Hawk Dove ( ) Hawk 0. tức là các cân bằng Nash mà tại đó NC có cùng một chiến lược. Lợi ích thu về phản ánh sự thích nghi kiểu Darwin. Trò chơi Hawk–Dove có 3 cân bằng Nash. thành từng đôi. G có tính đối xứng nếu như m = n và B = AT . 12 )). và chỉ một trong số đó có tính chất đối xứng. Một cân bằng Nash (p∗ . 12 ). trong đó AT là ký hiệu của ma trận A chuyển vị (nghĩa là. .

Tiếp theo là các định đề chỉ ra rằng ESS sẽ dẫn đến một cân bằng Nash đối xứng. Nói cách khác. x) là một cân bằng Nash trong G = (A. AT ).DHVP Research 103 Định đề về cân bằng Nash đối xứng: Mọi ma trận bimatrix đối xứng G đều chứa một cân bằng Nash đối xứng. ta xét thử G = (A. Một tính chất rất tiện lợi khác của ESS được phát biểu ở định đề dưới đây. Về sau. Xét một bước tiến hóa nhỏ ϵy + (1 − ϵ)x của x. . Chiến lược ổn định tiến hóa: Một chiến lược x ∈ ∆m là một chiến lược ổn định tiến hóa (ESS)1 trong A nếu với mọi chiến lược y ∈ ∆m . Về ý nghĩa của tính chất này. Tính ổn định tiến hóa được coi như sự biểu thị tính ổn định của một nhóm cư dân trước những đột biến. chúng ta có ý nói tới G = (A. Chứng minh. thì: xA(ϵy + (1 − ϵ)x) > yA(ϵy + (1 − ϵ)x) với mọi 0 < ϵ < ϵy . Khi này (x. ϵy ) chúng ta đều có xA(ϵy + (1 − ϵ)x) > yA(ϵy + (1 − ϵ)x). để tìm ESS điều kiện đủ là giới hạn nỗ lực vào tìm các cân bằng Nash đối xứng. Điều kiện (7. ta đã nói trước đây ∆m ký hiệu tập các chiến lược hỗn hợp (cho NC1 hoặc NC2). B) là một trò chơi đối xứng. tính ổn định tiến hóa dẫn đến các kết cục động học và LTTC.Lý Thuyết Trò Chơi . trước tiến hóa nhỏ. nếu như dân số x bị xâm lược bởi một bộ phận nhỏ cư dân đột biến y. Gọi y ∈ ∆m .1) Diễn giải ESS x như sau.1) khi này cho biết. 1) sao cho với mọi ϵ ∈ (0. chiến lược nguyên thủy x tốt hơn chiến lược y thay đổi. Định đề ESS: Cho A là ma trận kích thước m×m và cho x ∈ ∆m là một ESS thuộc A. Điều kiện đủ là ma trận lợi ích A vì B = AT . AT ). Bằng cách cho ϵ → 0. khi ta nói tới ma trò chơi ma trận đối xứng A. thì y ̸= x. với một tính chất đặc biệt bổ sung. Ta sẽ thấy rằng. Như vậy. Ta cũng có định nghĩa dưới đây. Cho A là một ma trận m × m. thì tồn tại ϵy ∈ (0. ta suy ra rằng xAx ≥ yAx. Mệnh đề vừa xong cho biết các chiến lược tiến hóa ổn định sẽ dẫn đến các cân bằng Nash đối xứng. thì x vượt qua được tình trạng vì có khả năng sinh sống tốt hơn y kết cục thay đổi. (7. điều kiện đủ là chỉ ra rằng xAx ≥ yAx. 1 Evolutionary Stable Strategy. Cho ϵy như định nghĩa trên.

Với trò chơi này. Có thể thấy điều này nhờ tính trực tiếp.2) luôn được thỏa mãn. ta có kết cấu đầu bài: Hawk Dove ( ) Hawk 0 3 A= . suy ra (7. Trước tiên. Chứng minh. Vì vậy. y như định đề vừa rồi.1). Do đó. kiểm tra xem liệu điều kiện (7. vậy thì điều kiện xAx = yAx trong (7. 12 ). mâu thuẫn với (7. và điều này đúng với mọi y ̸= 21 . thì x chính là một ESS. 1 − y) là một chiến lược bất kỳ. 1]. nhưng cũng có thể thông qua quan sát rằng (x. ta phải kiểm tra tiếp liệu xAy > yAy với mọi y = (y. Hai định đề vừa phát biểu cho biết rằng ESS là những chiến lược x mà (i) xuất hiện trong một cân bằng Nash đối xứng. các chiến lược tiến hóa ổn định cho một ma trận Am×m có thể được tìm theo cách sau. Nếu xAx > yAx. yA(ϵy + (1 − ϵ)x) ≥ xA(ϵy + (1 − ϵ)x). thì x là một ESS.Vương Quân Hoàng Định đề ESS thứ 2: Với x. B) với B = AT . AT ) và (7.2) thỏa mãn. y). Gọi y = (y. ta có: xAx = yAx ⇒ xAy > yAy (7. 1].2) thỏa mãn cho x. tính các cân bằng Nash đối xứng của trò chơi G = (A. 1 − y) ̸= x. Tiếp theo.2) có được thỏa mãn. Bất đẳng thức này được rút gọn thành 4y 2 − 4y + 1 > 0. x) ∈ ∆m × ∆m là một cân bằng Nash trong G = (A. Do vậy. và y ̸= x. x) là một cân bằng Nash. nếu C × ∆m là một cân bằng Nash trong G = (A.104 ⃝ c 2011 . y ∈ ∆m với y ̸= x và xAx = yAx. với mỗi cân bằng (x. Nếu có. x). Vậy thì.1) thỏa mãn với mọi ϵ ∈ (0. . ta kết luận rằng: x = ( 12 . và (ii) vận hành tốt hơn hẳn căn cứ trên bất kỳ một phản ứng tối ưu khác nào của đối thủ (tức là. Dove 1 2 Cân bằng đối xứng duy nhất là x = ( 12 . thì xAy > yAy. với bất kỳ ϵ ∈ [0.2) Ngược lại. AT ) và điều kiện (7. Ngược lại. Cho x ∈ ∆m là một ESS. Nếu xAx = yAx. 12 ) là ESS trong trò chơi A. Giả sử rằng yAy ≥ xAy. cho (x. thì xA(ϵy + (1 − ϵ)x) > yA(ϵy + (1 − ϵ)x) với ϵ đủ bé. Ta áp dụng phương pháp vừa nêu cho trò chơi diều hâu-bồ câu. Việc này tiến hành nhờ các phương pháp ta đã xét ở Chương 2.

Lý Thuyết Trò Chơi . ta giả định rằng x˙ được cho bởi phương trình sau: x(t) ˙ = dx(t)/dt = x(t)[3(1 − x(t)) − (2 − 2x(t)2 )]. Dove 1. 3(1 − x(t))) so với mức thích ứng trung .3) là động học bộ sao của trò chơi Hawk–Dove. Tiếp theo. 1 . 2 Xét chiến lược hỗn hợp hoặc trong tình huống đang nghiên cứu là một véc-tơ phân bố dân cư x = (x. Ta sẽ làm rõ khái niệm này từ trò chơi Hawk–Dove: Hawk Dove ( ) Hawk 0. thay đổi của x . dân số của Hawks (diều hâu) thay đổi liên tục (biểu thị qua dx(t)/dt).2 Động học bộ sao chép và tính ổn định tiến hóa Các ý niệm trung tâm của thuyết tiến hóa là đột biến và chọn lọc.DHVP Research 105 7. tức là x là một hàm số của thời gian t. và thay đổi này tỷ lệ với sự sai biệt của mức độ thích ứng tại thời điểm t (đó là. Chơi Hawk với dân cư x thu về lợi ích kỳ vọng hoặc sự thích nghi 0 · x + 3 · (1 − x) = 3(1 − x). 3 2. Tức là. tỷ lệ với sự khác biệt so với mức thích ứng bình quân. khả năng thích ứng bình quân (average fitness của dân số là: x · 3(1 − x) + (1 − x) · (2 − x) = 2 − 2x2 .3) Biểu thức (7. Nếu như ý tưởng đột biến được nắm bắt thông qua khái niệm tính ổn định tiến hóa. thì ý tưởng về chọn lọc được biểu hiện qua cái gọi là động học của bộ sao chép (kiểu như tự phân chia tế bào. ta giả định rằng tỷ trọng dân số phát triển qua thời gian. và rằng. Phương trình này phát biểu rằng.replicator dynamics).được mô tả qua đạo hàm x˙ = x(t) ˙ = dx(t)/dt. Do đó. Xét một cá thể bất kỳ của cộng đồng dân cư. 0 3. và chơi Dove mang lại: 1 · x + 2 · (1 − x) = 2 − x. 1 − x). (7.

(Có thể vẽ diagram của dx/dt như hàm của biến x. Một xáo trộn nhỏ. mà ta sẽ có dịp tìm hiểu về sau. Giả sử như hệ thống tại điểm dừng x = 12 . và do đó không có gì thay đổi. trong cả 3 điểm nghỉ nhận thấy. hệ thống sẽ trở lại trạng thái tại đó 1/2 dân số là Dove. điểm dừng) .) Ta nhận thấy động học bộ sao này có 3 nghiệm khác biệt . (2) x = (x. . sự thích nghi của chúng bằng với mức thích ứng trung bình.106 ⃝ c 2011 . Nhưng điểm dừng này không ổn định.3) và đơn giản hóa cách viết x thay vì viết x(t) ta có: x˙ = dx/dt = x(x − 1)(2x − 1). trị số của đạo hàm dx/dt bằng 0. (1) A có ít nhất một ESS. x = 21 . Giản lược (7. Ta có định đề tiếp theo được phát biểu (không chứng minh). ta đã có x = ( 12 . ví như đột biến gien sinh ra một Hawk.Vương Quân Hoàng bình của dân cư (bằng 2 − 2x(t)2 ). Ta lưu ý sau một xáo trộn theo bất kỳ hướng nào. nếu và chỉ nếu x là một điểm dừng ổn định của động học bộ sao chép (replicator dynamics). Cũng tồn tại mối liên hệ giữa tính ổn định của các điểm dừng với các tính chất khác của cân bằng Nash. 12 ) là ESS duy nhất của trò chơi Hawk–Dove. 1 − x) là một ESS của A. Định đề ESS ma trận 2 × 2: Cho A là một ma trận kích thước 2 × 2. sẽ khiến cho số lượng Hawk tăng lên vì dx/dt > 0. Sự tăng lên này sẽ tiếp diễn cho tới khi chạm điểm dừng x = 21 . Tại các giá trị x này.đó là: x = 0. Trong phần trước. trong đó dân số chỉ chứa toàn Hawk. Như vậy. chỉ có x = 21 là có tính ổn định. nghĩa là tỷ trọng dân số không thay đổi: hệ thống động học ở điểm nghỉ. và x = 1. Trong trường hợp x = 0 tất cả thành viên của các loài đều là Dove. Tình huống tương tự xảy ra với điểm nghỉ x = 1. điểm tới hạn. cái này còn gọi là sơ đồ pha.còn gọi là các điểm nghỉ (hoặc điểm cân bằng. Với các ma trận tổng quát m × m thì tập các điểm nghỉ hỗn hợp trùng với các chiến lược Nash đối xứng hỗn hợp.

(7.5) Một lần nữa ta quan tâm đến các điểm nghỉ của các hệ thống động (7. Các cá thể của một nhóm dân số ngẫu nhiên và liên tục đối chọi với một cá thể khác của nhóm dân số kia. Tỷ trọng đặc trưng L và R trong dân cư cột tương ứng là y và 1 − y. Trong nhóm dân cư dòng có hai đặc trưng khác biệt là T.2 Xét ma trận cặp 2 × 2: L R ( ) T 0. Để bắt đầu. Kỳ vọng lợi ích của một cá thể thuộc đặc trưng T cho bởi: 0·y +2·(1− y) = 2 − 2y.7.Lý Thuyết Trò Chơi . R. ta có thể lấy ví dụ sau đây từ Gardner (1995). R. 0 2.3 Trò chơi bất đối xứng Tiếp cận kiểu tiến hóa với LTTC không nhất thiết bị giới hạn trong các tình huống đối xứng. Đối với kinh tế học. B. B) = . Với cá thể có đặc trưng L lợi ích là: 0 · x + 5 · (1 − x) = 5 − 5x. Tương tự. 5 1. Ví như hai loài cạnh tranh nhau giành lãnh thổ trong thế giới sinh học. (7.DHVP Research 107 7. Và đặc trưng R: 2 · x + 5 · (1 − x) = 5 − 3x. và đặc biệt làm điểm dừng ổn định. Trung bình của các đặc trưng hàng là: x[2(1 − y)] + 1 · (1 − x) và động học bộ sao chép của tỷ trọng dân cư x(t) của các cá thể đặc trưng T được cho bởi: dx/dt = x[2(1 − y) − x[2(1 − y)] − (1 − x)] = x(1 − x)(1 − 2y). . B 1. 5 Ta tư duy về hai nhóm dân số. AT ) trong đó hàng và cột biểu hiện các chiến lược trùng khớp nhau.4) Ở đây x là cách viết gọn của x(t) và y thay cho y(t). Trong sinh học cũng như kinh tế học.5). ta tìm thấy vô vàn các tình huống bất đối xứng. New York: Wiley. Với cá thể đặc trưng B. 2 (A. theo hàng (dòng) và theo cột. (1995) Games for business and economics. giả định rằng tỷ trọng của đặc trưng T và B theo dân cư dòng là x và 1 − x. và ta lại quan tâm tới sự thay đổi của tỷ trọng dân cư.4. và cột là đặc trưng L. 2 Gardner. ta cũng viết ra động học bộ sao chép cho dân số cột: dy/dt = y(1 − y)(−2x). tức là chỉ các trò chơi ma trận dạng (A. kỳ vọng lợi ích là 1 · y + 1 · (1 − y) = 1.

Hình 7. có thể thấy rõ điểm (1. tình huống mà dân số theo hàng chỉ chứa duy nhất các cá thể mang đặc trưng T (x = 1) và dân số theo cột chỉ chứa cá thể đặc trưng R (y = 0) là tình trạng ổn định duy nhất. Đường đen đậm là x. y. 0)} ∪ {(1. 0) là điểm duy nhất có được các tính chất này. y theo (7.1: Sơ đồ pha của trò chơi tiến hóa bất đối xứng Các giao điểm là nơi hệ thống nghỉ. (7. xét trên góc độ động học bộ sao chép.5). Một điểm dừng ổn định là điểm mà nếu như hệ thống động học tại đó bị xáo trộn và xuất hiện một số thay đổi nhỏ sang các điểm tương đối gần. y)|0 ≤ y ≤ 1 ∪ {(1.1). . thì sẽ sớm muộn chuyển động trở lại điểm dừng đó.108 ⃝ c 2011 . các mũi tên chỉ hướng chuyển động của x. Trong ví dụ đang xét. Do vậy. vì thế trong vùng x và y.Vương Quân Hoàng Ta tham khảo sơ đồ các trị số của x và y. Chẳng hạn nếu 1 > y ≥ 12 và 0 < x < 1 ta có dx/dt < 0 và dy/dt < 0. có thể hiểu rằng một điểm nghỉ ổn định là điểm mà mọi mũi tên trong vùng lân cận điểm đó đều hướng về đó. tức là tập: (0.4).6) Trong hình (7. Đường nhạt là theo (7. 1)}. Theo các mũi tên trong hình minh họa.

R). Chẳng hạn. R) thì anh ta sẽ nhận được lợi ích bé hơn 2. (B. . mà trên thực tế sẽ thiệt hại nếu lệch ra khỏi vị trí đó. nếu NC theo hàng dịch chuyển từ T của cân bằng Nash (T. Quan sát của ta về điểm nghỉ ổn định của động học bộ sao trùng với cân bằng Nash chặt không phải là sự tình cờ. L). L)} ∪ {(B. R) là một cân bằng Nash. một cặp chiến lược là điểm dừng (nghỉ) ổn định của hệ động học bộ sao chép nếu và chỉ nếu nó là cân bằng Nash chặt. bất kỳ điểm dừng ổn định nào cũng là một cân bằng Nash chặt. thì anh ta vẫn thu được lợi ích bằng 5. Định đề dưới đây phát biểu mối liên hệ này. nhưng điều ngược lại không nhất thiết đúng. (q. Một cân bằng Nash chặt trong trò chơi là cân bằng mà tại đó mỗi NC không chỉ không được thu lợi. 2 Từ đó suy ra. điểm nghỉ ổn định (T. điểm này có một đặc tính là cân bằng Nash chặt duy nhất của trò chơi.DHVP Research 109 Vậy điều này có quan hệ gì với cân bằng Nash? Ta có thể kiểm tra rằng tập các cân bằng Nash trong ví dụ này là tập: 1 {(T. Hơn nữa. Lấy ví dụ. nếu NC cột dịch từ L sang R trong cân bằng Nash (B.) Quan hệ điểm dừng ổn định và cân bằng Nash chặt: Trong một trò chơi 2 × 2. Với các trò chơi kích thước lớn hơn. 1 − q))| ≤ q ≤ 1}. Tất cả các cân bằng khác trong trò chơi đều không có đặc tính vừa nói. (Không chứng minh.Lý Thuyết Trò Chơi .

Vương Quân Hoàng .110 ⃝ c 2011 .

DHVP Research 111 VQH ghi chú: .Lý Thuyết Trò Chơi .

Vương Quân Hoàng .112 ⃝ c 2011 .

DHVP Research 113 VQH ghi chú: .Lý Thuyết Trò Chơi .

LÝ THUYẾT TRÒ CHƠI .

có thể phân chia giữa những NC theo cách dễ hiểu (kể cả nếu đây là khoản lỗ) nếu liên minh đó thực sự tồn tại và vận hành. chẳng hạn nhờ một phương tiện trao đổi chẳng hạn như tiền. ta giả thiết rằng lợi ích của một liên minh có thể biểu diễn qua một con số. 8.1 Ví dụ và các ý niệm cơ bản Chúng ta có một số ví dụ về trò chơi hợp tác với lợi ích chuyển nhượng được như trò chơi 3 thành phố. Trò chơi hợp tác trừu tượng hơn trò chơi bất hợp tác theo nghĩa là các chiến lược không được xây thành các mô hình hiện. Có thể coi con số này là một lượng tiền. 115 . găng tay. và bỏ phiếu. Trong trò chơi hợp tác với lợi ích có thể chuyển nhượng. trò chơi mô tả mục đích mà từng liên minh (có thể) thu được nếu hợp tác với nhau.Chương 8 Hợp Tác Chuyển Đổi Lợi Ích Một giả định ngầm trong trò chơi hợp tác là những người chơi có thể thành lập các liên minh và xây dựng các thỏa ước bắt buộc nhau thực hiện đối với nhiệm vụ phân chia lợi ích của các liên minh này. Sự khác biệt này biểu hiện ở chỗ. Chúng ta sẽ sử dụng các ví dụ và ý niệm về nghiệm như tập lõi. Tổng quát hơn. đó là một đại lượng thỏa dụng nào đó và giả định ngầm rằng có thể chuyển qua lại cho nhau lượng thỏa dụng này giữa các NC. giá trị Shapley và hạch nhân (nucleolus) để tìm hiểu bước đầu. giao hoán.

1) ta có thông số về chi phí và số tiền tiết kiệm được của mỗi liên minh. Nếu các thành phố hợp tác trong việc thuê các điểm kết nối thì họ có thể tiết kiệm chi phí.1: Liên minh lưới điện 3-TP S {1} {2} {3} {1. 2. Mỗi thành phố có thể thuê bất kỳ đầu kết nối nào. 2. Hợp tác truyền tải điện 3 thành phố muốn nối với lưới điện lân cận.1. 3}.1: Sơ đồ hợp tác tải điện 3-TP Mô hình: Người chơi trong tình huống này là 3 thành phố.1 Bài toán xuất phát Các bài toán trình bày dưới đây là xuất phát điểm để đưa ra các khái niệm có ích cho việc phát triển các trò chơi hợp tác và tìm kiếm nghiệm. ta ký hiệu tập NC là N = {1. Hình 8. S ̸= ∅. Các đầu mối truyền tải có thể và chi phí tương ứng được cho trong sơ đồ dưới đây. 3} {1. 3} {2. i∈S . 2} {1.116 ⃝ c 2011 . Những NC này có thể tạo nên các liên minh: bất kỳ tập con S thuộc N đều được gọi là một liên minh. Phần tiết kiệm chi phí v(S) được xác định bởi ∑ v(S) := c({i}) − c(S) với mỗi S ∈ N. 3} c(S) 100 140 130 150 130 150 150 v(S) 0 0 0 90 100 120 220 Trong bảng liên minh (8. Bảng 8.Vương Quân Hoàng 8. c(S) có được nhờ tính toán các đường tải chi phí thấp nhất nối các thành phố trong liên minh S với nguồn điện.

2.Lý Thuyết Trò Chơi . x1 + x3 ≥ 100. “Tập lõi” chứa các phân phối lợi ích mà không thể cải thiện tốt hơn thông qua xây dựng các liên minh có kích thước nhỏ hơn. NCi nhận được xi .3) (giá . thường ta giả định liên minh lớn N có tất cả các thành viên được thành lập. giá trị Shapley chứa định nghĩa về một điểm (véc-tơ) trong trường hợp này là phân phối (65. giá trị Shapley. Một phương án có thể là chọn x1 = x2 = x3 = 220/3. 76 23 . v) được gọi là một trò chơi hợp tác. tuy vậy nhiều khả năng là sự nhất trí này lại phụ thuộc vào lợi ích mà thành viên nhận được khi tham gia liên minh.2). đây là một tập lớn và tương đối bất định. nhưng cách này không phản ánh được tính bất đối xứng của tình huống: có liên minh tiết kiệm được nhiều hơn so với liên minh khác. Trong ví dụ ở trên. Lõi của trò chơi này chứa đúng một véc-tơ. Giá trị Shapley gán 2/3 cho NC3. Hạch nhân chứa đúng một điểm. Trò chơi hợp tác găng tay này được hình dung qua mô hình cho ở bảng (8. 3 NC hợp tác nhau nhằm tạo ra giá trị. điều này có nghĩa là tập lõi chứa các véc-tơ (x1 . 75. Để hình thành liên minh cần sự nhất trí của các thành viên. Cặp (N. x2 . Hạch nhân là phần tử duy nhất của lõi. Sở nguyện của mỗi NC được cho trong bảng (8. và x2 + x3 ≥ 120. 3}. i ∈ {1. 2. và hạch nhân (nucleolus). Cụ thể. Vì thế. x3 ) sao cho x1 + x2 + x3 = 220. NC3 có chiếc găng trái. Một cặp găng tay đủ trái phải có giá trị 1. x3) ∈ R3 sao cho x1 + x2 + x3 = 220. x2. 3 và 4. Trò chơi găng tay Giả sử có 3 NC. ở đây là véc-tơ (56 32 . Ngược lại. x2 . và câu hỏi rút gọn lại trở thành phân phối phần tiết kiệm chi phí v(N ) thế nào giữa các thành viên. 3 có lịch hẹn với bác sỹ lần lượt vào thứ 2.DHVP Research 117 Phần tiết kiệm v(S) cho liên minh S bằng phần chênh lệch chi phí tương ứng với tình huống ở đó tất cả thành viên của liên minh S hoạt động riêng rẽ và tình huống họ hợp tác với nhau cùng hành động. 86 23 ). NC1 và NC2 mỗi người có một chiếc găng tay bên phải. do nhiều yếu tố khác nhau. LTTC cung cấp một số các nghiệm khác nhau cho bài toán phân phối này. Ở đây. khoản tiền 220 (chính là v(N )) phân chia cho 3 thành phố thế nào? Nghĩa là. và 1/6 cho cả NC1 lẫn NC2. 80). trong đó. x3 ≥ 0. Trò chơi hoán vị NC1. ta phải tìm ra véc-tơ x = (x1. trong số đó có thể liệt kê là lõi. Lịch hẹn này không hẳn là phù hợp nhất với mỗi NC. x1 . x1 + x2 ≥ 90.

Nga. 7). sao cho v(∅) = 0. Pháp và Trung Quốc). và x3 = 140 phân phối phần tiết kiệm Bảng 8. 10). Tình huống này làm nảy sinh trò chơi trong đó các liên minh được xây dựng để tạo ra giá trị bằng cách hoán đổi lịch hẹn cho nhau. và (9. v) với v(S) = 1 nếu như liên minh S chứa 5 thành viên thường trực và ít nhất 4 không thường trực. và các liên minh khác thua.2: Giá trị trò chơi găng tay S {1} {2} {3} {1. (14. 4). Đây là tình huống dẫn đến trò chơi 15-NC. 4). 8. và 10 thành viên không thường trực khác. Một phân phối lợi ích cho liên minh S là một véc-tơ các số thực (xi )i∈S . Hàm v được gọi là hàm đặc trưng và v(S) được gọi là giá trị của S. Mỗi chuyển động nghị quyết cần được phê chuẩn bởi 9 thành viên. 6. trong đó N = {1. 3} v(S) 0 0 0 0 1 1 1 . Đây là một dạng trò chơi sẽ cần được nghiên cứu sau. bao gồm bắt buộc cả 5 thành viên thường trực. (8. . 3} {1.118 ⃝ c 2011 . 2. Định nghĩa: Một trò chơi hợp tác có thể chuyển nhượng lợi ích (viết tắt TU-game) là một cặp (N. 6. v). 10). n} với n ∈ N là tập người chơi. Lõi của trò chơi này là một bao lồi của các véc-tơ (15. 5. . Chẳng hạn NC1 và NC2 có thể đổi cho nhau lịch hẹn để tạo ra giá trị 14 thay vì 7. . Giả sử liên minh lớn hoạt động và có một đề xuất x1 = 40. 3} {2. và v là hàm gán cho mỗi liên minh S. Các liên minh với giá trị bằng 1 gọi là thắng cuộc. x2 = 40. Giá trị Shapley là véc-tơ (9 21 . Trò chơi bỏ phiếu: Hội đồng Bảo an LHQ gồm có 5 thành viên thường trực (Mỹ. và v(S) = 0 với các tình huống khác. 5. Liên minh N được gọi là liên minh lớn. 2.Vương Quân Hoàng trị gán bằng số). 6 12 . .2 Tập lõi Xét trò chơi 3 thành phố. gọi là trò chơi bỏ phiếu (N.4). tức là mỗi tập con S ∈ N một số thực v(S). 8) và hạch nhân là véc-tơ (11 21 . Trò chơi được trình bày trong bảng đầy đủ (8. 2} {1. 5 21 . Anh.

0. một phân phối x = (x1 . x1 + x3 ≥ 100. Định nghĩa tập lõi: Với trò chơi TU-game (N. . 220). 220.Lý Thuyết Trò Chơi . . ta xem hình (8. . . 0. và (100. ràng buộc x1 + x2 + x3 = 220 khiến cho C nằm trong tập con 2-chiều của R3 . NC1. x3 ) ∈ R3 | x1 . . . v). 120. 3. 0).DHVP Research 119 v(N ) = 220 trên bàn đàm phán. tập lõi của trò chơi 3-TP là tập hợp các phân phối lợi ích cho N = {1. . x2 + x3 ≥ 120 x1 + x2 + x3 = 220}. 3} sao cho tổng của các lợi ích bằng v(N ) = 220 và mỗi liên minh S không rỗng thu được lợi ích thấp nhất cũng bằng giá trị tự thân của liên minh.2 có thể phản đối thành công vì họ có thể tiết kiệm v({1. x2 . 130). 120). 120. ∑ Để tiện lợi ta dùng ký hiệu x(S) := i∈S xi cho một phân phối lợi ích x = (x1 . 0). Trong trường hợp này. Khi này ta nói rằng x = (x1 . (90. 100). (0. x3 ) không thuộc lõi của trò chơi này. Tưởng tượng người đề xuất là NC3. Tổng quát hơn. 0. . . chặn bởi các ràng buộc của các liên minh 2-NC. Tam giác tạo thành bởi 3 điểm này có thể thấy trong hình.2) tập lõi của trò chơi 3-TP là đa giác với các đỉnh (100. x2 . tức là mặt phẳng qua các điểm (220. và (0. Đó là tập: C = {(x1 . 2}) = 90 > 80 = x1 + x2 mà không cần có NC3. x3 ≥ 0 x1 + x2 ≥ 90.3: Giá trị theo sở nguyện NC T2 T3 T4 NC1 2 4 8 NC2 10 5 2 NC3 10 6 4 . theo hình (8. . 2. Để hình dung rõ hơn khái niệm tập lõi. C là tập con của tam giác này vì xi ≥ 0 với mọi i = 1. 2. xn ) ∈ Rn có tính chất: Bảng 8. 130). 0. (0. 2. Dù rằng C là tập con của R3 . x2 . 90. (0. . 0). n}. xn ) ∈ Rn và một liên minh không rỗng S ⊆ N = {1. Sau đây là khái niệm chính thống về tập lõi và một số khái niệm liên quan. . 3. rút ra từ điều kiện xi ≥ v({i}) với i = 1.2). Như vậy. Tập lõi C là phần tô sẫm.

3} {2. 3} v(S) 2 5 4 14 18 9 24 Hình 8. 3} {1. 2} {1.120 ⃝ c 2011 . 2.4: Mô hình hoán vị lịch hẹn S {1} {2} {3} {1.2: Tập C trò chơi 3-TP .Vương Quân Hoàng Bảng 8.

hay nhỏ. Do đó. tập lõi có thể tính được thuận lợi nhờ phương pháp đồ thị. Xét trò chơi 3-Tp. NC1 đã có mặt. Giá trị Shapley không căn cứ quá nhiều vào các lựa chọn chiến lược mà gán cho mỗi NC một mức đóng góp biên trung bình (marginal contribution) trong trò chơi mà NC đó tham gia. được gọi là một véc-tơ biên. rồi NC2 sau. và thứ tự này .DHVP Research 121 i Hiệu quả nếu x(N ) = v(N ) ii Hợp lý trên phương diện cá thể nếu xi ≥ v({i}) với mọi i ∈ N iii Hợp lý trên phương diện liên minh nếu x(S) ≥ v(S) với mọi liên minh không rỗng S. v) là tập: C(N. các phần tử của tập lõi có thể tính được nhờ các phương pháp quy hoạch tuyến tính. 90. 3-NC. NC3 tiến vào. v) là tập tất cả các phân phối lợi ích hợp lý trên phương diện liên minh và có hiệu quả. NC1 vào một phòng trống và có thể nhận mức đóng góp biên v({1}) − v(∅) = 0 − 0 = 0. 8. Bản thân phân phối này dường như không được công bằng vì nó phụ thuộc vào thứ tự tiến vào phòng đàm phán. 130). thì giá trị Shapley gán một phân phối lợi ích duy nhất cho liên minh lớn đối với từng trò chơi TU-game. tập lõi của (N. 2. và ngay khi bước vào mỗi NC yêu cầu và nhận được phần đóng góp biên. và NC2 nhận mức đóng góp biên của mình v({1. và NC3 cuối cùng. Cuối cùng. 2}) = 220 − 90 = 130. Vì thế. Nếu như tập lõi là một tập (có thể tập rỗng). Tập lõi của một trò chơi có thể là tập lớn.Lý Thuyết Trò Chơi . v) = {x ∈ Rn |x(N ) = v(N ) và x(S) ≥ v(S) ∀∅ = ̸ S ⊆ N }. thì liên minh {1. Thủ tục như trên sinh ra phân phối lợi ích (0. khá khác biệt so với ý niệm tập lõi. NC3 nhận phần đóng góp biên v({1. 2}) − v({1}) = 90 − 0 = 90. 3}) − v({1. Xét tổng quan. Khi NC2 bước vào.3 Giá trị Shapley Giá trị Shapley là một ý niệm về nghiệm của trò chơi dạng TU-game. Tập lõi của trò chơi (N. Ta hình dung một cấu trúc trong đó những NC lần lượt vào một phòng đàm phán. Giả sử NC1 vào trước. Với các trò chơi 2-NC. hoặc có thể là tập rỗng. 2} đã có mặt.

3. Ví dụ. Giá trị Shapley là các tổng đóng góp biên chia cho 6. tổng số các véc-tơ biên trong đó NC7 nhận đóng góp biên v({3. 5. Trong bảng kết quả (8. còn 5 phương án tiến vào phòng khác nữa. ta tính giá trị Shapley cho trò chơi 3-TP. 5. 9. tức là cộng tất cả các véc-tơ đó rồi chia tổng cho n!.2 0 120 100 2. Nếu số NC lớn quá. và có thể xảy ra 3! thứ tự xuất hiện. Bảng 8.5: Giá trị Shapley cho TU-game 3-TP Thứ tự 1 2 3 1.1 100 0 120 3.2. v) với tập NC N = {1. trước tiên bằng việc tính các véc-tơ biên tương ứng với n! thứ tự khác nhau của NC.5).1.3. . 5. 6 NC khác bước vào. và gán cho trò chơi TU-game một giá trị trung bình. Theo cùng lập luận. Xét NC thứ 7 và liên minh {3.3 0 90 130 1.Vương Quân Hoàng khá tùy tiện. 5.1 100 120 0 Tổng 390 450 480 Shapley 65 75 80 Với một TU-game bất kỳ (N. 9. Giá trị Shapley xem xét các véc-tơ biên của cả 6 phương án bước vào phòng. n}. một NC bất kỳ i ∈ N .1 Tuy vậy. Ta lặp lại lập luận này cho một TU-game (N. giá trị Shapley có thể tính theo cách tương tự. Rồi NC7 mới bước vào. lưu ý rằng trước tiên NC3. Vậy nó nằm ở bao nhiêu véc-tơ biên? Để tính ra. 9}) là 3! × 6!. v) là trò chơi TU-game có 10-NC. v) bất kỳ. 7}) − v({3. và sau đó tính giá trị trung bình. .300 tỷ véc-tơ biên. 7}) − v({3.2 100 120 0 3.122 ⃝ c 2011 . công việc này tương đương với 15! tức là hơn 1. 9}) cộng dồn cho NC7 xuất hiện trên nhiều hơn 1 véc-tơ biên. .1. Đóng góp biên v({3. và một liên minh S bất kỳ không chứa NCi. Trên thực tế. Vì thế.2. . 5. . có cách khác để tính đóng góp biên của một NC hiệu quả hơn. thì công việc này rất nặng nhọc. và có thể có 6! trình tự khác nhau.3 90 0 130 2. Cuối cùng. cho (N. tổng số các véc-tơ biên trong đó NCi nhận được đóng góp 1 Trong trò chơi Hội Đồng Bảo An LHQ. 9}. NC5 và NC9 cần bước vào.

8. một trò chơi căn bản có các phân phối lợi ích cho liên minh lớn vừa có tính hiệu quả. Như vậy (N. |S|!. Độ dư này có thể được xem như số đo về mức độ không thỏa mãn của liên minh S với giá trị quy kết x: e(S. x). n! S⊆N :i̸∈S Giá trị Shapley của trò chơi 3-TP là một phần tử của tập lõi của trò chơi đó. cho x ∈ I(N. x) càng lớn. nghĩa là lợi ích giá trị Shapley cho NCi ∈ N . v) = [v(S ∪ {i}) − v(S)]. Như vậy. Giá trị Shapley cho NCi được tính bằng tổng trên tất cả liên minh S không chứa NCi. Tọa độ thứ i. nhân với số các trình tự xuất hiện khác nhau trong đó những NC không thuộc S ∪ {i} có thể bước vào sau NCi. Giá trị Shapley: Giá trị Shapley của TU-game (N. v) là trò chơi căn bản nếu và chỉ nếu I(N. đóng góp tổng mà NCi nhận được khi bước vào phòng đàm phán sau liên minh S là |S|!(n − |S| − 1)![v(S ∪ {i}) − v(S)]. v). kể cả khi tập lõi không rỗng. được tính bởi: ∑ |S|!(n|S|1)! Φ(N. Như vậy. v). và chia cho n!.nucleolus ∑ Ta gọi một TU-game (N. Cho (N. v) ̸= ∅.Lý Thuyết Trò Chơi . v) là căn bản nếu v(N ) ≥ i∈N v({i}). S ̸= N . Tuy nhiên. tức là (n − |S| − 1)!. đây không phải là một quy luật. Và đây chính là định nghĩa của giá trị Shapley. và S là một liên minh không rỗng. liên minh nhận được . được định nghĩa bởi: e(S. Độ dư (excess) của S tại x. ký hiệu là e(S. v) được ký hiệu là Φ(N. xi ≥ v({i}) ∀i ∈ N } được gọi là tập giá trị quy kết của trò chơi (N.DHVP Research 123 biên (S ∪ {i}) − v(S) bằng số các thứ tự khác nhau trong đó những NC thuộc liên minh S có thể bước vào trước. Các phân phối lợi ích như thế được gọi là giá trị quy kết (imputation).4 Hạch nhân . v). v) = {x ∈ RN |x(N ) = v(N ). x) = v(S) − x(S). Tập I(N. và có tính hợp lý trên phương diện liên minh. v) là trò chơi TU-game căn bản.

(56 32 .6: Phép thử hạch nhân trò chơi 3-TP S {1} {2} {3} 1.124 ⃝ c 2011 . và đây chính là hạch nhân. 3}. Cụ thể. Rõ ràng ta có thể giảm nữa độ dư này bằng cách tăng cho NC2.Vương Quân Hoàng tại x càng bé đi một cách tương đối so với giá trị v(S). Làm như thế suy ra rằng độ dư của {1. các độ dư của 3 liên minh 2-NC bằng nhau. Ta sử dụng minh họa từ trò chơi 3-TP tóm tắt trong bảng (8. 3} {1. Đó là vfi tổng các độ dư của 3 liên minh 2-NC tại bất kỳ phân phối giá trị quy kết nào . thì giá trị đó là hạch nhân của trò chơi. Phát biểu bằng lời thì hạch nhân (nucleolus) của một trò chơi TU- game căn bản (N. 70. Bảng 8. chọn ra những phân phối giá trị quy kết có độ dư tối đa là nhỏ nhất. 2 {1. Nếu không. 3} hoặc của cả 2 liên minh này đều sẽ tăng lên. thì S nhận được giá trị thấp hơn giá trị tự thân. v) được định nghĩa như sau. 80). 3} v(S) 0 0 0 90 100 120 220 e(S. Nếu điều này xảy ra với giá trị quy kết duy nất. Nếu điều này xảy ra với trường hợp tại một phân phối giá trị quy kết duy nhất. Trước hết. NC3 và giảm bớt NC1. thì đó chính là hạch nhân (nucleolus). (70. Độ dư lớn nhất tại phân phối quy kết này là −30. 70. Tại phân phối quy ước này. Lựa chọn giá trị quy kết cụ thể này là ngẫu nhiên: Chúng ta sử dụng nó là điểm xuất phát để tìm hạch nhân của trò chơi. Và đây cũng là các độ dư lớn nhất. Sau đó. 86 23 ). tiếp tục với các độ dư lớn thứ 3 cho tới khi tìm được giá trị quy kết duy nhất. nếu độ dư này là số dương.6). Xét giá trị quy ước (56 23 . Dòng thứ 3 của bảng này cung cấp giá trị độ dư tại phân phối giá trị quy kết (70. Ý tưởng sâu xa của nucleolus là làm sao để mức độ không hài lòng càng thấp càng tốt. tức là liên minh {2. thì xét các độ dư lớn thứ nhì của các imputation đã chọn lọc và tiếp tục chọn lựa bằng cách lấy những imputation sao cho với chúng những độ dư lớn thứ hai là nhỏ nhất. 86 23 )) −56 23 −76 23 −86 23 −43 31 −43 13 −43 13 Trước tiên quan sát rằng các độ dư tối đa là nhỏ nhất. Nếu không. 76 23 . 80)) -70 -70 -80 -50 -50 -30 e(S. 76 32 . với mọi giá trị quy kết x tính tất cả các độ dư. 2. 2} hoặc {1. 3} {2.

76 23 . Giả sử ta đặt độ dư của {1} và {2. 76 23 . Rõ ràng. x3 ≥ 0 chỉ có 1 nghiệm duy nhất. 85). Thử phân phối quy kết (60. Từ đây suy ra rằng không thể giảm bất kỳ độ dư nào mà lại không phải tăng một độ dư khác.DHVP Research 125 đều phải bằng nhau. vì hệ thống dưới đây: 90 − x1 − x2 = 100 − x1 − x3 100x1 x3 = 120x2 x3 x1 + x2 + x3 = 220 x1 . Xét trò chơi TU-game 3-NC trong bảng (8. x) = v({1. ít nhất với trò chơi TU-game 3-NC.Lý Thuyết Trò Chơi . còn nói chung không giúp tìm ra hạch nhân trong trường hợp khác đi. 3}. tức là bằng -130: e({1. tìm hạch nhân không quá phức tạp. x2 . x) + e({2. 86 23 ) trong trò chơi này (véc-tơ này vẫn là một phân phối giá trị quy kết). 75. . cho ta các độ dự ở dòng thứ 4 của bảng. chỉ khác ở điểm bây giờ v({1} = 20. phân phối quy kết ban đầu không còn là hạch nhân: Độ dư của {1} có thể giảm đi bằng cách chuyển lợi ích cho NC1 nhiều hơn và lấy bớt đi của NC2 và/hoặc NC3. 2}. Ví dụ này dường như gợi ý rằng. chính là (56 23 . 75. 85) là hạch nhân của trò chơi TU-game này. điều nay không chính xác.7). Cách này chỉ làm được nếu như giá trị tự thân của các liên minh 2-NC lớn tương đối so với giá trị của liên minh 1-NC. Độ dư tối đa bây giờ là −36 32 đối với liên minh 1-NC {1}. 3}. giống như trò chơi lúc trước. Thứ hai. phân phối quy kết này bắt buộc phải là hạch nhân của trò chơi 3-TP. Cùng với phương trình x1 + x2 + x3 = 220 ta có x1 = 60 và x2 + x3 = 160. x) + e({1. phân phối giá trị quy kết mà tại đó các độ dư này bằng nhau là duy nhất. 2}) + v({1. 3}. 86 32 ). giải phương trình 20 − x1 = 120 − x2 − x3 . bằng cách lấy bớt đi lợi ích bằng nhau của cả NC2. 3}) −2(x1 + x2 + x3 ) = 310 − 2 · 220 = −130. Dòng thứ 3 cho biết các độ dư tại (56 32 . Ta kết luận rằng (60. Tuy nhiên. NC3. bằng cách đặt độ dư của 3 liên minh 2-NC bằng nhau. 3}) + v({2. Do đó.

Lô-gic vừa áp dụng ở trên nhằm chứng minh rằng một phân phối quy kết nào đó là một hạch nhân thực ra đã sử dụng một tính chất tổng quát của hạch nhân. Độ dư lớn thứ hai là −45. Vì thế x2 và x3 cũng được ấn định trị số lần lượt là 75 và 85. Vì x1 đã được cố định tại giá trị 60. 85)) -40 -75 -85 -45 -45 -40 . hạch nhân gán cho nó một phần tử lõi. Nó gán một phân phối quy kết duy nhất cho từng trò chơi căn bản. và hơn nữa. đạt được bởi các liên minh {1. Hai ví dụ trên cho thấy rằng tính toán hạch nhân không hề đơn giản như thoạt nghĩ. 2. 2 {1. Do đó.7: Phép thử hạch nhân trò chơi 3-TP (b) S {1} {2} {3} 1. 3} v(S) 20 0 0 90 100 120 220 e(S. 3}. có thể tính được thông qua việc giải một loạt các hệ tuyến tính. (60.126 ⃝ c 2011 . 3} {1. 2 Nghiên cứu kỹ hơn về xác định hạch nhân sẽ cần một phần xử lý riêng. Bảng 8. 75. một mức giảm độ dư của 1 trong 2 liên minh này dẫn đến tăng độ dư của liên minh còn lại. x1 buộc phải bằng 60 trong phân hạch. nếu trò chơi đó có tập lõi không rỗng. (56 23 . 2} và {1. nhưng hạch nhân là một nghiệm rất hấp dẫn trong quá trình giải trò chơi.2 Mặc dù không hề dễ tính toán. 76 23 . 3} {2. 3}. được gọi là tiêu chuẩn Kohlberg.Vương Quân Hoàng Độ dư tối đa là −40 với cả liên minh {1} và {2. Nhìn chung. và độ dư này không thể giảm được nữa: Giảm độ dư của 1 trong 2 liên minh này dẫn tới tăng độ dư của liên minh còn lại. 86 23 )) −36 23 −76 23 −86 23 −43 31 −43 13 −43 13 e(S.

Lý Thuyết Trò Chơi .DHVP Research 127 .

128 ⃝ c 2011 .Vương Quân Hoàng VQH ghi chú: .

Lý Thuyết Trò Chơi .DHVP Research 129 .

Vương Quân Hoàng VQH ghi chú: .130 ⃝ c 2011 .

Lý Thuyết Trò Chơi .DHVP Research 131 .

Vương Quân Hoàng VQH ghi chú: .132 ⃝ c 2011 .

2 NC mặc cả trên các kết cục khả thi của S. S là tập khả thi và d là điểm bất đồng ý kiến. ngược lại. 1 − α) của món hàng dẫn tới một cặp mức 133 . mang lại thỏa dụng d1 cho NC1 và d2 cho NC2. x2 ) ∈ S. β ≥ 0 và α + β ≤ 1. β) trong đó α. d) như sau. 9. ví dụ (α. thì NC1 thu về mức thỏa dụng x1 và NC2 nhận được x2 .1 Nghiệm Nash cho bài toán mặc cả Định nghĩa bài toán mặc cả 2-NC: Một bài toán mặc cả 2-NC là một cặp (S. Cách hiểu bài toán mặc cả (S. ta xem xét một số mô hình LTTC hợp tác. Nếu họ không thể thỏa thuận.Chương 9 Mô Hình Hợp Tác Trong phần này. Mức độ ưa thích món hàng này của mỗi NC được đặc trưng bằng hàm thỏa dụng. không ai nhận được gì cả. Như vậy. Nếu đạt thỏa thuận. trong đó: (1) S ⊆ R2 là một tập lồi. đóng và bị chặn. x2 ) ∈ S với x1 > d1 vàx2 > d2 .1. d2 ) ∈ S sao cho tồn tại điểm x = (x1 . d). thì trò chơi kết thúc tại điểm bất đồng ý kiến d. √ Giả sử NC1 có hàm thỏa dụng u1 (α) = α và NC2 là hàm u2 (α) = α. Nếu họ đạt được một thỏa thuận x = (x1 . thì họ sẽ phân chia món hàng theo thỏa thuận. một phân phối (α. Ví dụ bài toán phân chia: 2 NC phải thỏa thuận phân chia một món hàng (ví dụ một thỏi vàng).1 Các dạng bài toán mặc cả 9. (2) d = (d1 .

Cho α chạy từ 0 đến 1. Vì mức tối đa này sẽ đạt được trên đường bao quanh. nghiệm của bài toán là mức thỏa √ dụng ( 32 . u2 (1 − α)) = (α. Trong ví dụ vừa rồi. Tập hợp tất cả các bài toán mặc cả dạng này được ký hiệu là B. 13 3). Nhìn chung. Hình 9. chính là điểm z trong đồ thị (9.Vương Quân Hoàng √ thỏa dụng tương ứng (u1 (α).1). Nash đặt vấn đề như sau: với bất kỳ bài toán mặc cả (S. Vì vậy.1: Bài toán mặc cả: phân chia Suy ra. x2 ≤ 1. tập khả thi và điểm bất đồng ý kiến được cho bởi: √ S = {x ∈ R2 |0 ≤ x1 . d). 1 − α).134 ⃝ c 2011 . d1 = d2 = 0. một bài toán mặc cả sẽ có dạng như trong Hình (9. NC1 nhận 23 và NC2 13 của món hàng.2). thỏa hiệp thế nào là . như trong hình (9. bài toán tương đương với √ max α 1 − α. John Nash đưa ra hướng giải bài toán mặc cả này: Tối đa hóa tích của các mức thỏa dụng của người chơi trên vùng sẫm trên hình. x2 ≤ 1 − x1 }. ta thu được tất cả các cặp thỏa dụng tương ứng với tất cả các phân phối khả dĩ có thể tồn tại. 0≤α≤1 Cực đại đạt được khi α = 32 .1).

d) ∈ B. các điểm tối ưu Pareto của S là những điểm mà tại đó mức thỏa dụng của bất kỳ NC nào cũng không thể tăng thêm được mà lại không làm giảm độ thỏa dụng của người chơi kia.” Econometrica. d) ∈ B.DHVP Research 135 hợp lý? Câu trả lời là nhiệm vụ xác định một ánh xạ F : B → R2 . Trong bài toán đối xứng. d) ∈ P (S) với mọi (S. . tức là thỏa mãn F (S. Hình (9. Ánh xạ này được gọi là một nghiệm bài toán mặc cả (2-NC). Với bài toán mặc cả (S.3) minh họa các điều kiện này về mặt hình học. x1 ) ∈ R2 |(x1 . và độc lập với các phương án thay thế không phù hợp.2: Bài toán mặc cả 2-NC Theo Nash. d) ∈ S với mọi (S. đối xứng. hiệp biến kích thước. Nghiệm mặc cả F có tính chất Pareto- optimal nếu F (S.1 Hình 9. tức là nếu: S = {(x2 . một nghiệm mặc cả tối ưu Pareto sẽ gán một điểm tối ưu Pareto cho từng bài toán mặc cả. JF (1950) “The bargaining problem. x2 ) ∈ S}. Bài toán (S.3:a). ta có y = x} là tập con tối ưu Pareto của S. Nghiệm mặc cả 1 Nash. Nếu biểu diễn toán học thì: P (S) = {x ∈ S|∀y ∈ S với y1 ≥ x1 . Ánh xạ này gán một điểm khả thi cho mỗi bài toán mặc cả. d) ∈ B có tính đối xứng nếu d1 = d2 và nếu S đối xứng qua đường 45◦ đi qua d. (Hình 9. y2 ≥ x2 . d) ∈ B. nghiệm mặc cả cần thỏa mãn 4 điều kiện là : Tối ưu Pareto. không có cách nào phân biệt giữa những NC ngoài cách lựa chọn trục đồ thị một cách ngẫu nhiên. Do đó. 18:155–162.Lý Thuyết Trò Chơi .

d) + b1 . d). d) ∈ B. tính tối ưu Pareto và tính đối xứng sẽ hoàn toàn xác định điểm nghiệm F (S. . một nghiệm mặc cả không phụ thuộc vào việc lựa chọn gốc xuất phát hoặc các nhân tử của hàm thỏa dụng. vì chỉ có một điểm tối ưu Pareto đối xứng duy nhất trong S. a2 > 0 ta có: F ({(a1x1 + b1. Chẳng hạn. b1 . d) ∈ B và mọi a1 . sẽ không thành √ vấn đề cho dù hàm thỏa dụng là u ¯1 (α) = a1 α + b1 và ¯2 (α) = a2 α + b2 . d) với từng bài toán (S. Điều này u có nghĩa là kết cục cuối cùng của bài toán mặc cả không phụ thuộc vào các hàm này. nghiệm mặc cả đối xứng gán cùng mức thỏa dụng cho từng NC trong bài toán mặc cả đối xứng. d) + b2 ). hình (b). d). b1 . Một nghiệm mặc cả F có tính hiệp biến kích thước với mọi (S. (a1 d1 + b1 . Điều kiện hiệp biến kích thước phát biểu rằng.Vương Quân Hoàng đối xứng nếu F1 (S. trong đó a1 . Do vậy. Ta có thể nghĩ tới u ¯1 .136 ⃝ c 2011 . a2 > 0. u ¯2 biểu thị cùng mức độ ưa thích với món hàng vì u1 . a2x2 + b2) ∈ R2 | (x1 . a2 . a2 F2 (S. a2 d2 + b2 )) = (a1 F1 (S. b2 ∈ R với a1 . Hình 9. d) = F2 (S. b2 ∈ R với a1 . a2 .3: 4 điều kiện Nash về nghiệm mặc cả Với bài toán đối xứng (S. u2 có đơn vị khác nhau. với ví dụ chia món hàng ở trên. x2 ) ∈ S}.

Lý Thuyết Trò Chơi - DHVP Research 137

Điều kiện cuối cùng được coi là gây tranh cãi. Xét bài toán mặc cả
S, d) với kết cục nghiệm z = F (S, d) ∈ S. Theo một nghĩa, z có thể coi
như thỏa hiệp tối ưu trong S theo F . Xét bài toán mặc cả nhỏ hơn (T, d)
với T ⊆ S và z ∈ T . Do z là thỏa hiệp tối ưu trong S, nó cũng chắc chắn
là thỏa hiệp tối ưu trong T : z có mặt trong T và mọi điểm thuộc T cũng
thuộc S. Do đó, ta kết luận rằng F (T, d) = z = F (S, d). √ Giả sử như
bài toán chia món hàng 50:50, với mức thỏa dụng (1/2, 1/2). Giả sử
không NC nào muốn dùng món hàng đó hơn 3/4, thì tập khả thi lúc này
là:
√ √
T = {x ∈ R2 |0 ≤ x1 ≤ 3/4, 0 ≤ x2 ≤ 3/4, x2 ≤ 1 − x1 }.

Theo lô-gic trên, vẫn chia món hàng 50:50, T ⊆ S và (1/2, 1/2) ∈ T .
Phương án này trông hợp lý, tuy vậy không khó để sửa đầu bài đi một
chút khiến cho lập luận trên trở nên khó thống nhất (gây tranh cãi).
Chẳng hạn có thể giả định NC1 muốn sử dụng món hàng càng nhiều
càng tốt, nhưng NC2 không có nhu cầu nhiều hơn 1/2 món hàng đó.
Tập khả thi trở thành:
√ √
T ′ = {x ∈ R2 |0 ≤ x1 ≤ 1, 0 ≤ x2 ≤ 1/2, x2 ≤ 1 − x1 },

và chúng ta vẫn chia món hàng tỷ lệ √50:50. Như vậy, NC2 sẽ đạt được
mức thỏa dụng khả khi tối đa: (1/2, 1/2) dường như không còn là thỏa
hiệp hợp lý vì chỉ có NC1 phải nhượng bộ về tỷ lệ phân chia.
Về mặt biểu diễn chính thống, nghiệm mặc cả F độc lập với các
phương án không thích hợp nếu với mọi (S, d), (T, d) ∈ B với T ⊆ S và
F (S, d) ∈ T , ta có F (T, d) = F (S, d). (Hình (d)).
J. Nash đã chứng minh được rằng 4 điều kiện này xác định một
nghiệm mặc cả duy nhất F N ash , được định nghĩa như sau. Với (S, d) ∈
B, F N ash (S, d) bằng với điểm duy nhất z ∈ S với zi ≥ di với i = 1, 2 và
sao cho:

(z1 − d1 )(z2 − d2 ) ≥ (x1 − d1 )(x2 − d2 ) ∀x ∈ S; xi ≥ di , i = 1, 2.

Nghiệm F N ash được gọi là nghiệm mặc cả Nash.

Nghiệm mặc cả Nash: F N ash là nghiệm duy nhất của bài toán mặc
cả, có tính chất tối ưu Pareto, đối xứng, hiệp biến kích thước và độc lập
với các phương án không thích hợp.

138 ⃝
c 2011 - Vương Quân Hoàng

Cả bài toán mặc cả 2-NC và TU-game đã xét ở chương trước đều là các
trường hợp đặc biệt của mô hình tổng quát các trò chơi hợp tác không
chuyển nhượng lợi ích, thường viết tắt là NTU-game. Trong một trò
chơi NTU-game, một tập các véc-tơ thỏa dụng khả thi V (T ) được gán
cho từng liên minh T . Với trò chơi TU-game∑(N, v) và một liên minh T ,
tập này có dạng đặc biệt V (T ) = {x ∈ Rn | i∈T xi ≤ v(T )}, tức là một
liên minh T có thể đạt được bất kỳ véc-tơ các mức thỏa dụng sao cho
tổng mức thỏa dụng cho tất cả NC trong T không vượt quá giá trị của liên
minh. Trong trò chơi mặc cả 2-NC (S, d), ta có thể cho V ({1, 2}) = S và
V ({i}) = {α ∈ R|α ≤ di } với i = 1, 2.

9.2 Nền kinh tế trao đổi
Trong một nền kinh tế có trao đổi thương mại với n chủ thể (có thể coi
như NC) và k hàng hóa, mỗi chủ thể ban đầu có sẵn một số lượng hàng
hóa nhất định (endowment). Mỗi chủ thể có mức sở thích khác nhau
với các nhóm hàng hóa, biểu diễn qua một hàm thỏa dụng tương ứng.
Thông qua trao đổi hàng hóa với nhau, về cơ bản có thể tăng mức thỏa
dụng của tất cả các chủ thể của nền kinh tế. Một trong những cách thực
hiện là đưa vào mô hình trao đổi này yếu tố giá. Với các mức giá cho
trước, lượng hàng hóa có sẵn của các chủ thể đại diện cho mức thu nhập
của họ, nhờ có thu nhập này họ có thể chi tiêu để mua các loại hàng
khác, nhằm tối đa hóa mức thỏa dụng của từng chủ thể. Nếu mức giá
được đưa ra hợp lý để cân bằng cung cầu thị trường (clear) cho từng loại
hàng, thì các mức giá đó chính là mức cân bằng: Cân bằng này được gọi
là cân bằng cạnh tranh, hoặc cân bằng Walras (Walrasian equilibrium).
Theo cách khác, việc tái phân phối hàng hóa có thể được coi là tập lõi
của nền kinh tế trao đổi. Việc tái phân phối tổng thể lượng hàng hóa có
sẵn nằm trong tập lõi nền kinh tế trao đổi nếu như không có liên minh
nào giữa các chủ thể có thể cải thiện mức thỏa dụng của các thành viên
liên minh bằng cách phân phối lại tổng lượng hàng hóa có sẵn bàn đầu
trong số các thành viên. Trong kinh tế học, sự phân phối tại cân bằng
cạnh tranh được thừa nhận là một ví dụ về phân phối cốt lõi.
Ở đây, ta xét nền kinh tế trao đổi với 2-NC là NCA, NCB, và 2
hàng hóa, ký hiệu 1, 2. NCA có lượng hàng hóa phân bổ sẵn là eA =
(eA1 , e2 ) ∈ R+ ), và hàm thỏa dụng u : R+ → R, biểu diễn mức thỏa
A 2 A 2

mãn của NCA với các nhóm hàng hóa. Tương tự với NCB là phân bố

Lý Thuyết Trò Chơi - DHVP Research 139

sẵn eB = (eB 1 , e2 ) ∈ R+ , và hàm thỏa dụng u : R+ → R. (Ký tự chỉ số
B 2 B 2

trên là NC, và dưới là hàng hóa.)
Ta gán trị số cho đầu bài như sau: eA = (2, 3), eB = (4, 1),
u (x1 , x2 ) = x21 x2 và uB (x1 , x2 ) = x1 x22 . Như vậy, tổng lượng hàn
A

hóa sẵn có của nền kinh tế là e = (6, 4), và mục tiêu của quá trình trao
đổi là tái phân phối lượng hàng hóa sẵn có sao cho cả hai NC đều được
thỏa mãn cao hơn.
Gọi p = (p1 , p2 ) là một véc-tơ giá các hàng hóa. Với các mức giá đã
cho này, cả 2 NC muốn tối đa hóa mức thỏa dụng của mình. Nhờ giá,
lượng hàng hóa có sẵn được quy đổi giá trị, ví dụ với NCA là: p1 eA A
1 +p2 e2 .
Bài toán của NCA là giải quyết vấn đề tối đa hóa:
maximize uA (x1 , x2 )
(9.1)
1 + p2 e2 , x1 , x2 ≥ 0.
p1 x1 + p2 x2 = p1 eA
s.t. A

Nghiệm của bài toán tối đa hóa này là một véc-tơ xA (p) =
(xA A gọi là hàm cầu của NCA. (9.1) gọi là bài toán người
1 (p), x2 (p)),
tiêu dùng của NCA. Và theo lô-gic tương tự, bài toán của NCB là (9.2):

maximize uB (x1 , x2 )
(9.2)
1 + p2 e2 , x1 , x2 ≥ 0.
p1 x1 + p2 x2 = p1 eB
s.t. B

Bài toán (9.1) với các trị số đã cho trở thành:
maximize x21 x2 )
s.t. p1 x1 + p2 x2 = 2p1 + 3p2 , x1 , x2 ≥ 0.
Sử dụng phương pháp nhân tử Lagrange hoặc phương pháp thay thế
ta có thể giải quyết bài toán này. Ví dụ, nếu thế theo x1 , ta quy bài toán
về
maximize x21 ((2p1 + 3p2 − p1 x1 )/p2 )
với ràng buộc x1 ≥ 0 và 2p1 + 3p2 − p1 x1 ≥ 0. Lấy đạo hàm bậc nhất
theo x1 và đặt bằng 0, ta thu được:
( ) ( )
2p1 + 3p2 p1 x1 p1
2x1 − x21 = 0.
p2 p2
Từ đây, sau một số phép giản lược, ta thu được hàm nhu cầu NCA là
x1 = xA1 (p) = (4p1 + 6p2 )/3p1 . Tiếp theo, với điều kiện ràng buộc thu
nhập xA2 (p) = (2p1 + 3p2 )/3p2 .

các mức giá đại diện cho tỷ lệ trao đổi giữa hai hàng hóa.3) chính là các điều kiện ràng buộc về tính hợp lý trên phương diện cá nhân. Véc-tơ giá p chứa các mức giá cân bằng Walras nếu như trên thị trường cung cầu được cân bằng. Với việc xét tập lõi của nền kinh tế trao đổi. {B}. xB ) với xA B A B A B A 1 + x1 = e1 + e1 và x2 + x2 = e2 + e2 . ta thu được xB B 1 (p) = (4p1 + p2 )/3p1 và x2 (p) = (8p1 + 2p2 )/3p2 . Trên thực tế. Trong mô hình tổng quát.Vương Quân Hoàng Xử lý cùng lô-gic trên với bài toán tối đa hóa (9. Các mức cầu ở véc-tơ giá cân bằng là xA (7. Một hành động tái phân phối hàng hóa sẵn có nằm trong tập lõi nếu không có liên minh nào có thể cải thiện mức thỏa dụng trên lượng hàng hóa đó. uB (xB )) ≥ uB (eB ).4) Sao cho : u (y ) ≥ u (x ).140 ⃝ c 2011 . và {A. ta có hệ thống sau: (4p1 + 6p2 )/3p1 + (4p1 + p2 )/3p1 = 6 (2p1 + 3p2 )/3p2 + (8p1 + 2p2 )/3p2 = 4. Với trị số của ví dụ. 10) là các mức giá cân bằng trong nền kinh tế trao đổi này. B}. yB ) Mà : y1A + y1B = eA B A B A 1 + e1 và y2 + y2 = e2 + e2 B (9. B} có thể cải thiện trên (xA . và chúng có ý nghĩa ngay cả khi tiền tệ không tồn tại trong nền kinh tế. Cả hai phương trình đều dẫn đến cùng một điều kiện là 10p1 7p2 = 0.2). Ta xét một phân phối (xA . 38/15). Để tránh liên minh lớn {A. B Để loại trừ khả năng NCA và NCB có thể cải thiện trên (xA . điều này có nghĩa là xA B A B A B A B 1 (p) + x1 (p) = e1 + e1 và x2 (p) + x2 (p) = e2 + e2 . 10) = (88/21. Như vậy. sử dụng trị số đã cho. 22/15) và B x (7. 10) = (38/21. u (y ) ≥ u (x ) A A A A B B B B có ít nhất một dấu bất đẳng thức chặt. . xB ) ta bổ sung điều kiện: uA (xA ) ≥ uA (eA ). xB ) ta cần có điều kiện: Không tồn tại : (yA . p = (7. (9. Trong trò chơi 2-NC của nền kinh tế trao đổi chỉ có 3 liên minh (bỏ đi liên minh là tập rỗng) là {A}.

Lý Thuyết Trò Chơi . khi này điều kiện về tính hợp lý cá nhân trở thành: 1 ) x2 ≥ 12. A 2 1 . xA 2 + xB = 4. 2 1 . xA A Hàm Lagrange tương ứng là: 1 ) x2 − λ[(6 − x1 )(4 − x2 )2 − c].4).3) và (9. phát biểu: Không tồn tại một cách phân chia hàng hóa sẵn có nào khác mà cơ bản tất cả NC đều có thỏa dụng không nhỏ hơn. bài toán được rút gọn thành:: maximize : (xA 2 A 1 ) x2 subject to : (6 − xA 1 )(4 − x2 ) = c. (xA 2 A A Rút λ ra khỏi 2 PT trên và giản lược đi ta thu được: 4xA xA 2 = 1 . x2 ≥ 0. 1 ) + 2λ(6 − x1 )(4 − x2 ) = 0. và ít nhất có một NC hưởng mức thỏa dụng lớn hơn (chặt). x2 . (xA 2 A A A Suy ra.DHVP Research 141 (9. Bằng cách thay đổi mức ấn định cho B. ta phải tối đa hóa cho c ∈ R: maximize : (xA 2 A 1 ) x2 subject to : x1 + xB A 1 = 6. 2 A xB B 2 Các phân bố tối ưu Pareto.4) có tên gọi là ràng buộc tính tối ưu Pareto. 24 − 3xA 1 . thỏa mãn điều kiện (9. xA A B B Bằng phương pháp thế. ta sẽ tìm được tất cả các phân phối tối ưu Pareto. Trong ví dụ. các điều kiện bậc nhất là 1 x2 + λ(4 − x2 ) 2xA A A 2 = 0. (xA 1 (x2 ) ≥ 4. rồi tối đa hóa mức thỏa dụng của A theo mức thỏa dụng đã ấn định của B. ví dụ B. Cố định một mức thỏa dụng của 1 trong 2 NC. Áp dụng (9. x2 ≥ 0.4) vào ví dụ của ta đang xét. được tính như sau. 2 xB 1 (x B )2 = c. x1 .

việc phi tập trung hóa quá trình tái phân bổ thông quá giá dẫn đến một phân phối nằm trong tập lõi. với mọi giá trị của xA1 chạy từ 0 đến 6 thì biểu thức này A cho giá trị tương ứng của x2 . 45 ≤ xA 1 ≤ 4. xA 2. Do đó.4) đường cong hợp đồng là đường cong đi qua các điểm c và c′ . sinh ra một phân phối tối ưu Pareto với xB1 = 6 − x1 và x2 = 4 − x2 . và điều này đúng khi x1 tối ưu Pareto cho thấy 4(xA 3 A A lớn hơn xấp xỉ 3. 4xA xA 2 = 1 24−3xA . 10) = (38/21. xB 1. Tương tự vậy đối với NCB.142 ⃝ c 2011 . 88 và đây cũng không phải tính chất tình cờ. 88. 10) = (88/21. Kết hợp ràng buộc tính hợp lý cá nhân của NCA với ràng buộc tính 1 ) /(24 − 3x1 ) ≥ 12. định lý First Welfare Theorem phát biểu rằng trong một nền kinh tế có trao đổi hàng hóa. ta suy ra: ( )2 96 − 16xA (6 − xA 1) 1 ≥ 4. như trong hình (9. 1 xB 1 = 6 − x1 . Trong hình. A B A Có thể kiểm tra được ngay rằng phân phối cân bằng Walras x (7. các đường cong không thiên vị (indifference curve) của 2 NC đi qua điểm phân phối sẵn có ban đầu được xây dựng cùng với đường cong hợp đồng. vì 3.4) hỗ trợ việc nắm vững nguyên lý. xB 2) ∈ R4 | 3. 45 ≤ 88/21 ≤ 4. 24 − 3xA 1 và điều này đúng khi xA 1 nhỏ hơn xấp xỉ 4. 22/15) và xB (7. tức là tập các phân phối tối ưu Pareto. Tập lõi là tập con của đường con hợp đồng nằm giữa các đường không thiên vị. Như vậy. 38/15) tìm được lúc A trước có tính chất Pareto-optimal. Điểm c′ là điểm giao cắt của đường cong hợp đồng và đường cong không thiên vị của .88. Minh họa bằng Edgeworth box. Edgeworth box chứa tất cả các điểm tái phân phối khả dĩ của 2 hàng hóa. Trên hình (9. Phân phối cân bằng Walras thuộc tập lõi. một phân phối cân bằng Walras có tính chất tối ưu Pareto.Vương Quân Hoàng Như vậy. Đây không phải là điều tình cờ. Điểm c là điểm giao cắt của đường cong hợp đồng và đường cong không thiên vị của NCA thông qua điểm endowment e. tập lõi của nền kinh tế trao đổi trong ví dụ đang xét là tập: {(xA 1. A xB 2 = 4 − xA2 }.45.

và điểm giao cắt của nó với đường cong hợp đồng (điểm w) là phân phối cân bằng Walras. tức là 7x1 + 10x2 = 44. Đường thằng (gọi là đường ngân sách) đi qua điểm e là đồ thị của phương trình ngân sách của NCA tại các mức giá cân bằng.DHVP Research 143 NCB.Lý Thuyết Trò Chơi . Tập lõi bao gồm các phân phối trên đường cong hợp đồng nằm giữa c và c′ . . Tại nơi đây. các đường cong không thiên vị của cả hai NC đều tiếp xúc với đường ngân sách (tiếp tuyến). cũng đi qua điểm endowment e.

Vương Quân Hoàng Hình 9.144 ⃝ c 2011 .4: Tập lõi và cân bằng Walras .

Lý Thuyết Trò Chơi .DHVP Research 145 .

Vương Quân Hoàng VQH ghi chú: .146 ⃝ c 2011 .

DHVP Research 147 .Lý Thuyết Trò Chơi .

Vương Quân Hoàng VQH ghi chú: .148 ⃝ c 2011 .

DHVP Research 149 .Lý Thuyết Trò Chơi .

150 ⃝ c 2011 .Vương Quân Hoàng VQH ghi chú: .

vì pAq là một tổ hợp lồi của các số pAej .. giúp tìm ra các chiến lược tối ưu và giá trị của trò chơi.1 Định lý Minimax Cho A là một ma trận m × n. NC1 có thể đảm bảo thu lợi ích tối thiểu là: v1 (A) := maxm v1 (p). với công cụ chủ yếu là kỹ thuật quy hoạch tuyến tính. Bổ đề: Với mọi trò chơi ma trân m × n. cho v2 (q) = maxp∈∆m pAq = maxi∈{1. Trong trò chơi ma trận A. với mọi chiến lược q ∈ ∆n của NC2. thì NC2 có thể đảm bảo chỉ phải trả nhiều nhất là: v2 (A) := minn v2 (q).n} pAej . 151 . NC1 không thể đảm bảo nhận được nhiều hơn mức tối đa mà NC2 có thể đảm bảo chi trả..... gọi v1 (p) = minq∈∆n pAq.. Với mọi chiến lược p ∈ ∆m của NC1. v1 (A) ≤ v2 (A). Ta cũng có bổ đề sau. p∈∆ Tương tự. q∈∆ Xét về trực giác.. Có thể thấy rằng v1 (p) = minj∈{1.m} ei Aq. ta đi sâu hơn để tìm hiểu bằng cách nào một trò chơi ma trận có thể được giải. 10..Chương 10 Trò Chơi Ma Trận Trong chương này.

. . và q ∈ ∆n là chiến lược tối ưu của NC2. . y ≥ 0}. thì (x1 . −1) ∈ Rm+1 . . . .Vương Quân Hoàng Định lý Minimax cho trò chơi ma trận Với mọi trò chơi ma trận A cấp mn. . v1 (A) = v2 (A). (2) Nếu x = (x1. . v(A)) ∈ Omin và (q.152 ⃝ c 2011 . . 0. xm . . . v(A)) ∈ Omax . Nếu ta gọi các bài toán tối thiểu hóa là bài toán gốc. cực tiểu trong hệ quả này được gọi là các bài toán quy hoạch tuyến tính (LP). thì (p. thì ta gọi bài toán tối đa hóa là bài toán đối ngẫu (hoặc ngược lại). Có thể chứng minh rằng V. . 10. . . Định lý đối ngẫu quy hoạch tuyến tính giúp suy ra rằng: Hệ quả: min{x · c|x ∈ V } = max{b · y|y ∈ W }.2 Phát biểu hệ thống về quy hoạch tuyến tính Cho A là một trò chơi ma trận m × n. (y1 . Cực đại/cực tiểu chung được gọi là giá trị của LP.     −1 −1 −1 . . 0. xm+1 ) ∈ Omin và y = (y1 .. và v(A) = xm+1 = yn+1 . . . . (1) Nếu p ∈ ∆m là một chiến lược tối ưu của NC1. . xm ) là một chiến lược tối ưu của NC1 trong trò chơi A. −1 0 Cho b = (0. yn ) là một chiến lược tối ưu của NC2. . Định lý: Cho A là trò chơi ma trận m × n với mọi phần tử đều dương. và x và y đạt được giá trị của bài toán gọi là các nghiệm tối ưu. x ≥ 0} và W := {y ∈ Rn+1 |By ≤ c. . Định nghĩa V := {x ∈ Rm+1 |xB ≥ b. W ̸= ∅. Giá trị của LP là −v(A).   . yn+1 ) ∈ Omax . Cộng thêm cùng một số vào tất cả các phần tử của A không làm thay đổi các chiến lược tối ưu của mọi NC. Các bài toán cực đại. Ta định nghĩa ma trận B kích thước (m + 1) × (n + 1) như sau:   −1  −1    A     . . . Ta ký hiệu các nghiệm tối ưu đó lần lượt là Omin và Omax . −1) ∈ Rn+1 và c = (0. . . . . yn .

DHVP Research 153 .Lý Thuyết Trò Chơi .

154 ⃝ c 2011 .Vương Quân Hoàng VQG ghi chú: .

DHVP Research 155 .Lý Thuyết Trò Chơi .

156 ⃝ c 2011 .Vương Quân Hoàng VQG ghi chú: .

Với các véc-tơ x = (x1 . Một tập con Z ⊆ Rn là tập đóng nếu nó chứa các giới hạn của mọi dãy hội tụ trong chính nó Z. chỉ có một số tính chất và định lý được chứng minh.1 Thuật ngữ và khái niệm thường sử dụng Một tập con Z ⊆ Rn là tập lồi nếu với mỗi cặp 2 điểm x.Chương 11 Công Cụ Toán Học Các công cụ toán học thường xuyên sử dụng trong quá trình nghiên cứu LTTC. . . . y ∈ Z. . . Nhiều chứng minh khác có thể tìm trong các tài liệu liên quan. . . Phát biểu toán học: ∀x. Z ⊆ Rn là k tập lồi nếu và chỉ nếu: j=1 λj xj ∈ Z. Nếu Z là một tập đóng thì với tính lồi (convexity) điều kiện đủ là kiểm tra với λ = 1/2. thì: ∑ n x · y := xi yi i=1 157 . . 11. ∀0 ≤ λ ≤ 1 : λx + (1 − λ)y ∈ Z. và sẽ được dẫn chiếu khi cần thiết. . y cũng thuộc Z. và y = (y1 . y ∈ Z. . . . Có ∑thể nhận thấy không khó khăn rằng. ∀x1 . xk ∈ Z và mọi số không ∑ âm λ1 . . yn ) ∈ Rn . . λk ∈ R với kj=1 λj = 1. Để đảm bảo tính tổng quan. xn ) ∈ Rn . . đoạn thẳng nối hai điểm x. ∑ Tổng kj=1 λj xj được gọi là một tổ hợp lồi (convex combination) của xj . .

Tồn tại một véc-tơ y|inRn với y · z > y · x với mọi′ z ∈ Z. và v u n u∑ x − y := t (xi − yi )2 i=1 là khoảng cách Euclide (Euclidean distance) giữa x và y.Vương Quân Hoàng được gọi là tích trong của x và y. λ ≥ 0..158 ⃝ c 2011 . thì λx ∈ C và x + y ∈ C. Một tập C ⊆ Rn là một nón (lồi) nếu với mỗi cặp x. y ∈ C và λ ∈ R. Định lý phân tách Cho Z ⊆ Rn là một tập lồi đóng và cho x ∈ Rn \Z. .

1 .

Chứng minh: Cho z ∈ Z sao cho 0 < x − z ≤ .

x − z.

2 Các bổ đề về lựa chọn thay thế Các bổ đề này có điểm chung là chúng mô tả hai hệ bất đẳng thức và phương trình tuyến tính. Cho y = z′ − x. với mọi z ∈ Z. 2α(z′ − x) · (z − z′ ) + α2 z − z′ ≥ 0. do khoảng cách Euclide từ x là một hàm liên tục trên tập Z. 1 Định lý này phát biểu rằng về mặt hình học. và chỉ có một trong số đó có một nghiệm. một tập lồi đóng và một điểm không thuộc tập đó có thể phân tách thông qua một mặt siêu phẳng. với mọi ′ z ∈ Z. suy ra y · x > y · x với mọi z ∈ Z. Từ đây suy ra. và y · z > β và y · x = β. Khi này. Cho z ∈ Z. và như vậy: ′ z + α(z − z′ ) − x 2 ≥ z′ − x 2 . Với bất kỳ α. ta thấy rằng (z′ − z) · (z − z′ ) ≥ 0. . tính lồi của Z suy ra rằng z′ + α(z − z′ ) ∈ Z. ta lưu ý riêng tới tập compact của Z. 2 Như thế. 11. ′ Do z là tùy ý. với cực tiêu của z → x − z trên Z. 0 ≤ α ≤ 1. β thỏa mãn y · z > α và y · x < α. Véc-tơ z như vậy tồn tại nhờ định lý Weierstrass. (z − x) · z ≥ (z′ − x) · z′ = (z′ − x) · x + (z′ − x) · (z′ − z) > (z′ − z) · x. Ghi chú: Một hệ quả của định lý phân tách nói trên là tồn tại các số thực α. đặt α ↓ 0.

) Các bổ đề vừa nêu có thể được giải thích về mặt hình học. Bổ đề Farkas: Cho A là ma trận m × n và bRn. bổ đề kết luận rằng sự tồn tại của một véc-tơ y tạo nên một góc tù với b và một góc không tù với từng véc-tơ dòng ri . Mệnh đề phát biểu rằng hệ thức (1) của bổ đề này không có nghiệm không âm có nghĩa là véc-tơ b không nằm trong C. Tập các tổ hợp tuyến tính không âm của ri tạo thành nón C.1). chẳng hạn như bổ đề Farkas trong hình (11. . Trong trường hợp này.1: Giải thích hình học bổ đề Farkas Xét các véc-tơ dòng ri của A như các điểm trong Rn . Điều này có nghĩa là siêu mặt phẳng L trực giao với y có nón C ở một mặt và điểm b ở mặt phía bên kia. z) ≥ 0. (Ta không chứng minh các bổ đề này. (y. z) = 0 và Ay + z = 0.DHVP Research 159 Bổ đề về lựa chọn thay thế cho các ma trận: Cho A là một ma trận m × n. Hình 11. (2) Tồn tại một véc-tơ y ∈ Rn với Ay ≥ 0 và b · y < 0. (2) Tồn tại một véc-tơ x ∈ Rm với x > 0 và xA > 0. Chỉ có 1 trong 2 mệnh đề sau là đúng: (1) Tồn tại x ∈ Rm với x > 0 và xA = b. Chỉ có 1 trong 2 mệnh đề sau đúng: (1) Tồn tại y ∈ Rn và z ∈ Rm với (y.Lý Thuyết Trò Chơi .

và rõ ràng từ trực giác có thể thấy f phải có một điểm bất động. . . Cho A là một ma trận n × p. Gọi f : Z → Z là một hàm liên tục. ∀i. Ma trận D cấp n∑ × n gọi là ngẫu nhiên ∑ hai lần nếu 0 ≤ dij ≤ 1 với mọi i. compact không rỗng. Một phần tử e ∈ C gọi là điểm cực biên (extreme point) của C nếu với tất cả x. và f : Z → Z là một hàm liên tục. Vậy thì f có một điểm bất động. y ∈ C với e = 21 (x + y) thì x = y(= e). Thì min{x · c|x ∈ V } = max{b · y|y ∈ W }. 1} với mọi i. n. j = 1. Ta có định lý Birkhoff–von Neumann biểu thị quan hệ và một số bổ đề liên quan. dij ∈ {0. . . 11. Cho Dn×n là một tập tất cả các ma trận ngẫu nhiên hai lần. Tập các điểm cực biên của C được ký hiệu là ext(C). và c ∈ Rn . . Nếu n = 1 thì Z là một khoảng đóng [a. Tổng quát hơn. compact không rỗng. Nếu hơn thế nữa. 11. và cho F : Z → Z là một phép tương ứng nửa liên tục trên và lồi. .4 Một số định lý điểm bất động Cho Z ∈ Rn là một tập compact lồi không rỗng. . và ni=1 dij = 1. ta xét một vài định lý điểm bất động (và không chứng minh). Dn×n là tập compact lồi. Định lý Kakutani: Cho Z ∈ Rn là một tập lồi. n. . Định lý Brouwer: Cho Z ∈ Rn là một tập lồi. và Pn×n là tập tất cả các ma trận hoán vị (ta chú ý rằng. . x ≥ 0} ̸= ∅ và W := {y ∈ Rp |Ay ≤ x. ∀j. F có một điểm bất động.5 Định lý Birkhoff–von Neumann Gọi C là một tập lồi trong không gian tuyến tính V . nj=1 dij = 1. y ≥ 0} ̸= ∅.160 ⃝ c 2011 . b] ∈ R.3 Định lý đối ngẫu của quy hoạch tuyến tính Định lý đối ngẫu của quy hoạch tuyến tính.Vương Quân Hoàng 11. và Pn×n là tập con hữu hạn của Dn×n ). Một điểm x∗ ∈ Z là điểm bất động nếu f (x∗ ) = x∗ . Giả sử V := {x ∈ Rn |xA ≥ b. b ∈ Rp . j = 1. thì D được gọi là ma trận hoán vị.

Vậy thì. . Định lý Krein–Milman: Cho C là một tập lồi compact không rỗng thuộc Rn . ∀c ∈ C. (2) Dn×n = conv(Pn×n ). kích thước của nó dim(A) được định nghĩa là kích thước của không gian con affine nhỏ nhất của V có chứa tập A. Bổ đề: Cho C là một tập con lồi không rỗng của Rn và a ∈ Rn \ C. Với một tập con tùy ý A ⊂ V . Với không gian con affine a + L thuộc V . ext(C) ̸= ∅ và C = conv(ext(C)). thì được gọi là không gian con affine. Một tập con của V có thể biểu diễn qua dạng a + L trong đó a ∈ V và L là không gian con tuyến tính của V . kích thước được định nghĩa theo kích thước của không gian con tuyến tính L.Lý Thuyết Trò Chơi . Thì tồn tại p ∈ Rn \ {0} với p · a ≤ p · c.DHVP Research 161 Định lý Birkhoff–von Neumann: (1) ext(Dn×n ) = Pn×n .

Vương Quân Hoàng .162 ⃝ c 2011 .

DHVP Research 163 VQG ghi chú: .Lý Thuyết Trò Chơi .

Vương Quân Hoàng .164 ⃝ c 2011 .

Lý Thuyết Trò Chơi .DHVP Research 165 VQG ghi chú: .

166 ⃝ c 2011 .Vương Quân Hoàng .

Lý Thuyết Trò Chơi - DHVP Research 167

VQG ghi chú:

168 ⃝
c 2011 - Vương Quân Hoàng

Lý Thuyết Trò Chơi - DHVP Research 169

VQG ghi chú:

170 ⃝ c 2011 .Vương Quân Hoàng .

Lý Thuyết Trò Chơi .DHVP Research 171 VQG ghi chú: .

LÝ THUYẾT TRÒ CHƠI .

160 Cournot. 75 điểm cực biên . 143 bimatrix .Phụ lục tra cứu G∞1 (δ). 61 đối ngẫu. 123.extreme point. 91 đóng góp biên .indif. 60 cân bằng định lý Bertrand.marginal contri. 152 cân bằng Bayes hoàn hảo. 95 average fitness. 93. 35 a . 76 Kakutani.ma trận cặp. 69. 94 chance move. 160 chặt. 73. 106 thuần. 72. 121 Farkas. bổ đề bution. 160 Bertrand. 152 cân bằng Bayes. 61 điểm bất động. 21. 75 đối ngẫu. 105 G∞p (δ). 92 Stackelberg. 17 đặc trưng.excess. 74 cân bằng hoàn hảo trò chơi phân chia. 95 Birkhoff–von Neumann. 161 phân phối. 105 cạnh tranh điểm bất động . 69. 105. 18. 53. 160 Walras. 59 tự phân chia. 142 76 đường ngân sách. 138. ference curve. 53. 104 Brouwer. 61 con.fixed point. 159 đường cong không thiên vị . 70 điểm yên ngựa. 161 đối xứng. 143 minimax.phản ứng tối ưu. 53. 43 độ dư . 124 cân bằng Nash. best reply . 109 dân gian Nash-Cournot. 58 động học có tính chất Bayes. 160 gộp. 160 Nash. 59 bộ sao chép. 140. 142 Krein–Milman. 69.

q. 1. 142 hàng hóa có sẵn . 161 39. hành động.endowment.điểm yên ngựa. 19 . 2 strategic uncertainty . 39 lợi ích hợp tác.p. 10 lược. 73. phân phối lợi ích.backward induction. 92 quy nạp lùi . 40. 36. 137 extensive form. 42 ngẫu nhiên hóa.ei . 104. không gian con affine. 94 saddlepoint . 119 139 phân phối xác suất . 35 quy hoạch tuyến tính . 9 mặc cả. 35 noncooperative game . 123 hợp tác.convex cone. 8 cooperative payoff. 92 maximin. 135 44. 10 ESS. 106 lợi ích maximin. 21. 20 pure . 36 minimax. 21. 103 hỗn hợp. 20. 124 phép hoàn chỉnh trò chơi con. 39 thuần. 151 information set . 121. 103 chiến lược. 138. 158 replicator dynamics. 2 ổn định tiến hóa.PPXS.bất trắc chiến chiến lược. 53. tối ưu. 3. 23 Nash equilibrium . 18 giá trị Shapley. 133 space Mathematica. 105. 79 hạch nhân . 135. 79 Nash. 19 ESS. 94 saddlepoint. 142 lép vế. 22.Vương Quân Hoàng chiến lược.tập thông tin. hiệp biến kích thước. 59 23. 77 không gian điểm cân bằng.cân bằng Nash.Euclidean distance. 1 thuần. 123 Pareto-optimal.b ⃝ c 2011 . 8. 21 17–19. 123.imputation. 106 nghiệm game mặc cả bimatrix. 77 hiệu chỉnh Bayes. 103. 44 khoảng cách Euclide . 79 nón lồi . 21.trò chơi bất giá trị quy kết . ej . 158 hỗn hợp . 152 quy nạp lùi. 2 nền kinh tế trao đổi.thuần. 1. 43.LP. 21. 3. 18 thuần . 44 quy hoạch tuyến tính.nucleolus. 43. 26.

tập lồi. 36. 104 giá trị . 54.inner product. 118 Bertrand. 101 tính lồi . 123 tập chiến lược. 23 ma trận cặp. 158 căn bản. 160 Folk. 59 tích trong . 158 thông tin không đầy đủ. 73.convexity. 92 rút gọn. 135. 53 không tầm thường. 7. 107 subgame perfection. 21.core.permutation. 138 Pareto. 40. 102 bất đối xứng. 157 121 tập thông tin. 26 chiến lược. 23. 43 tối ưu Walrasian equilibrium. 104. 105 hoán vị . 59 Bayes. 38 tập lõi.convex combination. 43. 107 bất hợp tác. 76 tín hiệu. 18 bỏ phiếu. 126 tập lõi .v(A). 74 tiến hóa.DHVP Research c strict domination . 102. 117 . 35 diều hâu-bồ câu. 157 TU-game. 18. 53 tính chất tĩnh. 21. 21.tính trội tuyệt ma trận. 70 dạng chiến lược.marginal vector. 38. 157 theorem duality. 41 dạng mở. 40 Stackelberg. 17. 121 tập compact. 141 tổ hợp lồi .Lý Thuyết Trò Chơi . 75 bimatrix. 69 Cournot. 3 hawk-dove. 36. 92 tiêu chuẩn Kohlberg. 79. 152 đối. 60 type of player. 118 véc-tơ biên . 126 trò chơi đối xứng.