You are on page 1of 9

Lecture Note 1

ทฤษฎีเกมส (Game Theory) ตอนที่ 1


อ.ดร.กรกรัณย ชีวะตระกุลพงษ

ทฤษฎีเกมสจะเปนการศึกษาถึงปญหาในลักษณะที่การตัดสินใจและผลลัพธที่เกิดขึ้น
ขึ้นอยูกับบุคลลมากกวา 1 คน ซึ่งใชกันอยางกวางขวางในชวงทศวรรษที่ผานมา ทั้งในสาย
เศรษฐศาสตรและอื่น ๆ ตัวอยางการใชทฤษฎีเกมสตัดสินใจปญหาทางเศรษฐศาสตรไดแก:
- การตัดสินใจปริมาณสินคาที่แตละบริษัทจะผลิตในตลาดผูแขงขันนอยราย
- การตัดสินใจในเรื่องของคาจางแรงงานระหวางบริษท ั และสหภาพแรงงาน
- การเจรจาการคาเพื่อลดอัตราภาษีศุลกากรระหวางประเทศ
- การประมูล
นอกจากนี้ ทฤษฎีเกมสยังสามารถนําไปประยุกตใชเพือ่ ศึกษาปญหาในดานอื่น ๆ เชน
ธุรกิจ ชีววิทยา การศึกษา และสังคมศาสตร
โดยลักษณะของเกมสที่จะทําการศึกษาในที่นี้ จะเปนเกมสในลักษณะที่เราเรียกวา
“Non-cooperative game theory”

Non-cooperative game theory


เปนทฤษฎีเกมสที่ทําการสรางแบบจําลองในสถานการณที่มีผูเลนหลายคน และแตละ
คนจะทําการตัดสินใจที่ผลลัพธขึ้นอยูกบั ทั้งทางเลือกทีต่ นเองเลือก และทางเลือกที่ผูอื่นเลือก
จุดกําเนิดที่สําคัญของทฤษฎีเกมสคือในป 1950-51 เมื่อ John Nash ไดเขียนงานศึกษา
เกี่ยวกับ Non-cooperative game โดยไดพิสูจนวาในทุก ๆ เกมสในลักษณะที่เปน Non-
cooperative จะมีดุลยภาพอยางนอย 1 ดุลยภาพเสมอ โดยตอมา เราจะเรียกดุลยภาพที่ Nash
ทําการพิสูจนวา “Nash equilibrium” ซึ่งเปนลักษณะดุลภาพที่ใชกันอยางกวางขวางทีส่ ดุ ใน
การศึกษาเกี่ยวกับทฤษฎีเกมส

คําอธิบายของเกมส (Description of game)


ในเกมสแตละอัน จะตองมีสวนประกอบตอไปนี้
1. ใครเปนผูเลนของเกมส
2. กฏของเกมส อันประกอบไปดวย
- เมื่อไหรที่ผูเลนจะสามารถทําการตัดสินใจได
- เมื่อผูเลนสามารถทําการตัดสินใจได อะไรเปนขอมูลที่ผเู ลนทราบ
- มีทางเลือกใดที่ผูเลนสามารถเลือกไดในเวลาทีเ่ ขาตองทําการตัดสินใจ
3. ผลตอบแทนหรืออรรถประโยชนที่ผูเลนแตละคนจะไดรับจากทางเลือกที่เปนไปได
ทั้งหมดในเกมสนั้น
ชนิดของเกมส
1. Normal form Games
เปนเกมสในลักษณะที่ผูเลนทุกคนตองทําการตัดสินใจ หรือเลือกทางเลือกพรอม ๆ กัน
ตัวอยางเชน การตัดสินใจเลือกปริมาณสินคาที่จะผลิตของตลาดผูขายนอยราย

2. Extensive form Games


เปนเกมสในลักษณะที่มีลําดับในการเลน หรือการเลือกทางเลือกของผูเลนแตละคนกําหนด
ไวอยางชัดเจน ตัวอยางเชน การเลนจับหมู การเลนหมากรุก

Normal Form Game


Normal form game คือเกมสที่ผูเลนในเกมจะเลือกกลยุทธของตนพรอม ๆ กัน โดย
ผลลัพธหรืออรรถประโยชนของเกมสจะขึน้ อยูกับกลยุทธที่ผูเลนทุกคนในเกมส ๆ นั้นเลือก โดย
Normal form game จะประกอบดวย :
1. ผูเลน i = {1,…….,N}
2. กลยุทธที่แตละคนจะเลือกได (strategy set)
3. ฟงกชั่นผลตอบแทน (payoff function) จากผลลัพธ (outcome) แตละอยางในเกมส

ตัวอยางที่ 1: Prisoner-dilemma Game


Prisoner-dilemma game จะเปนตัวอยางของเกมสที่สําคัญอยางหนึ่งในลักษณะ non-
cooperative game กลาวคือ ในเกมสประเภทนี้ หากผูเลนทัง้ 2 คนรวมมือกัน จะไดรับ
ผลตอบแทนสูงกวาดุลยภาพที่เกิดขึ้นของเกมส
เกมสนี้จะมีลักษณะดังตอไปนี้ ในเกมสจะมีผูเลนสองคน คือนักโทษคนที่ 1 และคนที่ 2
นักโทษแตละคนจะมีทางเลือกอยู 2 ทาง ไดแก สารภาพผิด หรือไมสารภาพ ซึ่งเราสามารถ
สรางผลลัพธและผลตอบแทนที่จะไดของแตละคนเปนเมทริคดังตอไปนี้ และจะเรียกเมทริคนี้วา
“เมทริคผลตอบแทน (payoff matrix)”
Prisoner 2
confess Don’t confess
confess
3 years, 3 years Free, 10 years
prisoner
1 Don’t
10 years, free 1 years, 1 years
confess

ตัวเลขดานหนาในแตละชองคือผลตอบแทนสําหรับนักโทษคนที่ 1 และตัวเลขดานหลัง
คือผลตอบแทนสําหรับนักโทษคนที่ 2 ในเกมส Prisoner-dilemma จะมีสวนประกอบของเกมส
ดังตอไปนี้ :
1. ผูเลน: ในที่นมี้ ีผูเลน 2 คน ไดแก prisoner 1 และ prisoner 2
2. เซ็ตของกลยุทธ: เซ็ตกลยุทธของ prisoner 1 ไดแก = {confess, don’t confess}
3. ผลตอบแทน แสดงไดในเมทริคผลตอบแทนขางบน

Strategy Profile
เปนสวนผสมของกลยุทธทแี่ ตละคนเลือกรวมกัน ซึ่ง Strategy profile ซึ่งจะมีดวยกัน 2
แบบ ไดแก
1. Pure strategy profile
จากตัวอยางเกมส prisoner-dilemma ขางตน เราสามารถเขียน pure strategy profile
ทั้งหมดไดดังนี้
= {(confess, confess), (confess, don’t confess), (don’t confess, confess), (don’t
confess, don’t confess)}
นั่นคือ สวนผสมระหวางกลยุทธของผูเลนทั้งสองคนที่เปนไปไดทั้งหมด ซึ่งก็คือชอง
ทั้งหมดในเมทริคผลตอบแทนนั่นเอง
2. Mixed strategy profile
เปนกรณีที่มีการกําหนดความนาจะเปนใหกับกลยุทธของผูเลนแตละคน หรือกลาวอีก
นัยหนึ่งคือเปนกลยุทธในลักษณะที่มีการใหเครื่องมือสุม (random device) แกผูเลนแตละคน
โดยผูเลนจะใชเครื่องมือสุมดังกลาว เพื่อตัดสินวาตนจะเลือกกลยุทธแบบใด ในเวลาทีจ่ ะ
ตัดสินใจ ตัวอยางเชน หากตองการกําหนดความนาจะเปนเทากับ ½ ใหกับกลยุทธแตละอยาง
ตามตัวอยาง เราสามารถใหเครื่องมือสุมเปนการโยนเหรียญ โดยกําหนดใหผูเลนทําการเลือกกล
ยุทธ confess หากเหรียญออกหัว และ don’t confess หากเหรียญออกกอย
สมมติให σ แทน mixed strategy profile เราจะสามารถเขียนกลยุทธผสม (mixed
strategy) ของผูเลนแตละคนไดดังนี้
σ 1 = {σ 1 (confess ), σ 1 (don' t )}
σ 2 = {σ 2 (confess), σ 2 (don' t )}
สมมติให mixed strategy ของแตละคนเปนดังนี้
σ 1 = {1 / 3,2 / 3}
σ 2 = {3 / 4,1 / 4}
ในกรณีนี้ เราจะสามารถเขียน mixed strategy profile ไดดังนี้

{σ (confessxconfess) = 1 / 4, σ (confessxdon' t ) = 1 / 12, σ (don' txconfess) = 1 / 2, σ (don' txdon' t ) = 1 / 6}

จากนั้น เราจะตองหาผลตอบแทนที่คาดวาจะไดรับ จากกลยุทธผสมที่กําหนดไวดานตน


ซึ่งเราสามารถคํานวณหา “expected utility” ไดดังตอไปนี้
u i (σ ) = ∑u
s j ∈S
j ( s j )∏ σ i ( s j )
i∈N
โดยที่ j แทนกลยุทธของผูเลน i แทนผูเลน s j แทน pure strategy แตละอัน และ
σ i ( s j ) แทนกลยุทธผสมของผูเลน i ซึ่งแสดงถึงความนาจะเปนที่ผูเลน i จะเลือกกลยุทธ s j
จากตัวอยาง prisoner-dilemma game ที่แสดงขางตน สมมติเราแปลงเมทริค
ผลตอบแทนใหเปนอรรถประโยชนที่เปนตัวเลขเพื่อใหงายตอการคํานวณ ไดดังเมทริคที่แสดง
ดานลางนี้

Prisoner 2
confess Don’t confess
confess
1,1 3,0
prisoner
1 Don’t
0,3 2,2
confess

ในกรณีนี้ เราสามารถคํานวณ expected utility ไดดังนี้


Expected utility ของ prisoner 1 = ¼ x 1 + 1/12 x 3 + ½ x 0 + 1/6 x 2
= 11/12

Expected utility ของ prisoner 2 = ¼ x 1 + 1/12 x 0 + ½ x 3 + 1/6 x 2


= 11/6

แนวคิดเกี่ยวกับดุลยภาพของเกมส (Equilibrium Concept)


คําถามที่สําคัญเกี่ยวกับทฤษฎีเกมสไดแก ในเกมส ๆ หนึ่ง ผลลัพธที่นาจะเกิดขึน้ จาก
เกมสนั้นควรเปน strategy profile อันไหน ซึ่งในการที่จะตอบคําถามนี้ได จะตองหาดุลยภาพ
ของเกมสที่เกิดขึ้น โดยแนวคิดเกี่ยวกับดุลยภาพของเกมสแบบ Normal form มีอยูดวยกัน
หลายแบบ ในที่นี้ จะพูดถึงแนวคิดเกี่ยวกับการหาดุลยภาพในแบบที่เปนพื้นฐาน งาย และนิยม
ใชกันที่สุด 3 แบบ ไดแก Dominant strategy, iteratedly strictly dominated strategy และ
Nash equilibrium
1. Dominant Strategy
คํานิยาม: กลยุทธจะมีลักษณะ strictly dominant สําหรับผูเลนคนที่ i ก็ตอเมื่อกลยุทธดังกลาง
ใหผลตอบแทนแกผูเลนคนที่ i มากกวากลยุทธอื่น ๆ ทั้งหมดที่มีอยูในเซ็ตกลยุทธของเขา ไมวา
ผูเลนคนอื่นจะเลือกกลยุทธใดก็ตาม
จากตัวอยางเกมส prisoner-dilemma จะเห็นไดวา confess เปนกลยุทธที่ดีทสี่ ุดสําหรับ
นักโทษทั้งคนที่ 1 และคนที่ 2 ไมวาผูเลนอีกคนหนึ่งจะเลือกกลยุทธใดก็ตาม ดังนั้น confess จึง
เปน “strictly dominant strategy” สําหรับผูเลนทั้งสองคน ขณะเดียวกัน เราก็สามารถ
คาดการณไดวา ผลลัพธของเกมสที่นาจะเกิดขึ้นที่สุดคือ (confess,confess) นั่นคือนักโทษทั้ง 2
เลือกที่จะสารภาพ
ซึ่งจะเห็นไดจากเมทริคผลตอบแทนวา ผลตอบแทนที่นักโทษทั้งสองจะไดรับกรณีที่ทั้ง
สองเลือกที่จะไมสารภาพจะดีกวาดุลยภาพที่เกิดขึ้น อยางไรก็ตาม จากการที่นักโทษแตละคน
เลือกกลยุทธโดยไมคํานึงถึงผลตอบแทนที่อีกคนหนึ่งจะไดรับ และไมรวมมือกัน ทําใหผลลัพธที่
ออกมาใหผลตอบแทนนอยกวา ซึ่งก็คือการที่ทั้งคูยอมสารภาพนั่นเอง
หมายเหตุ:
- ขอดีของ strictly dominant strategy ก็คือ หากเกมใดมีกลยุทธประเภทนี้ จะมีดุลย
ภาพ (ประเภท Nash) เพียง 1 ดุลยภาพในเกม ๆ นั้น ซึ่งก็คือดุลยภาพที่
ประกอบดวย strictly dominant strategy นั่นเอง
- ในเกมสแตละเกมสอาจจะไมมีกลยุทธประเภท strictly dominant strategy เลยก็ได

2. Iterated Strictly Dominated Strategy


ถาหากไมมี strictly dominant strategy เราจะสามารถหาการคาดการณเกี่ยวกับ
ผลลัพธที่จะเกิดขึ้นของเกมสไดอยางไร วิธีอีกวิธีหนึง่ ที่นิยมใชกันคือการกําจัดกลยุทธที่ผูเลนจะ
ไมเลือกเลน (ถูก dominate โดยกลยุทธอื่น กลาวคือมีกลยุทธอื่นที่ดีกวา) ออกไปเพื่อหาดุลย
ภาพจากกลยุทธที่เหลืออยู
คํานิยาม: กลยุทธ si เปนกลยุทธที่เรียกวา strictly dominated strategy หากมีกลยุทธอื่นที่ให
ผลตอบแทนแกผูเลนคนนั้นสูงกวากลยุทธ si ไมวาผูเลนคนอื่นจะเลือกเลนกลยุทธใดก็ตาม

ตัวอยางที่ 2:
L R
T 3,… 0,…
M 2,… 2,…
D 1,… 1,…

พิจารณาผลตอบแทนของผูเลนคนที่ 1 จะเห็นไดวา ไมวาผูเลนคนที่ 2 จะเลือกกลยุทธ


L หรือ R กลยุทธ D จะใหผลตอบแทนแกผูเลนคนที่ 1 นอยกวากลยุทธ M เสอม ดังนั้น เราจึง
กลาวไดวา กลยุทธ D นั้นถูก strictly dominated โดยกลยุทธ M ทําใหเราสามารถตัดกลยุทธ D
ออกจากการตัดสินใจหาผลลัพธของเกมสได

หมายเหตุ:
1. การจะหาวากลยุทธใดเปน dominant strategy เราสามารถตรวจสอบเฉพาะกลยุทธ
แบบ pure ก็พอ
2. แตหากเราจะตรวจสอบวากลยุทธใดเปน strictly dominated strategy เราจะตอง
พิจารณากรณีที่กลยุทธถูก dominate ดวยกลยุทธแบบผสม (mixed strategy) ดวย
เพราะกลยุทธบางกลยุทธจะไมถูก dominate โดยกลยุทธแบบ pure แตสามารถถูก
dominate โดยกลยุทธแบบผสมได ดังตัวอยางตอไปนี้

L R
T 3,… 0,…
M 0,… 3,…
D 1,… 1,…
จะเห็นไดวาทุกกลยุทธของผูเลนคนแรก คือ T,M และ D จะไมถูก dominate โดย pure
strategy อันใดเลย แตหากเราพิจารณากรณีที่สราง mixed strategy ระหวาง T กับ M
จะสามารถ dominate กลยุทธ D ได โดยการสราง mixed strategy ½ T + ½ M ซึ่งจะ
ทําใหผลตอบแทนสามารถแสดงไดดังเมทริคตอไปนี้

L R
½T+½M 1.5,… 1.5,…
D 1,… 1,…
ดังนั้น กลยุทธ D จะถูก dominate โดยกลยุทธ ½ T + ½ M ทําใหเราสามารถตัดกล
ยุทธ D ออกจากการพิจารณาหาผลลัพธของเกมสไดเชนกัน
3. หากกลยุทธแบบ pure อันไหนเปน strictly dominated strategy กลยุทธแบบผสมที่ถูก
สรางขึ้นโดยใชกลยุทธแบบ pure อันนั้นเปนสวนประกอบก็จะเปน strictly dominated
strategy ดวยเชนกัน

กระบวนการตัดกลยุทธทเี่ ปน strictly dominated ออกไปแบบซ้ํา ๆ (The Process of


Iterated Elimination of Strictly Dominated Strategy)
ตัวอยางที่ 3:

Left Middle Right


Up 1,0 1,2 0,1
Down 0,3 0,1 2,0

จากเกมสในตัวอยางที่ 3 จะเห็นไดวา สําหรับผูเลนคนแรก กลยุทธ Up และ Down ไมมี


อันไหนเปน strictly dominated แตกลยุทธ Right ของผูเลนคนที่ 2 นั้นถูก dominated โดยกล
ยุทธ Middle เราจึงสามารถตัดกลยุทธนี้ออกจากการพิจารณาได ทําใหเกมสที่เราพิจารณาอยู
สามารถลดรูปไดดังนี้

Left Middle
Up 1,0 1,2
Down 0,3 0,1
จากเกมสในขางบนนี้ จะเห็นไดวา กลยุทธ Down ของผูเลนคนแรก จะถูก dominated
โดยกลยุทธ Up ดังนั้น เราสามารถตัดกลยุทธ Down ทิ้งไปไดเชนกัน ทําใหเกมสลดรูปเหลือดัง
เมทริคตอไปนี้

Left Middle
Up 1,0 1,2

สุดทาย กลยุทธ Left จะถูก dominate โดยกลยุทธ Middle ดังนั้น เราสามารถตัดกล


ยุทธ Left ออกไปไดเชนกัน ผลลัพธจากเกมนี้จากกระบวนการตัด strictly dominated strategy
ซ้ํา ๆ จะทําใหเราได pure strategy profile (Up, Middle) เปนคําตอบของเกมสอันนี้

ขอเสียของวิธี Iterated Elimination of Strictly Dominated Strategy


1. ผลลัพธที่ไดอาจจะไมไดเหลือเพียง pure strategy profile อันเดียวอยางทีเ่ ห็นใน
ตัวอยางที่ 3 ในบางครั้งกระบวนการนี้จะเหลือกลยุทธอยูมากมายที่ไมถูก dominate
โดยที่กลยุทธเหลานั้นอาจจะไมไดเปนผลลัพธของเกมสเลยก็ได
2. ในการที่จะใชกระบวนการนี้ในการหาคําตอบได เราจะตองมีขอสมมติ ไมเพียงแตวาผู
เลนเปนคน rational แตจะตองสมมติวา ผูเลนรูวาผูเ ลนอีกคน rational และผูเลนอีกคน
รูวาผูเลนอีกคนรูวาผูเลน rational และสมมติแบบนีซ้ ้ํา ๆ ไปเรื่อย ๆ ซึ่งทําใหขอ
สมมติฐานมีความซับซอนและยุงยากมาก
ตัวอยางที่ 4 (ทําในชั้นเรียน):
ใหหาผลลัพธจากเกมสตอไปนี้โดยใชกระบวนการ iterated elimination of strictly dominated
strategies

L C R
T 2,2 6,1 1,1
M 1,3 5,5 9,2
B 0,0 4,2 8,8

3. Nash Equilibrium
เปนผลลัพธของเกมสที่เกิดขึ้นเมื่อผูเลนทุกคนในเกมสเลือกกลยุทธที่เปน “Best-
response” เมื่อกลยุทธของคนอื่นถูกกําหนดให กลาวคือคนอื่นถูกกําหนดใหเลือกกลยุทธที่เปน
Best-response เชนกัน
นิยาม: Best-response
กลยุทธ σ i* จะเรียกวาเปน Best-response สําหรับผูเลนที่ i ก็ตอเมื่อ
σ i* = arg max u i (σ i , σ −*i )
σi
กลาวคือ เมื่อกําหนดใหผูเลนทุกคน ยกเวนคนที่ i เลือกที่จะเลนกลยุทธที่เปน Best-
response ของเขาเหลานั้นแลว กลยุทธ σ i* จะเรียกวาเปน Best-response เมื่อกลยุทธ σ i* ทํา
ใหผลตอบแทนสําหรับผูเลน i สูงสุด

ตัวอยางที่ 5:
ใหกลับมาพิจารณาเกมส prisoner-dilemma ในตัวอยางที่ 1 และหากลยุทธที่เปน Best-
response สําหรับผูเลนแตละคน

Prisoner 2
confess Don’t confess
confess
1,1 3,0
prisoner
1 Don’t
0,3 2,2
confess

กลยุทธที่เปน Best-response สําหรับ Prisoner 1


- กําหนดใหผูเลนคนที่ 2 เลือกกลยุทธ Confess ผูเลนคนที่ 1 จะเลือก confess
ดังนั้น สําหรับผูเลนคนแรก กลยุทธ confess จึงเปน best-response ในกรณีที่ผู
เลนคนที่ 2 เลือกกลยุทธ confess หรือเขียนไดวา confess = BR1 (confess)
- กําหนดใหผูเลนคนที่ 2 เลือกกลยุทธ Don’t confess ผูเลนคนที่ 1 จะเลือก confess
ดังนั้น สําหรับผูเลนคนแรก กลยุทธ confess จึงเปน best-response ในกรณีที่ผู
เลนคนที่ 2 เลือกกลยุทธ Don’t confess หรือเขียนไดวา confess = BR1 (don’t
confess)
กลยุทธที่เปน Best-response สําหรับ Prisoner 2
- กําหนดใหผูเลนคนที่ 1 เลือกกลยุทธ Confess ผูเลนคนที่ 2 จะเลือก confess
ดังนั้น สําหรับผูเลนคนที่ 2 กลยุทธ confess จึงเปน best-response ในกรณีที่ผูเลน
คนที่ 1 เลือกกลยุทธ confess หรือเขียนไดวา confess = BR2 (confess)
- กําหนดใหผูเลนคนที่ 1 เลือกกลยุทธ Don’t confess ผูเลนคนที่ 2 จะเลือก confess
ดังนั้น สําหรับผูเลนคนที่ 2 กลยุทธ confess จึงเปน best-response ในกรณีที่ผูเลน
คนที่ 1 เลือกกลยุทธ Don’t confess หรือเขียนไดวา confess = BR2 (don’t
confess)

Nash Equilibrium
จะเปนดุลยภาพที่เกิดขึ้นเมื่อผูเลนทุกคนเลือกกลยุทธที่เปน Best-response พรอมกัน
คํานิยาม: Nash Equilibrium
Strategy profile (σ 1* , σ 2* ,....., σ N* ) เปน Nash equilibrium เมื่อ กลยุทธ σ i* เปนกลยุทธแบบ
Best-response สําหรับผูเลนที่ i ทุกคน เมื่อ i = {1,…………,N}
จากตัวอยางที่ 5 ในเกมส Prisoner-dilemma จะสามารถหา strategy profile ที่เปน
Best-response สําหรับผูเลนทั้งสองคนพรอมกันไดแก (Confess, Confess) ดังนั้น Strategy
profile ดังกลาวจึงเปน Nash equilibrium
การตีความของ Nash equilibrium อีกประการนึงก็คือ ณ จุดดุลยภาพแบบ Nash จะไม
มีผูเลนคนไหนมีแรงจูงใจที่จะเปลี่ยนไปเลือกกลยุทธแบบอื่น (No incentives to deviate from
Nash equilibrium)

ตัวอยางที่ 6 (ทําในชั้นเรียน): ใหหากลยุทธที่เปน Best-response สําหรับผูเลนทั้ง 2 คน และ


หา Pure strategy Nash equilibrium

L C R
T 0,4 4,0 5,3
M 4,0 0,4 5,3
B 3,5 3,5 6,6

You might also like