You are on page 1of 6

DOI:10.16158/j.cnki.51-1312/f.2003.04.

016
经济学家 …… !""#$ %

博弈论中
理性人假设的困境
!潘天群
; 南京大学哲学系,江苏 南京 <899"= >

“博弈参与人是理性的”是博弈论的公设,然而理性人假定存在许多博弈
困境。囚徒困境与公共地悲剧反映的是个体理性与集体理性之间的冲突;纽
科姆难题 (?’0-+.@ #(+@$’.)体现了理性人使用占优策略原则与最大期望效
用原则时的两难;最后通牒博弈与蜈蚣博弈则表现了理性参与人选择过程是
理性的而结果是非理性的,其中蜈蚣博弈悖论又称为逆向归纳法悖论;而投
票悖论则反映了群体建立加总群体偏好的理性规则的限度。
关键词:博弈论 理性人假设 困境
中图分类号:A98 文献标识码:B 文章编号:
899=—:C:C ; <99= > 9D—99""—9C

在博弈论中,博弈论专家不仅假定了博弈参与人 (#$%&’() 是理性的


((%)*+,%$),而且假定了 “所有参与人是理性人”是博弈参与人之间的公共知识
(-+..+, /,+0$’12’)——
— 公共知识简单说来就是 “我们知道”的事实。理性人
在博弈论中是指具有推理、决策能力并通过选择策略使自己的得益或支付
(#%&3+44)最大的人。然而,理性的参与人在某些博弈中并不能使自己的得益最
大,在另外一些博弈中理性反而成为获得最大得益的障碍,在某些情况下理
性人面临难以做出决策的二难,即:“理性人”面临着困境。

一、个体理性与集体理性的冲突
一个熟知的博弈困境是囚徒博弈。囚徒困境 (5(*6+,’(6 7 1*$’..%)是这样
一个博弈:两个囚徒被警察抓住后单独关押,警察给他们的政策是 “坦白从
宽,抗拒从严”。每个囚徒均面临着两个策略选择“招认”和“不招认”。如果一
方 “招认”,另外一方 “不招认”,招认方无罪释放,不招认方将被重判 (比如 89
年);如果双方均 “招认”,因无立功表现,每人均被判刑 (如 : 年),而如果每人
均 “不招认”,警察抓不到足够的证据证明以前的犯罪,只能对他们目前所犯
的罪进行惩戒(如判刑半年)。
这个博弈中,两个囚徒均会选择 “招认”,因为无论对方选择什么策略,自
己选择“招认”是占优策略(1+.*,%,) 6)(%)’2&)。双方均选择“招认”的策略组合

! "" !
!"#$#%&’( …… !""#$ %

点是纳什均衡($%&’ ()*+,+-.+*/)点。如果两个囚 克在 "<=< 年 《纽科姆难题和两个选择原则》中转


犯都选择 “不招认”策略,结果是最理想的状态。 述了这个难题,并称之为纽科姆难题 ($2@75/-
但这个状态是达不到的,因为每个理性的囚徒均 A.5-,2/)。然而,“人们从未看到纽科姆本人就该
会主动偏离这个状态。一个稳定的状态是双方均 疑难发表文章”。诺齐克认为,纽科姆难题“是一个
选择“招认”,这是理性的囚徒难以摆脱的困境。 漂亮的难题。我真希望它是我提出的。”不管纽科
与 此 类 似 的 是 公 共 地 悲 剧 (0.%1234 56 0’2 姆难题是谁提出来的,但它的提出引起了人们尤
75//58&)。公共地悲剧是由美国生物学家哈定 其是哲学家的广泛争论。它所反映的是理性人决
(9: ;%.3+8)在 "<=> 年提出的,该问题提出后引 策时的两个原则 “最大期望效用原则”(B%C+/*/
起各个领域里的讨论。他说,想象一个对所有牧 (CA27023 D0+,+04 )与 “占优策略原则”(E5/+8%80
民开放的牧场,每个牧民的占优策略是尽量多地 F0.%0214)之间的冲突。纽科姆难题是这样的:
放牛。因为购买小牛的成本小于当牛长成后被卖 假定有两个黑色的盒子。你无法看到盒子里
出后所得的收益。但是,当每个牧民均作如此思 的东西。" 号盒子里面有 "### 元钱;G 号盒子里面
维与策略选择的时候,牧场将被过度放牧而荒芜 或者有 "###### 元,或者为 # 元 (这由神来确
了。这是一种集体行动的悲剧。哈定说,人口问 定)。你有两个选择:(")选择全部,即 " 号和 G 号
题,污染问题以及军备竞赛问题,均具有与此相同 盒子;或者(G)只选择 G 号盒子。
的结构。哈定这里所说的悲剧是古希腊意义上 假设一个有预测力的神能够预测你将作出的
的。他借用怀特海的话说,悲剧不是不幸,而是事 选择。如果他预测你将“选择两个盒子”,他事先不
物发展的无情性。即,人类知道这个悲剧,但无法 在 G 号盒子里放钱,即他使盒子里面的钱数为 #;
摆脱它发展的必然性。公共地悲剧就是这样的悲 如 果 神 预 测 到 你 “只 选 择 G 号 盒 子 ”, 他 将
剧——
— 每个人均能够预先知道悲剧的必然性,因 "###### 元钱放进 G 号盒子里 (如果他预测你将
为这个必然性是每个人理性行为的结果,但每个 使用随机的方法做出选择,他仍使 G 号盒子空
人由于自己的理性,均不会约束自己的策略选择, 着)。
因而悲剧是不可避免的。 我们假定了这个神能够准确预测。有可能的
囚徒困境与公共地悲剧所反映的是个体的理 是,这个神的预测能力可能不是 "##H 准确,但足
性行为产生的集体的不合理性行为,体现了个体 够准确,如 <#H 的准确。具有这个能力的可以是
理性与集体理性的冲突。然而,当人类社会真的 神,或者精灵,或者某个超级生物。这是人和神之
要产生如公共地悲剧这样的悲剧的时候,人们的 间的一个博弈。如果是你,你将“选择两个盒子”还
价值观以及相应的社会制度会自动产生一种克服 是“只选择 G 号盒子”?
该悲剧的方法来。因而,悲剧并不是不可避免的。
囚徒困境与公共地悲剧中的个体的理性是没有任
何价值观约束下的理性,与实际中的情况相差甚
远。

二、理性原则间的冲突 根据占优策略原则,你应当选择“取两个盒子
"<=# 年,物理学家威廉・纽科姆 (?+,,+%/ 的策略”。因为,神的预测是过去做出的。G 号盒子
$2@75/-)提出了一个策略选择难题。哲学家诺齐 里的钱的多少是不可更改的,与你现在的选择无

! "## !
经济学家 …… !""#$ %

关。如果神预测到你将“取两个盒子”,而你“只取 封信说选择 $ 号盒子;65 封信说他们选择取两个


了 $ 号盒子”,你所得为 # 元,而选择 “取两个盒 盒子。另外有 "8 人认为这个难题的条件不能满
子”的策略的所得为 "### 元,“取两个盒子”的所 足。对这个难题,哲学家诺齐克、莱维 (9:--; <4=>
得比“只取 " 个盒子”的收益多 "### 元。此时,你 /),均认为应当选择 “取两个盒子”,纽约大学政治
应当“取两个盒子”。而如果神预测到你“只取 $ 号 系著名政治学家勃拉姆兹 (?.4=40 @2-A:),以及纽
盒子”,他在 $ 号盒子里面放了 "###### 元,你如 科姆本人认为应当选择“只取 $ 号盒子”。
果“只取 $ 号盒子”,你的所得为 "###### 元,而如 笔者进行了一个实验。本人将这个难题出作
果 “取两个盒子”,你的所得为 "##"### 元,“取两 本科生博弈论课程的考试题。58 名学生参加了考
个盒子”比“只取一个盒子”多 "### 元。此时,你应 试。学生事先不知道这是一个没有确定答案的难
当 “取两个盒子”。综上所述,“取两个盒子”是占 题。我给了他们这两种选择答案,并给了他们理
优策略。你应当选择“取两个盒子的策略”。 由,让他们利用他们的分析能力对之进行选择。实
而如果根据最大期望效用原则,你应当选择 验结果是:7$ 人选择 “只取 $ 号盒子”,"B 人选择
“只取一个盒子”的策略。因为,假定你选择“取两 “取两个盒子”,$ 个人不能表明态度。选择“只取 $
个盒子”,神已经预测到这点,他使 $ 号盒子里面 号盒子”的人数接近 “取两个盒子”的人数的 B’ +
为 #,你的所得是 "### 元;你 “只取 $ 号盒子”,神 倍。加得纳 (,-./0 1-23042)的实验结果也是选择
预测到这一点,那么神在 $ 号盒子里面放了 “只取 $ 号盒子”的人多,但比例没有本人这里的
"###### 元,这样你的所得为 "###### 元。选择 实验结果高。见下表。
“只 取 $ 号 盒 子 ” 比 “取 两 个 盒 子 ” 的 所 得 多
"###### 元。因此,你应当选择“只取 $ 号盒子”的
策略。
即使神的预测不是 "##% 的准确,只要神的
预测准确度超过一定的概率,我们还是应当选择
“只取 $ 号盒子”的策略。因为:假定神的预测是
&#% 的准确,“取两个盒子策略”的期望得益为: 纽科姆难题涉及到人的意志是否是自由的问
#’ & ( "### ) #’ " ( "##"### * "#"###(元) 题。因而,纽科姆难题又称自由意志困境。在博弈
“只取 $ 号盒子”的期望所得为: 论中,博弈论专家预设了博弈参与人具有理性决
#’ " ( # ) #’ & ( "###### * &#####(元) 策能力。但更为基本的是,博弈论预设人可以“自
此时,应当选择“只取 $ 号盒子”。 由地”选择策略,即人的意志是自由的。然而在纽
通过计算,只要神预测的准确性超过 科姆难题中人的意志是否是自由的,则是一个问
#’ +##+,根据最大期望效用原则,我们应当选择 题。
“只取 $ 号个盒子”。这两个选择均有理由,但它们 如果神能够准确预测并做出正确的决定,表
不可能同时正确。究竟应当选择“取两个盒子”还 明在人的预测与人的决定之间存在着因果联系。
是“只取 $ 号盒子”的策略? 此时,无论人做出什么样的决策,均是神的预测的
加得纳 (,-./0 1-23042)"&56 年在 《科学美国 实现。如果神预测不是绝对准确,可能因为他对这
人》杂志数学游戏栏目中邀请读者给出这个难题 种因果联系的认识不精确而已。基于这样的信念,
的答案以及建议,有明确答案的 "$7 封来信中,8& 选择“只取 $ 号盒子”是合适的。

! "#" !
!"#$#%&’( …… !""#$ %

如果人的意志是自由的,神的预测就难以准 因此在 “最后通牒博弈”中,理性的 8 只能得


确。此时,人的理性便能够发挥作用。此时,人应 到 " 分钱!而 7 正是根据 8 的理性的选择而使自
当采用“混合策略”,即以一定的概率选择“取两个 己利益最大。当然这不是实际情况,有博弈论专家
盒子”和 “只取 $ 号盒子策略”,概率各为 #% &。当 对这个问题进行实验研究 (在经济学中实验研究
然,如果是重复博弈,并且假定神的目标是尽量预 已成时尚,$##$ 年诺贝尔经济学奖获得者卡尔曼
测准确人的选择,人与神采取 “合作策略”是合理 是实验经济学研究的先驱 )。根据宾谟 (> 8./?
的,即人选择只取 $ 号盒子,而神预测人将选择 42,6),“实验结果呈现多样化,但是参与人 7 提
“只取 $ 号盒子”的策略。 出的方案很可能在 &#:&# 附近;而对参与人 8 而
言,如果其分配的数额不少于三分之一,他将趋向
三、过程理性与结果理性 于接受。”
现在,我们假定 8 具有某种程度的非理性。
之间的冲突
他会向 7 发出威胁 “如果你不给我足够的份额,
逆向归纳法 (’()*+(,- ./-0)1.2/)是求解动态
博弈均衡的方法。所谓动态博弈是指博弈参与人 我将不同意。”7 知道 8 确实不是完全理性的人。

的行动存在着先后次序,并且后行动的参与人能 7 想,如果不给 8 足够数额的钱,8 将不同意。因


此,在提出分配方案时,7 会考虑 8 的非理性的程
够观察到前面的行动。逆向归纳法在逻辑上是严
度。一个极端的情况是,如果 7 是理性人,而 8 极
密的,然而它存在着 “困境”。所谓逆向归纳法是
端非理性,那么一个可能的分配方案比例将是
从动态博弈的最后一步往回推,以求解动态博弈
的均衡结果。逆向归纳法又称逆推法。它是完全 #% #":==% ==。即 7 得到 " 分钱,8 得到 ==% == 元!

归纳推理,其推理是演绎的,即结论是必然的。我 在这个例子中,我们看到,人的理性程度与其

们来看一下最后通牒博弈 (031.4(104 5(46)的均 所得是呈反比关系的。在博弈论中理性人是努力

衡。 使自己的收益最大的人,而在最后通牒博弈中,越

有这样一个动态博弈——
— 7、8 两个人分 "## 理性的人得到的利益越低。
元钱。规则规定:7 提出方案,8 对之进行表决。如 理性的人得益低的另一个例子是 “蜈蚣博
果 8 对 7 提出的方案表示同意的话,7、8 就按照 弈”。蜈蚣博弈也是动态博弈,蜈蚣博弈所反映的
7 提出的方案进行分配,如果 8 不同意 7 的方 问题被称为“逆向归纳法悖论”。蜈蚣博弈是由罗
案,那么 7 和 8 均将一无所有。这是一个完全且 森塞尔 @ A2B6/1:(3 C 提出的。它是指这样一个博弈:
完美信息动态博弈 (-9/(4.) 5(46 +.1: ;6,<6)1 (/- 两个参与者 7、8 轮流进行策略选择:可供选择的
)24;3616 ./<2,4(1.2/)。让我们分析这个过程。 策略有“合作”和“不合作”两种。假定 7 先进行策
7 提出方案时,他知道 8 是理性人。8 的行为 略选择,然后是 8,接着是 7,如此交替进行。7、8
是可被 7 预测的。7 将提出这么一个方案:7 和 8 之间的博弈的可 能次数为一有限次,比 如 "=D
的所得比例为 ==% ==:#% #",即给 8 留 " 分钱,而 次。这个博弈的博弈树如下:
将其余 == 元 = 角 = 分留给自己。此时 8 面临“同 7) 8 ) 7 ) ……7 8 ) @ "##E "## C
/) /) /) /) /)
意”和“不同意”的选择:如果 8“同意”,8 所得为 "
@ "E " C @ #E F C @ $E $ C @ ==E == C @ =DE "#" C
分钱;如果 8“不同意”,他将一无所得。理性的 8
将选择 “同意 ” ——
— 这个选择是 7 所能够预测 上图中,“)”表示 “合作”策略,“/)”表示 “不合
的。 作”策略。

! "#$ !
经济学家 …… !""#$ %

这个博弈的特点是,只要有人选择 “不合作” 的。
策略,该博弈即告结束。因博弈树的形状像一只 许多博弈论专家认为,蜈蚣博弈所反映的不
蜈蚣% 因而被命名成蜈蚣博弈。在蜈蚣博弈中参 是悖论,逆向归纳法作为求解动态博弈的方法是
与人 &、’ 是如何进行策略选择的? 有效的,尽管用这样的方法求得的结果不是我们
根据逆向归纳法,在博弈的最后一步即第 所期望的,但它是均衡结果,是完全理性的参与人
"() 步:’ 在 “合作”和 “不合作”之间作选择时,因 的博弈结果。
“合作”给 ’ 带来 "## 的收益,而 “不合作”带来 本文认为,该蜈蚣博弈所反映的不是悖论,而
"#" 的收益,根据理性人的假定,’ 会选择 “不合 是过程理性与结果理性之间的冲突,即每个参与
作”。在第 "() 步 ’ 选择 “不合作”的结论是 &、’ 人选择过程均是理性的,但结果却是不合理的。该
之间的公共知识。但是,要经过第 "(* 步才到第 困境反映的是多主体交互作用 (+,-./01-+2,)下个
"() 步,在 "(* 步,& 考虑到 ’ 在第 "() 步时会选 体理性的局限。
择“不合作”——
— 此时 & 的收益是 (),小于 ’ 合作
时的 "##——
— 那么在第 "(* 步,他的最优策略是 四、加总群体偏好的理性
“不合作”——
— 因为 “不合作”的收益 (( 大于 “合 规则的缺陷
作”的收益 ()。……如此推论下去。最后的结论
投票博弈 (32-+,4 405.)是一种特殊的博弈。
是:在第一步 & 将选择 “不合作”策略,这构成子
在投票博弈中,每个投票人对候选人或者候选方
博弈纳什均衡。在这点上,&、’ 各自的收益均为
案存在着偏好,并且可以对之进行排序。一个理性
",远远小于大家都采取 “合作”的策略时的收益: 人组成的群体在加总个体的选择时存在理性的方
&:"##,’:"##。 法吗?
根据逆向归纳法推得的结果是令人悲伤的, 对于理性,研究社会选择的经济学家一般将
从逻辑推理来看,逆向归纳法是严密的。但结论 之定义在偏好关系上。理性的偏好关系,体现在关
是违反直觉的。直觉告诉我们,一开始就停止的 于偏好关系“%(弱优于)”的两个基本假设即完备
策略只能获取 ",而采取合作性策略有可能获取 性和传递性之中。具体地说,如果%满足:(")完
"##,当然 & 一开始采取合作性策略有可能获得 备性。任何两个备选对象 0,6,它们的关系是或者
#,但 " 或者 # 与 "## 相比实在是太小了。直觉告 0%6,或者 6%0。二者必居其一。(7)传递性假
诉我们采取“合作”策略是好的。而从逻辑的角度 定。对于任意的三个备选对象,如果 0%6,6%1,
看,& 一开始应选择“不合作”的策略。是逆向归纳 那么 0%1。则称偏好关系%是理性的。
法错了,还是直觉错了?似乎逆向归纳法不正确。 阿罗将这两个假定看作公理。满足完备性假
然而,我们会发现,即使双方开始均采取合作策 定的偏好关系被他称为连通关系 (12,,.1-.8 ),满
略,这种合作不会坚持到最后一步。理性的人出 足传递性偏好关系被他称为传递性的
于自身利益的考虑,肯定在某一步采取不合作策 (-/0,9+-+3.)。然而,当群体加总各个个体的偏好关
略。逆向归纳法肯定在某一步要起作用。此时只 系时,会出现不合理的结果。孔多塞投票悖论反映
要逆向归纳法起作用,合作便不能进行下去。因 了这种不合理性。
此,我们不能怀疑逆向归纳法的合理性,它的推理 举一个例子。假定有 $ 个群体,他们对备选方
过程严密,符合逻辑。然而如果我们用逆向归纳 案 &,’,: 进行表决。方法是两两进行比较,即让
法来求解蜈蚣博弈,则博弈结果是我们不能接受 投票群体对他们进行表决。假定这 $ 个群体的偏

! "#$ !
!"#$#%&’( …… !""#$ %

好关系如下:

五、结语
博弈论即是研究处于互动 (-./01+2/-3.)中的
理性主体(+40./)是如何行动的。尽管博弈论发展
迅猛,但它的基础理性人假设存在着问题。正如其
我们先让投票者对 % 和 & 进行投票。我们看 他科学的发展过程所昭示给我们的,基础需要不
到,由于群体 " 和群体 ’ 均认为 “% 优于 &”,群体 断夯实一样,博弈论基础也需要进一步的夯实。对
( 认为 “& 优于 %”,这样,在这轮投票中 % 以 ( 比 理性假设困境的探讨有助于博弈论的进一步发
" 战胜 &。 展,也有助于利用博弈论的社会科学的发展。
我们再让这三个群体对 & 和 ) 进行投票。群
体 " 和群体 ( 认为 “& 优于 )”,群体 ’ 认为 “) 优 参考文献:
于 &”,投票结果是:& 以 ( 比 " 战胜 )。 5 " 6 7%89:; <= >?0 /1+40@A 3B /?0 23CC3.D 5 E 6 = F2-0.20
既然 % 战胜了 &,& 又战胜了 ),似乎是,如 "GHI,"H(J "($’=

果对 % 与 ) 进行投票,% 应当战胜 )。对于任何一 5 ( 6 ;K8L: 7= M3/-.4 N+1+@3O0D +.@ 73P /3 90+Q P-/?

个理性的投票人,这是自然的。但这里,我们看 >?0C 5 L 6 = FR1-.401 ! M01Q+4 &01Q-.* "GGG=


5 ’ 6 F>8%SS:;* N= 9= >3R-2D -. /?0 /?031A 3B T3/-.4 5 L 6
到,当群体对 % 和 ) 进行投票时,) 以 ( 比 " 战胜
= U@V2+/-3. 90T0Q3RC0./ )0./01 :.2* "GI#=
了 %!
5 $ 6 &8%LF F= <+C0 >?031A +.@ N3Q-/-2D 5 L 6 = ;0P
这就是孔多塞投票悖论,又称阿罗悖论、循环
W31XJ S100 N10DD* "GYZ=
投票悖论。当采用两两相决的孔多塞投票规则时
5 Z 6 &:;L[8U\ ]= % ;3/0 3. &+2XP+1@ :.@V2/-3.
存在产生循环投票悖论的可能性。 5 E 6 = )*+,- *./ ,01.1+20 3,4*5216 * "GGH * "Y=
进一步地,阿罗证明了* 一个群体中的每个人 5 H 6 &:;L[8U\ ]= ^?A UOR01-C0./ -. U23.3C-2D?5 E 6
在给定偏好顺序的情况下,不可能存在满足下列 = (4, !01.1+20*7 8196.*7* "GGG,"#G (S0,1V+1A)
=
$ 个条件并具有传递关系的社会福利函数:第一, 5 Y 6 张建军 = 逻辑悖论研究引论 5 L 6 = 南京:南京大

定义域不受限制——
— 社会福利函数适合所有可能 学出版社,(##(:(("=

的个人偏好类型;第二,非独裁——
— 社会偏好不以 5 I 6 5美6 安德鲁・马斯—科莱尔,迈克尔・9= 温斯顿 =
微观经济学5L6= 北京:
中国社会科学出版社* (##"\ Y=
一个人或少数人的偏好来决定;第三,帕累托原则
5 G 6 肯尼思・阿罗 = 社会选择:个性与多准则 5 L 6 =
— 如果所有个人都偏好 + 甚于 ,,则社会偏好 +
——
北京:首都经济贸易大学出版社* (###,(Z ! (H=
甚于 ,;第四,无关备选对象的独立性——
— 如果社
5 "# 6 潘天群 = 博弈行为中的演绎与归纳推理及其问
会偏好 + 甚于 ,,无论个人对其他的偏好发生怎
题 5 E 6 = 自然辩证法研究 = (##’,_ ’ ‘ =
样的变化,只要 + 与 , 的偏好关系不变,社会偏好 5 "" 6 潘天群 = “游戏理论 ”将一统天下?5 % 6 = 社会学家
+ 甚于 , 不变。阿罗定理是深刻的:如果不存在着 茶座 (第 " 辑 )= 济南:山东人民出版社* (##(=
这样的福利函数,社会所使用的各种加总个体偏
好的方法(投票制度)有何合理性而言?这是不是 _ 收稿日期:(##’—#Z—"( 责任编辑:赵磊 ‘
说明,民主制度存在着天然的缺陷?

! "#$ !

You might also like