Professional Documents
Culture Documents
引用本文:
彭丽蓉, 赵海璐, 甘春晏, 等. 一种大众麻将计算机博弈的胡牌方法研究[J]. 重庆理工大学学报(自
然科学), 2021, 35(12): 127-133.
PENG Lirong, ZHAO Hailu, GAN Chunyan, et al. Research on the Hu Method of a Popular Mahjong
Computer Game[J]. Journal of Chongqing University of Technology(Natural Science), 2021, 35(12): 127-
133.
相似文章推荐(请使用火狐或IE浏览器查看文章)
Similar articles recommended (Please use Firefox or IE to view the article)
一种德州扑克牌力评估方法
A Method of Evaluating Texas Hold' Em Poker
重庆理工大学学报(自然科学). 2021, 35(9): 130-135 https://doi.org/10.3969/j.issn.1674-
8425(z).2021.09.016
二打一智力游戏中残局局面数据标定方法研究
Research on Data Calibration Method of Endgame Situation for Fight the Landlords
重庆理工大学学报(自然科学). 2021, 35(3): 159-165 https://doi.org/10.3969/j.issn.1674-
8425(z).2021.03.021
一种非遗藏族久棋项目计算机博弈智能体的评估方法
An Evaluation Method for the Computer Game Agent of the Intangible Heritage Tibetan Jiu Chess Item
重庆理工大学学报(自然科学). 2021, 35(12): 119-126 https://doi.org/10.3969/j.issn.1674-
8425(z).2021.12.015
一种棋类计算机博弈强化学习智能体的决策依据解释方法
An Interpretation Method of Decision Basis for the Reinforcement Learning Agent of Chess Computer
Game
重庆理工大学学报(自然科学). 2021, 35(12): 140-146 https://doi.org/10.3969/j.issn.1674-
8425(z).2021.12.018
2
021年第 3
5卷第 1
2期
J
our
nalo
fCh
ong
qin
gUn
ive
rsi
tyo
fTe
chn
olo
gy(Na
tur
alS
cie
nce
) Vo
l.3
5 No
.12 2
021
d
oi:1
0.3
969/
j.i
ssn.
167
4-8
425(z
).2
021.
12.
016
●“机器博弈”专栏(主持人:张小川 教授)
一种大众麻将计算机博弈的胡牌方法研究
彭丽蓉1,2,赵海璐1,甘春晏1,刘 洁1,陈俊宇1
(1.重庆理工大学 人工智能系统研究所,重庆 401135;
2.重庆工业职业技术学院 人工智能与大数据学院,重庆 401120)
摘 要:麻将博弈游戏作为非完美信息博弈中的典型项目,与德州扑克、桥牌等其他非完美
信息博弈游戏相比,最大的不同是玩家游戏顺序时常被打乱而产生较大不确定性,导致博弈策
略设计及局面评估困难。针对大众麻将游戏规则,构造了一种快速胡牌方法。为此,首先分析
麻将的大众规则;其次,基于各种牌型和持有牌点数,提出一种胡牌距离概念,以最短胡牌距离
为标准,作为玩家的决策依据;最后,依据已知公开的出牌和玩家手上牌张信息,融合先验知识
后,进一步计算每种出牌行为的期望胜率,从而获得出牌行为评估值,作为玩家的决策依据。实
验结果表明:利用维持最短胡牌距离为核心的快速胡牌方法,在有限牌对局数下,比如在中国计
算机博弈锦标赛中此局数设定为 100
00局,依据设计的智能体,能取得 46.
85%以上的牌局胜
利,该值远高于仅仅使用纯粹经验方法的数值。
关 键 词:计算机博弈;非完美信息博弈;麻将博弈;胡牌方法;胡牌距离
中图分类号:TP311 文献标识码:A 文章编号:
167
4-84
25(2
021)12-0
127-07
Re
sea
rcho
ntheHuMe
tho
dofaPo
pul
arMa
hjo
ngCo
mput
erGa
me
1,2
PENGLi
rong ,ZHAOHa
iu1,GANChuny
l an1,LI
UJi
e1
,CHENJ
unu1
y
(1.Schoo
lofAr t
if
ic
ialInt
el
lig
ence,Chongqi
ngUniver
sit
yofTechno
log
y ,
Chong
qing401135,Ch i
na;2.S ch
oolofArt
if
ici
alI
ntel
li
genceandBigDa t
a,
Chong
qingIns
tit
uteofIndus
tryandTechnol
ogy
,Cho ng
qing401120,China)
Abstr
ac t
:Ma hj
ongg a
mei sat yp
icali
temina nimperfe
ctinfo
r mat
iongame.Co mparedwit
ho t
her
imper
fectinf
ormati
ong amessuchasTexasHold’ema ndbridg
e ,thebigge
stdif
fer
enceisthatthe
pla
yer’sgames equenceisoft
endisr
upt
ed,res
ulti
nging rea
terun ce
rta
int
y,lea
dingtod i
ff
ic
ult
iesin
games t
rat
egyde s
ignands i
tua
ti
one v
alu
ati
on.Theq uanti
tat
iv
et hinki
ngofthebenef
it
so fHuPa iin
thepaperc o
ns t
ruc
tsaqu ickHuPa ime t
hodina cc
ordancewitht herul
esofthepo pul
arma hj
ong
收稿日期:20
21-1
1-0
3
基金项目:国家自然科学基金项目(6 0
443
004)
作者简介:彭丽蓉,女,副教授,主要从事计算机博弈、计算机应用研究,E mai
l:2
801
173
4@q
q.c
om;通讯作者 赵海璐,女,
硕士研究生,主要从事计算机博弈研究,Ema
il:
202
679
089
9@q
q.c
om。
本文引用格式:彭丽蓉,赵海璐,甘春晏,等.一种大众麻将计算机博弈的胡牌方法研究[J
].重庆理工大学学报(自然科学),20
21,35
(1
2):
127-133.
Ci
tat
ionf
ormat
:PENGLi
rong
,ZHAOHa
il
u,GANChuny
an,e
tal
.Re
sea
rcho
ntheHuMe
tho
dofaPo
pul
arMa
hjo
ngCo
mput
erGa
me[J
].J
our
nal
o
fCho
ngqi
ngUni
ver
si
tyo
fTe
chno
log
y(Na
tur
alSc
ienc
e),
2021,
35(12):
127-133.
128
计算机博弈,也被称为机器博弈,一直是人工 体,如微软 20
19年设计的 s
uphx
,但是其模型构建
智能研究中的热门领域,其覆盖面非常广泛,最广 难度大、训练成本高昂、普适性差,不利于推广。
为熟知的是在计算机博弈游戏中的应用,特别是 综上,拟提出一种既具有一定灵活性、又具备
棋牌类的游戏,许多研究者们致力于研发出能够 一定普适性和低训练代价的胡牌距离概念,再基
[1]
像人类一样思考和决策的游戏智能体 。麻将是 于最短胡牌距离数量值,融合牌局中的已知牌张
一种很受欢迎的多人游戏,老少皆宜,且种类与玩 信息和麻将博弈的先验知识,帮助博弈智能体快
法十分丰富。在计算机博弈中,根据博弈中的信 速胡牌,提升麻将智能体博弈水平。
息是否能完全公开,分为完美信息博弈和非完美
信息博弈 2个类型,显然麻将属于非完美信息博 1 麻将规则概述
弈类型。
麻将起源于中国,最初为上流阶层的游戏,在
顾名思义,在完美信息博弈中,对弈信息对对
历史演变过程中逐渐流传于民间,其规则也因而
弈各方是完全公开的、透明的,智能体的构造或策
演变成多种多样。本文以 2020年中国计算机博
略的设计大多可以基于树 搜 索 和 节 点 评 估 的 方
弈锦标赛中大众麻将项目的规则为案例,说明麻
式,通过构建博弈树,设计不同的评估函数或方法
将规则数量化的过程。
来评估博弈树中每个节点,即可能的博弈局面,如
概况:麻将有筒、条、万 3种花色,每种花色含
围棋、西洋跳棋、五子棋等 [2],由此产生了系列经
数字 1~9共 9个牌张,每个牌张共 4张,共 10
8张
典的、高 效 的 搜 索 算 法,比 如 极 大 极 小 搜 索 算
牌。分列如图 1所示的东、南、西、北 4位玩家,玩
法 [3]、a
lpha
be
ta剪枝算法 [4]、UCT算法 [5]等。
家每次出牌动作的时间限制在 3秒内。当有一个
在非完美信息博弈中,不适合于照搬完美信
玩家成功胡牌,则该牌局就结束。
息博弈方法来构造博弈智能体 [6]。比如,非完美
信息博弈游戏麻将博弈中,玩家除能知道已公开
的出牌牌张和自己手上牌张外,其余牌张信息是
不知道的,也就是不透明的,产生大量未知信息,
而且,麻规则中还存在杠、碰、吃等着法,将打乱出
牌顺序而产生随机性,从而增加决策困难。目前,
麻将智能体的博弈策略设计方法主要采用如下 2
种方法:① 基于规则和经验 [7-8];② 采用深度强
图 1 麻将博弈示意图及牌型图例
化学习算法 [9-10]。方法 ① 能够达到一定的牌力,
但缺乏灵活性 [11],并且对设计者的麻将游戏实战 报听:玩家手上的牌张还差一张牌,就可赢牌
能力提出要求,否则,将直接影响智能体的博弈水 时的牌局状态。按照博弈规则要求,在报听后,玩
平。方法②能够构造出较高水平的麻将博弈智能 家的博弈之閠提就进入托管模式,即除胡牌行为
彭丽蓉,等:一种大众麻将计算机博弈的胡牌方法研究 129
图 3 麻将博弈牌张组合图例 图 5 其他牌作为将牌的获胜牌型
彭丽蓉,等:一种大众麻将计算机博弈的胡牌方法研究 131
图 4、
5中带有下划线的数字表示玩家若想要 计算每个可能动作的期望胜率 Eaction。式(5)表示
以这种牌型获胜所需要的牌张,对应下方则为不 其计算公式。
需要的牌张。也就是说,玩家若想要以 3
323
4B的 Eaction =αPDi +βPQi (5)
n
牌型获胜,就必须从当前的手牌中丢弃 5B(条),
PDi =∏ p
(t),t
j j∈ D,j∈ [1,n] (6)
i
等待 3B(条);想要以 3
334
5B的牌型获胜,就必须 =1
j
n
丢弃 2B(条),等待 3B。这样的情况总共有 9种。 PQi =∏ p
(tm),t
m∈ Q,m∈ [1,n] (7)
i
同时,由式(3)可得,图中①②③④ 的获胜路线d= m=1
基于胡牌距离设置的程序 MJ
D,分别与上述
对手进行 10
00局的对弈,根据最终累计的胡牌总
得分来判定胜负关系。实验设计一个 MJ
D分别
和 3个 MJ
1、MJ
2对局,这样可以保证 3个对手的
游戏水平是一致的,能尽可能避免位置不同带来
的影响。表 3和表 4分别为和 MJ
1、MJ
2的对局
结果。
表 3 对局结果
版本 总得分 胡牌次数 平均得分 /
局
MJ
D 20
65 4
28 4.
82
MJ
1 11
59 1
90 6.
10
MJ
1 7
74 1
29 6.
00
图 6 整体流程框图 MJ
1 15
99 2
53 6.
32
当玩家为非出牌状态,即说明此时需要执行
表 4 对局结果
的动作是判断玩家是否进行吃或碰。程序中先假
版本 总得分 胡牌次数 平均得分 /
局
设已经进行吃或碰,将 T的值赋为可吃或可碰的
MJ
D 22
98 5
09 4.
51
那张牌的值,并更新 ha
nd,处理逻辑与玩家处于出 MJ
2 8
95 1
79 5.
00
牌状态时一致,只是 T的值不再为空。最后当 T MJ
2 13
78 2
12 6.
50
与 t相等时,Ac
ti
on的值为 pa
ss,表示玩家不执行 MJ
2 6
50 1
00 6.
50
吃或碰的动作;T与 t不等时,表示玩家执行吃或
碰的动作,并丢弃 t
。 表 1中 MJ
1基于专家经验设置而成,具备一
定的对战 能 力,牌 力 在 普 通 玩 家 之 上,而 表 2中
3 实验结果与分析 MJ
2的牌力,更接近普通人类水平。根据表 3和
根据游戏规则,在有限的游戏局数中,游戏的 表 4的对局结果可得,MJ
D在 1000局对弈中,虽
获胜是由玩家最终累计获得的分数多少决定,而 然每局的平均得分并不是最高的,但是总的胡牌
束,因此,采用维持最少缺牌数的胡牌方法,来实 胡牌距离的胡牌方法舍弃高分牌型,以快速胡牌
现快速胡牌,通过在胡牌次数上的优势,来获得最 为目的,能够在胡牌次数的优势上赢得更多的分
终的游戏胜利。为了验证本文方法的有效性,设 数,从而获取最终游戏胜利。
计了与基于专家经验出牌程序 MJ
1和普通人类玩
4 结论
家 MJ
2的对照实验。使用平台为竞技世界(成都)
网络技术有限公司研发的麻将博弈对战平台,该 提出了麻将博弈胡牌方法,基于胡牌距离构
彭丽蓉,等:一种大众麻将计算机博弈的胡牌方法研究 133
好地决定玩家动作,实现快速胡牌,从而在有限的 o
fTe
leme
dic
ine&Te
lec
are
,20
17,
6(1
3):
47-4
9.
[5] GELLYS,
WANGY.Ex
plo
rat
io
nex
plo
it
at
io
ning
o:UCT
游戏局数中,取得较多次数的游戏胜利。实验显
f
orMo
nte
Ca
rlog
o[C]//
NIPS:Ne
ura
lIn
for
mat
io
nPr
o
示,基于胡牌距离的胡牌方法能够更为准确的决
c
ess
ingS
yst
emsCo
nfe
ren
ceOn
li
net
rad
ingo
fEx
plo
ra
定玩家动作,虽然每局的平均得分不是最高的,但
t
io
nan
dEx
plo
it
at
io
nWo
rks
hop.
200
6.
是在多局游戏中的获胜次数,明显高于基于经验 [6] 贺德富,
涂睿,
苏喜生.
基于属性的计算机兵棋规则模
的方法,最终的累积得分也是最高的。本文方法 型研究[J
].重庆理工大学学报(自然科学),
201
9,3
3
存在的不足是:① 在游戏中,需要收集场上所有已 (6):
165-1
70.
知牌的信息,并据此计算该局面期望胜率,而前期 [7] 高强,
徐心和,
王昊,等.一种基于经验的德州扑克博
场上已知信息较少,胡牌距离较大时,信息集的构 弈系 统 架 构 [J
].智 能 系 统 学 报,2
020,1
5(3):4
68
建会存在不可避免的偏差,导致游戏前期动作决 -4
74.
[1] 唐杰.浅谈人工智能的下一个十年[J
].智能系统学 Do
ubl
eDQN的非完备信息博弈算法[J
].计算机工
报,
202
0,1
5(1):
187-1
92. 2
程,02
1,4
7(3):
304-3
10,
320.
[2] S
CHAEFFERJ
,BURCH N,BJ
?RNS
SON Y,e
tal
. [1
1]LIJ
,KOYAMADAS,
YEQ,
eta
l.S
uph
x:Ma
ste
rin
gMa
h
Ch
eck
ersi
sso
lve
d[J
].S
cie
nce
,20
07,3
17(5
844):1
518 j
ongwi
thd
eepr
ein
for
ceme
ntl
ear
nin
g[J
].2
020.
-1
522. [1
2]任航.
基于知识与树搜索的非完备信息博弈决策的研
[3] PLAATA,S
CHAEFFER J
,PI
JLSW,e
tal
.A mi
nima
x 究与应用[D].
南昌:
南昌大学,
202
0.
a
lgo
rit
hmb
ett
ert
hanS
SS [J
].Ar
ti
fi
ci
alI
nte
ll
ig
enc
e,
1
996,
87(1/
2):
255-2
93. (责任编辑 王 欢)