一种大众麻将计算机博弈的胡牌方法研究

一种大众麻将计算机博弈的胡牌方法研究
彭丽蓉, 赵海璐, 甘春晏, 刘洁, 陈俊宇
引用本文:
彭丽蓉, 赵海璐, 甘春晏, 等. 一种大众麻将计算机博弈的胡牌方法研究[J]. 重庆理工大学学报（自
然科学）, 2021, 35(12): 127-133.
PENG Lirong, ZHAO Hailu, GAN Chunyan, et al. Research on the Hu Method of a Popular Mahjong
Computer Game[J]. Journal of Chongqing University of Technology(Natural Science), 2021, 35(12): 127-
133.
相似文章推荐（请使用火狐或IE浏览器查看文章）
Similar articles recommended (Please use Firefox or IE to view the article)
一种德州扑克牌力评估方法
A Method of Evaluating Texas Hold' Em Poker
重庆理工大学学报（自然科学）. 2021, 35(9): 130-135 https://doi.org/10.3969/j.issn.1674-
8425(z).2021.09.016
二打一智力游戏中残局局面数据标定方法研究
Research on Data Calibration Method of Endgame Situation for Fight the Landlords
8425(z).2021.03.021
一种非遗藏族久棋项目计算机博弈智能体的评估方法
An Evaluation Method for the Computer Game Agent of the Intangible Heritage Tibetan Jiu Chess Item
8425(z).2021.12.015
一种棋类计算机博弈强化学习智能体的决策依据解释方法
An Interpretation Method of Decision Basis for the Reinforcement Learning Agent of Chess Computer
Game
8425(z).2021.12.018
２
０２１年第３
５卷第１
２期
Ｊ
ｏｕｒ
ｎａｌｏ
ｆＣｈ
ｏｎｇ
ｑｉｎ
ｇＵｎ
ｉｖｅ
ｒｓｉ
ｔｙｏ
ｆＴｅ
ｃｈｎ
ｏｌｏ
ｇｙ（Ｎａ
ｔｕｒ
ａｌＳ
ｃｉｅ
ｎｃｅ
）Ｖｏ
ｌ．３
５Ｎｏ
．１２２
０２１
ｄ
ｏｉ：１
０．３
９６９／
ｊ．ｉ
ｓｓｎ．
１６７
４－８
４２５（ｚ
）．２
０２１．
１２．
０１６
●“机器博弈”专栏（主持人：张小川教授）
一种大众麻将计算机博弈的胡牌方法研究
彭丽蓉１，２，赵海璐１，甘春晏１，刘洁１，陈俊宇１
（１．重庆理工大学人工智能系统研究所，重庆４０１１３５；
２．重庆工业职业技术学院人工智能与大数据学院，重庆４０１１２０）
摘要：麻将博弈游戏作为非完美信息博弈中的典型项目，与德州扑克、桥牌等其他非完美
信息博弈游戏相比，最大的不同是玩家游戏顺序时常被打乱而产生较大不确定性，导致博弈策
略设计及局面评估困难。针对大众麻将游戏规则，构造了一种快速胡牌方法。为此，首先分析
麻将的大众规则；其次，基于各种牌型和持有牌点数，提出一种胡牌距离概念，以最短胡牌距离
为标准，作为玩家的决策依据；最后，依据已知公开的出牌和玩家手上牌张信息，融合先验知识
后，进一步计算每种出牌行为的期望胜率，从而获得出牌行为评估值，作为玩家的决策依据。实
验结果表明：利用维持最短胡牌距离为核心的快速胡牌方法，在有限牌对局数下，比如在中国计
算机博弈锦标赛中此局数设定为１００
００局，依据设计的智能体，能取得４６．
８５％以上的牌局胜
利，该值远高于仅仅使用纯粹经验方法的数值。
关键词：计算机博弈；非完美信息博弈；麻将博弈；胡牌方法；胡牌距离
中图分类号：ＴＰ３１１文献标识码：Ａ文章编号：
１６７
４－８４
２５（２
０２１）１２－０
１２７－０７
Ｒｅ
ｓｅａ
ｒｃｈｏ
ｎｔｈｅＨｕＭｅ
ｔｈｏ
ｄｏｆａＰｏ
ｐｕｌ
ａｒＭａ
ｈｊｏ
ｎｇＣｏ
ｍｐｕｔ
ｅｒＧａ
ｍｅ
１，２
ＰＥＮＧＬｉ
ｒｏｎｇ，ＺＨＡＯＨａ
ｉｕ１，ＧＡＮＣｈｕｎｙ
ｌａｎ１，ＬＩ
ＵＪｉ
ｅ１
，ＣＨＥＮＪ
ｕｎｕ１
ｙ
（１．Ｓｃｈｏｏ
ｌｏｆＡｒｔ
ｉｆ
ｉｃ
ｉａｌＩｎｔ
ｅｌ
ｌｉｇ
ｅｎｃｅ，Ｃｈｏｎｇｑｉ
ｎｇＵｎｉｖｅｒ
ｓｉｔ
ｙｏｆＴｅｃｈｎｏ
ｌｏｇ
ｙ，
Ｃｈｏｎｇ
ｑｉｎｇ４０１１３５，Ｃｈｉ
ｎａ；２．Ｓｃｈ
ｏｏｌｏｆＡｒｔ
ｉｆ
ｉｃｉ
ａｌＩ
ｎｔｅｌ
ｌｉ
ｇｅｎｃｅａｎｄＢｉｇＤａｔ
ａ，
Ｃｈｏｎｇ
ｑｉｎｇＩｎｓ
ｔｉｔ
ｕｔｅｏｆＩｎｄｕｓ
ｔｒｙａｎｄＴｅｃｈｎｏｌ
ｏｇｙ
，Ｃｈｏｎｇ
ｑｉｎｇ４０１１２０，Ｃｈｉｎａ）
Ａｂｓｔｒ
ａｃｔ
：Ｍａｈｊ
ｏｎｇｇａ
ｍｅｉｓａｔｙｐ
ｉｃａｌｉ
ｔｅｍｉｎａｎｉｍｐｅｒｆｅ
ｃｔｉｎｆｏ
ｒｍａｔ
ｉｏｎｇａｍｅ．Ｃｏｍｐａｒｅｄｗｉｔ
ｈｏｔ
ｈｅｒ
ｉｍｐｅｒ
ｆｅｃｔｉｎｆ
ｏｒｍａｔｉ
ｏｎｇａｍｅｓｓｕｃｈａｓＴｅｘａｓＨｏｌｄ’ｅｍａｎｄｂｒｉｄｇ
ｅ，ｔｈｅｂｉｇｇｅ
ｓｔｄｉｆ
ｆｅｒ
ｅｎｃｅｉｓｔｈａｔｔｈｅ
ｐｌａ
ｙｅｒ’ｓｇａｍｅｓｅｑｕｅｎｃｅｉｓｏｆｔ
ｅｎｄｉｓｒ
ｕｐｔ
ｅｄ，ｒｅｓ
ｕｌｔｉ
ｎｇｉｎｇｒｅａ
ｔｅｒｕｎｃｅ
ｒｔａ
ｉｎｔ
ｙ，ｌｅａ
ｄｉｎｇｔｏｄｉ
ｆｆ
ｉｃ
ｕｌｔ
ｉｅｓｉｎ
ｇａｍｅｓｔ
ｒａｔ
ｅｇｙｄｅｓ
ｉｇｎａｎｄｓｉ
ｔｕａ
ｔｉ
ｏｎｅｖ
ａｌｕ
ａｔｉ
ｏｎ．Ｔｈｅｑｕａｎｔｉ
ｔａｔ
ｉｖ
ｅｔｈｉｎｋｉ
ｎｇｏｆｔｈｅｂｅｎｅｆ
ｉｔ
ｓｏｆＨｕＰａｉｉｎ
ｔｈｅｐａｐｅｒｃｏ
ｎｓｔ
ｒｕｃ
ｔｓａｑｕｉｃｋＨｕＰａｉｍｅｔ
ｈｏｄｉｎａｃｃ
ｏｒｄａｎｃｅｗｉｔｈｔｈｅｒｕｌ
ｅｓｏｆｔｈｅｐｏｐｕｌ
ａｒｍａｈｊ
ｏｎｇ
收稿日期：２０
２１－１
１－０
３
基金项目：国家自然科学基金项目（６０
４４３
００４）
作者简介：彭丽蓉，女，副教授，主要从事计算机博弈、计算机应用研究，Ｅ ｍａｉ
ｌ：２
８０１
１７３
４＠ｑ
ｑ．ｃ
ｏｍ；通讯作者赵海璐，女，
硕士研究生，主要从事计算机博弈研究，Ｅｍａ
ｉｌ：
２０２
６７９
０８９
９＠ｑ
ｑ．ｃ
ｏｍ。
本文引用格式：彭丽蓉，赵海璐，甘春晏，等．一种大众麻将计算机博弈的胡牌方法研究［Ｊ
］．重庆理工大学学报（自然科学），２０
２１，３５
（１
２）：
１２７－１３３．
Ｃｉ
ｔａｔ
ｉｏｎｆ
ｏｒｍａｔ
：ＰＥＮＧＬｉ
ｒｏｎｇ
，ＺＨＡＯＨａ
ｉｌ
ｕ，ＧＡＮＣｈｕｎｙ
ａｎ，ｅ
ｔａｌ
．Ｒｅ
ｓｅａ
ｒｃｈｏ
ｎｔｈｅＨｕＭｅ
ｔｈｏ
ｄｏｆａＰｏ
ｐｕｌ
ａｒＭａ
ｈｊｏ
ｎｇＣｏ
ｍｐｕｔ
ｅｒＧａ
ｍｅ［Ｊ
］．Ｊ
ｏｕｒ
ｎａｌ
ｏ
ｆＣｈｏ
ｎｇｑｉ
ｎｇＵｎｉ
ｖｅｒ
ｓｉ
ｔｙｏ
ｆＴｅ
ｃｈｎｏ
ｌｏｇ
ｙ（Ｎａ
ｔｕｒ
ａｌＳｃ
ｉｅｎｃ
ｅ），
２０２１，
３５（１２）：
１２７－１３３．
１２８
ｇａｍｅ．Ｔｏｔｈｉｓｅｎｄ，ｔｈｅｐａｐｅｒｆｉ

ｒｓｔａｎａｌｙ
ｚｅｓｔｈｅｐｏｐｕｌａｒｒｕｌｅｓｏｆｍａｈｊｏ
ｎｇ；ｓｅ
ｃｏｎｄｌｙ，ｂａｓｅｄｏｎｖａｒ
ｉｏｕｓ
ｃａｒｄｔｙｐｅｓａｎｄｔｈｅｎｕｍｂｅｒｏｆｃａｒｄｓｈｅ
ｌｄ，ａｃｏｎｃｅｐｔｏｆＨｕｃａｒ
ｄｄｉｓｔ
ａｎｃｅｉｓｐｒｏｐｏｓｅ
ｄ，ａｎｄｔｈｅｓｈｏｒｔ
ｅｓｔ
Ｈｕｃａｒｄｄｉｓｔ
ａｎｃｅｉｓｕｓｅｄａｓｔｈｅｂａｓｉ
ｓｆｏ
ｒｐｌａｙｅｒ
ｓ’ｄｅｃｉ
ｓｉｏ
ｎｍａｋｉｎ
ｇ．Ｆｉｎａｌ
ｌｙ，ｂａｓｅｄｏｎＫｎｏ
ｗｉｎｇｔｈｅ
ｐｕｂｌｉ
ｓｈｅｄｃａｒｄｓａｎｄｔｈｅｃａｒｄｉｎｆｏｒ
ｍａｔ
ｉｏｎｉｎｔｈｅｐｌ
ａｙｅｒ
’ｓｈａｎｄ，ａｎｄｆｕｓｉｎｇｔｈｅｐｒｉｏｒｋｎｏｗｌｅ
ｄｇｅ，ｔｈｅ
ｅｘｐｅｃｔ
ｅｄｗｉｎｎｉｎｇｒａｔ
ｅｏｆｅａｃ
ｈｃａｒｄｂｅｈａｖｉｏｒｉｓｆｕｒｔ
ｈｅｒｃａｌｃ
ｕｌａｔｅ
ｄ，ｓｏａｓｔｏｏｂｔａｉ
ｎｔｈｅｅｖａｌ
ｕａｔ
ｉｏｎｖａｌ
ｕｅ
ｏｆｔｈｅｃａ
ｒｄｂｅｈａｖｉ
ｏｒａｓｔｈｅｐｌ
ａｙｅｒ’ｓｄｅｃ
ｉｓｉ
ｏｎｍａｋｉ
ｎｇｂａｓ
ｉｓ．Ｅｘｐｅｒ
ｉｍｅｎｔｓｓｈｏｗｔｈａ
ｔｕｓｉ
ｎｇｔｈｅｆａｓｔＨｕ
ｃａｒｄｍｅｔ
ｈｏ
ｄｔｈａｔｍａｉｎｔａ
ｉｎｓｔｈｅｓｈｏｒｔ
ｅｓｔＨｕｃａｒｄｄｉｓｔ
ａｎｃ
ｅａｓｔｈｅｃｏｒ
ｅ，ｉｎａｌｉｍｉｔｅ
ｄｎｕｍｂｅｒｏｆｇａ
ｍｅｓ，
ｓｕｃｈａｓｔｈｅＣｈｉｎａＣｏｍｐｕｔｅｒＧａｍｅＣｈａｍｐｉｏｎｓｈｉ
ｐ，ｔｈｅｎｕｍｂｅｒｏｆｇａｍｅｓｓｅｔｔ
ｉｎｇｔｏ１００００，ｔｈｅ
ｉ
ｎｔｅｌｌ
ｉｇｅｎｔｂｏｄｙｄｅｓ
ｉｇｎｅｄａｃｃｏｒ
ｄｉｎｇｔｏｔｈｅｐａ
ｐｅｒｍｅｔ
ｈｏｄｃａｎｏｂｔａｉ
ｎ４６．８５％ｏｒｍｏｒｅｏｆｈａｎｄｗｉｎｓ，
ａｎｄｔｈｉｓｖａ
ｌｕｅｉｓｍｕｃｈｈｉｇｈｅｒｔｈａｎｔｈｅｖａｌ
ｕｅｏｆｐｕ
ｒｅｌｙｅｍｐｉｒｉ
ｃａｌｍｅｔ
ｈｏｄｓ．
Ｋｅｙｗｏｒｄｓ：ｃｏｍｐｕｔｅ
ｒｇａｍｅ；ｉｍｐｅｒ
ｆｅｃ
ｔｉ
ｎｆｏｒｍａｔ
ｉｏ
ｎｇａｍｅ；Ｍａｈｊｏｎｇ；ｈｕｍｅｔ
ｈｏｄ；ｈｕｄｉｓｔ
ａｎｃｅ
计算机博弈，也被称为机器博弈，一直是人工体，如微软２０
１９年设计的ｓ
ｕｐｈｘ
，但是其模型构建
智能研究中的热门领域，其覆盖面非常广泛，最广难度大、训练成本高昂、普适性差，不利于推广。
为熟知的是在计算机博弈游戏中的应用，特别是综上，拟提出一种既具有一定灵活性、又具备
棋牌类的游戏，许多研究者们致力于研发出能够一定普适性和低训练代价的胡牌距离概念，再基
［１］
像人类一样思考和决策的游戏智能体。麻将是于最短胡牌距离数量值，融合牌局中的已知牌张
一种很受欢迎的多人游戏，老少皆宜，且种类与玩信息和麻将博弈的先验知识，帮助博弈智能体快
法十分丰富。在计算机博弈中，根据博弈中的信速胡牌，提升麻将智能体博弈水平。
息是否能完全公开，分为完美信息博弈和非完美
信息博弈２个类型，显然麻将属于非完美信息博１麻将规则概述
弈类型。
麻将起源于中国，最初为上流阶层的游戏，在
顾名思义，在完美信息博弈中，对弈信息对对
历史演变过程中逐渐流传于民间，其规则也因而
弈各方是完全公开的、透明的，智能体的构造或策
演变成多种多样。本文以２０２０年中国计算机博
略的设计大多可以基于树搜索和节点评估的方
弈锦标赛中大众麻将项目的规则为案例，说明麻
式，通过构建博弈树，设计不同的评估函数或方法
将规则数量化的过程。
来评估博弈树中每个节点，即可能的博弈局面，如
概况：麻将有筒、条、万３种花色，每种花色含
围棋、西洋跳棋、五子棋等［２］，由此产生了系列经
数字１～９共９个牌张，每个牌张共４张，共１０
８张
典的、高效的搜索算法，比如极大极小搜索算
牌。分列如图１所示的东、南、西、北４位玩家，玩
法［３］、ａ
ｌｐｈａ
ｂｅ
ｔａ剪枝算法［４］、ＵＣＴ算法［５］等。
家每次出牌动作的时间限制在３秒内。当有一个
在非完美信息博弈中，不适合于照搬完美信
玩家成功胡牌，则该牌局就结束。
息博弈方法来构造博弈智能体［６］。比如，非完美
信息博弈游戏麻将博弈中，玩家除能知道已公开
的出牌牌张和自己手上牌张外，其余牌张信息是
不知道的，也就是不透明的，产生大量未知信息，
而且，麻规则中还存在杠、碰、吃等着法，将打乱出
牌顺序而产生随机性，从而增加决策困难。目前，
麻将智能体的博弈策略设计方法主要采用如下２
种方法：① 基于规则和经验［７－８］；② 采用深度强
图１麻将博弈示意图及牌型图例
化学习算法［９－１０］。方法 ① 能够达到一定的牌力，
但缺乏灵活性［１１］，并且对设计者的麻将游戏实战报听：玩家手上的牌张还差一张牌，就可赢牌
能力提出要求，否则，将直接影响智能体的博弈水时的牌局状态。按照博弈规则要求，在报听后，玩
平。方法②能够构造出较高水平的麻将博弈智能家的博弈之閠提就进入托管模式，即除胡牌行为
彭丽蓉，等：一种大众麻将计算机博弈的胡牌方法研究１２９
外，不能再做任何其他动作，比如换牌、吃牌、碰牌ｂ×ＤＤ（２）

和杠牌等。其中ｂ＝７。
出牌行为顺序：在打牌中，每方玩家起手牌规在表１或式 ⑴ 或式 ⑵ 中，ａ、ｂ均为整数；ＡＡＡ
定是１３张，但指定的“庄家”将打出第一手牌，就表示同花色的任意相同３张牌，称为刻子，如图１
会手持１４张，然后按顺时针方向依次出牌。除正中３张四筒；ＡＢＣ表示同花色的连续顺序的３张
常的出牌外，还有４种特殊的出牌行为，其优先级牌，称之为顺子，如图１中３张一、二、三万；ＤＤ表
顺序为“胡牌＞杠＞碰＞吃”：示同花色的任意２张相同牌张，称之为对子，也称
１）吃牌：吃牌是指玩家拥有两张相邻或相隔为将牌，如图１中２张四条。
一张的牌，当上家打出相邻或是中间的这张牌时，从上可见，牌张分分合合的过程，其实就是一
可以进行吃牌；个牌局逼近胡牌状态的过程，与此同时，尽量追求
２）碰牌：碰牌是指有一对一样的牌，当其他最快时间和最大番值。进一步分析发现，通过计
任何一位玩家打出相同牌的时候，玩家可碰牌；算，可以得到１０
８张麻将牌中每一种胡牌类型的
３）直杠：杠牌的一种，指玩家拥有刻子（３张牌型数目，再将牌型数目值由大到小排列可得“基
一样的牌），当其他任何玩家打出该刻子的第４张本胡＞碰碰胡＞清一色＞七对”，简称为“ｘ＞ｙ＞
牌时，进行开杠即为直杠。ｚ＞ｑ
”，这说明表１中番值大小也是玩家胡牌获胜
４）暗杠：杠牌的一种，当玩家手牌有４张一样概率的大小写照，番值越大，获胜概率也越小，难
牌张时，进行开杠即为暗杠，与直杠的区别的在于度越大，反之亦然。
刻子的第４张牌由玩家自己从牌墙获得。此外，笔者注意到不同地区的麻将博弈规则
５）补杠：玩家碰牌后，再摸到第４张与已碰牌差异较大。比如，大众麻将规则与成都地区的“血
相同的牌，并杠牌，即为补杠。
战到底”麻将规则比较，至少存在２点巨大差异：
６）听牌：玩家的手牌还差一张牌即可胡牌的
一是胡牌花色种类不同，“血战麻将”任何胡牌类
状态，称为听牌状态。玩家可选择是否报听，报听
型，花色限制不超过２种，即必须打缺；而大众麻
后可以获得分数奖励，但是不可再换牌，即摸什么
将从表可见，除表１中ｚ类外，其他３种ｘ
、ｙ、ｑ胡
牌就打什么牌，但在不影响牌的情况下，有杠可以
牌类型，没有花色种类限制；二是游戏结束方式不
选择是否杠。
同，大众麻将只要有某个玩家胡牌，就宣告游戏结
７）胡牌：玩家手上的１４张牌能够组成特定组
束，而“血战麻将”即使某个玩家胡牌，也不意味着
合条件的牌型时，即称为胡牌。此组合条件是不
游戏结束，而是剩余玩家需要继续对弈，直到局面
同地区、不同玩法的麻将，最大的不同所在。
中仅有一名玩家没有胡牌或堂子中牌张清零，游
为了胡牌，玩家需要不断地依据进张组合、拆
戏才宣告结束，这也就是“血战到底”的含义。显
分，再组合、再拆分，目标就是能最快地将手中１４
然，“血战麻将”的博弈智能体构建难度更大，因为
张牌组成特定牌型，这可以用式 ⑴ 量化表示，同时
不断的胡牌玩家将会同时隐藏许多牌张信息，让
在满足式 ⑴ 或式 ⑵ 基础上，尽可能保证赢得表１
后续玩家难以准确判断局面中剩余牌张，这将极
所示的最大番值。
大影响后续玩家的计算、判断和决策，增加博弈
表１牌种及番数难度。
胡牌类型番数花色数对应牌张组合
ｘ－基本胡６番３（４－ａ）×ＡＡＡ＋ａ×ＡＢＣ＋ＤＤ２胡牌方法
ｙ－碰碰胡８番３４×ＡＡＡ＋ＤＤ
２．
１胡牌距离概念
ｚ－清一色１
２番１（４－ａ）×ＡＡＡ＋ａ×ＡＢＣ＋ＤＤ
所谓的胡牌距离ｄ，就是玩家当前手牌与胡牌
ｑ－七对１
２番３７×ＤＤ
状态度量值，即玩家当前手牌到最近胡牌类型所
（４－ａ）×ＡＡＡ＋ａ×ＡＢＣ＋ＤＤ（１）需牌张的数量，本质就是缺牌数量。如图２牌例
其中０≤ａ≤４。中，尽管存在满足式 ⑴ 的３个顺子或刻子，还有２
１３０
个对子，此时，玩家就面临拆４张“二条”为１个刻２．

２手牌信息集
子，寻求１个条、筒花色的新对子，还是保留２张尽管胡牌距离ｄ的大小可以是麻将博弈智能
“二条”为将牌，再寻求３张条或筒花色的１个顺体的胡牌路线的选择依据，左右胡牌路线的方向
子或刻子，此时前１种情况距离胡牌还差２张牌、选择，但是，博弈进程中，随着麻将游戏开始，东南
后１种情况距离胡牌还差３张牌，这样２种选择的西北４个玩家首先逐次摸牌获得起手１３张牌，其
胡牌距离ｄ就分别是２和３。从胡牌距离大小来中庄家多一张最先出牌张，为１
４张，然后是依照
讲，选择ｄ＝２这条胡牌路线更好，这也是引入胡麻将规则摸牌、打牌，从而图１堂子中的牌张将会
牌距离的本意，就是利用可量化的概念，告诉麻将越来越多、玩家手上牌张通常至少有１３张，除非
博弈智能体胡牌路线的选择方向。当然，理论上有“杠”组合牌张存在或胡牌，牌张数会大于１３。
讲，胡牌距离ｄ是介于［０，１２］区间的整数值，当因此，玩家能看见的牌张信息就是堂子中的明牌、
ｄ＝０时，玩家起手就胡牌，这称为天牌，当ｄ＝１
３自己手上的牌和其他玩家各类吃牌、碰牌动作后
时，就是手上１３张牌全是散乱，没有任何顺子、刻的明牌，其余牌张信息是不清楚的，这些就是隐藏
子、对子，理论上需要的胡牌１４张牌，需要更换全牌张。此时，如果单纯依据距离ｄ大小，而不考虑
部手上的１３张牌，这称为烂牌。隐藏牌张信息，就可能造成永远都不能胡牌，因为
需要的胡牌张可能在其他玩家手中，而且是他们
固定下来的组合，无论是有意还是无意，都不会打
出来。比如，某玩家东仅仅只差将牌，手上有１张
“二条”，此时ｄ＝１，但是在另外玩家西手中 “二
条”是１个刻子，此时玩家西不会将“二条”打出，
而且还希望杠“二条”以加番，如果玩家东不能洞
察而等“二条”，显然东家永远不能胡牌，此时最小
图２麻将游戏玩家手牌实例图的ｄ值反而成为累赘。
除此之外，有时候不同的胡牌路线会拥有相
此外，麻将博弈常采用拆分方法、寻找其中隐
同的胡牌距离。比如某玩家当前手牌为２
３３４５Ｂ
藏的不同胡牌路线，而面对诸多胡牌路线，胡牌距
（条），所有可能的获胜牌型共有９种，玩家在逼近
离ｄ就可以是其选择的依据。但是，ｄ值的应用又
胡牌的过程中，对手牌不断进行拆分，根据不同的
不能太僵化，这是因为在逼近胡牌的过程中，玩家
获胜牌型，玩家需要等待和需要丢弃的牌张是不
按照表１需要，不断对手上的牌进行顺、刻、对组
同的，具体情况如图４、
５所示。
合或拆分并同时考虑花色的搭配，这个过程中会
产生一些新的牌张组合，如二连牌、搭子，如图３
所示。这些新组合是逼近顺、刻、对的最佳牌档，
以它们为基础可以建立满足式 ⑶ 的集合Ｑ，称之
为缺牌集：
ｄ＝ｍｉ
ｎ｛｜Ｑｉ｜｜ｉ∈ ［１，ｎ］｝ ⑶
可以把二连牌、搭子等组合，理解为获得顺、
图４对３为将牌的获胜牌型
刻、对组合的最佳中间牌张搭档。
图３麻将博弈牌张组合图例图５其他牌作为将牌的获胜牌型
彭丽蓉，等：一种大众麻将计算机博弈的胡牌方法研究１３１
图４、
５中带有下划线的数字表示玩家若想要计算每个可能动作的期望胜率Ｅａｃｔｉｏｎ。式（５）表示
以这种牌型获胜所需要的牌张，对应下方则为不其计算公式。
需要的牌张。也就是说，玩家若想要以３
３２３
４Ｂ的Ｅａｃｔｉｏｎ＝αＰＤｉ＋βＰＱｉ（５）
ｎ
牌型获胜，就必须从当前的手牌中丢弃５Ｂ（条），
ＰＤｉ＝∏ ｐ
（ｔ），ｔ
ｊｊ∈ Ｄ，ｊ∈ ［１，ｎ］（６）
ｉ
等待３Ｂ（条）；想要以３
３３４
５Ｂ的牌型获胜，就必须＝１
ｊ
ｎ
丢弃２Ｂ（条），等待３Ｂ。这样的情况总共有９种。ＰＱｉ＝∏ ｐ
（ｔｍ），ｔ
ｍ∈ Ｑ，ｍ∈ ［１，ｎ］（７）
ｉ
同时，由式（３）可得，图中①②③④ 的获胜路线ｄ＝ｍ＝１
式（５）中的 α、β分别表示Ｑｉ和Ｄｉ的大小，式（６）

２，而其余５种获胜牌型ｄ＝１，显然 ①②③④ 的获
中的ＰＤｉ表示玩家丢弃弃牌集中元素的概率，式
胜路线并不是玩家的最佳选择。如果仅仅根据ｄ
（７）中的ＰＱｉ表示玩家得到缺牌集中元素的概率。
的值来确定玩家的胡牌路线，那么玩家当前有５
在图４中，Ｑｉ和Ｄｉ的大小均为２，因此 α＝β＝２，
种胡牌路线可以选择，这５种胡牌路线所需的牌
同理，在图５中可得 α＝２，β＝１。通过式（５）（６）
张信息，就构成了信息集Ｉ
，其中需要的牌张组成
（７），可以计算出每个可能执行动作的期望胜率。
缺牌集合Ｑ，不需要的牌张组成弃牌集合Ｄ。Ｉ与
基于游戏规则可知，玩家的动作分为两类：出
Ｑ、Ｄ的关系如式（４）所示。
牌动作和其他动作，而其他动作是指吃、碰、杠。
Ｉ
ｉ＝｛Ｑｉ：Ｄｉ｜ｉ∈ ［１，ｎ］｝（４）
本质上，可以将玩家吃和碰的动作决策与玩家出
若按照图４的拆牌方式，Ｑ１＝｛３Ｂ，
６Ｂ｝，对应
牌动作的决策归为一类。吃、碰的动作与出牌动
Ｄ１＝｛２Ｂ，５Ｂ｝；若按照图５拆牌方式，Ｑ２＝｛２Ｂ，
作有着共同点，其都需得到一张牌，再丢出一张
５Ｂ｝，对应Ｄ２＝｛３Ｂ｝，就这样，不同拆牌方式得到
牌，区别在于出牌动作是系统自动为ＡＩ玩家随机
的Ｑ和Ｄ，共同构建了当前手牌的信息集Ｉ
。
获得一张牌，然后ＡＩ玩家再丢弃一张牌，而吃、碰
本质上，信息集Ｉ中存储的信息，就是玩家当
是“获得”其余玩家丢弃的一张牌，相当于摸进一
前手牌下，所有可能执行的最优动作策略的合集。
张已知牌，然后再进行出牌动作，因此，可将吃、碰
当然，依据胡牌距离ｄ构建的信息集Ｉ
，只是玩家
动作与出牌动作归为一类，看作统一决策情形进
在仅考虑自身手牌下的理想可执行动作，行牌过
行处理［１２］。
程中诸多的隐藏信息，必定会影响玩家最终动作
行为决策总体逻辑是：轮到玩家出牌时，系统
决策。因此，胡牌距离ｄ必须与手牌信息、缺牌信
已自动替玩家执行“摸牌”动作，因此程序输入牌
息进行融合决策，才能实现博弈智能体的胡牌
的张数只可能是２、５、８、１
１、１４张，然后进行出牌
目标。
动作决策；当其他玩家动作时，ＡＩ玩家不断收集场
２．
３行为决策上已知信息，并关注其他玩家丢弃的牌，判断是否
进行吃、碰。ＡＩ玩家整体执行的逻辑流程如图６
根据玩家在当前手牌下计算的胡牌距离以及所示。
构建的信息集Ｉ
，本节的行为决策将介绍在获得手图６中，ｈａ
ｎｄ表示玩家当前手牌，ｓ
ｔａｔ
ｅ表示玩
牌信息集的基础上，针对相同胡牌距离下玩家如家当前状态，ｓ
ｔａｔ
ｅ＝０，表示玩家当前状态是出牌状
何决定出牌动作及是否进行吃碰杠动作，提出一态，若不为零，则表示玩家为非出牌状态，即吃或
种融合场上信息，计算期望胜率的方法，指导玩家碰的状态。ｈａ
ｎｄ′
表示玩家处于非出牌状态下的手
具体动作的决策。牌。Ｔ表示一张牌，初始值为空。ｄ和Ｉ分别为根
在麻将游戏中，玩家所有可执行的动作包括：据玩家当前手牌计算的胡牌距离及构建的信息
吃、碰、杠、出牌、摸牌。在计算机中，摸牌动作不集，ｔ表示最终计算得到的玩家可以丢弃的牌，Ａｃ

需要ＡＩ玩家设计实现，直接由计算机程序控制发ｔ
ｉｏ
ｎ表示玩家最终的动作。
牌，ＡＩ玩家每次自动获得一张新牌，并按序排列。当玩家为出牌状态，ｈａ
ｎｄ的值为玩家当前手
每当轮到玩家执行游戏动作时，首先结合当前场牌，Ｔ的值为空，首先计算ｄ，并构建Ｉ
，然后计算每
上信息，构建手牌信息集，然后根据手牌信息集，个可执行动作（即每张可以丢弃的牌）的期望胜
１３２
率，最后选择出期望胜率最高的动作（即最终丢弃平台中有随机发牌的ＡＩ及判胡处理程序。实验

的牌ｔ
），判断ｔ的值是否与Ｔ的值相等，若不相程序只需按照接口文档，返回规定的数据，即可将
等，则执行该动作。由于在出牌状态下，Ｔ的值始多个不同类型的实验程序接入该平台，进行麻将
终为空，因此Ｔ和ｔ永远都不会相等，Ａｃ
ｔｉ
ｏｎ＝ｔ
，表对战。对手设置如表２所示。
示丢弃的牌为ｔ
。
表２实验对手设置
名称版本注释
ＭＪ
１Ｅｘ
ｐ基于专家经验
ＭＪ
２Ｈｕ
ｍａｎ基于普通玩家经验
基于胡牌距离设置的程序ＭＪ
Ｄ，分别与上述
对手进行１０
００局的对弈，根据最终累计的胡牌总
得分来判定胜负关系。实验设计一个ＭＪ
Ｄ分别
和３个ＭＪ
１、ＭＪ
２对局，这样可以保证３个对手的
游戏水平是一致的，能尽可能避免位置不同带来
的影响。表３和表４分别为和ＭＪ
１、ＭＪ
２的对局
结果。
表３对局结果
版本总得分胡牌次数平均得分／
局
ＭＪ
Ｄ２０
６５４
２８４．
８２
ＭＪ
１１１
５９１
９０６．
１０
ＭＪ
１７
７４１
２９６．
００
图６整体流程框图ＭＪ
１１５
９９２
５３６．
３２
当玩家为非出牌状态，即说明此时需要执行
表４对局结果
的动作是判断玩家是否进行吃或碰。程序中先假
版本总得分胡牌次数平均得分／
局
设已经进行吃或碰，将Ｔ的值赋为可吃或可碰的
ＭＪ
Ｄ２２
９８５
０９４．
５１
那张牌的值，并更新ｈａ
ｎｄ，处理逻辑与玩家处于出ＭＪ
２８
９５１
７９５．
００
牌状态时一致，只是Ｔ的值不再为空。最后当ＴＭＪ
２１３
７８２
１２６．
５０
与ｔ相等时，Ａｃ
ｔｉ
ｏｎ的值为ｐａ
ｓｓ，表示玩家不执行ＭＪ
２６
５０１
００６．
５０
吃或碰的动作；Ｔ与ｔ不等时，表示玩家执行吃或
碰的动作，并丢弃ｔ
。表１中ＭＪ
１基于专家经验设置而成，具备一
定的对战能力，牌力在普通玩家之上，而表２中
３实验结果与分析ＭＪ
２的牌力，更接近普通人类水平。根据表３和
根据游戏规则，在有限的游戏局数中，游戏的表４的对局结果可得，ＭＪ
Ｄ在１０００局对弈中，虽
获胜是由玩家最终累计获得的分数多少决定，而然每局的平均得分并不是最高的，但是总的胡牌
每局游戏，只要有一个玩家胡牌，则本局游戏结次数最多，最终的总得分也是最高的。由此，基于
束，因此，采用维持最少缺牌数的胡牌方法，来实胡牌距离的胡牌方法舍弃高分牌型，以快速胡牌
现快速胡牌，通过在胡牌次数上的优势，来获得最为目的，能够在胡牌次数的优势上赢得更多的分
终的游戏胜利。为了验证本文方法的有效性，设数，从而获取最终游戏胜利。
计了与基于专家经验出牌程序ＭＪ
１和普通人类玩
４结论
家ＭＪ
２的对照实验。使用平台为竞技世界（成都）
网络技术有限公司研发的麻将博弈对战平台，该提出了麻将博弈胡牌方法，基于胡牌距离构
彭丽蓉，等：一种大众麻将计算机博弈的胡牌方法研究１３３
建手牌信息集，融合场上信息，通过维持最少缺牌［４］ＰＬＡＡＴＡ，Ｓ

ＣＨＡＥＦＦＥＲＪ
，ＰＩ
ＪＬＳＷ，ｅ
ｔａｌ
．Ａｍｉ
ｎｉｍａ
ｘ
数，计算相同胡牌距离局面下的期望获胜概率，更ａ
ｌｇｏ
ｒｉｔ
ｈｍｂ
ｅｔｔ
ｅｒｔ
ｈａｎａ
ｌｐｈ
ａｂ
ｅｔ？Ｎｏａ
ａｎｄｙ
ｅｓ［Ｊ
］．Ｊ
ｏｕｒ
ｎａｌ
好地决定玩家动作，实现快速胡牌，从而在有限的ｏ
ｆＴｅ
ｌｅｍｅ
ｄｉｃ
ｉｎｅ＆Ｔｅ
ｌｅｃ
ａｒｅ
，２０
１７，
６（１
３）：
４７－４
９．
［５］ＧＥＬＬＹＳ，
ＷＡＮＧＹ．Ｅｘ
ｐｌｏ
ｒａｔ
ｉｏ
ｎｅｘ
ｐｌｏ
ｉｔ
ａｔ
ｉｏ
ｎｉｎｇ
ｏ：ＵＣＴ
游戏局数中，取得较多次数的游戏胜利。实验显
ｆ
ｏｒＭｏ
ｎｔｅ
Ｃａ
ｒｌｏｇ
ｏ［Ｃ］／／
ＮＩＰＳ：Ｎｅ
ｕｒａ
ｌＩｎ
ｆｏｒ
ｍａｔ
ｉｏ
ｎＰｒ
ｏ
示，基于胡牌距离的胡牌方法能够更为准确的决
ｃ
ｅｓｓ
ｉｎｇＳ
ｙｓｔ
ｅｍｓＣｏ
ｎｆｅ
ｒｅｎ
ｃｅＯｎ
ｌｉ
ｎｅｔ
ｒａｄ
ｉｎｇｏ
ｆＥｘ
ｐｌｏ
ｒａ
定玩家动作，虽然每局的平均得分不是最高的，但
ｔ
ｉｏ
ｎａｎ
ｄＥｘ
ｐｌｏ
ｉｔ
ａｔ
ｉｏ
ｎＷｏ
ｒｋｓ
ｈｏｐ．
２００
６．
是在多局游戏中的获胜次数，明显高于基于经验［６］贺德富，
涂睿，
苏喜生．
基于属性的计算机兵棋规则模
的方法，最终的累积得分也是最高的。本文方法型研究［Ｊ
］．重庆理工大学学报（自然科学），
２０１
９，３
３
存在的不足是：① 在游戏中，需要收集场上所有已（６）：
１６５－１
７０．
知牌的信息，并据此计算该局面期望胜率，而前期［７］高强，
徐心和，
王昊，等．一种基于经验的德州扑克博
场上已知信息较少，胡牌距离较大时，信息集的构弈系统架构［Ｊ
］．智能系统学报，２
０２０，１
５（３）：４
６８
建会存在不可避免的偏差，导致游戏前期动作决－４
７４．
策失误；② 舍弃了高分牌型，丧失了一部分获得高［８］ＭＩ

ＺＵＫＡＭＩＮ，ＴＳ
ＵＲＵＯＫＡＹ．Ｂｕ
ｉｌｄ
ｉｎｇａｃ
ｏｍｐ
ｕｔｅ
ｒ
Ｍａ
ｈｊｏ
ｎｇｐ
ｌａｙ
ｅｒｂ
ａｓｅ
ｄｏｎＭｏ
ｎｔｅＣａ
ｒｌｏｓ
ｉｍｕ
ｌａｔ
ｉｏ
ｎａｎ
ｄｏｐ

分的机会。后续将对游戏前期已知牌信息较少
ｐ
ｏｎｅ
ｎｔｍｏ
ｄｅｌ
ｓ［Ｃ］／／
２０１
５ＩＥＥＥＣｏ
ｎｆｅ
ｒｅｎ
ｃｅｏ
ｎＣｏ
ｍｐｕ
ｔａ
时，信息集的构建进行进一步研究，以减少前期错
ｔ
ｉｏ
ｎａｌＩ
ｎｔｅ
ｌｌ
ｉｇ
ｅｎｃ
ｅａｎ
ｄＧａ
ｍｅｓ（ＣＩ
Ｇ）．Ｉ
ＥＥＥ，２
０１５：２
７５
误动作对后续行为决策的影响，同时，加入高分牌
－２
８３．
型的处理决策。［９］闫天伟．
基于深度学习的不完全信息博弈决策的研究
与应用［Ｄ］．
南昌：
南昌大学，
２０１
９．
参考文献：
［１
０］雷捷维，王嘉 ，任航，等．基于Ｅｘ
ｐｅｃ
ｔｉ
ｍａｘ搜索与
［１］唐杰．浅谈人工智能的下一个十年［Ｊ
］．智能系统学Ｄｏ
ｕｂｌ
ｅＤＱＮ的非完备信息博弈算法［Ｊ
］．计算机工
报，
２０２
０，１
５（１）：
１８７－１
９２．２
程，０２
１，４
７（３）：
３０４－３
１０，
３２０．
［２］Ｓ
，ＢＵＲＣＨＮ，ＢＪ
?ＲＮＳ
ＳＯＮＹ，ｅ
ｔａｌ
．［１
１］ＬＩＪ
，ＫＯＹＡＭＡＤＡＳ，
ＹＥＱ，
ｅｔａ
ｌ．Ｓ
ｕｐｈ
ｘ：Ｍａ
ｓｔｅ
ｒｉｎ
ｇＭａ
ｈ
Ｃｈ
ｅｃｋ
ｅｒｓｉ
ｓｓｏ
ｌｖｅ
ｄ［Ｊ
］．Ｓ
ｃｉｅ
ｎｃｅ
，２０
０７，３
１７（５
８４４）：１
５１８ｊ
ｏｎｇｗｉ
ｔｈｄ
ｅｅｐｒ
ｅｉｎ
ｆｏｒ
ｃｅｍｅ
ｎｔｌ
ｅａｒ
ｎｉｎ
ｇ［Ｊ
］．２
０２０．
－１
５２２．［１
２］任航．
基于知识与树搜索的非完备信息博弈决策的研
［３］ＰＬＡＡＴＡ，Ｓ
，ＰＩ
ＪＬＳＷ，ｅ
ｔａｌ
．Ａｍｉ
ｎｉｍａ
ｘ究与应用［Ｄ］．
南昌：
南昌大学，
２０２
０．
ａ
ｌｇｏ
ｒｉｔ
ｈｍｂ
ｅｔｔ
ｅｒｔ
ｈａｎＳ
ＳＳ ［Ｊ
］．Ａｒ
ｔｉ
ｆｉ
ｃｉ
ａｌＩ
ｎｔｅ
ｌｌ
ｉｇ
ｅｎｃ
ｅ，
１
９９６，
８７（１／
２）：
２５５－２
９３．（责任编辑王欢）

一种大众麻将计算机博弈的胡牌方法研究

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

一种大众麻将计算机博弈的胡牌方法研究

Uploaded by

Copyright:

Available Formats

一种大众麻将计算机博弈的胡牌方法研究

彭丽蓉, 赵海璐, 甘春晏, 刘洁, 陈俊宇

ｇａｍｅ．Ｔｏｔｈｉｓｅｎｄ，ｔｈｅｐａｐｅｒｆｉ

外，不能再做任何其他动作，比如换牌、吃牌、碰牌ｂ×ＤＤ（２）

个对子，此时，玩家就面临拆４张“二条”为１个刻２．

式（５）中的 α、β分别表示Ｑｉ和Ｄｉ的大小，式（６）

率，最后选择出期望胜率最高的动作（即最终丢弃平台中有随机发牌的ＡＩ及判胡处理程序。实验

每局游戏，只要有一个玩家胡牌，则本局游戏结次数最多，最终的总得分也是最高的。由此，基于

建手牌信息集，融合场上信息，通过维持最少缺牌［４］ＰＬＡＡＴＡ，Ｓ

策失误；② 舍弃了高分牌型，丧失了一部分获得高［８］ＭＩ

You might also like

一种大众麻将计算机博弈的胡牌方法研究

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

一种大众麻将计算机博弈的胡牌方法研究

Uploaded by

Copyright:

Available Formats

一种大众麻将计算机博弈的胡牌方法研究

彭丽蓉, 赵海璐, 甘春晏, 刘洁, 陈俊宇

ｇａｍｅ．Ｔｏｔ ｈｉｓｅ ｎｄ，ｔ ｈｅｐ ａｐｅｒｆｉ

外，不能再做任何其他动作，比如换牌、吃牌、碰牌 ｂ×ＤＤ （２）

个对子，此时，玩家就面临拆 ４张“二条”为 １个刻 ２．

式（５）中的 α、β分别表示 Ｑｉ和 Ｄｉ的大小，式（６）

率，最后选择出期望胜率最高的动作（即最终丢弃 平台中有随机发牌的 ＡＩ及判胡处理程序。实验

每局游戏，只 要 有 一 个 玩 家 胡 牌，则 本 局 游 戏 结 次数最多，最终的总得分也是最高的。由此，基于

建手牌信息集，融合场上信息，通过维持最少缺牌 ［４］ ＰＬＡＡＴＡ，Ｓ

策失误；② 舍弃了高分牌型，丧失了一部分获得高 ［８］ ＭＩ

You might also like

ｇａｍｅ．Ｔｏｔｈｉｓｅｎｄ，ｔｈｅｐａｐｅｒｆｉ

外，不能再做任何其他动作，比如换牌、吃牌、碰牌ｂ×ＤＤ（２）

个对子，此时，玩家就面临拆４张“二条”为１个刻２．

式（５）中的 α、β分别表示Ｑｉ和Ｄｉ的大小，式（６）

率，最后选择出期望胜率最高的动作（即最终丢弃平台中有随机发牌的ＡＩ及判胡处理程序。实验

每局游戏，只要有一个玩家胡牌，则本局游戏结次数最多，最终的总得分也是最高的。由此，基于

建手牌信息集，融合场上信息，通过维持最少缺牌［４］ＰＬＡＡＴＡ，Ｓ

策失误；② 舍弃了高分牌型，丧失了一部分获得高［８］ＭＩ