腾讯游戏开发精粹

腾讯游戏学院
TENCENT INSTITUTE OF GAMES

成就戏梦想
讯戏成立于2016年12月，致力于造戏知识分和
业平台，专于推动专业养、戏研究和发展、开发
态建设。过与国校合作推动戏、术研究和各类
事，组织业及开发扶持动，提戏类专业课程等，为
戏创造更可。
讯戏开发精粹
讯戏　
工业出版社
Publishing House of Electronics Industry

北 ·BEIJING
内容简介
《讯戏开发精粹》是讯戏研发技术晶， 10
名讯戏资技术专成，了主戏研发
路上积累沉技术案，具有较强性及性，涵盖
戏本系及开发工具、和、计算机图形、工智与后台
架构等。
未经许可，不得以式制或本书之分或。
版权所有，权必究。
图书在版编目（CIP）数据
讯戏开发精粹/ 讯戏 .—北：工业出版社，
2019.9
ISBN　978-7-121-36602-4
Ⅰ.① …　Ⅱ.① …　Ⅲ.① 戏程序—程序设计— 集　
Ⅳ.①TP317.6-53
中国版本图书 CIP 核字（2019）第096804号
责辑：张春
印刷：
订：
出版发：工业出版社　北市区万路173 箱
：100036
开本：787×980　1/16
印张：18.25
字：419千字
版次：2019年9月第1版
印次：2019年9月第1次印刷
价：79.00
凡所购买工业出版社图书有问，请向购买书店调。
书店售，请与本社发系，系及购话：（ 010 ）
88254888，88258888。
质量投诉请发件至zlts@phei.com.cn，盗版权举报请发
件至dbqq@phei.com.cn。
本书咨询系式：tencentgamesgems@tencent.com。
编委会
顾问：崔晓春　　　　　
主编：叶劲峰
编委：　智　　刘　　匡尼
柏　　杨　　沙　
审校：董　磊　　刘　雅　　毅
推荐序
前不久，一位中师，也是我同同妈妈，主动
问我这几年新开设戏设计和竞技专业是否得报，
对制作戏常有兴趣。听到这个咨询，我了一口气：戏正
逐越来越认可。
我知，戏是“第九术”，是各种术和技术力
集成。记得 10 年前，我参与开发讯第一款研戏《QQ
幻想》，随着项进展，我到，开发出一款质量
MMORPG 戏很强、合技术力。比一技术细：
最度制瞬移挂情下，弱络环下移动
和同步?怎样实现于决策树各种NPC AI，得NPC
为更贴近和有趣? 戏经系平，各种之力
平，还有上百万同线稳性、更新、切 ……
诸此类，当技术景下，是颇为严峻战。
我也知，知识只有分更有价。站巨肩膀上，
看得更远；有了前经加持，也成得更快。《讯戏开发
精粹》这本书汇集了讯戏戏开发中分精华，从客端到
服务器端，从引擎到工具，从图形到AI，各领有证
过决案呈现。讯是一具有度社责感业，愿意
这力和经私奉给，为业发展己一力
量。互相习，一起进步，是我希望。
我还知，戏征之一是互动，桌、房、
……我可以看到各种戏情景开心愉快，已经融我
日常之中。乐是天性，让更，是我每一
个戏从业命。从世到现实，再从现实到
世，技术段来变，未来就了！
腾讯互动娱乐公共发运营体系负责人
编者序
戏开发对于一软件开发来说，总上了一层神秘纱。
这可是个原造成。先，戏开发技术比较广，一
技术计算机图形、模、实络同步等比较应一
软件开发中。其次，戏开发属于创意工业，对各类戏求
有很区别，不技术没有形成标，各技术案、工作程等
也有不差异。最后，公司之至公司之也可有技术垒，
影响知识和技术。这情不利于有兴趣朋友进此业，
从业进步也受，远影响业发展，以对
竞争。
20世纪90年代，互未普及之前，只过BBS
集一国 “漂 ”过来戏开发技术档，《德总
3D》三景渲染及纹贴图技术、标 Mode
X 去 VGA 256 双冲区渲染等。个资讯匮乏年代，每次
到新技术档，兴奋得至宝。
国戏开发 “ ”，概过千禧年代《
戏程精粹（Game Programming Gems）》系列丛书。这丛书影响
了一代开发，让我一窥世各戏开发各种秘技，
决戏开发中到各种同问，同可以发感，研发比
书中更决案。
进互息年代，我上博客、问
答等息，可以更快速知悉各种新技术。同，上息相对于
出版来说，常较为，品质参差不齐。从业也于原
，不随公开一戏开发中到新技术。
本书受《戏程精粹》系列丛书启发，希望鼓励讯戏
工程师与业同分一实际应戏里技术，与业。
过审核及辑等机制，尽量筛选可对公开、品质章，
也证技术具有一性及性。对国业，希望这本
书成为一步，进更开未来，提升技术水平。
本书从提案到出版达一年半，了各位作忙碌
开发务中空，还必须感谢讯戏
力持，也感谢讯戏董磊、刘雅和毅项成功推
进。我也心感谢本书智、刘、匡尼、柏、杨
和沙（名不分先后），是讯戏各个技术专
，悉心为章关。也常感谢工业出版社张春和
葛协助出版事宜。
最后，希望本书对读有所帮助，有意见请不吝过
件反给我：tencentgamesgems@tencent.com，期望篇再
见。
叶劲
《腾讯发》主编
腾讯互动娱乐魔作群
目录
封面
腾讯游戏学院
扉页
版权信息
编委会
推荐序
编者序
第一部分游戏数学
第1章基于SDF的摇杆移动
摘要
1.1 引言
1.2 有号距离场（SDF）
1.3 利用栅格数据预计算SDF
1.4 SDF的碰撞检测与碰撞响应
1.5 避免往返
1.6 利用多边形数据预计算SDF
1.7 其他需求
1.7.1 如何将角色从障碍区域中移出
1.7.2 角色不能越过障碍物的远距离移动
1.8 动态障碍物
1.9 AI寻路
1.10 动态地图
1.11 总结
参考文献
第2章高性能的定点数实现方案
摘要
2.1 引言
2.1.1 浮点数简介
2.1.2 32位浮点数（单精度）表示原理
2.2 基于整数的二进制表示的定点数原理
2.2.1 32位定点数表示原理
2.3 定点数的四则运算
2.3.1 加法与减法
2.3.2 乘法
2.3.3 除法
2.4 定点数开方与超越函数实现方法
2.4.1 多项式拟合
2.4.2 正弦/余弦函数
2.4.3 指数函数
2.4.4 对数函数
2.4.5 开方运算
2.4.6 开方求倒数
2.4.7 为什么不用查表法
2.5 定点数的误差对比与性能测试
2.5.1 超越函数及开方的误差测试
2.5.2 性能测试
2.6 总结
参考文献
第二部分游戏物理
第3章一种高效的弧长参数化路径系统
摘要
3.1 引言
3.2 端点间二次样条的构建
3.3 路径的构建
3.4 曲线的弧长参数化[3]
3.5 曲线上的简单运动
3.5.1 跑动
3.5.2 跳跃
3.5.3 相邻路径的切换
3.5.4 曲线上的旋转插值
3.6 总结
参考文献
第4章船的物理模拟及同步设计
摘要
4.1 浮力系统
4.1.1 浮力
4.1.2 升力
4.1.3 拉力
4.1.4 拍击力
4.1.5 阻力上限
4.2 引擎系统
4.2.1 移动、转向模拟
4.2.2 向心力计算
4.3 Entity-Component及同步概览
4.4 浮力系统物理更新机制
4.5 总结
参考文献
第5章 3D游戏碰撞之体素内存、效率优化
摘要
5.1 背景介绍
5.2 体素生成
5.3 体素内存优化
5.3.1 体素合并的原理
5.3.2 体素合并的算法
5.3.3 地面处理
5.3.4 水的处理
5.3.5 范围控制
5.3.6 内存自管理
5.3.7 体素内存优化算法的效果
5.3.8 体素效率优化
5.4 NavMesh生成
5.4.1 体素生成NavMesh
5.4.2 获取地面高度
5.4.3 后台阻挡图
5.4.4 前台优先级NavMesh
5.4.5 锯齿
5.5 行走、轻功、摄像机碰撞
5.5.1 行走
5.5.2 轻功
5.5.3 摄像机碰撞
参考文献
第三部分计算机图形
第6章移动端体育类写实模型优化
摘要
6.1 引言
6.2 方案设计思路
6.2.1 角色统一与差异元素分析
6.2.2 角色表现=人体+服饰
6.2.3 角色资源整理
6.2.4 资源制作与实现
6.3 具体实现
6.3.1 实现流程
6.3.2 CPU逻辑
6.3.3 GPU渲染
6.4 效果收益、性能分析和结语
6.4.1 方案优劣势
6.4.2 方案补充
6.4.3 应用场景
参考文献
第7章大规模3D模型数据的优化压缩与精细渐进加载
摘要
7.1 引言
7.2 顶点数据优化
7.2.1 顶点数据合并去重
7.2.2 索引数据合并
7.2.3 顶点数据排序
7.2.4 子网格的拆分与合并
7.2.5 顶点数据编码压缩
7.3 有利于渐进加载的数据组织方式
7.4 总结
参考文献
第四部分人工智能及后台架构
第8章游戏AI开发框架组件behaviac和元编程
摘要
8.1 behaviac的工作原理
8.1.1 类型信息
8.1.2 什么是行为树
8.1.3 例子1
8.1.4 执行说明
8.1.5 进阶
8.1.6 例子2
8.1.7 再进阶
8.1.8 总结
8.2 元编程在behaviac中的应用
8.2.1 模板特化
8.2.2 加载中的特例化
8.2.3 运行中的特例化
第9章跳点搜索算法的效率、内存、路径优化方法
摘要
9.1 引言
9.2 JPS算法
9.2.1 算法介绍
9.2.2 A*算法流程
9.2.3 JPS算法流程
9.2.4 JPS算法的“两个定义、三个规则”
9.2.5 算法举例
9.3 JPS算法优化
9.3.1 JPS效率优化算法
9.3.2 JPS内存优化
9.3.3 路径优化
9.4 GPPC比赛解读
9.4.1 GPPC比赛与地图数据集
9.4.2 GPPC的评价体系
9.4.3 GPPC参赛算法及其比较
参考文献
第10章优化MMORPG开发效率及性能的有限多线程模型
摘要
10.1 引言
10.1.1 多进程单线程模型
10.1.2 单进程多线程模型
10.1.3 单进程单线程模型
10.2 有限多线程模型
10.3 使用OpenMP框架快速实现有限多线程模型
10.4 控制多线程逻辑代码
10.5 异步化解决数据安全问题
10.6 对“不安全”访问的防范
10.7 拆解大锁
10.8 其他建议
参考文献
第五部分游戏脚本系统
第11章 Lua翻译工具——C#转Lua
摘要
11.1 设计初衷
11.2 实现原理
11.2.1 参考对比行业内类似的解决方案
11.2.2 翻译原理
11.2.3 翻译流程
11.3 翻译示例
11.4 实现细节
11.4.1 连续赋值
11.4.2 switch
11.4.3 continue
11.4.4 不定参数
11.4.5 条件表达式
11.5 运行性能
11.6 TKLua翻译蓝图
11.6.1 类关系
11.6.2 类成员
11.6.3 方法体
11.7 发展方向
11.8 总结
参考文献
第12章 Unreal Engine 4集成Lua
摘要
12.1 引言
12.2 UE4 元信息
12.2.1 介绍
12.2.2 Lua通过元信息与UE4交互
12.2.3 读写成员变量
12.2.4 函数调用
12.2.5 C++调用Lua
12.2.6 小结
12.3 通过模板元编程生成“胶水”代码
12.3.1 接口设计
12.3.2 实现
12.3.4 引用类型
12.3.5 导出函数
12.3.6 默认实参
12.3.7 默认生成的函数
12.3.8 C++调用Lua
12.3.9 小结
12.4 优化
12.4.1 UObject指针与Table
12.4.2 结构体
12.4.3 运行时热加载
第六部分开发工具
第13章使用FASTBuild助力Unreal Engine 4
摘要
13.1 引言
13.2 UE4分布式工具
13.2.1 Derived Data Cache（DDC）
13.2.2 Swarm
13.2.3 IncrediBuild
13.2.4 FASTBuild
13.3 在Windows系统下搭建FASTBuild工作环境
13.3.1 网络架构
13.3.2 搭建基本环境
13.3.3 可用性验证
13.4 使用FASTBuild分布式编译UE4代码和项目代码
13.4.1 准备工作
13.4.2 部署多机FASTBuild环境
13.4.3 编译UE4代码及对比测试
13.4.4 优化FASTBuild
13.4.5 再次测试分布式编译UE4代码
13.5 “秒”编UE4着色器
13.5.1 准备工作
13.5.2 大规模着色器编译测试
13.5.3 材质编辑器内着色器编译测试
13.6 总结
第14章一种高效的帧同步全过程日志输出方案
摘要
14.1 引言
14.2 帧同步的基础理论
14.2.1 基本原理
14.2.2 系统抽象
14.3 本方案最终解决的问题
14.4 全日志的自动插入
14.4.1 在函数第一行代码之前自动插入日志代码
14.4.2 处理手动插入的日志代码
14.4.3 对每行日志代码进行唯一编码
14.4.4 构建版本
14.4.5 整体工具流程及代码清单
14.4.6 为什么不采用IL注入
14.5 运行时的日志收集
14.5.1 整体业务流程
14.5.2 高效的存储格式
14.5.3 高性能的日志输出
14.5.4 正确选择合适的校验算法
14.6 导出可读性日志信息
14.7 本方案思路的可移植性
14.8 总结
第15章基于解析符号表，使用注入的方式进行Profiler采样的技术
摘要
15.1 进行测量之前的准备工作
15.1.1 注入的简单例子
15.1.2 注入额外的代码
15.1.3 注入的注意事项
15.2 性能的测量
15.2.1 时间的统计方法
15.2.2 针对函数的采样
15.2.3 测量实战
15.3 总结
第一部分游戏数学
第1章基于SDF的摇杆移动[1]
作者：郑贵荣、叶劲
摘要
当前主 MOBA 杆移动，为了有更，杆移动决到碍后
碍问，此提一种于SDF 杆移动决案。
SDF（Signed Distance Field）即有号距离，示空中到形最短距离，一正
示形，负示形。
为SDF 成较为，此计算成。顶 MOBA 戏只二 SDF计算，为
存量，先栅格化图，过到边形（碍）距离离线计算栅格顶有号距离，从
成SDF 。运双线性过样可以得图意有号距离，与碰半径比较判是
否和碍发碰，检过程只查和进乘法计算，杂度为O（1）。
SDF 梯度向代最变化向，此可以梯度算作为边法线，当与碍发碰
后可沿着法线直向，同样可以根梯度向快速迭代来 MOBA 戏中击后“卡” 碍
中问。对于瞬位移（比现）且不穿越碍求，可以投，以有号距离作为
迭代步。对于AI寻路，SDF也可以过索（判有号距离与碰半径）来实现，且可
以碰半径索贴近或远离碍路径，破寻路对称性。
前讲到 SDF是离线成，么对于MOBA 戏中动态碍，可以程序式SDF和
CSG运算来实现。不过，SDF 提同也存着存空、较动态更新（形发变
化）问。
1.1 引言
当前 MOBA 中，移动式杆移动，杆移动先决问是与碍碰
检，以及发碰后走（碰后直止常糟糕）。根图不同，杆移动
碰检式有种。
（1）碰式：直（或）与边形进碰检，后边形边移动。
（2）NavMesh 式：同样（或）与边形碰检，后边形边移动。
（3）栅格式：检是否栅格，或与栅格距离，碰后移动向不确。
这里提一种更为且更为决其移动相关求案，即：于SDF 杆移动。
1.2 有号距离场（SDF）
先简一下有号距离概念。有号距离（Signed Distance Field,SDF）示空中
到形（比碍）最短距离（纯量），一距离负示形，正示形
，图1.1所示。
图1.1 SDF
公式示，先义φ: 对于一个形集S，有
检某 x是否形（碍）之示为：φ（x）≤0，果先知每个有号距离

φ（x），么碰检只一次查即可。
1.3 利用栅格数据预计算SDF
SDF记录是到碍距离，核心思想即空；果动态计算 x 有号距离φ（x），
么杂度跟碰检案没么区别。此，我计算得到张图 SDF ，为不可
存图上所有，根碍精度对图进栅格化，比主 MOBA 戏 5v5 图可以
256 × 256 栅格。
先绍一种于栅格 SDF 计算法。
根景碍成图1.2所示栅格图，示，白示可走区。 Meijster算
法[1]计算栅格中意格（x,y）到栅格区中最近格距离：
从得到一张栅格图 SDF ，图1.3所示。
图1.2 栅格图
图1.3 SDF 越，φ 越
果 2字示每个格 SDF,256 × 256 栅格图存为 256 × 256× 2

=128（KB）。得到栅格图 SDF 后，检（图1.3中）与碍发了碰呢?
发碰后又该移动呢?
1.4 SDF的碰撞检测与碰撞响应
前提到φ（x）≤0 示 x 碍，么碰检只得到 φ ，后与碰半径r比较
即可，φ（x）≤r 示与碍发了碰。于栅格图 SDF 是离存，移动是
连，不一个栅格意位 φ 等同于栅格顶，否则栅格边巨变。此，
移动是连情下，法直查取所位 φ ，图1.4所示心位，根
周边栅格顶 φ 样取。
图1.4 计算心 φ
为距离本身是线性，可以双线性过（Bilinear Filtering）样位 φ ，根

所栅格个顶线性可得到景意 φ ，图1.5所示。
φ（x,y）=（1−x）（1−y）φ（0,0）+x（1−y）φ（1,0）+（1−x）yφ（0,1）+xyφ（1,1）
图1.5 双线性过示意图

此成SDF 碰检，只查和乘法计算，杂度为O（1）。以下为得景意
SD 代码。
当前几乎所有 MOBA 杆移动过程中，碰到碍之后是着碍，不是直

止，为止实很糟糕。么SDF 发碰后碍问呢?
图1.6所示，v 示杆向（原移动向），当与碍发碰后沿着v′ 向，
v′和v 关系是
上式中，n为碰法线，取呢?
图1.6
SDF 为纯量，纯量中某一上梯度（Gradient）向纯量最快向，此可以利

SDF 梯度作为碰法线：同，φ（x）几乎随可导，可以有差分法（Finite Difference）
求出x 梯度：
从得到碰法线n，求出向实现碰后碍。以下为求梯度向代码。
至此，得到当杆向移动实际移动向代码。

1.5 避免往返
SDF 很决碍问，实际中到凹形碍，则出现
碍不往返情。
图1.7所示，实线箭示杆向，线箭示到碍后碍向，果
杆向一直持不变，则 A 向右下，到达B 后又向右上，从导致凹槽
A、B 不往返走不出来。么，当前后向相差于90度止动，重新拨动杆再次移
动。
图1.7 往返
1.6 利用多边形数据预计算SDF
实际中存另一个问是，碍有明显抖动感，期望果是平。
到之前 SDF 成程中，先离栅格化图，后根栅格计算成SDF ，图1.8所
示。
图1.8 抖动
（形）半径r=0.5，碍轨迹呈齿，为SDF 本身就呈明显齿

。期望果图1.9所示。
图1.9 平
此优化SDF 计算。前 SDF计算是栅格顶到栅格距离，区本身是边形

构成，么实际应该是着边形边直线移动，此可到边形距离来计算栅格顶
φ ，边形距离为负，为正，得到图1.10所示 SDF 。
图1.10 根到边形距离计算φ
过双线性过法，可得半径r=0.5 A、B、C三 φ 为0.5，此碍

可以到沿边平移动。
1.7 其他需求
1.7.1 如何将角色从障碍区域中移出
MOBA 戏中有量击、击退等技，击中 “卡” 碍区中，对于这种情
，快速移动到最近合适位。为梯度示最变化向，所以可以梯度快速
查找合适位：
x′= x+∇φ(x)（r avatar−φ(x)）
图1.11所示，n为梯度向，r=0.5为半径，实线位于碍，心φ=−0.1；线位

于合适位，心φ=0.6,0.6= r −（−0.1）。
当碍是凸区一次迭代就找到合适位，是凸区一次迭代可法找到合适位，
MOBA 戏图是凸区，此次迭代，直到φ（x′）≥r 止。以下为迭代计算合适位
代码。
图1.11 查找合适位示意图
1.7.2 角色不能越过障碍物的远距离移动
当进瞬远距离移动，比现，又求不越过碍（越过碍情则上
法），就进连碰检来穿越碍情。建设投（Disk Casting）
进，于SDF 投优势于迭代步进可以当前位 φ ，图1.12所示，这
了迭代次。
以下为投计算位代码。
图1.12 白线为最冲刺距离，线为实际移动距离
1.8 动态障碍物
以上绍建立成SDF 础上， MOBA 戏中技带有果是常常见，
运成动态碍。前提到成张图SDF 计算量，此根动态碍重新成张图
SDF 不现实。决动态碍情，我先来看一下 SDF CSG运算则。
● 集：φA∩B=max（φA,φB）
● 并集：φA∪B=min（φA,φB）
● 集：
么对于动态碍情，可以成态图SDF和动态碍SDF 叠加，即取二

集。同动态碍SDF可以直程序示[2]，比常图1.13所示 SDF和图1.14所示矩形
SDF。
SDF：
φ（x）=‖x −c‖ −r
图1.13 SDF
图1.14 矩形SDF
以下为计算 SDF 代码。

矩形SDF：
以下为计算矩形SDF 代码。
为不可走动态，对于可以走环形则可为对集，图
1.15所示。
图1.15 环形SDF可为对集
对于分技等跨越碍功，过集运算即可实现，常易。
至此，过SDF 运算则很决了动态碍问，程序SDF 计算量比态SDF查
计算量，此不适合具有量动态碍情。果量动态碍分布稀，则可以过空
分割管动态碍，从程序SDF 计算次。
1.9 AI寻路
MOBA 戏兵、野怪、 AI 到寻路，SDF也很这个问。寻路算法可
经典 AStar或 JPS，过索，以SDF 成可走即可。判索位
是否可以走，只判其是否足φ（x）≥r就。
对于可走对象寻路径之后进过程中到动态碍情，果已寻路径中杆移动
式从当前向下一个走，则动碍，须重新寻路。到前提到凹形碍
中走不出来（即前后位变化）情，再进一次寻路即可。
于SDF AStar寻路，还过 φ加代价评中，从常易破对称性，过走对
象半径r实现远离或贴近碍。
1.10 动态地图
计算得到 SDF 图较实现动态更新，为重新计算SDF比较。么实现动态
图求呢?对于殊戏类，戏（Rouge-like）中图，本身就是匀格所组成，
我可以为其输，每一个格看作一个矩形，可以上中提到矩形SDF公式来示单个矩
形。
匀格图上，当一帧走距离不超过单个格，可以过检每一帧与
所格相 8个格碰来实现碍功。图1.16所示，当走之后位于格
4 ，图中最右边代，此我只检格6、0、5与最近距离来进碰
。
图1.16 匀格图上移动
个过程代码下：
SDF 是过读取格图中可过标记来决这个格是否参与计算，此就可以实现动态
匀格图，可以运标记某个格过性。
可以过取距离梯度得到朝向向量，对于简单几图形，可以过几法求出，比形：
对于矩形，设标系原矩形中心，矩形个象是相互，则可此问退化为一个

象求：
刚法是不图中出现图1.17所示碍卡住情。
图1.17 碍卡住情
决此问，只进次迭代求出最终正位即可。当移动步幅较，现等，

进连碰检。与于计算离 SDF 有所不同是，匀格 SDF 是以计
算精度连，此计算法与前稍有不同。
景中其碍，较汽车、其等，则可过矩形、形 SDF 来示，并
果与格图取出 SDF 集操作。
1.11 总结
于SDF 杆移动，利空，以较存来O（1）碰检，且利梯
度实现从碍移动到可走边，不越过碍瞬远距离移动。过SDF CSG运
算则很动态碍问，对AI寻路比较易到破对称性，寻出远离或贴近碍
路径。
当，SDF也有不足，即较实现图动态变更，量动态更新程序SDF，从导致
加了计算量。对于天匀格图戏来说，也可以实现运格可过性，来
实现图动态变更。
参考文献
[1]Meijster,Arnold,Jos BTM Roerdink,and Wim H Hesselink.A General Algorithm for
Computing Distance Transforms in Linear Time.In Mathematical Morphology and Its
Applications to Image and Signal Processing.Springer.331–40,2002.
[2]Quilez,Inigo.Modeling with Distance
Functions,2008.http://iquilezles.org/www/articles/distfunctions/distfunctions.htm.
第2章高性能的定点数实现方案
作者：周轩、如冰
摘要
现代戏程序常来示实，各个软硬件平台并没有严格标 IEEE
754，导致运算果不同平台上以到严格一致，也就是运算果具有不确性。
这对于赖计算确性锁步同步（帧同步）戏有严重影响，为微误差累积，导致不同平台上
模巨分歧。
本章绍，可以证不同平台上计算果一致性，从决了这个问。本章绍了
示原，以及则运算、开、超越等运算实现。运算于运算实现，此
不同软硬件平台上可以实现一致果，适合对确性有求技术案，确性库、
引擎，以及上层戏逻辑。持常运算后，起来就可以一样简单、
。本章还对运算精度、性和原进了比较。本章绍案最本书主叶劲
峰实现，已应于War Song、《战潮》和《线条作战》等戏中。
2.1 引言
2.1.1 浮点数简介
，顾名思义，位是动，跟随最位变动，此绝对精度也是变动。
CPU架构中，运算常 FPU（CPU 协器）来，令集参 IEEE 754实现，是实践中
不一严格这个标。：同一个 CPU 里 FPU和SSE 令得到果不一致，此对确
性有求程序不直来计算。运算是确，本章运算础上，实现了
一种简单且运算案。
2.1.2 32位浮点数（单精度）表示原理
戏开发中，果，则常 32位单精度。 2.1所示为32位
构。
2.1 32位构
公式为
其中，S为符号位，S=0 为正，S=1 为负。E为阶码，示0～255 ，对应2 幂次
−127～128。M 示尾，示为0～8 388 607，对应1.0～1.99999988。
这里，精度是不，有位为7～8位。
2.2 基于整数的二进制表示的定点数原理
二进制示中较低 n位为分，么一个二进制形式示其实就
是这个以2n。设a为，f（a）为这个对应，即 f（a）是一个，a是
所示，么有
对应可以实现为类成员变量。
下为32位实现法。
2.2所示为32位构。
2.2 32位构
原示式为32位， 22.10 格式，即22位有符号，10位。可示精

度为
上为
[−2 21,221−2 10]
实际为
−2097152.0～2097151.990234375
上一讲于32位案最本书主叶劲峰实现，之后导下笔充实
现为于64位版本。为64位有着更精度，所以可以实现更杂超越运算。
下为64位实现法。
2.3所示为64位构。
2.3 64位构
原示式为64位， 32.32 格式，即32位有符号，32位。可示精

度为
上为
[−2 31,231−2 32]
实际为
− 2147483648.0～2147483647.9999999997671693563461
其中，32位选择了10位，64位选择了32位。也可以根实际情，所精
度来确位。
2.3 定点数的四则运算
两个 a,b 则运算，对应分别是 f（a）,f（b），暂不出等问。
这意味着两个和/差，就是这两个对应和/差示。

其中，f（a）f（b）是两个对应乘积，2-n (2 -nf(a)f(b))是这个乘积再以2n得
到所示。
其中，是两个对应商，是这个商再乘以2n得到所示
。乘以、以2n 运算可以过移位操作来实现。

2.3.1 加法与减法
加先对齐阶码（相当对齐），后再相加。是对齐，
我之前讲原，可以直对应加法。
2.3.2 乘法
乘法是过分相乘、阶码相加实现。
对于32位，前所讲原可以实现为
这里右移44.20（64）→32.10（32）存息丢和出可。意这一
。
对于64位，直两个 64位相乘，一个128位示
果。
对于GCC，可以 _int128_t 128位类，直 128位乘法。
对于VC，前还没有128位类，可以 intrinsic function _mull128来计算，并两

个std::int64_t来存果。
第三个参中 64位变量，即可以得出计算果 64位。

可以义简单 128位来存 64位相乘果。：
2.3.3 除法
前所讲原，法运算乘以232，为出引 128位运算。对于GCC可以直
128位法：
对于VC就不了， intrinsic function中没有128位法。是可以汇代码来实现。

C++中明：
这里 a_low 给存器rcx， a_high 给rdx， b 给r8， ret 给r9。

汇代码实现：
意是，出来商不超过64位，否则CPU 报出异常。
审稿阶段，笔发现最新版本 Visual Studio 2019已经提了128位法 intrinsic
function _div128（），与汇版本功一致。
2.4 定点数开方与超越函数实现方法
计算机实现不过有次则运算计算，项式/有式合法、迭代法和查
法。为法性消较，所以这里我主项式合。当，也讨其法优
劣。
2.4.1 多项式拟合
区 [a,b]上可以 n次项式P n（x）近求我求 f（x）。项式P n（x）和
求 f（x）误差绝对也是一个 |Pn（x）−f（x）|。项式P n（x）有种选择，
勒展开式中截取前n+1项：
就是一个。勒展开式误差是
可以看出，x 果离a很远话，误差也很。

本书主叶劲峰提出了下这种法，误差绝对区 [a,b]上有最：
对于给 n，我标就是求出Pn 系，得误差绝对最最：
这里软件Mathematica求合项式系。 Mathematica中次输下命令：
其中，{x,{1,2},4,0} 示区 [1,2]上逼近，分 4次项式、分母0次项式有式进逼

近。得到果为
意思是区 [1,2]上，
ex ≈1.17974+0.380661x+1.32348x 2−0.350357x 3+0.184801x 4
乘以232再取就是为了系示为形式。具其法请参软件帮助档。
再次强调是， MiniMaxApproximation求出项式只是区上近我求
。所以，果求这个区以，么就利性质转成这个区。
2.4.2 正弦/余弦函数
我可以利正弦/ 弦周期性、对称性等，一度x转成区度进计
算：
我可以让k1对8取：
k=k1m od 8
么度终边就 [kπ/4,（k+1）π/4] 。之，我平分成八，确认
度终边哪一。下来思路就是求终边和最近标轴所直线正弦和弦，再
转为我求度正弦和弦。意：这里强调是和标轴所直线，和标
轴，为和标轴一是和标轴正向所成度，和标轴所直线是
于或等于直个度。这里记终边和最近标轴所直线为θ。果k是偶，么
θ=x 1；果k是，么θ=π/4−x 1 。我利合项式求出θ/2 正弦和弦，再利二
公式得到sinθ,cosθ：
后根终边所位，我就可以得到所求三和sinθ,cosθ之关系。比

k1=5，终边 [5π/4,3π/2] ，么就有
cosx = −sinθ
sinx =−cosθ
图2.1所示是与译器带正弦相对误差（这里x 常，所以图中了
对刻度）。
图2.1 与译器带正弦相对误差
2.4.3 指数函数
常迅速，幸我可以输 x 拆分成分和分：
其中，e [x]是e 次，很易求。 {x}属于[0,1]区，这个区可以

项式合。
图2.2所示是与译器带相对误差，这种法求出Exp 误差对比（这
里x 比较，图中了匀刻度）。
图2.2 与译器带相对误差
2.4.4 对数函数
为这里是于二进制示，所以求以2为底对比较，一对也
可以底公式进转：
x可以约化为
么
log2x =n+log2y
为这里是于二进制实现，所以知最位 1 位就可以求出n。下分
可以合项式求。
2.4.5 开方运算
3D运算中，有量求向量度运算，其中到开。开有很法，下所示。
（1）顿迭代法：后一项可以过前一项简单运算得出。对于运算来说，这里有
法，不是想计算式。
（2）开运算：已知 y，我求 x 得x2=y。根之前对运算和
对应运算关系，有：
(f(x))2=2n f(y)
其中，f（x）,f（y）分别是 x,y 对应，我可以先 2nf(y)转为开根
号再取，么 f（x）只取附近一。我选取平后和2nf(y)最近
一项，分情下比较两项即可（上说只是这两项之一，开
根号运算也不是精确）。
（3）开法：可以根之前论述和对应之关系，对其对应
开。开可以参 Jack W.Crenshaw 论 Integer Square Roots [1] ，为一个2 幂
次项式，类于法段，过程类于算开根号（日常算开根号法是于十进
制示），杂度直和位相关。
（4）本章提倡 MinMax 项式合法。
2.4.6 开方求倒数
3D运算中，有量向量单位化运算，其中到开求。以向量V（x,y,z）为：
其归一化（单位化）法是V 乘以向量x,y,z分量平和开。引擎常提一个

InvSqrt（）。还记得卡实现版本吗?先求一个近，后过顿迭代法再计算一次，这样得
到一个相对精确。这里我先 4次项式模找到一个较精确（最误差为0.001%），图
2.3所示。
图2.3 InvSqrt：项式合
后过顿迭代法再计算一次（相对误差到0.00001%以），图2.4所示。

图2.4 InvSqrt：项式合+ 顿迭代一次
2.4.7 为什么不用查表法
意是，查法，中是，最其代码中，或过加载，不
过初运算再转得来。只有没有较项式合法选择查法。查
法优是实现简单，有两个：
（1）常赖示，一旦对示格式出微调，中所有更新。
（2）进集运算，查法对速存利；对于其常情，则易到存
命中败情。
2.5 定点数的误差对比与性能测试
2.5.1 超越函数及开方的误差测试
以double（双精度）运算作为试，对比float（单精度）和fixedpoint（32.32）
计算误差，其中试对比有标库 std::sqrt、std::pow、std::log、std::exp、std::sin
和std::asin，两误差列于 2.4中。
2.4 超越及开误差比较
fixedpoint（32.32）示实，对比 double（双精度）标库实现，平误

差于万分之一。
2.5.2 性能测试
我两个平台上试（单精度）与（32.32）性，每个试量度运算1 000 000
次总。试硬件 2.5所示。性果列于 2.6中。
2.5 试硬件
2.6 性果（运算计，单位为ms）

其中，法两差距，其同一个量级，分情下， add、sin，
运算还快一。
2.6 总结
本章从最础计算机示和运算开，绍了一种于运算案，并和单精度
计算性和精度进了比较。过原 64位运算，最度利了CPU 运算
力，此比较。其性跟硬件实现（单精度）近（本 1 以）。本章绍
案常适合于确性（决性）、绝对精度不变应合。
参考文献
[1]Crenshaw,Jack W..Integer Square
Roots,1998.https://www.embedded.com/electronics-blogs/programmer-s-
toolbox/4219659/Integer-Square-Roots.
[1]本章相关已请技术专利。
第二部分游戏物理
第3章一种高效的弧长参数化路径系统
作者：
摘要
2015年某跑类戏中想实现一创意法，一个路径系，移动路径引导，并
且路径上有简单运动（走、跑、跳和碰反）。当了一系列Unity与路径相关件，
不足求。别是弧参化性，即令曲线参 t 与曲线度L为线性关系，从
参 t 线性变化映到度线性变化上，实现曲线上匀线速度运动，这一是实现路径上运
动础[1]。个别件实现了类功，是其原为暴力线性，根设精度曲线拆成
线段组成查找，序列化和存量，对存和包量并不友。
该路径系主程下：
（1）最二乘法，项式合路径曲线度反，利合反实现弧参
化，这样只存项式系，运对项式求即可，须存一个巨查找和进
查操作，可以直求。
（2）根实际求，没有常见三次项式曲线，是构造了一条二次项式样条曲线，
是简化各种曲线求计算，同持C1连。
（3）弧参化础上，普运动计算映到曲线上，以曲线局切空标架为实
现了曲线上简单运动，曲线上也有可运动现。
3.1 引言
2015年参与某跑类戏中，策划不足于普、平直跑动景，想试一有趣
、弯曲跑动景，轨、过山车跑等。对于当跑类戏，跑动实际是沿着一条
一直线路径移动，跳跃等直向移动也是以这个路径为，水平向左右移动可以看
作是路径切，么想到曲线路径代替直线路径来引导跑动，并简单运动转
到曲线路径上。
合戏求，对这样一个曲线路径系有下求：
（1）路径布简单，最直观就是布路。
（2）具有局性，一个路只影响上、下。
（3）曲线至具有C1连性，足本光求。
（4）两个路曲线可以是异曲线，等同于可以控制路曲线向。
（5）与曲线相关计算尽量简单，尽量进迭代计算。
求（1）意味着曲线过每一个控制，所以了 Bezier 曲线。求（2）则了Natural
曲线这类影响局曲线，剩下可选曲线有Catmull-Rom[2]。求（5）中，希望曲线计算
尽量简单，别是度计算和与平求计算，这两类计算和各种逻辑操作相关，曲线形式简单也
让一迭代计算量变。所以最终并没有三次曲线，是选择两个控制之成二次样条，
两条二次曲线程确，并不工辑。另，路径辑过程中，模 Catmull-Rom
引了Cardinal类曲线构造式以操作。
3.2 端点间二次样条的构建
两个路之成曲线，并且求两个路可以控制位和朝向（切线向），单一
一段二次曲线到度不问。这里构造了下两条二次曲线来决这个问（见图
3.1）。
给起 P0、起切线T0、终 P1和终切线T1，有二次曲线 f1（t）和f2（t），令其足下条
件：
f1（0）=P0
f1′（0）=T0
f2（1）P1
f2′（1）=T1
图3.1 二次样条曲线示意图
对于 f1（1）和f2（0），设有一动 Pm，该曲线足：

f1（1）=f2（0）
f1′（1）=f2′（0）
从可以得到两条曲线系程组：
该程组为
则有
可以看到，最终动 Pm不出现程中，为隐含，对是透明。为了分段曲线当作一

段曲线，还两段曲线参 t归一化到一 [0,1] 。令fs（t）为参 t归一化后
分段二次曲线，有 f（0） s=P0,f（1） s=P1 。这里每段曲线占曲线比来归一化曲线参
。设L1、L2分别为曲线和度，则有
类，也可以得到曲线度程L s（t），曲线度程l1（t）和l2（t）示归一化

程：
为此计算曲线 f1（t）和f2（t）曲线段和度。对于二次曲线，曲线线积分
有析（分积分）：
其中：
这系可以离线计算（态路径），或运初化曲线计算（动态构建路径）。

该公式较为杂，是于曲线归一化过程中。果进一步成了曲线弧参化，
更为简单线性度计算。
3.3 路径的构建
路径为路曲线，路两段曲线可以相同切线以证C1连，也可以设
成切线，来切了向直线路径等。路径系只负责和提路息，并没有
制曲线类，所以路径系本身是持种类曲线。
路径上每个路可以设己向（切线），，每一个工，也比较
琐，所以切线设上模了 Catmull-Rom 这类 Cardinal 曲线法，即路 i 切线路
i−1和路 i+1 位 Pi 1和P i+1决：
τ为切线（张弛），图3.2所示，这样分情下，只路径两个端

路切线，中路只调端位来影响路切线向，调来影响曲线弯曲程
度。
图3.2 Cardinal曲线切线设
实现上，路径上路路息构建曲线，总是路转到己局标

系下，即路 Pi Pi+1构建曲线中，Pi 于标（0,0,0）且转为（0,0,0）。所以，路
径，每一段曲线计算果还一次局标系到世标系转。这样是路径作为一
个不受刚变影响，别适合戏中景动态求。
3.4 曲线的弧长参数化[3]
有了路径，还路径上匀速运动，其运动可以匀速运动变化和合得到。从朴素
求度出发，我希望曲线参 t与曲线度L为线性关系：
L（t）=Lt,t∈[0,1]
此，我可以过参 t 匀速变化得到曲线上匀速移动。显易见，这个关系只有直线
成立。
对于于一次项式曲线，这里下式。
设 f（t）为连曲线，其度为L；另设参 u，建立和曲线度线性关
系：
即参 u 达曲线度计算；设一个参 u到参 t 变 t（u），且足t（0）=0,t（1）

=1。变带曲线参程中，可以得到一个新曲线参程：
g（u）= f（t（u））
于g（u）度为，此变下对应度应有
从变 t（u）为
为得到变 t（u），求出L（t）反 t=L-1(l)。

于L-1(l)没有析，这里最二乘法进合求近。
（1） [0,1]区进等曲线度划分，得到n条等曲线段，对应参
区为。
（2）对每一条曲线段，样m个L（t）该区，得到集
，其中 , 。
（3）以度为变量，最二乘法合足样项
式程，得到L-1(l) 区近 i i+1。
（4）剩区重步 2和步 3，求出L-1(l) 所有区近，则为组
成分段。
步 1划分等曲线度区是消查找分段历操作。当三次项
式作为合，其系可以 Vector4 存，则分段可以存为Vector4 组
Vector4[n] 。对于给度l，等曲线度划分下，其对应分段系索引为
Clamp（（int）（（l/L）*n）,0,n−1）。果是其形式不足等曲线度划分，则
记录每个划分度，历Vector4[n]找到l对应分段系。
步 1 等曲线度区划分，于此未求出，只迭代法寻找等划分。这
里 Newton-Raphson法[4]来求程：
其迭代形式为
其中，A、B、C 参见“端二次样条构建”。L（t）为严格单调，适合 Newton-

Raphson法。可以同样划分量下同序号等参作为迭代初 t i（0）以加速。
构造计算量分析下：
（1）寻找等曲线度划分，默认最迭代次为10，实际计算过程中到不了这个次就
。n个划分求 n−1个划分，总迭代次 ≤10（n−1）。
（2）对每条曲线段进 m次L（t）样，两个已经计算端，总 L（t）调次为
n（m−2）。
（3）最二乘法合分，设 Kp 为合项式阶，则构造程系矩阵杂度为
，斯消法求分杂度为。
（4）计算不受刚变影响，不对刚变重新计算。
项中，n=20,m=11,Kp =3，连两个路曲线 80个示。果运动态构
建曲线，为计算量过造成卡顿，可以分帧计算法计算量分摊到帧。意到每段路径之
没有相互赖，只路息，也可以线程并计算。另，根项情也可以适当低分
段和样。
示 t（u）带原曲线程中，得到新归一化曲线程：
其对应度计算为
对于弧参化后曲线程gs（u），其求计算比原曲线程 fs（t）一次项式

求计算（具，三次项式合，了3次加法、5次乘法、1次法），是对应度计
算幅简化，只 1次乘法。
弧参化后曲线程gs（u）与原曲线程fs（t）等参取对比图3.3所示。
图3.3 弧参化后曲线与原曲线等参对比
图中上为原曲线，下为弧参化后曲线，重参化后，等参对应曲线上等距。
3.5 曲线上的简单运动
对于曲线上意 P，该法平上一个向量作为法向量，后合该切向量过
向量积得到副法向量，此可以建立一个局标系。这里法向量 N 为 up向量，代直轴
向；副法向量B为right向量，代左右轴向；切向量T为forward向量，代前后轴向。
曲线引导运动，这里义为不“ 离”曲线运动，即运动必须有对应曲线上线速
度vs。先该线速度计算出曲线上向前（或向后，速度符号）经过 t后移动到达新 P及
其局标系（T,B,N），后以此作为运动位新，并且证运动后位位于 P
法平上，所以意刻运动位总是曲线上某法平上，即曲线 “ ”。我意到，
这种运动计算式只关心当前曲线上及其局标系，以及经过 t 后曲线上及其局
标系，和局标系是否曲线得来并不重，所以实现模可以和具曲线
耦，以及其局标系作为模输。
具实上，这里只讨论实际戏中实现跑动和跳跃（）两种运动。这两种运动中，曲
线还有作，止不下；局标系 up向量负向为重力向。
3.5.1 跑动
曲线上跑动悬空（）问，以及碰到碍问。
悬空主有两种情，一种是到较向下，一种是走出撑沿，二可以一
式。
设当前和局标系为（），经过 t 后新和局标系为（
），当前对象位为Loci，相对于新差为
当到较向下或出曲线撑上移动，有H ＞0，此先试对象移动到
PH：
后从该位沿着−Ni+1 向 FH 试是否存碰可以作为撑：果存

撑，，则沿着−Ni+1 向移动到和撑位，，则直移动到曲线上
Pi+1；果不存撑，，则从跑动态转为态，束本帧，，则
移动到曲线上 P i+1。对于H≤0 情，曲线为平直或上，可以直对象移动到 Pi+1。
移动对象过程中，可碰上带有碰碍。根位移向量和碰法线关系以及
位可以分为两类：一类是法沿着移动或过碍，导致当前运动发截，
位上，止对象位移；另一类是可以沿着动或过碍，这种情法
对象移动到期位，是可以持移动到法平上。一商业引擎对这样情有
， Unity3D CharacterController。
3.5.2 跳跃
跳跃态发来跑动态转（）和（主动跳跃）。
一合下跳跃分成水平和直两个向分别，曲线上跳跃也相同，其中水平速
度分量终为曲线上线速度，是一种曲线上投影速度恒法，与对象实际经过位移过程关。所
以，同运动且具有相同水平速度两个对象，论实际运动路径，总是相同法平
上。
同跑动，设当前和局标系为（），经过 t 后新和局标系为（
），当前对象位为Loci。 Loci和Ni可以构建一个平：
该平和直线
N（t）=Ni+1t+Pi+1
记为PNN ，显 PNN Pi+1 法平上。这里对象移动到PNN，位移向量
和Pi 切平平，可以看作是原水平运动向 Ti 引导曲线变了向， Ni发了转，

其向新 Pi+1 N轴。
对于直向，根重力加速度更新速度标量：
新 Pi+1 −Ni+1向量作为重力向计算直向位移向量：
最终位为
下过程中果到可以作为撑碰，则转为跑动态。其碰式类于跑

动。
3.5.3 相邻路径的切换
跑类戏有切跑操作。得于计算与具曲线耦，路径切也可以对计算透
明。
设当前路径曲线为g1（u），切标路径曲线为g2（u），发切路径，设当前 g1（u）上
为（），其法平为
计算该法平与曲线 g2 （ u ） Pg2 ，该对应曲线参为，局标系为（

）。该为g1（u） Pg1 g2（u）上等位，此路径切到g2（u），且从等位
ug2开替 g1（u）上移动计算。路径切不瞬成，一个对象从路径g1（u）移动
到路径g2（u）过程。为此，（）变到g2（u）上局标系下，这里设其
变后为（），对象移动到路径 g2 （u）之前，（）和
（ O,X,Y,Z ）（ O 为局标系原（ 0,0,0 ） ,X,Y,Z 为局标系三个标轴（ 1,0,0 ） ,
（0,1,0）,（0,0,1））果转到世标系，作为当前及关局标系输给
模。（）变到g2（u）上局标系下，是路径切一旦开，就只
与标路径相关，路径变化不影响切过程，，路径切过程中两条路径走向了不同
向。图3.4展示了路径切过程，其中线为实际移动路径，（）和
（O,X,Y,Z）来；橙线示转到g2（u）局标系后发路径切 g1（u）（
）。
图3.4 路径切轨迹
3.5.4 曲线上的旋转插值
每一个路有位和转属性。转可以分出三个标轴，所以计算所赖局
标系（T,B,N）可以过分转得，转过对两个路转得。
根不同求，还可以选择得到转是否对齐到曲线切线。转对比图3.5所示。
图3.5 转对比
对于二次曲线构成路径，意相机转最不和曲线切线相关（对齐到

曲线上），是立计算相机运动。于二次曲线只有C1连，相机朝向和曲线切线向关令
朝向变化眼可觉硬感。
3.6 总结
本章实现了一种简单、路径系，其优下：
● 计算简单，运性，弧参化后也只加了量计算。
● 持路径上进线性位，相关计算量，并且适当造也可以合性运
构建。
● 曲线参路局标系构建，持动态。
● 实现了路径引导简单运动，且计算过程与具曲线类耦。
该路径系并不追求强一致性和连性，适当弃一连性条件可以实现不同类曲线。我
项中只了二次曲线，是其框架也同样适于三次曲线。
参考文献
[1]Cook,John D.Unit Speed Curve
Parameterization,2018.https://www.johndcook.com/blog/2018/07/15/unit-speed-curve/.
[2]Parametric Curves and Splines; Cubic Splines:Hermite,Cardinal,Catmull-
Rom.http://web.eecs.umich.edu/ ～ sugih/courses/eecs487/syllabus.html; University of
Michigan.
[3]Length and Natural
Parametrization.https://en.wikipedia.org/wiki/Differential_geometry_of_curves#Length_
[4]Newton's Method.https://en.wikipedia.org/wiki/Newton%27s_method; wikipedia.
第4章船的物理模拟及同步设计[1]
作者：周茗
摘要
只模戏中比较常见，论是帆、汽还是，模上可以简化成动力、力和水
力叠加。果是匀速平上，则可以进一步忽水力。近计算这
力，从引擎模下有逼真现，是一个。
最常见法是底离化成干样，分别样水度，后积分水度，得到力。这
种法忽了水中其力存，得到果不真实。另一种法是利力公式，计算水中
受力。这种法则过于杂，不适合应于对实性求，比戏。本章从一个新
，水中受到力分成与水积相关力、与速度相关升力、与水积变化相关
力，顾了与真实度，常适合戏中。
本章算法《法则》中，适应各种天气水，也充分发各种类只。
本章第一绍了力系，包水后受到力、移动中升力以及水两种力：
力和击力；第二绍了引擎系，包模只动力和向心力；第三绍了前两
应到实际工程中，包类设计思路以及为么这样设计；第绍了怎样更新力，得
戏中第一（本）和第三（本）有、合现；最后一则对本章
进了总。
4.1 浮力系统
本章所讲力是过经典米德原计算得到，计算身力到水积，此计
算杂度是正比于身几顶个。实际应中，推顶个于25个，这样可以不
同几征，又计算上尽可。另，于身是动态刚（Dynamic Rigidbody），
分引擎求是凸边形（Convex）。这两个前提得于模身刚形不精
确，我法是另一个动力动态刚（Kinematic Rigidbody）击碰，专于精确
击检，并且每帧根身刚位动态更新。
图4.1分别展示了两种刚。图4.1（a）和图4.1（b）是于计算力动态刚，一称
为“移动碰 ”，顾名思义，是来参与引擎动态模刚，单个凸组成。可以看
出，不同有着不同形动态刚。是动态刚重心，重心常并不是几中心，这符合真实
世设。
图4.1（c）和图4.1（d）是来击检动力动态刚，一称为“ 击碰 ”，个
形组成。这形可以是（凸或凸），图中身分；础碰形（、
、囊），图中栏杆分。于不参与引擎模，跟随“移动碰 ”移动，此对
性影响很低。
图4.1 刚示
4.1.1 浮力
根米德原，力（Buoyancy）可以水积计算得到：
其中，ρ代水度，g 是重力加速度，V 代水积。力向是竖直，作位水

积中心。当水上止，其受到重力和力相同，向相反。于水积中心并不
总是和质心位相同，所以力力矩。力力矩计算下：
其中，Fb代力，来上一个公式，r 是质心到水积中心向量。戏实际计算中，我

发现力计算力矩很不稳，别是有情下。此，实际计算，我展为下
公式：
同，为了更调试力感，我提了力力矩参 ParamTb，最终力计算公式为

这里 R是转矩阵，转矩阵是正，计算中直其转矩阵代替求逆，以计算
模空力力矩。
有了力计算础公式，下一步决问就是计算水积V以及积中心。Randy
Gaul 博客[1]中提出了一种计算水积法，本章其础上稍加进。
先绍是求积公式。取一个参 P，得每一个三和 P连成一
个。图4.2所示，每个积可以下公式算出来：
当u,v,w三个向量逆列， P 三 ABC 正，V是于0 ；反之， P 三 ABC

反，V是于0 。此，计算所有和 P形成积之和，就得到积了。
下绍是求几中心公式。
图4.2 力计算示
以积作为权重，可以得到个几中心。个积和几中心计算公式下：

有了积和几中心求公式，下一个决问是水积。还是先从三出发，一
个三只可于三种态中一种：水、出水、分水。
下来分别分析三种情。
情一，三水：是A,B,C三个低于水度，三可以和 P形成为
水积。是意， P必须水上。
情二，三出水：是A,B,C三个于水度，丢弃该三。
情三，三分水，这又分成两种可：两个水或一个水。
● 两个水，图4.3所示。根和水，ABC 分成了3个三形：X符合情二，丢弃；
Y、Z符合情一，计算水积。
● 一个水，图4.4所示。根和水，ABC 分成了3个三形：X符合情一，计算
水积；Y、Z符合情二，丢弃。
图4.3 三两个水情
图4.4 三一个水情
此，水积求为两个问。
● 求一个积，上已经了绍。
● 已知三形顶 A,B,C，求与水问。法简单，此不述了。
对于意一个凸，我可以根三和水度关系得到所有水三列，下来是
合设参 P，以计算水积。
我中水上投影作为P ，这种法意以下问。
● 简化了水模：设从边到中心水连线是一条直线。果法受这种精
度丢，则可以从三向水投影出一个上下不平棱柱，计算积。图4.5所示，DFE
平是水平，棱柱上下平并不平。
图4.5 杂水下水积计算
● 计算出 V可以于积或为负。
4.1.2 升力
设计底，让水其周形成环，这个最终形成升力（Lift）。当移动
，身分成两段：一段贴近身动，称为上（Upstream）；一段上层，远离
身动，称为下（Downstream）。于水是有度，下更底层水，移动更慢。这
样就尾形成一个，上则充这个，从形成环。这个环底板上形成升力。
我升力简化为两分：
第一分是Wilson [2]提出，升力公式为
其中，ρ是度，C 是升力系，和形以及朝向有关，S 是浸没水中积，

v是离很远水相对速度。实际运中，我水是没有速，v是速。S正比于
水积，我水度乘以一个来示。
第二分和水度平成正比，这么让水中开起来以后迅速得足升力。
合第一分和第二分，升力最终公式为
公式中 ParamL1和ParamL2分别对应了第一项和第二项中常量项，可以。l是水和
尾水之距离，可以计算水积，所有水三标转到模空，计
算得出。公式义了升力，升力朝向是竖直向上。
升力同样有力矩。我计算力矩，力义为模空沿着负舷向单位向量。
戏中，+z是模前，么可以得到：
公式中 ParamT1 是升力力矩系，R是转矩阵，massCenter是质心。
4.1.3 拉力
水中运动受到水力（Drag），根力中经典力程：
中受到力为 F,ρ是度，C 是力系，S 是参积，一义为运动向

上正投影积，v是速度。和计算升力一样，我水速为0,v等于速。S 正比
于。
水力还和水积变化有关，当水积加，出更水；当水积，
有水。上公式是根每帧水情算出力，下公式则是根两帧变化算
出力，之是相互充。
公式中Vtotal是积，m是重量，v是速度，Vinc和Vdec分别代加积和

积，Param inc和Param dec则分别是两个开系。计算加和积，不是总水
积计算，是每个三形成分别计算。
本绍两个公式合起来，就得到最终力公式，力向和速度向相反：
其中，Paramd是本第一个公式中常量项，即 ;Vimmerse是水积。

力同样有力矩，力力矩是相对于速度，义为
这里 ParamT d是一个与有关常量。
4.1.4 拍击力
有了以上几种力，水中运动已经常近真实世了。是从空中水中没有明显
速，此我加了击力（Slam）。与加/ 积类，计算每个三对应水积
，还跟踪新积。
了新积，还计算新积三朝向。以新积作为权重，求和各个三
法线，得到新积法向量。我计算击力，投影带法向量速度分量。为水
是作，每当一个从空中进水里，受到力一是直该。比于
尾水了，是于该和速度向于90°，并不力；反之，水
了，则应该平于法向量、正比于速度力。
公式中 Params 是调击力影响常量。Vnew 是对每个三形成分别计算再
求和。只有当水积从0变成 0 算作Vnew，否则算作Vinc。
4.1.5 阻力上限
力和击力属于力，只让速度和速度，却不反向，所以力控制一
。
设，我证：
● 对向量每个分量足。之所以对每个分量分别检，是为Fr 朝向和v 朝
向是不同。这里 m是质量。
● 两模相等。之所以只模相等，是为Tr 是正比于w 。这里 I
是惯性张量，戏中一为一个三向量。R和前中义相同，是转矩阵。

图4.6所示是台下受力示意图。 A和Fb分别代力作和力，向是竖直
向上； B和F1（常）分别代升力作和，向也是竖直向上；Fd代水力，Fs
代击力，这两个力合称力，向与4.1.3 和4.1.4 中绍相同。于发刚从空中
水，所以升力较，击力常。果平水上移动，击力则常。
图4.6 台下受力示意图
4.2 引擎系统
只引擎系主决移动和转向模，并且提了向心力。先我判引擎是否水
下，以决移动/转向是否响应。移动、转向、向心力计算最终是以力和力矩形式加刚上
。绍具算法前，先绍一下到符号及其含义，详见 4.1。
4.1 符号及其含义
4.2.1 移动、转向模拟
当有输且引擎水下，可以移动和转向。移动算法模功和档位，这不是本章重
，此不进述。移动是以力形式加刚上，设已经算出功 P,P为负代退，为正
代前进，我可以得到移动力：。转向求出转向力矩，设已经算出转向力
矩 T,T 为负代朝左转，为正代朝右转，我可以得到转向力矩：。

当没有输或引擎水上，于水中受到水力速。果发现速果不，就
调 4.1 中绍水中力参了。
4.2.2 向心力计算
只转弯，身向转弯向。为了有操控感，我并没有加向心力，只是以力矩形
式加刚上。计算向心力第一步是求出模空下速度v local和速度wlocal ，可以直
速度和速度与转矩阵转矩阵相乘得到。向心力计算公式为
Paramc是一个控制向心力常量，和质量成正比。这里 vlocal.fwd和wlocal.up分别是 v
local向量中代前分量和w local 向量中代上分量，为一个。比 Unity中，y是up

向，z是forward 向，则上公式变为
这里力是半，此向心力力矩为
4.3 Entity-Component及同步概览
本绍力系和引擎系是集成，还对第三同步组件进简单说明。本并不是实
践 ECS 系，中 Component 并不是纯。类于 Unity,Entity 持有一组Component，并且
每帧 tick 这 Component 。力系（ BuoyancyComponent ）、引擎系
（EngineComponent）和第三同步组件（SyncComponent）是一个Component，可以挂 Entity
上。
图4.7所示，同步系中，控制单位叫第一，其控制单位叫第三。第一
EngineComponent 和 BuoyancyComponent ，第三 SyncComponent 和
BuoyancyComponent。
带有动态刚第三同步中，论是 dead-reckoning 还是影跟随，先逻辑层算每
帧应该位，后再设属性，当模束后，正确位。
图4.7 第一和第三 Component示
第三位同步法有三种。
（1）设位：这种法造成瞬移，并且模上不逼真。不推这种法。
（2）设速度：过计算位移差求出速度，引擎进模前应到动态刚上。这种
法比较顺，适合绝情。有为位差造成第三其刚卡住，此就设
位。
（3）设力：这种法加了一层性，控制度加。
这里 SyncComponent 是第二种法，每次引擎进模前更新第三速
度。另，让不同客端水度一样，别是有波情下，是常，常我许客
端水度不一致，这两个客端只运力模，以适应不同水度。
这就出现问了：第三同步组件每帧更新刚速度，力组件则每帧更新刚受到
力，就造成位不一致。，第三刚本来应该以速度 v 移动到位 X，是力组件速度
向上加了力、力和升力，从系算出速度和v有差，最终导致模束
位不是X。
4.4 浮力系统物理更新机制
本绍一种力系更新机制，可以决第三同步速度设问。正之前提到
，第三过设速度来移动，此第三力系也应该设刚速度，并且只盖分速
度分量，顾同步精确和水中真实感。力系根是否是第一选择最终计算果是力还是速度。
4.1 绍力，算出来是力和力矩，我不变所有计算公式情下实现这种机制。
图4.8展示了Component 更新过程。第一过引擎组件（EngineComponent）计算出动
力，过力组件（BuoyancyComponent）计算出力，这力引擎进模之前一
加刚组件（PhyComponent）上；第三过同步组件（SyncComponent）计算出下一帧同步速
度，过力组件（BuoyancyComponent）计算出力推算出下一帧力速度，这两个速度糅合
后，引擎进模之前设刚组件（PhyComponent）上。
图4.8 Component 更新过程
更新机制核心是BuoyancyUpdate类，有以下三个口。

（1）AddForce：累计力到变量linearMomentumChange中。
（2）AddTorque：累计力矩到angularMomentumChange中。
（3）Apply：根模，计算速度/力，并加动态刚上。
linearMomentumChange和angularMomentumChange对应了力和力矩累计，为矢量，每帧
空，力计算成后所有累计力和力矩一设给系。
● 果是第一，则直累计力和力矩输出。这样是合刚本身尼，现
更。同和EngineComponent以力式输出移动力、转向力矩和向心力力矩持一致。
● 果是第三，则利公式FΔt=mΔv更新速度vnew：
公式中 m代质量。
类，更新速度wnew：
其中，R代转矩阵，I是惯性张量。
为了让第三有合现，我 BuoyancyUpdate 分盖同步速度。先，为了贴
合水度，了，也就是了速度中代上分量；其次，为了贴合水上波动感觉，
了和，速度中 up分量对应了戏里 yaw，应该持同步。
我近水计算力，从低了CPU开销。
4.5 总结
本章绍了一种只模算法，可以模意凸水中受力，又根第一和第三提
令意现。
过水中力分成与水积正相关力、与水/出水积相关击力、与速度相关
力、简化力升力，以及简单引擎系，当只水中可以提加速度和转向功，同根
是否转向加了向心力。我只水中受力计算力组件中，操控和向心力计算
组件中，过组件，可以让意实有力。
对于第三同步问，我分本模果，盖分；第一又最真实
，我根是否是第一力计算果算成力或速度，合同步组件算出第三速度，最
终加于系，得到合果。
参考文献
[1]Randy Gaul.Buoyancy,Rigid Bodies and Water Surface[EB/OL].[2014-02-
14].http://www.randygaul.net/2014/02/14/buoyancyrigid-bodies-and-water-surface/.
[2]Wilson Ryan M.The physics of sailing[J].JILA and Department of
Physics,Colorado.University of Colorado,Boulder,2010:1998-2010.
第5章 3D游戏碰撞之体素内存、效率优化[2]
作者：
摘要
本章绍3D 戏素存、优化，适于前端、后台。素是3D空最示单位，为了
述，直向干素合并后仍称为素。素戏中可于走、、机等
碰检，素也为存过，以普及。前3D 戏碰检普法是 Bounding
Volume Hierarchy（层次包），这种于Tree 检索并不是太，尤其是对后台压力很。
本章致力于素存、性优化。存上，过素合并、省下度、水不成素、控
制素成、存管等式优化，优化后18个景，平为800m×800m，素总为
124MB，最景占 15MB，最景占 1MB，平占 6.9MB，客端每个景中只加载当前
景素，所以客端运于素带来存加最为15MB；后台加载所有景素，所以
后台于素存加124MB。上，为管存，查找某个位所有素，杂度为
O（1）；再过计算每个素可到居哪个素，从当前素移动到居素，杂度近于
O（1）。素系下，本章讲有关取度、后台图、前台优先级NavMesh、齿平、
走、轻功、机碰等功实现法。
5.1 背景介绍
MMORPG 戏已经本进 3D 代，3D 戏法不上，还包空中、战等。前
3D 戏有三种法：
（1）素，讯最先《天涯明月》项组提出[1]。
（2）边形格，是查找较低，后台性压力。
（3）分层，是以上很划分层线，且杂建筑层太，存太。
素是3D空最示单位，类比于2D空素，图5.1所示为汽车素模，图5.2所示
为景原图，图5.3所示为原图素化后模（树叶不成素）。
图5.1 汽车素模
图5.2 景原图
本章绍3D 戏素存、优化，适于前端、后台。2014年《天涯明月》项组曾分

了素存、性优化，为素存占之，很项望却步。过本章绍优化，18
个景平为800m×800m，素总为124MB，最景占 15MB，最景占 1MB，平占
6.9MB，客端每个景中只加载当前景素，所以客端运于素带来存加最
为15MB；后台加载所有景素，所以后台于素存加124MB。过管存，查找
杂度低为O（1）。后绍存优化、优化所景为 800m、 800m、 400m。
图5.3 原图素化后模
5.2 体素生成
素成受开项 Recast Navigation[2] 启发，该项 Mesh经过素化、区成、轮廓
成、边形格成、度细成等步成NavMesh，此 Recast Navigation对Mesh 素化
代码出来即可成素。
5.3 体素内存优化
5.3.1 体素合并的原理
每个素是一个，示有实占了该（比后图5.6所示为石素模，
该素模成，每个上、下为正形，、为0.5m）。
设（x,y）有两个素，第一个素上、下度分别为4m和3m；第二个素上、下
度分别为10m和5m。第一个素上和第二个素下之空为1m，身为
1.8m，该空法过，此这两个素可以合并成一个素，上、下度分别为10m和3m。
果第二个素下度为6m，第一个素上和第二个素下之空为2m，可以
过，此不合并。过这种式可以景素从44MB 到36MB。
景中，很模是闭，为 Mesh 只盖，成素是空心。图5.4所
示石，该石是闭，成素是空心，图5.5所示。石上、下两个
素示，这两个素可以合并成一个，为法进石。过连区索，可以标记出石
和不连，不连区上、下素可以合并，合并后素模图5.6所示。过这种
式可以素从36MB 到31MB。
图5.4 景中石
图5.5 合并前素模
图5.6 合并后素模
这里就对术有求：所有进不去空，成闭。图5.7箭所示，建筑座

下是不可进去，座和是连，图5.8所示，这样座成素也是空心
，造成存费。
图5.7 建筑座
图5.8 建筑空心座
5.3.2 体素合并的算法
先选择一个种，后过种向前、后、左、右，法到空，即为不连，
合并上、下素。实现层，直观想法是构造一个三矩阵，后三矩阵里度优先
索（度优先一栈出）。这里素精度是、分别为 0.5m ，三矩阵为
1600×1600×4000，存占10GB，度索一次 20min 成。本章提出一种索法， 1s 成
索。
先，构建原素反素，原素示实占空，反素则示没有实占空。
spans记录景素集合，antiSpans则记录景反素集合。spans[x+y*w]为一个，该
存（x,y）所有素。height为个景最度，果spans[x+y*w]为空，示（x,y）
没有素，则该位以上没有实，此（x,y）反素只有一个，上、下度分别为height、
0。lastmax记录（x,y）上一个历素上度，果下一个历素下度smin
和lastmax之差于度，则可以（x,y）加一个反素，上、下度分别为smin、
lastmax；否则，须加反素，为没有实占空度于度，法过。果
历到最后一个素，景最度height和lastmax 差于度，则（x,y）加一个
反素，上、下度分别为height、lastmax。
其次，标记连区。 antiSpans中度优先索，先列中一个可走区上反
素，从该反素开标记个景连反素。取出顶反素frontSpan，从前、后、左、右个
向历居，找出frontSpan和居反素s 集（min,max），果max和min之差于度，则
示可以从frontSpan到达s， s flag标记为1，示连，并 s压列中，直到列为空，则标
记所有连区。
最后， antiSpans 中删所有 flag 为 0 连反素，并根 antiSpans 重新构建
spans。过这种式，合并素算法存低为10MB左右， 1s以。
5.3.3 地面处理
个景中素最，不可到以下，此素下度省，一认为
0，素存从31MB 到21MB。这里设景第一层素即为（并不确，后中有详细说
明）。景中某建筑边沿下没有，此，认为建筑边沿下度为0，也法到建
筑边沿下。此，建筑边沿下，景最低可达度之下1m位，加一个片，该片成素。
景中不显示该片，该片成素没有下度。建筑边沿为不是第一层素，此有下
度，同又为该片最低可达度以下，此也法到达该片。图5.9所示，建筑下有
一分是悬空，下也没有，此该分成素省下度，一认为下度为0，
素图5.10所示。建筑下素住，建筑下石也法过去，加片式，新
成素图5.11所示。建筑下没有，素成正常。
图5.9 1
图5.10 2
图5.11 3
5.3.4 水的处理
戏中，个别景有水，果水成素，则标记该素为水，每个素就带一个标记。
，只有个别景有水，果为所有景素加一个标记，并不合。所以，这里对水并不成
素，水度单记录。最直观法是开二矩阵，每个（x,y）记录水度，果景没有
水，则不开该二矩阵。这种式，造成存极费，为绝分区没有水。此，
对水分存式，每一为100×100，再开一个二组，组每个素为，
果该区有水，则向100×100二组；否则，该为空。查找（172,567）水
度，则先检查二组（1,5）是否为空，果为空，则水；果不为空，则代有
水，二组（1,5）向 100×100二组里查找（72,67）度。查找
杂度仍为O（1），存空却了。
5.3.5 范围控制
很景很，实际动区并没有么。图5.12所示，箭 1所框为
景，箭 2所框为许实际动区。为法到框以，此框以须
成素。框制了图边，图前、后、左、右、上边是框边，下边比框边
2m，为框边以下不成素。为了止出现建筑悬空、建筑以下情，框
边以上1m 位加片，该片成素。为了止到片上，图下边比片，
此图下边比框边 2m。果框边以下形杂，为框边以下不成素，则也可
省一分存。
图5.12 控制
5.3.6 内存自管理
前存中存素有三种案。
（1）存，以上分存，类于水存式。为以上素较，分存
可省掉分没有素区。，该案仍有相当存费，先，向每个；
其次，每个也有相当区没有素。
（2）叉树：该案不给没有素区开空，查找杂度为O（logn），且
到。
（3）每个（x,y） new出来一个组，组存（x,y）所有素息。 new出来
1600×1600个组，所占空为1600×1600×4byte，果 Unity、C# 64位机器上占
8byte，则所占空为20MB。另，此 new操作，必带来量存碎片，且查找居素
导致cache miss，为（x,y）和（x,y）居向空存上并不连。
以上三种案或或存和性上有问。
本章管素存组织式：一组spanArr记录所有素息，spanArr 每个素为
short类，为素度以0.1m为粒度，果short 为64，则代度为6.4m；一组 indexArr
记录（x,y）素 spanArr 中位。景中所有素度顺序 spanArr中，（x,y）
第一个素只上度，第一个素上、下度。查找（x,y）所有素，
先 indexArr 中查找（ x,y ）素 spanArr 中起位 start 和个 count,start 即为
indexArr （x,y）素，count 即为 indexArr （x,y+1）素去（x,y）素
加1 以2。为（x,y）第一个素省下度，所以果（x,y）有两个素，第一个素
上、下度分别为4、3，第二个素上、下度分别为10、7，则 spanArr （x,y）记录
三个素4、7、10。此，素为（3+1）/2，即为2。下来，根 start和count spanArr中找
出（x,y）所有素。这种存式，就是上中案3 管，了量 new操作
和空不连，以及cache miss。
果项中景不杂，则可以下述优化式。（x,y）和（x,y+1）、（x+1,y）、
（x+1,y+1）有k个素，且k个素上、下度相同，则 spanArr中存（x,y）第一
个素， short上加个标记，示其三个居素和（x,y）相同，且（x,y+1）、（x+1,y）、
（x+1,y+1）三个居素不 spanArr。这样查找（x+1,y）素，先查找（x,y）第一
个素标记，果标记为真，则示（x+1,y）素和（x,y）相同，直从spanArr取
（x,y）素即可；果标记为，再从 indexArr 中查找（x+1,y）素 spanArr 中位
和量，后 spanArr中取（x+1,y）素。景不杂情下，存显。
5.3.7 体素内存优化算法的效果
素存优化算法果 5.1所示。优化占存44MB，素合并后存为31MB，不记录
下度存为21MB，控制后存为13MB，存管后存为8MB。
5.1 素存优化算法果
5.3.8 体素效率优化
过上中绍存管，查找（x,y）所有素，杂度是 O（1）。设（x,y）
有两个素，第一个素上、下度分别为4、0，第二个素上、下度分别为10、7;
（x,y+1）有三个素，其上、下度分别为1、0,6、5和10、9。设站（x,y）第二个
素上，度为10m，往（x,y+1）向走，历（x,y+1）三个素，查找可以走到
素。该中，可以到（x,y+1）第三个素上，为该素上度也为10m。，
景建筑杂情下，这种历（x,y+1）所有素式消，客端只有己
素走，其走是过转发过来路，此对客端影响不，是后台对所有
校，历式消太。
为（x,y）和其居形相差不，所以，果站（x,y）第二个素上，么走
到（x,y+1）也很可走到第二个素上，或第一个、第三个素上。每个素上再加一个
short，存 8个向走到哪个素上，每个向两个bit。，当前素为（x,y）第k个
素， short 前两个 bit 为 00 ，则代可以走到（ x,y+1 ）第k个素上；为 01 代可以走到
（x,y+1）第k+1个素上；为10代可以走到（x,y+1）第k−1个素上；为11代（x,y+1）
k−1、k、k+1三个素不可走，历（x,y+1）所有素。经计，两个 bit 为11
情不到5%，此只有极情历居所有素，素之走杂度近为
O（1），提升近10 ，每个景平素 6.9MB 到9.1MB。
5.4 NavMesh生成
5.4.1 体素生成NavMesh
NavMesh（导格）是3D 戏中于实现动寻路一种技术，戏中杂构组织关系简
化为带有一息格，这格础上过一系列计算来实现动寻路。NavMesh是 Mesh经过
素化、区成、轮廓成、边形格成、度细成等步成，后导格上过A*
或D*等算法成连边形列，并从列中找出最优路径。
这里客端寻路 NavMesh，后台寻路 Jump Point Search。为客端只有己寻
路，性没有压力，是路径必须，不贴边走，分级NavMesh可以路中标记为优先级，
路边标记为低优先级，这样寻出来路径可以贴边问。后台对量NPC寻路，所以后台
寻路重快，Jump Point Search寻路速度是NavMesh 几十，足性求。 Jump Point
Search路径存贴边问，是NPC绝种开带，所以NPC 路径很有贴边情，此
后台 Jump Point Search寻路。
成素提取上 Mesh，提给Unity并成NavMesh。为了成精细 NavMesh，这里为
NavMesh 成素精度为 0.15m×0.15m×0.1m ，碰到存及，素精度为
0.5m×0.5m×0.1m。
5.4.2 获取地面高度
个景素化，仍度。，策划为了位， NPC出位只
水平标，度默认为度。一种取度式是取 NavMesh 度， NavMesh
度不精，比栏杆边附近。图5.13所示，左、右两为不同优先级NavMesh，箭所即为
NavMesh 该位度。素第一层也不作为度，图5.14所示，箭 1 向是板，
第一层素是箭 3所位。这里法是，先成素提取上 Mesh，提给Unity并
成NavMesh，后给一个，素上进，为所有过NavMesh 走到素加上标
记，最后删掉法走到素，剩下素即为素，这素度即为度。
图5.13 取度1
图5.14 取度2
5.4.3 后台阻挡图
后台图标记哪区可走，从对客端位进校。后台寻路算法Jump Point
Search也是图上进。客端有NavMesh 是可走区，为了和客端持一致，后台根
客端NavMesh 成图，客端 NavMesh有层，后台图只有一层，此成
图，客端 NavMesh 过。过上所述法取素，素上 Mesh
重新成NavMesh，重新成 NavMesh即为可走区，没有NavMesh 即为不可走区。
5.4.4 前台优先级NavMesh
前台 NavMesh 给寻出来路径果贴边，则对不，此对NavMesh分优先
级。路边 NavMesh优先级低，边费代价；路中 NavMesh优先级，边费代价低，此寻
出来路径优先路中 NavMesh。图5.15所示，区为优先级NavMesh，区为低
优先级NavMesh。Unity 持对NavMesh分优先级，只提 Mesh标记优先级即可。
先根图，过Meijster算法计算SDF（Signed Distance Field）,SDF 示当前位
半径没有。过上所述法取素，历素，果当前位 SDF 于某个
，则该位素上 Mesh标记为低优先级；否则，该位素上 Mesh标记为优先级。
后素标记了优先级 Mesh提给Unity 成优先级NavMesh。
图5.15 优先级NavMesh
5.4.5 锯齿
贴着边走，易与边发碰，是碰不卡住，沿着边切线向平移
动。图5.16所示，区为，欲从A到C， D 卡住，此 D 变向，沿边
切线向移动到B。取切线一过Mesh计算， Mesh占空，此这里 NavMesh计算切线。
图5.16 碰模
素上 Mesh 成 NavMesh 图5.17所示，为素上 Mesh有齿，此成

NavMesh也有齿。果含有量齿 NavMesh计算切线，并对移动平，果并不。
此，这里素 Mesh下再一层原景 Mesh，原景Mesh 标记为低优先级。为原景Mesh
度比素Mesh 度低，此有素Mesh 不根原景 Mesh 成 NavMesh，只有边
带，没有素 Mesh，根原景Mesh 成NavMesh。最终成 NavMesh 图5.18所示，区
2、区 3 NavMesh仍素Mesh 成，区 1 NavMesh 原景Mesh 成，并且NavMesh是平
，可以根其切线对移动平。为了加速计算，边区素上标记，只有边区对
平。
图5.17 带齿 NavMesh
图5.18 消齿 NavMesh
5.5 行走、轻功、摄像机碰撞
5.5.1 行走
这里走素上进，每个心跳里，根移动向和算出新水平位，并对新位
进碰检。
走碰情有4种：
（1）居素太，超过向上走最度，不可走。
（2）居素太低，超过向下走最低度，以某个速度直下。
（3）走到居素碰，根前绍，素合并证该情不发。
（4）可走，直走过去。，这种情下，为素齿性，导致走并不平。
图5.19所示为房顶，其成素图5.20所示。可以看出，房顶上走同走台阶一，
此平。
图5.19 房顶
图5.20 房顶成素
5.5.2 轻功
轻功有水平向和直向两条运动曲线。每个心跳两条运动曲线上样，算出新位，
后对新位进碰检。碰有6种情：
（1）向上进素，上房顶，以某个速度直下。
（2）水平进素，中，弃水平位移，只取直位移。
（3）向下进素，，轻功束。
（4）水，水中素，转泳态。
（5）碰，直到新位。
（6）超出图边，果是向前、后、左、右、上超出图边，则以某个速度直下；
果是向下超出图边，则，位是轻功中以某个较记录直向下找到
可。
5.5.3 摄像机碰撞
机是为了可见区，当移动，机也移动并检碰，当检到碰
移动到合适位。前普法是当移动，机根线度等计算位，后从
到机出一条线，机线和素第一个上。，和机距离一
5m以上，每帧 5m 距离检线和素比较。此，这里只机进素，以及
机旧位和新位之有，机线和素第一个上。检机是否
素里很快，机是平移动，机旧位和新位一帧很近，所以检查机旧位
和新位之是否有素也很快。这一步是止和机一直两边，导致看不到
。
这里 Bresenham算法计算线和素。Bresenham是来描绘两所决直线算
法，算出一条线段 n 光栅上最近。这个算法只到较为快速加法，常于绘制
中直线，是计算机图形中最先发展出来算法。
算法：设startPos为线起；endPos为线终；dirInfo 示 x、y、z 向走1m，线走
米；maxLength 示startPos和endPos 距离；tMax 示到立格下一个x、y、z边，
从线起位走远。果tMax.x比tMax.y、tMax.z ，则示沿着线走，先碰到立
x边；果tMax.x 于maxLength，则示startPos和endPos之没有素，算法束。果当前位
素里，则示startPos和endPos有。已知startPos、沿着线走距离tMax.x和向，此
可以计算出碰位；否则，示未到endPos且未到素，tMax.x 加dirInfo.x。后重新找出
tMax.x、tMax.y、tMax.z中最，决最先到立 x、y、z哪条边。
图5.21所示为Bresenham算法二示意图。startPos为（0.5,0）,endPos为（4,2），找到
startPos 到 endPos 到，即为黑格（3,2）。dirInfo 为（1.1517,2.0155）,tMax 为
（ 0.5758,2.0155 ）。第一轮， tMax.x < tMax.y ，当前格为（ 1,0 ），未到， tMax 为
（ 1.7275,2.0155 ）；第二轮， tMax.x < tMax.y ，当前格为（ 2,0 ），未到， tMax 为
（2.8792,2.0155）；第三轮，tMax.x>tMax.y，当前格为（2,1），到，直返位：
（0.5,0）+ 2.0155×（0.8683,0.4962），即（2.25,1），其中（0.8683,0.4962）为startPos到
endPos 向向量。
图5.21 Bresenham算法二示意图
参考文献
[1] 《天涯明月》服务器端 3D 引擎设计与开发 . 讯戏，
2015.http://gad.qq.com/article/detail/10014.
[2]Recast & Detour.https://github.com/recastnavigation/recastnavigation.
第三部分计算机图形
第6章移动端体育类写实模型优化[1]
作者：冯、吴
摘要
本章案一干模、不同模以及一和动作，合 GPU 中顶位移，
实现了几百实模和几千动作求。先，该案一标身模和，达几千
动作可以；其次，合服贴图和肤贴图，盖了绝分干现；第三，对不同
不同模、贴图和个性化肤贴图（身）与干进组合，达到现上差
异化；第，根不同征对标进变化以及GPU中顶位移，实现了干
分不同矮胖瘦差异化。另，过一不同款式服模替原标干模和贴图，
模 /贴图合并，实现了不同服求。
该案适于移动端戏，可以运最低是卓机（操作系 Android 4.4，存2GB,CPU
4/8核1.5GHz）、苹果机iPhone 5S（iOS 9.0及以上，存1GB，器A7+M7）。该案制和
主于前移动端硬件，合量了移动端运算性、存、量消、包量以及术制作
护成本与现上平。该案实现了身、、肤、和发上素差异化，以证
对不同识别，忽了对区分影响较其素（短、等）。对于主机
端或更真实细致还原，可以此案础上进一步拓展，或位移更关，实现
和不同短等。该案适于量实格真实（该众为所广泛认识和辨
识），以及超量动作（几千）戏，竞技类戏。
6.1 引言
类戏（运动戏，Sport Game），即以运动为主戏，这里实格
类戏，与其类戏相比有着明显质。类实戏（ EA公司 Fifa系列、NBA Live
系列和Madden NFL）最显一个征是有量（百至上万个）真实，以及超量（上
千至万）动作资，远超其类戏。另，类实戏中对应于现实中运动
员，这运动员为所知，戏常又常“硬核”，对明星运动员十分悉，至追逐和
。此，戏设计制作必须度符合真实，动作专业合、丰且真实可，这对
还原度和辨识度以及制作、实现提出了极求。
对于移动端实现类戏中实，我主临下两个问。
（1）类实上千至万动作资，论是出于制作成本还是存占，
进优化，并尽量可以同一动作资。另，戏和动作还原度、辨识度求不同
存明显差异。此，同一动作资础上差异化现，比身、、肤
等，常重。
（2）移动平台相比于PC、主机存、器和量消上有更制，且机众，一分
低端机 CPU运算和渲染力弱，更中低端硬件机也常重，这我对
进更优化，来 CPU和GPU 消。
本章主这两个问，对移动端实提出一种优化制作和实现案。中示意所模
、贴图以及果展示来戏《最强NBA》。
6.2 方案设计思路
我希望过对实构成素进，影响辨识重程度进区分，寻找出所有
可以一素和差异专属素，后此划具资制作。同，这个过程中，尽量
可以同一动作资。
6.2.1 角色统一与差异元素分析
类戏实是现实中真实，并且穿着正常服，此我可以 “ ”归纳
为“ ”和“服 ”两分。我对戏归纳分析，就具转化为对和服归纳分析。
6.2.2 角色表现=人体+服饰
先，我和服再进一步细化成各种素（不局于下所列，我只选较为重
素），这素构成了一个，图6.1所示。
图6.1 构成
后，我进一步分析各素对区分不同个重程度，以后素进归类， 6.1

和 6.2所示。
6.1 素
（）
6.2 服素
重程度位为中等、不重，说明不同差异较，比较相，或觉感受不明显，不足
以影响不同区分；重程度位为重，则说明不同差异较，或觉感受常突
出，就法区分。
最后，根重程度不同，提取出不同一素和差异素。
● 一素：重程度位为中等、不重素，不足以影响区分不同征。
● 差异素：重程度位为重素，就法区分不同。
另，为了简化讨论，同后对资划不必制作和费，我再对一位和
素进一合简化。
先， “ 属性”过于象，肤和属性现各个具位上，所以我
这属性具赋予相应位素， “ 肢”和“ 干”分别加“ ”和“肤 ” 素。对
于“ 属性”中和肤则不再单进分析，身。
其次，干本服和裤所盖，不看到，所以我可以忽干 “肤 ”属
性。干比和属性，可以盖服和裤现。比，脂肪较、较胖，
服尺码更，腹服也撑起，强壮有较，服和裤胸、和
撑起。所以，我可以 “ 服”和“裤 ”来代替或等同于“ 干”，干 = 服 + 裤，干
、比等属性服、裤承。这样，我只讨论服和裤即可，后也不制作干相
关资了，费。
最终出果 6.3所示。
6.3 一/差异素
（）
6.2.3 角色资源整理
出了一素和差异素后，我就可以开划资了。我资（戏资
）区分为和专属两分。
● 一素，划为资，只存一，所有。
● 差异素，划为专属资，对每个单制作。
另，3D 戏资中模、材质、贴图和动作相互合，此我合这资
相互关系和影响。其中，为材质对于同类是一，可以对应个不同贴图，所以这里忽
材质，我所讨论资主模、贴图以及和动资。包含以下一性：
● 模包含几（空位、比等）。
● 贴图包含。
● 影响模几（空位、比等）。
● 一个模可以对应不同贴图。
● 同一个贴图可以给个不同模。
● 一个模包含一，此一只对应该动作（动）资。
● 不同模果顶几相近，则可以对应同一，进可以相同动作资。
梳出这性，可以帮助我对应素和资关系。
● 比、五形，服和裤比、款式形、，肢比、和身等，
与模对应，其几现。
● 五、毛发、肤，服和裤款式设计、纹，肢肤等，与贴图对
应，其现。
● 比、服和裤、肢、和身等受影响，此我可以来控制
、身。
● 果所有模相近、度相近，么就可以相同，进可以同一动作资
。
下来，我资对应到具素上，出果 6.4所示。
6.4 资
注意：体型被赋予到衣、裤（躯）和四肢分中。
6.2.4 资源制作与实现
根上一资划，我具资制作。这里仍素逐一对模、贴图等进
分析。同，为也是资重组成分，并关乎所有动作标，所以这里也对
进分析。素相对杂，我后单分析。
模和贴图为专属资，我根每个不同形、五和毛发，为其单制作。每
个贴图中肤，与其肢肤贴图（肤至有5 肤贴图，详见后）中
某一一致。果该有专属肢贴图（：有身），则贴图肤与专属肢贴
图肤持一致。模图6.2所示，贴图图6.3所示（为了重相关权，对贴图了模糊
）。
图6.2 模
图6.3 贴图
我以俱乐、为，、裤模和贴图是资。所有、裤款式（几形

）相同，我制作一标模，图6.4所示。
图6.4 、裤模
贴图分，相同俱乐、础贴图一致：每个制作一础贴图资；每、

裤制作一 0～9 字贴图资，可根求进组合；每个俱乐、，包含主客各
一、裤贴图和一号码贴图，图6.5所示。
图6.5 、裤贴图
日常和款式服、裤，与、裤相，对于相同形款式制作模资，对于相

同形款式、不同纹可以制作不同贴图。
肢几形和比属于资，我制作一标模，图6.6所示。肢贴图也属
于资，可以肤至制作5 肤贴图，对于具有身征，我为其制作专
属肤贴图资，来代替贴图，图6.7所示。
图6.6 肢模
图6.7 肢贴图
我最初临一个主问就是尽可同一动作资，以省制作成本和低性消。上

我分析了，果所有模相近、度相近，么就可以同一，进可以同一动
作资。
前我已经划了所有同一服、裤和肢模，这素已经一
。我再进一步所有模一尺寸和度，证与服、裤模可以合，就
不同也同一。模也是此。这样所有模具有相同度，
同一，可以同一动作资。构图6.8所示。
上我确了所有有同一和度，此可以设一个标身，后过
根（根）得到不同度。根计，我某类项运动员平身 1.98m，确
为一个标模身，以尽可实现其身。
图6.8 构
为干、肢与身比相对线性，我又到最，所以这分后

觉上不合性并不明显，可以受。对于，一与标 1.98m身差异较，或某
真比比较殊（比某与身相比，明显较或较，且成为该一个辨
识征），可出现比与真明显不相符情。我同一思路，过，
控制合比，图6.9所示。
图6.9 身实现
其服资制作与服、裤相，对于相同形款式制作模资，对于相同形款

式、不同纹制作不同贴图。
下来，我单分析素，类戏实差异具有以下几个征。
● 运动员绝身材匀、含量、脂肪，差异较，此可以忽
极度肥胖或极度瘦弱。
● 我可以根含量分为强壮和瘦弱，根脂肪含量分为肥胖和纤瘦。含量和脂肪
含量相互不冲突。
● 对于，肩、胸、上脂肪相对盖，强弱这几个位现明显。
● 对于脂肪，腹位脂肪最易积，现也最为明显。
此可以看出，差异我区分不同位（比肩、胸、腹等）对模几
（顶位）进和变化。来控制模局顶是直办法，带来更动
顶变计算消，也给超量动作制作加杂度，还可干动正常。所以
我控制，尽可寻找更优案—— 过计算消，干到动作正常
制作和。
这，GPU 是一个不选择。GPU 几阶段可以直对顶位进控制，了
计算消。顶可以包含顶法线等很息，也可以存我想其息。同 GPU渲染
动动顶计算之后，也了对动作干。
我开 GPU 中实现：果移动一个顶，一个向量，确向量向
和度；果移动模区一组顶，还有各顶对应权重。下来我就去寻找和构
造这：
● 模顶法线为我提了最合适向量向，正是所模向凸起或向
向。
● 对于向量度，根每个来制，我可以根不同。
● 对于顶权重，有较选择，贴图、顶切线、UV2、顶等可以我存权重，
且可以存向量，我区分和脂肪。贴图存，绘制，可以着器顶程序中
对贴图进样得权重，顶纹取（Vertex Texture Fetch） Shader Model 3.0，我
希望可以更低端 Shader Model 2.0下运。果顶 UV2、切线息来存，则了
Shader Model 3.0和对纹样，是制作法 DCC（Digital Content Creation）工具直
绘制，另开发工具持。此，我最终选择适应求低、性消又绘制顶
来存权重。
这样，我就可以过法线向量权重，来得到所期望顶移动向量，实现。
vertexPosition =vertexPosition +normal × weight × value
图6.10所示，权重记录顶中，根顶法线向、权重和（图中value=20f），
调顶位。
图6.10 法线出
肢及服、裤模中，我顶 Red 存权重，图6.11所示；

Green 存脂肪权重，图6.12所示。
图6.11 顶 Red 存权重（肢及腹权重）
图6.12 Green 存脂肪权重（腹权重）
权重为[0,1]，本应显示黑白，是为了查看图片，权重1.0 分示意为黑，0.0 分示

意为白。
具实现中，为了优化运性，我各位模合并为一个格，并同一种材质
（见后 6.3.2 ）。、等模资不设变化（顶权重为RGB（0f,0f,0f）），
未绘制顶息模计算着器默认为RGB（1f,1f,1f），此，为了制作对量此类
模绘制权重——顶 RGB（0f,0f,0f）工作，我可以权重与关系映为1f-weight，
以反绘制服、裤、肢模顶中，后计算中再纠正来。图6.13展示了反后权
重。
图6.13 法线出（反后权重）
图6.14展示了顶各权重取反后显示出来，以及赋予不同后果。从左向右

次为：肢强壮，肢瘦弱，腹肥胖，腹纤瘦。
图6.14 权重及果
最终制作果下：
● 我制作了一标 1.98m 模，同一标，所有动作资可以不同
。
● 过组合不同以及服、裤和模，可以得到所有差异化模。
● 过组合、裤贴图和号码贴图，可以得到所有所、裤贴图（其服等制
作相同，没有号码贴图合并以）。
● 过选取一肤贴图，专属贴图，可以得到所有所贴图。
● 过根，可以得到正确身，再过，得到正确比。
上所述，本决了我最初主临第一个问：类戏实尽量优化资
，同戏还原度和辨识度，可以同一动作资。同，资、GPU
，也给第二个问 —— 更中低端硬件移动设，下了一个较础。下来
具实现中，我进一步对移动端进优化。
6.3 具体实现
我对、服、裤、肢等模、贴图资拆分和，以及对同一动作资，
低了制作量和存量，同也加了 Drawcall，性消加。为了 Drawcall，提
渲染性，我运对模进合并，赋予同一种材质，并对贴图也进合并。
6.3.1 实现流程
实现程图6.15所示。
图6.15 实现程图
6.3.2 CPU逻辑
具实现，CPU逻辑包含了模合并、贴图合并和根设相关参几个阶段。
模合并程下：
（1）合并、服、裤、肢模顶息。
（2）为后还合并贴图，所以这里重分顶 UV 。
图6.16展示了模合并前后 Bounding Box（包）情（参 Unity3D Editor Scene
图），合并前有六分，合并后只有两分。
图6.16 模合并
贴图合并程下：
（1）服、裤贴图与号码贴图合并为一张贴图。
（2）个护具贴图与肢肤贴图合并为一张贴图。
（3）服、裤、肢、贴图合并为一张贴图。
图6.15展示了贴图合并步。
根设材质、身和程下：
（1）材质赋予模，合并后贴图赋予材质。
（2）根，实现身。
（3），调比。
（4）设材质和脂肪，实现。
逻辑代码下：
6.3.3 GPU渲染
GPU渲染阶段主包含了根模顶权重和CPU所设参变顶位标，实现工
作。
GPU渲染程下：
（1）从顶 Red和Green 中取记录、脂肪权重。
（2）纠正资制作权重取反计算。
（3）计算对应和法线向，得到移向量，计算新顶位。
代码下：
6.4 效果收益、性能分析和结语
图6.17展示了《最强NBA》戏中实现不同果。本案过对、服和裤
（干）、肢、身、、肤一素和差异素进分析，划了一资与
专属资制作案，过尽可模和贴图资，了戏包尺寸，低了存消，同
证了差异性和还原度。并且，标模及相同，所有可以量动
作，也了制作成本，提了性，决了资制作和问。过运对模和贴图资
合并，又进一步低了于资与拆分造成 Drawcall渲染性消。经过试，合并优化
后比优化前CPU 低35%,GPU 低30%。最终，本案可以运最低是卓机
（操作系 Android 4.4，存2 GB,CPU 4/8核1.5GHz）、苹果机iPhone 5S（iOS 9.0及以上，
存1GB，器A7+M7），决了对低硬件移动设持问。
图6.17 不同果
6.4.1 方案优劣势
优势：
● 同一以及量动可以适应不同。
● 了Drawcall，可以提升性。
● 低端移动硬件。
劣势：
● 运进模和贴图合并，带来一性和消，延了进正式戏前等
待。
● 贴图合并，带来了存消。随着量加，存占量也呈线性。
● 个同一种材质，术果有所低。
6.4.2 方案补充
● 前本案只了模顶 Red、Green 存和脂肪权重，Blue与Alpha
，更细腻控制，则可以这两个丰。
● 渲染顶程序阶段，顶位移动后，模法线没有重新计算，光存误差。另
，计算上投影 Pass中仍原顶标，也出现误差。为误差较，本案于性
忽光影纠正。果更现，则可以进一步善此。
● ，顶移了GPU中计算，可以试 CPU模合并过程中，并重新计算法
线，得到正确光和投影果。也可以顶权重取反纠正模合并过程中一并逻辑，这样
可以低GPU 消，不过CPU 消以及等待加。
● 本案忽了肢比（上与前比、与比）差异，果加此细
，则可以试对相应关进或移动。
● 本案础上，可以进一步或其服进模与贴图合并。
6.4.3 应用场景
本章绍案不适于实类戏，也为其类戏提了一决案。
以MMORPG 戏为，单个动作量相对较，众、各异（比各种 NPC、
怪等），对每个来制作动作，法，制作量。果本案，动作，对
有对性，么就可以实现众差异性模，且极资制作量。
另，对于乐类戏，身上Avatar 件量较，果本案中合并模、贴图
法，则有低CPU、GPU 消，从持更低端移动机，。
上所述，可以根具戏类来选择本案分技术。
参考文献
[1] 戏类 .https://baike.baidu.com/item/%E6%B8%B8%E6%88%8F%E7%B1%BB%E5%9E%8B.
[2] .https://baike.baidu.com/item/%E8%82%8C%E8%82%89%E7%BE%A4.
[3] 干 .https://baike.baidu.com/item/%E8%BA%AF%E5%B9%B2%E8%82%8C/5899293.
[4]Vertex Texture
Fetch.NVIDIA,2004.https://www.nvidia.com/object/using_vertex_textures.html.
[5]Meijster,Arnold and Roerdink,Jos BTM and Hesselink,Wim H A.K.Peters.Real-Time
Rendering Third Edition.Ltd.Natick,MA,USA,2008.
第7章大规模3D模型数据的优化压缩与精细渐进加载
作者：颖
摘要
WebGL 口渲染显示尺寸max、maya、fbx等3D模件格式，模优化是必不可
步。本章述了一 mesh、texture 优化压案，压比最低可以达到10%以下，
专存组织和景构设计，可以实现 3D 模质量精细进加载，主速条件下
达到速览。
顶先空位序和条带化，后再进三步压。第一步，对不同顶素
（position、normal、color、uv、index等）征有对性码案，所有一变
到空；第二步，利顶位相近、其属性也相近征，对第一步成进差量转
，分布较区，后利算术码或变变进一步压，以
省存空；第三步，一个 zlib压，根压质量根误差求不同，压
为2%～98%（较原）不等。
此，顶、纹存布局上也了进加载求，组织于并压、快速显示。
，顶根 position、index、uv、normal 等觉重性序存；所有同类材质纹
干级mipmap 包一个件中，并且 albedo、roughness、normal等贴图对觉果度
序，优先级分开输到客端。这提模输析性。
7.1 引言
随着各览器对WebGL标持逐步善，越来越 3D应迁移到Web端，且有变变杂
趋势。其中不乏中 3D 戏和精 3D模站，这类应模、渲染杂度不逊于
很系原应，这造成了程序设计模式不同于普 Web应，反更近戏或
桌程序。繁渲染更新、量加载、杂应逻辑，对程序优化提出了更求。Web前
端程序设计员重新精力到CPU 、GPU 、Cache、存、显存、总线以及Internet
络带等计算机资划上，还心程语性，细操作存分 ……，总之，又古
底层程一样重细，证Web端杂3D应性和壮性。
现主速为10Mb/s～100Mb/s，远低于硬和存输速， 3D模模可达上
GB，幅度压原尺寸，络输，成为提升关。下就详细述一系
列模顶和纹压优化案。
7.2 顶点数据优化
3D模一 3ds Max、Maya等术制作软件成，这模格式并不直于
Direct3D、OpenGL等常见 3D渲染API，此顶转优化压是个3D 渲染工作第一
步，其步致可以分为下几个步。
（1）顶合并去重。
（2）索引合并。
（3）顶序。
（4）格拆分与合并。
（5）顶码压。
下先澄后中几个概念。
● 模（model）：示一个模或景，包含个或个几以及其 3D对象，具有
层级构。
● 几（geometry）：示一个 3D 件，一个或个格组成。
● 格（mesh）：一个或个格组成。
● 格（sub-mesh）：一个或个边形构成。
● 边形（polygon）： 3个或3个以上顶构成闭合。
● 三形（triangle）：只包含3条边边形。
● 顶（vertex）：示空中一，是一个或个属性集合，至包含position属性。
● 属性（element）：示顶空中征，位（position）、法线（normal）、切线
（tangent）、纹标（uv）、（color）、合权重（blend weight）、合索引（blend
index）等。
● 索引（index）：来索引顶顶冲中位（构成格）或顶属性属性冲中
位。
7.2.1 顶点数据合并去重
图7.1至图7.4所示，一个立包含6个边形，每个边形包含2个三形， 36个顶，这
顶具有8个不同 position属性、6个不同 normal属性、18个不同 uv属性、4个color属性
。这个立 36个顶中，实际有分顶是相同，即具有相同属性。此，顶
合并去重是顶第一步。去重算法很得研究优化，果泡对比，杂度
是O(n2 )，其实可以分层拆分法去重，杂度为O（n），这里就不详细展开讨论了。
图7.1 顶位
图7.2 顶法线
图7.3 顶
图7.4 顶纹标
7.2.2 索引数据合并
分3D模制作工具中，很 3D属性（材质、光组等）是以为单位组织，并
且随机序。到GPU渲染性优化，某具有相同3D属性列到一起临近存，又以
索引形式示，此此步实际就是索引序操作。实际操作中，一优先材质种类进
序。
7.2.3 顶点数据排序
索引材质序后，对每个格进顶序是常重一步，是后顶优化
前条件。绝情下， 3D 模中空位相近顶，其属性也比较相近，于这个
计事实，顶存中位空距离序，顶属性变化呈低分布，这样
列更有利于压优化。具现为，后差量码形成更，从消更存空，
也更利于最后压，算术码或zlib压。此，顶空位序后也更
利现代GPU 某优化机制，比 Post T&L Cache、Early Z等。上有很关于顶序资
[1]，这里就不展开绍了。
7.2.4 子网格的拆分与合并
经过顶序后个格可有相同材质，这有相同材质较格合并
成一个更格，以省CPU绘制令调开销；巨格也有可拆分成个较
格，以开硬件性制。格合并比较简单，只重新映索引即可；格拆分稍微杂
，连三形进拆分，尽可证格空上连，拆分过程中还涉及拆分
顶制，细选择拆分边，尽可制操作。存上，可以格空计距
离存同一个件中，以省络输连建立和销毁开销。
7.2.5 顶点数据编码压缩
以上步成后，未经压码原顶、索引就已毕，下来对这根其精
度、分布征进有对性有压或压，以低尺寸。其关于细权压精
度和压，得到一个条件下意中，同顾码算法，别是码算法，让
前端渲染有极。属性码压致分为下几个步。
（1）根类属性精度、分布征，类属性转为。此步根
类可为有压或压。
（2）上一步进差量计算，存差量：
（3）对差量进 zigzag和varint 码[2]或算术码[3]。此步为压。

（4）进 zlib 压。
第一步转式对不同类顶属性法不尽相同，下详细绍。
顶位码较调试，为顶位几乎是意，且最低精度也不太确
，一旦没有控制，就觉上很影响。最常见顶映为式下：
以上公式是匀映，匀映最适合情就是所有不同上匀分布，这样精度只
1/N即可，即 ,N为不同量。果轴向上分布不匀，么论怎
样，映精度得不到。比，x∈[0,1000]， 500个不同 x ， 90%
集中 [0,10]区，精度只到1/500， [0,10]区是不。所以，精度求和顶位某
个轴向上不同分布度紧相关。
其中一种优化案就是分段匀映，划分为个不等连区，这分段区
序列差尽可，再根每段不同量和差确 Scale 。原根其所属分段区
不同 Scale 进码，这样就形成了一个匀刻度 “标尺”，分布集刻
度比较，分布稀刻度也比较稀。顶 x、y、z三轴标分别各 “标尺”进有
压，得到果相比匀精度码有较提。对第一步得到进差量计算，形成绝
对较序列，再对此序列进 zigzag和varint 码，低存空，后进
zlib压或算术码得到最终果。
法线和切线一 3个分量构成，每个分量一一个float32类示。实际应中，很
精度更低 float16、short 至byte类来示。细观发现，法线和切线 3个
分量并不是意组合，是一个关系约束着。也就是说，所有可 x、y、z
一个半径为1 上，为意（x,y,z）∈[−1,1]，是分布一个半边为1 立，
即只一个byte类来示法线或切线每一个分量，也费很空。此，果先法
线或切线映到标，可分布上[4]，么，相同精度下就得到更压
。
实际上，法线和切线可以极标示为（φ）和位（θ）形式，果经纬度分为
Nθ和Nφ等分，么我可以意法线或切线映成 j和k,j 示单位向量经度向上索引，k
示单位向量纬度向上索引，图7.5所示。
分为 j× k ，上意一可以近成一个矩形，图7.6所示。
图7.5 分割样式
图7.6 分误差
这个矩形所有映为相同 j 和k ，压阶段恢成向中红向
量，可以看到压后误差最是向4个向量，这个误差可以过和中向量进乘运算
得到两个向量之，此可以得到一个关系，足一个最误差最 j 和k 是。
上这个公式就是给一个最误差、等分，计算出每等形位最划
分成等。根试，最误差ε取 1.05°,Nφ取 120 ，Nθ 足最误差最为248，
分为18778 ，为比较想，Nφ 最位可以作为切向量空左右标志。实际操作，可以
Nθ（j）存组NTHETA_SERIES中，码和码法线和切线繁计算杂公式。码代
码下：
经过以上步，法线或切线码成包含两个分量向量（j,k），每个分量为1字符号
。于顶顺序已经位列，此相法线或切线标上有很概近或相等，码后
成（j,k）向量与前一个分别进各分量差量计算（第二步），得到差有相同性，
比匀分布法线码后（j,k）差是相等，这样常有利于最后 zlib压
（第步）。
uv 一具有下两个征：
● 有。一 u,v∈[0,1]，即平（tiling），也不别，可以计格纹标
[u min ,u max]和[vmin,vmax]。
● 精度有。格所关材质纹尺寸有，一不超过8196 素，uv 来索引素，一求

只半素精度即可，此最尺寸两作为uv Scale。
先可以利下公式 uv 从double或float类映为unsigned int类：
其中，Scaleu,Scalev取纹尺寸两。
后对 UV 进差量计算。同，相顶 UV 是相近，差量分布较区
。下来进 zigzag和varint 码，较较存进存，最后进 zlib压。
顶是很有可极度压顶属性，为情下，顶于着不带albedo贴
图格，所以单个格上顶一变化较，图7.7所示。
图7.7 格顶
可以发现其格顶是单，或种类较，这种情下，可以利调板码代替逐

存，这样就变成了调板索引，越，压越。比调板包含256种，压
为25%。种类较情下，调板码可不带来期果。是否调板模式，
可以下式判：
判调板码不带来更压情下，可以有压式，证一
水平础上低精度。低精度一有两种途径：
（1）持空不变，低码精度。比 R8G8B8变为R5G6B5，直 sRGB或Linear
RGB空成。
（2）变到新空，并低码精度。比从 sRGB 空变到 YUV比或 HSB
空，后根眼感知性，对不同分量进精度，持或量度分量，幅度低
差分量，果细调码算法，这种式带来上可更。
当码成后，分索引已经是单字度了，可以直 zlib压成操作。合权重
具有下：
● 分情下0 较。一只有1/4～1/2 顶具有两个以上不为0 权重。
● 对精度求不是别。经试，于览查看合，精度为1/1000 顶合果已经可
以受。
戏中，顶合一化权重，即每个顶所有权重分量和为1。一每个顶存 3
个合权重分量，第4个分量可以下公式计算得出：
合权重优化第一步是下公式进变压：
根精度求，Scalew一取 [256,2047]。
变毕后，第二步是分别对3个权重分量进差量计算，后逐分量进 zigzag和varint
码，最后进 zlib压或算术码。果到合权重0 比情，压果常显
。
顶合索引一 4个分量构成，常为unsigned int类，示影响顶索引，
合索引必须是精确，所以法进有压。是实际模中索引一不很，为
单个模中起作是有，太影响动更新。此，戏这种常追求 3D
应，其术制作严格制量，别是单格量，这样单格顶索引就
具有下两个计征：
● 索引不别，分情下上于2048。
● 单格中顶合索引不同量较。比一个格顶索引为{0,128,256,2048}，
为[0,2048]，种类很，一 4种。
对以上两个计征，可以先对合索引进映操作，即格中所有可索引映为从
0开紧列，比 {0,128,256,2048}映为{0,1,2,3}，这个映关系存起来。为
不同索引量单格是很，所以这个映关系并不占太存空（后映
于着器矩阵组索引，从CPU更新变矩阵到正确位）。映毕后再分别对4个合
索引分量差量计算，得到列常有利于进 zlib压或算术码。
顶索引只进压。于三形是空位进序，索引紧相连，经过差量
操作后 zigzag变压，即可 unsigned short或unsigned int转为unsigned char，
后再进 zlib压或算术码就得到可观压比。
7.3 有利于渐进加载的数据组织方式
上绍顶各类属性码压后，下来绍存组织这压。本循两个原
则：
● 尽可之赖，提压码并度，恢。
● 对觉影响最优先输，其尽开压码。
模格拆分就很决格并压问，为格之是互相立，并没有逻辑上
赖关系，且顶不同属性是分开压存，压实际上也可以并。过实际应
发现，一并粒度拆到格和属性就已经了，对于相同属性分段压存求并不是
别强，为经过格拆分后，不存顶量别格。
意是，利线程并析幅度提升，短量 GPU 资创建求，这
创建求匀分到后程序逻辑中；否则，单帧进太操作前端明显卡
顿。
重优先输到客端，先根求义这优先级。根 3D 模展示应
征，顶属性优先级列下：
position=index＞uv＞blend weight=blend index＞normal＞color＞tangent
这个优先级列只是个经总，不同应可不尽相同。格最重是空形，其次是
材质，此position和index 了uv之前；纹作于光，此 uv normal之前；顶
和法线纹对观影响属于细层，此切线（来组成切向量空）最后。存组织也
循此则，区别于几存件，即一个件存一个几所有息，这里同种类
一起存式，比，模不同格顶位属性存同一个件中，顶法线存
另一个件中，这样所有格位优先输毕。当，也件量和尺寸，
络并发连和连利达到平，件太太碎络连利低，件过，又
件尾格等待较加载析显示。
纹也循重优先输原则，以PBR材质为，不同纹对觉优先级下：
albedo＞roughness＞normal＞metalness＞specularF 0
为了快速显示模材质观，白模，模所有材质中同类纹级mipmap 存
一个件中，比，所有albedo贴图级mipmap 存一个件中，所有法线级
mipmap 存另一个件中。这样主是让模快速呈现材质观，细可以随后
加载逐加。根实际络计速度决纹 mipmap 包件，一控制 300KB之，
这样分络条件下，1～5s 即可成输，推至包到64×64分辨，以证初观渲
染质量不太低。单个mipmap 包件最可包含100张左右常见压格式纹（pvrtc、etc、dxtc
等），这对于分3D模已经足了。尺寸纹可以存分开单个图片件中。
7.4 总结
本章绍优化案利实际模精度、分布等征，证一水平前提下，
达到了很优化压果。不同分布性和实可受误差，各顶分量压果一
图7.1 所示。
7.1 顶分量压
该案算法设计上顾了和性，存组织上了线程并压和式输

征。此，该案并不局于Web环，对其计算资受或追求极致 3D应景也具有参
意义。
参考文献
[1]Pedro V.Sander,Diego Nehab,Joshua Barczak.Fast Triangle Reordering for Vertex
Locality and Reduced Overdraw.ACM Transactions on Graphics.Proc.SIGGRAPH,2007.
[2]Varint and ZigZag
Encoding.Google,2018.https://developers.google.com/protocol-buffers/docs/encoding.
[3]Arithmetic
Coding,Wikipdia,2018.https://en.wikipedia.org/wiki/Arithmetic_coding.
[4]J.Smith,G.Petrova,S.Schaefer.Encoding Normal Vectors using Optimized
Spherical Coordinates.Computers & Graphics.36,2012.
第四部分人工智能及后台架构
第8章游戏AI开发框架组件behaviac和元编程
作者：勇刚
摘要
behaviac是戏AI 开发框架组件，也是戏原快速设计工具。持平台，适于客端
和服务器。 behaviac 实现了为树（ Behavior Tree,BT ）和有态机（ Finite State
Machine,FSM），以及分层务（Hierarchical Task Network,HTN）。
其中为树实现最为，过优化运，不持序列、选择、并、器、动作等
，更过附件形式持前、后、事件等功。此，还提了选择
（ SelectorMonitor ）等。 behaviac 运有 C++ 和 C# 两个版本。运反技术
（Reflection），给提了最性和可展性，不展就可以达
各种求；过成最终代码形式了反所加负担，从提了最。C++版本
运于程（Meta Programming），提了一利反合程案。
读可以直 behaviac作为戏AI 开发框架组件来，也可以参 behaviac提对 BT、
FSM、HTN 实现和优化思路，还可以习到于程反技术。所有代码，包辑器和运
开。
本章先概述了behaviac 工作原、为树核心概念和behaviac对为树优化，后从类
息剖析了程 behaviac中。
8.1 behaviac的工作原理
behaviac 组件分为辑器和运，辑器是立运程序，运库合到己项
中，各模关系图8.1所示。
图8.1 各模关系图
● 工作区于管个项，包类息和为树件等。
● 类息包 Agent类及其成员属性、成员法和实等，以及枚举和构类。
● 为树描述了 Agent类为，利各种和类息来创建为树。
● 运端根辑器导出类息，加载和辑器导出为树。
8.1.1 类型信息
类息来描述类属性和法。辑器中可以过创建类，该类息作为本语
法单位来创建为树。下以 XML 格式描述了一个 Agent 类息，可以 behaviac 中查看更
细。类息中属性来描述类相应属性，比康、击等，法来示类
力，远程击、逃、跳跃等。
有了类息，就可以该类息来描述为了。
8.1.2 什么是行为树
为树（BT）是为组成树构，图8.2所示。
图8.2 为树
对于 FSM，每个示一个态；对于 BT，每个示一个为。同样是连

成，BT有么优势呢?
BT 中，是有层次（Hierarchical），其来控制。每个有一
个果（成功Success、败Failure或运 Running），每个果其来管，从
决下来么，类决了不同控制类。不护向其转，
模性（Modularity）强了。实际上， BT中，于不再有转，不再是态
（State），是为（Behavior）。
此可见，BT 主优势之一就是其更性和模性，让戏逻辑更直观，开发不
杂连线晕。
8.1.3 例子1
图8.3所示，3号Sequence 有3个，分别是4号Condition 、5号Action 和6号
Wait 。 3号是2号Loop 。
图8.3 1
下先绍一下各类逻辑。
● Sequence（序列）：顺序所有返 “成功”，果某个败，则返
“ 败”。
● Loop（循环）：循环到次后返 “成功”，果循环次为−1，则循
环。
● Condition（条件）：根条件比较果，返 “成功”或“ 败”。
● Action（动作）：根动作果返 “成功”、“ 败”或“运 ”。
● Wait（等待）：返 “运 ”，一直到过去后返 “成功”。
8.1.4 执行说明
说明下：
● 果4号条件果是“成功”，其 3号序列则 5号动作，果5
号返 “成功”，则 6号等待，果6号返 “成功”，则3号毕且返
“成功”，么2号循环下一个迭代。
● 果4号条件果是“ 败”，其 3号序列则返 “ 败”，不再
，并且2号循环下一个迭代。
8.1.5 进阶
上中只讲了成功或败情，果动作持一段，比 5号动作，Fire
持一段呢?
● 果可以是“成功”、“ 败”或“运 ”。
● 对于持运一段 Fire动作，其果持返 “运 ”，束返 “成功”。
● 对于持运一段 Wait 动作，其果持返 “运 ”，当等待到达返
“成功”。
当持返 “运 ” ，BT “知 ”该是持 “运 ” ，从后过
程中“直 ” 该，不从开，直到该运态返 “成功”或“
败”，从后。从看，就 “ ” 了个“运 ” 上，其不再管
，一直等运束，其再次管一样。
请意，这一段说明只是从概念上讲，概念上可以这样，实际上，即于运态
每次也是返，只是其返是“运 ”，其对于返是运态，其
，所以看上去不再管一样。
8.1.6 例子2
图8.4所示，为了晰说明运态，我再来看一个。这个中，Condition、
Action1和Action3是3个。
● 0号是一个Loop ，循环3次。
● 1号是一个Sequence 。
● 2号模一个条件，直返 “成功”。
● 3号 Action1是一个动作，直返 “成功”。
● 4号 Action3同样是一个动作，返 3次“运 ”，后返 “成功”。
图8.4 2
其代码下：
该BT C++代码下：
上为树代码就同戏更新分。status = g_player->btexec（）戏更新

（update或tick）中，每帧调。
别，对于运态，即从概念上讲运态是“ ” 了上，每帧调
btexec。也就是说，其是每帧运，只是下一帧是上一帧，从现是运
态，其束之前，其不控制转移给其后。这里 “ ”并真，并后
代码（上其代码分）不。status = g_player->btexec（）后果有代码，则
。
果是么样呢?
果图8.5所示。
第1帧：图8.6所示，2号Condition 返 “成功”， 3号Action1 ，同样返 “成
功”， 4号Action3 ，返 “运 ”。
图8.5 果
图8.6 果1
第2帧：图8.7所示，于上一帧4号Action3 返 “运 ”，所以直 4号Action3

。
第3帧：图8.8所示，于上一帧4号Action3 返 “运 ”，所以直 4号Action3
。
意是， 2 号 Condition 不再。且，本次 Action3 返 “ 成功 ”,1 号
Sequence 返 “成功”。0号Loop 束第1次迭代。
第4帧：图8.9所示，Loop 第2次迭代开，就第1帧一样。
图8.7 果2
图8.8 果3
图8.9 果4
8.1.7 再进阶
持返运态优化了，其果就 “ ”了 BT 一样，果发了
其 “重 ” 事情怎么办?
behaviac中有种法，比可以前附件、并、选择控和事件树等
法来和响应事件，具可以参 https://github.com/Tencent/behaviac/上提章、程
和示。
8.1.8 总结
为树本概念总下：
● 每个有一个果（成功、败或运）。
● 果其控制和管。
● 返运果作于运态，于运态持，一直到其返
束（成功或败）。其束前，其不控制转移到后。
其中运态是为树关，也是为树关。
下BehaviorTask::exec代码是更新为树核心代码。
● 当次，为态是BT_INVALID， onenter_action，只有当onenter_action返
true ，否则直返。
● 后 update_current，果 update_current 返 BT_RUNNING，则意味着该
于运态，下一帧，所以该过 SetCurrentTask 记录下来，从后直
。
● 否则，果 update_current 返不是 BT_RUNNING ，则意味着该束，
onexit_action 。
● update_current 是，不同类有其殊实现，别
BranchTask::update_current 合 SetCurrentTask 来直于运态。具细请
参 https://github.com/Tencent/behaviac/。
8.2 元编程在behaviac中的应用
运库来加载辑器导出类息和为树，从和为树逻辑。以C++版本为
，辑器根类息成相应 C++代码，下所示。
同成类于下册代码，类息册到AgentMeta这样类息库中，从后可以

加载为树以及为树。
加载 XML 格式为树，有类于下代码，过类名字、属性以及法名字，从
AgentMeta这样类息库中取相应义来加载属性和法。
此可知，每一个Agent类有一个相应 AgentMeta来存其类息，过该Agent 名字，

每一个属性名字、类，每一个法名字、参、返等息，为树和具类合起
来，从加载过名字类。
8.2.1 模板特化
C++中模板分为模板和类模板。
模板是一种象义，代一类同构；类模板是一种更层次象类义。
所谓化，就是泛模板具化，为已有模板参进一其殊化，得以前不受
约束模板参，或受到（，const 身一变成为了之类，至是经过其模
板类包之后模板类），或下来。
8.2.2 加载中的特例化
下所示，加载为树，StringUtils::ParseString 来从一个字符串中读取相应类
。
ParseString 义下：
这里广泛了模板化（Template Specialization），当模板译，动根类是否

是枚举类、是否包含FromString来选取合适化。
么，怎么判一个类是否是Enum呢? 上代码中到了Meta::IsEnum，其具实现下：
果 T 是一个 Enum，么 IsEnum::Result 等于 true，否则等于 false。对于 Meta::Has
FromString，则只是直到了类化，HasFromString 泛下：
也就是说，省情下，对于所有类，HasFromString::Result 等于 0；对于 Agent类

，为其具有FromString，所以对该类提下：
IsEnum、HasFromString这样模板类称为type traits类，behaviac 过type traits类

，合模板实现了众有趣功。更实际示，请参
https://github.com/Tencent/behaviac/。
8.2.3 运行中的特例化
代码下：
FirstAgent有一个int类属性p1和一个 Say,behaviac 成上册代码和下化
代码。
当为树调 Say ，下代码，同样利了化。

总之， behaviac 中广泛了类模板化，更实际示，请参
https://github.com/Tencent/behaviac/。
第9章跳点搜索算法的效率、内存、路径优化方法[1]
作者：
摘要
本章绍跳索（JPS）算法、线程、存、路径等优化法，JPS 过拓展跳不是
每个居来寻路，为跳远比居，所以寻路速度远快于A*。
本章绍优化算法来加速跳寻找，或拓展跳。JPS-Bit 位运算加
速跳寻找，图每个格码为1个bit，此1个int可以存 32个格。后利 CPU 令
__builtin_clz找到32个格里跳，此寻找跳速度比历32个格快几十。JPS-Prune利
剪枝剪掉必 “中跳 ”,“中跳 ” 拓展中只具有简单承作，不具拓展价
，剪枝“中跳 ”可以拓展跳，从加速寻路。为“中跳 ”是路径中沿对
线向拐，找路径后路径中计算“中跳 ”，构成路径。JPS-Pre利提
前计算每个格上、下、左、右、左上、右上、左下、右下 8个向最 step,step为走到最近跳
、、边距离。JPS-Pre 须沿各向寻找跳，是根 step快速确跳，从加
速寻路。
三种优化算法可以组合，实中， JPS-Bit 、 JPS-BitPrune 、 JPS-BitPre 、 JPS-
BitPrunePre 寻路速度分别为 A* 算法 81 、 110 、 130 、 273 。另，变量明为
thread_local可持线程寻路，每个线程有一个thread_local变量，导致存量显
加，过分层、存池等法优化存。JPS 寻找路径现上并不是最优路径，过
后对路径进优化。
JPS算法可以应 2D、3D 戏中和NPC 寻路上。2D 戏可以直应 JPS算法，很 3D
戏也 2D寻路，此也可以直应该算法。
9.1 引言
寻路算法戏和图中有种途。A*算法已经众所周知，对于其优化也是层出不穷，性
并没有取得突破性进展。本章绍JPS 、线程、存、路径等优化算法。性实中设寻路
景，得起和终差距200个格，计寻路10000次总。
不同算法寻路 9.1所示，A* 费260.740s；础版 JPS 费17.037s；位运算优化
JPS（JPS-Bit）费3.236s；位运算和剪枝优化 JPS（JPS-BitPrune）费2.37s；位运算和
JPS（JPS-BitPre）费2.004s；位运算、剪枝和 JPS（JPS-BitPrunePre）费0.954s。
本章绍 JPS-Bit和JPS-BitPrune 持动态。本章决了绝分开 JPS算法存
Bug：穿越（比图9.2中，从H走到K ，穿越H右边）。
9.1 不同算法寻路
实中， JPS 算法 5个版本，平费分别约为 1.7ms 、 0.32ms 、 0.23ms 、 0.2ms 、
0.095ms，寻路速度分别约为A*算法 15 、81 、110 、130 、273 。 2012—2014年举办三
届（前为止只有三届）于 Grid 格寻路比赛（ The Grid-Based Path Planning
Competition,GPPC）中，JPS已经证明是于权重格，没有情下寻路最快算法。
下来绍JPS 、线程、存、路径等优化算法。后读GPPC 2014，从寻路、路
径度、消存、败等比较22种参赛寻路算法优劣。
9.2 JPS算法
9.2.1 算法介绍
JPS（Jump Point Search，跳索）算法是2011年提出于Grid 格寻路算法[1] 。JPS算
法 A*算法框架同，优化了A*算法寻找后操作。图9.1所示为A*和JPS算法程对
比，不同于A*算法中直取当前所有关闭可达居来进拓展策，JPS 算法根
当前向、于索跳策来展后，循“两个义、三个则”（两个义确强
迫居、跳，三个则确）拓展策。
9.2.2 A*算法流程
A*算法程下。
（1）起 start加开启集合openset中。
（2）重以下工作：
① 当openset为空，则束程序，此没有路径。
② 寻找openset中F 最，设为当前 current。
③ 从openset中移出当前 current。
④ 关闭集合closedset中加当前 current。
⑤ current为标 goal，则束程序， goal 开逐级追溯路径上每一个 x
parent（x），直至溯到起 start，此溯各即为路径。
⑥ 对于 current 8个向每一个居 neighbor：果 neighbor 不可过或已经
closedset 中，则过；果 neighbor 不 openset 中，则加 openset 中；果 neighbor
openset中，此路径G 比之前路径，则neighbor 更新为current，并更新G 、F ，G
示从起到当前路径代价，H 示不不可过区，从当前到终路径代价，且
F=G+H。
图9.1 A*和JPS算法程对比
各术语参下。
● current：当前。
● openset：开启集合，集合有待进一步拓展。
● closedset：关闭集合，集合不再拓展。
● neighbor：当前居。
● parent（x）： x 。
9.2.3 JPS算法流程
JPS算法程下。
（1） current当前向是直线向：
① 果current左后不可走且左可走（即左是强迫居），则沿current左前和左寻找
不 closedset中跳。
② 果current当前向可走，则沿current当前向寻找不 closedset中跳。
③ 果current右后不可走且右可走（右是强迫居），则沿current右前和右寻找不
closedset中跳。
（2） current当前向为对线向：
① 果current当前向水平分量可走（，current当前向为东北向，则水平分量为
东，直分量为北），则沿current当前向水平分量寻找不 closedset中跳。
② 果current当前向可走，则沿current当前向寻找不 closedset中跳。
③ 果 current 当前向直分量可走，则沿 current 当前向直分量寻找不
closedset中跳。
9.2.4 JPS算法的“两个定义、三个规则”
义一：强迫居（Forced Neighbour）。
果 n是x 居，且 n 居有，并且parent（x）,x,n 路径度比其从
parent（x）到n且不经过x 路径短，其中parent（x）为路径中x 前一个，则n为x 强迫居，x为
n 跳。，图9.2中，寻找从S到E 路径，K为I 强迫居，I为K 跳。这里不认为从H到K
走，否则走进H右边区，分JPS开代码认为H到K 直到达，所以存穿越情
。果 H到K可走，则K为H 强迫居，H为K 跳。
图9.2 寻路问示景（5×5 格）
义二：跳（Jump Point）。

① 果 y是起或标，则y是跳。，图9.2中，S是起也是跳，E是标
也是跳。
② 果 y有强迫居，则y是跳， I是跳。
③ 果从parent（y）到y为对线移动，并且y经过水平或直向移动可以到达跳，则y是跳
。，图9.2中，G是跳。为parent（G）为S，从S到G为对线移动，从G到跳 I为直向
移动，I是跳，所以G也是跳。
则一：
JPST算法索跳，果直线向（为了和对线区分，直线向代水平向和直向，
且不包对线等线向，下所说直线为水平向和直向）、对线向可以移动，么
先直线向索跳，后再对线向索跳。
则二：
① 果从parent（x）到x为直线移动，n是x 居，有从parent（x）到n且不经过x 路径，且
路径度于或等于从parent（x）经过x到n 路径，则走到x后下一个不走到n。
② 果从parent（x）到x为对线移动，n是x 居，有从parent（x）到n且不经过x 路径，
且路径度于从parent（x）经过x到n 路径，则走到x后下一个不走到n。
则三：
只有跳加 openset中，最后寻找出来路径也是跳。
9.2.5 算法举例
图9.2所示，5×5 格，黑代区，S为起，E为终，JPS算法寻找从S到E 最短路
径。
先起 S加 openset 中。从 openset 中取出 F 最 S ，并从 openset 中删，加
closedset中。S 当前向为空，则沿8个向寻找跳，该图中从S出发只有下、右、右下3个向
可走，向下索到D 到边，向右索到F 到，此没有找到跳。后沿右下向寻找跳
， G ，根上中“ 义二” 第3 ，parent（G）为S，从parent（G）到S为对线移动，并且
G经过直向移动（向下移动）可以到达跳 I，此G为跳并加 openset中。
从openset中取出F 最 G，并从openset中删，加 closedset中。G 当前向为对线
向（从S到G 向），沿右（当前向水平分量）、下（当前向直分量）、右下（当前向）3个
向寻找跳。 G 只有向下可走，此向下寻找跳，找到跳 I并加 openset中（根上中“
义二” 第2 ）。
从openset中取出F 最 I，并从openset中删，加 closedset中。I 当前向为直线
向（从G到I 向）， I I 左后不可走且左、前可走，此沿左、左前、前寻找跳
，左前、前到边，只有向左寻找到跳 Q并加 openset中（根上中“ 义二”
第2 ）。
从openset中取出F 最 Q，并从openset中删，加 closedset中，Q 当前向为直线
向，Q 左后不可走且左、前可走，此沿左、左前、前寻找跳，左前、前到
边，只有向左寻找到跳 E并加 openset中（根上中“ 义二” 第1 ）。
从openset中取出F 最 E,E是标，寻路束，路径是S,G,I,Q,E。
注意：这里不考虑从H能走到K 况，因为角线向阻，如需要H到K能到达，则路
S,G,H,K,M,P,E，修跳计即可，但在中如 H到K能到达，则会越H右边阻。
上述JPS算法寻路是明显快于A*算法，从S到A沿直向寻路， A ，果 A*算
法， F、G、B、H 加 openset中，是 JPS算法中，这4个不加 openset中。为S,A,F
路径度比S,F路径，所以从S到F 最短路径不是S,A,F。同，S,A,G也不是最短路径，根上
中“ 则二” 第1 ，走到A后不走到F、G，所以F、G不加 openset中。 S,A,H是从S到H 最
短路径，是为存 S,G,H 最短路径且不经过A，根上中“ 则二” 第1 ，从S走到A后，下一
个走不是H，此H也不加 openset中。根上中 “ 则三”,B不是跳，也不加
openset中。实际上，从S到E 寻路过程中，进 openset中只有S、G、I、Q、E。
图9.3所示为 A*和JPS 算法寻路消中对比，其中 D.Age:Origins、D.Age2、StarCraft
分别代戏《龙世纪：起》《龙世纪2》《星际争》景图集合；M.Time 示操作
openset和closedset ；G.Time 示索后。可见 A*算法约有58% 操
作openset和closedset,42% 索后； JPS算法约有14% 操作openset和
closedset,86% 索后。 openset中加太，从过护最（
、删杂度为O（logn）），是JPS算法比A*快原。
图9.3 A*和JPS算法寻路消对比
9.3 JPS算法优化
9.3.1 JPS效率优化算法
JPS-Bit 过位运算加速寻找跳。JPS-Bit和JPS-BitPrune 持动态，当动态出现
，格标记为；当动态消，格标记为。图9.4所示，黑分为，
设当前位为I，当前向为右，1代不可走，0代可走，则I当前 B 8个格可 8个
bit:00000100 示，I 上一 B− 为 00000000,I 下一 B+ 为 00110000 。 CPU 令
__builtin_clz（B）（返前导0 个） B 寻找位，可得当前第5个位（从0开
）。 __builtin_clz（（（B−>>1）&& !B−）||（（B+>>1）&& !B+））寻找B 跳，，
本中（ B+>>1 ） && !B+ 为（ 00110000 >> 1 ） && 11001111 ，即 00001000, （ B−>>1 ） &&!B 为
00000000,__builtin_clz （（（ B−>>1 ） && !B− ） || （（ B+>>1 ） && !B+ ））为
__builtin_clz（00001000）为4，所以跳为第4个位 M。
图9.4 寻路问示景（3×8 格）
JPS-BitPrune JPS-Bit 础上剪枝优化，剪掉不必中跳（见上中“ 义二” 第3

）。中跳拓展过程中只具有承作，不具拓展价，中跳加 openset中加
拓展次，此JPS-BitPrune 中跳删，并中跳后跳跳为中跳
跳。
JPS-BitPrune 找到路径中加拐（中跳），得每两个相路径之是
直、水平、对线向可达。设前找到路径为start（jp1）,jp2,jp3,…,jpk,end（jpn），对
于每两个相跳 jpi、jpi+1：
① 果jpi、jpi+1 x 标或 y 标相等，则说明这两个跳同一个水平向或直向，可以
直线到达，须这两个跳之加拐。
② 果jpi、jpi+1 x 标和y 标不相等，么：
● 果x 标差dx（即jpi x 标去jpi+1 x 标）和y 标差dy 绝对相等，则说明这两
个跳对线向直线可达，须这两个跳之加中跳。
● 果dx和dy 绝对不等，则说明这两个跳对线向不直线可达，此 jpi、jpi+1之
就加中跳，即jpi沿对线向走min（dx,dy）到达。
图9.5所示，起为S（1,1）， 1、4、6 为中跳 —— 为 2、3是足“ 义二”
跳，所以 1是为了到达 2、3 中跳；同， 4、6也为中跳。剪枝中跳之
前，中跳后调为该中跳。 1 后跳为 2、3、4，
其中 4也为中跳，删掉中跳 1后， 2、3 跳 1 为 S；删中跳
4后， 4 后跳 5 跳 4 为 S（ 4 跳为 1， 1已经删
，此溯到 S）；删中跳 6后， 6 后跳 7 跳 6 为 S（ 6
跳为 4， 4已经删， 4 跳 1也删了，此溯到 S）。
图9.5 JPS-BitPrune 剪枝优化示
寻路中，从 S寻找跳，先找到中跳 1，后水平向和直向寻找到跳

2、3， 2、3 跳设为 S；沿对线向寻找跳，走到 4后，沿水平向和直
向寻找到跳 5， 5 跳设为 S；沿对线向寻找跳，走到 6后，沿水
平向和直向寻找到跳 7，跳 7 跳设为 S。此， JPS-BitPrune 得路径
S（1,1）、 7（4,6）。为路径中S（1,1）法沿直向、水平向、对线向走到
7（4,6），加中拐。根上述拐加策， 6（4,4）可作为中拐。此，JPS-
BitPrune构建路径为S（1,1）、 6（4,4）、 7（4,6）。
下过对比剪枝前后从 S到 7 寻路过程，来说明剪枝优化。
不剪枝中跳：
（1）从 S 索跳，找到跳 1，此 openset中只有 1。
（2）从openset中取出F 最跳 1，并索 1 后跳，沿水平向和直向找到
跳 2、3，沿对线向找到跳 4，此 openset中有 2、3、4。
（3）从openset中取出F 最跳 4，并索 4 后跳，沿水平向和直向找到
跳 5，沿对线向找到跳 6，此 openset中有 2、3、5、6。
（4）从openset中取出F 最跳 6，沿直向找到跳 7，此 openset中有 2、3、
5、7。
（5）从openset中取出F 最跳 7，为，索束，此路径为
S（1,1）、 1（2,2）、 4（3,3）、 6（4,4）、 7（4,6）。
剪枝中跳：
（1）从 S寻找跳，先找到中跳 1，后沿水平向和直向寻找到跳 2、
3， 2、3 跳设为 S；沿对线向寻找跳，走到 4后，沿水平向和直向
寻找到跳 5， 5 跳设为 S；沿对线向寻找跳，走到 6后，沿水平
向和直向寻找到跳 7，跳 7 跳设为 S；沿对线向寻找跳，到，索
终止，此 openset中有 2、3、5、7。
（ 2 ）从 openset 中取出 F 最跳 7，为，索束，此得路径为
S（1,1）、 7（4,6）。不同于剪枝 JPS算法拓展中跳 1、4、6， JPS-BitPrune中，
1、4、6作为中跳剪枝，有了拓展，寻路得到提升。
JPS-BitPre 旧 JPS-Bit中位运算，其中则是对每个存 8个向最走步
step 。果图是N × N，每个向最走步 short 示，则存空为
N×N×8×16bit，果N 为1024，则存空为16MB。于存空占较， JPS-BitPre
权是否以空。另，1024× 1024个格图 1s ，2048× 2048 图
为1 左右。JPS-BitPre和JPS-BitPrunePre 不持动态，为动态导致8个向
最走步发变化。
step 跳、、边等决，果到跳，则 step 为走到跳步；否则，step为走
到或边步。图9.6中 N ，向上最走到 8,step为2；向下最走到 4,step为
4；向左最走到 6,step为3；向右最走到 2（ 2是足“ 义二”第2 跳）,step为
5；向左上最走到 7,step 为 2；向右上最走到 1（ 1是足“ 义二”第3 跳
）,step为1；向左下最走到 5,step为3；向右下最走到 3（ 3是足“ 义二”第3
跳）,step为3。
下过对比前后从 N到 T 寻路过程，来说明优化。
图9.6 JPS-BitPre寻路景示
JPS-Bit：
（1）从openset中取出 N，沿8个向寻找跳， 1、3、11是足“ 义二”第3 跳
，加 openset中； 2是足“ 义二”第2 跳，加 openset中。
（2）从openset中取出F 最 11，沿直向找到跳 T，加 openset中。
（3）从 openset 中取出 F 最 T，为，索束，路径为 N（4,5）、
11（3,4）、 T（3,3）。
JPS-BitPre：
（1）从openset中取出 N，沿8个向寻找跳，根得到各向 step，可以快速确
8个向最远到达 {1,2,3,4,5,6,7,8}，图9.6所示， 1、2、3 为足“ 义二”
跳，直加 openset中。后判终 T位于以N为中心下、左下、左、左上、上哪
分，为T位于左下，只有 5位于左下，此 4、6、7、8直过。从N到5 向上，
step 为 3 ， N和T x 标差绝对 dx 为 1,y 标差绝对 dy 为 2 ，从 N到 5 向上走
min（dx,dy），得到 11，加 openset中。
（2）从openset中取出F 最 11，沿直向找到跳 T，加 openset中。
（3）从 openset 中取出 F 最 T，为，索束，路径为 N（4,5）、
11（3,4）、 T（3,3）。
过对比发现，JPS-BitPre和JPS-Bit找到路径是一样。，于JPS-BitPre 须每一步
拓展过程中沿着各向寻找跳，是根 step 快速确 openset 选，从提
了寻路。
图9.7所示，寻路算法法找到从S到E 路径，败寻路费远于成功寻路费，
为败情下历所有路径。为了这种情，每次寻路之前，先判起和终是否
可达：果起和终同一个连区，则起和终可达，否则不可达。只有起和终可达，
去寻路。
图9.7 不可达两 S、E
先计算Grid 格连区，算法下：
只度优先索，度优先索递归层次太，导致栈出。图9.7所示 S、1、2
连区号为1， 3、4、E 连区号为2,S、E连区号不同，此S、E不同一个
连区，不寻找路径。
计算连区算法下。
（1）当前连区号num初化为0。
（2）对Grid 格每个 current重以下工作：
① num++。
② 果current是，则跳过。
③ 果current 访问过，则跳过。
④ current 连区号记为num，标记已访问过。
⑤ 度优先索和current 连所有，连区号记为num，并标记已访问过。
openset 最实现，最底层构是一个组，最、删、查找杂
度为O（logn）。JPS算法繁 openset和closedset中判跳是否存，此这里以空
法对最查找进优化，查找杂度为O（1）。
对于1km × 1km 图，构建2000× 2000 二组matrix，组每个素pnode 为一个
，对象类包 ID、是否展过（expanded，即是否 closedset中）、G 、F 、跳
parent、最中索引index等12个字。果图（x,y）是索到跳，么先检
查 matrix（x,y）是否为空，果为空，则示该跳之前未索过，从存池中new出一个
跳，加到最 openset中，并 shift up、shift down之后，matrix（x,y）.index记
录跳最中索引；果不为空，则示该跳之前索过，先检查expanded标记，果标记
为真，则示 closedset 中，直跳过该跳；否则，果 matrix （ x,y ）和
openset（matrix（x,y）.index）相等，则示 openset中。戏服务器普单进程线
程架构，为了持线程JPS寻路，一变量明为线程有thread_local。，上中提到
为了优化openset和closedset 查找速度，构建二跳组matrix。该组必须为线程
有；否则，不同线程寻路， matrix 素向跳，导致寻路误。，A线程
展跳后， expanded标记为真，B线程再试图展该跳，发现已经展过，就直跳过。
9.3.2 JPS内存优化
果 0.5m × 0.5m 格粒度，每个格占1bit，则1km × 1km 图占存约为
2000× 2000/8字，即0.5MB。为了上、下两个向也过取32位得32个格息，
存图转90°后息。上中不可达两提前判，存连息，设连区
最为15个，则存为2000× 2000/2字，即2MB。么，总存为：原图息
0.5MB、转图息0.5MB、连息2MB，即3MB。
另，为了优化openset和closedset 查找速度，构建二跳组matrix，为2000 ×
2000×4字，即16MB。为了持线程，该matrix 组必须为thread_local,16个线程存
为16× 16 MB即256MB，存空太，此优化这分存。
先 2000× 2000 分成 20× 20 个，每为 100 × 100 。 20× 20 个为第一层组
firLayerMatrix,100 × 100为第二层组secLayerMatrix。firLayerMatrix 400个素为400个
，每个初化为空，当历到跳属于 firLayerMatrix（x,y），则从存池中 new
出100 × 100 secLayerMatrix,secLayerMatrix 每个素也是一个，向从存池中new出
一个跳。
，索 2000× 2000 个格图，（ 231,671 ）位找到一个跳，先检查
firLayerMatrix （ 2,6 ）位是否为空，果为空，则 new 出 100 × 100
secLayerMatrix。 secLayerMatrix（31,71）检查跳是否为空，果为空，则从
存池中 new 出跳，加 openset中；否则，检查跳 expanded标记，果标记为真，则示
closedset中，直跳过该；否则示 openset中。
戏中 NPC 寻路为短距离寻路，此可以 JPS 寻路区制为 80× 80 ，一个
secLayerMatrix是100 × 100，此JPS寻路区可一个secLayerMatrix 示。么，两层matrix
为：20× 20 ×4字 +100 ×100×4字，即0.04MB。 16个线程下，总存为：原图
息0.5MB、转图息0.5MB、连息2MB、两层matrix 0.04MB× 16， 3.64MB。戏中
景最不到20个，所有景JPS总存不到72.8MB。
寻路，每次一个跳加 openset中， new出对应跳对象，跳对象中存
ID、、寻路消等 12个字。为了存碎片，以及低繁new 消，管
存池。每次new 对象，从存池中请，为了止存池过，制索步。存
池是真正存之前，先请分一量、相等（一情下）存作。当有新
存求，就从存池中分出一分存，存不再请新存。
这里存池有两个：
（1）跳存池，初为800个跳，当new出跳超出800个，即止寻路。设
NPC 寻路上距离是20m，则寻路区积是40m × 40m，格为80× 80即6400个，经计跳
占所有格比不到1/10，即跳于640个，此800个跳足了，占存
800字 × 12，即9.6KB，忽不计。
（ 2 ） secLayerMatrix 向 100×100×4 字存池，为每次寻路至一个
secLayerMatrix ，果每次寻路重新请，寻路后再，则造成开销。此，
secLayerMatrix 向 100×100×4 字空也存池中， secLayerMatrix 存池占存
0.04MB。
9.3.3 路径优化
图9.8所示，A为起，C为终，B为跳，实线为JPS 索出来路径，线为索过程。可以看
出，从A到C可以直线到达， JPS 索出来路径却转一次，戏现上，显得比较怪。
此， JPS 索出来路径后，现上对路径进优化。比 JPS 索出来路径有A、B、C、D、E、
F、G、H 8个，走到A ，样检查A、C是否直线可达，果A、C直线可达，再检查A、D是否直线
可达，果A、D直线可达，则检查A、E，果A、E直线不可达，则路径优化为A,D,E,F,G,H；走到D
，再检查D、F是否直线可达，果D、F直线可达，则检查D、G，果D、G直线不可达，则路径优
化为A,D,F,G,H。此类推，直到走到H。为样检查速度很快，约占JPS寻路 1/5，且只
有当走到一个路后，样检查该路之后路是否可以合并，样消平摊走过程中，
此样消可以忽。
图9.8 路径优化案
9.4 GPPC比赛解读
9.4.1 GPPC比赛与地图数据集
于Grid 格寻路一直是广泛研究问，也有很已经发算法，是这算法没有
相互比较过，此辨优劣，选择算法也有很。为了决这个问，国丹佛
Nathan R.Sturtevant 授创办了于 Grid 格寻路比赛： The Grid-Based Path Planning
Competition，简称GPPC，前已经 2012年、2013年、2014年举办过3次 [2] ，下主讨论GPPC
2014。
GPPC 比赛图集 9.2所示，图主分为戏景图和造图。其中来戏
景图有3类：Starcraft（《星际争》）、Dragon Age 2（《龙世纪2》）、Dragon
Age:Origins（《龙世纪：起》）,3类戏分别提 11、57、27张图和29 970、54 360、44
414个寻路问。
9.2 GPPC比赛图集
来造图也有3类：Maze（迷）、Random（随机）、Room（房），这3类分别提
和18、18、18张图和145 976、32 228、27 130个寻路问。6类提 149张图和334 078
个寻路问。图9.9给出了3类戏景图示，图9.10给出了3类造图示，其中黑代
区，白代可走区。图从100 × 100个格到1550× 1550个格，6类图分布图
9.11所示，横标是格，纵标是图，最图来 Dragon Age:Origins，最图来
Starcraft和造。
图9.9 GPPC 3类戏景图示
图9.10 GPPC 3类造图示
图9.11 GPPC 6类图分布
9.4.2 GPPC的评价体系
GPPC 相同下运参赛算法，其中CPU 是Xeon E5620，核器，2.4GHz主，
12GB 存。为了消误差，GPPC 求对每种参赛寻路算法 334 078个寻路问上运 5 ，寻路
334 078×5，即1 670 390次，所以下绍总运等标是寻路1 670 390次果。其中运
包加载和寻路，并不计算运。
GPPC 义下13个标来评价寻路算法（其中，路径示从起到终路径）。
● Total（s）：寻路1 670 390次所费总。
● Avg（ms）：寻路1 670 390次平。
● 20 Step（ms）：寻找到路径前20步所费平。该标量最快久可以跟随路径，
实互戏中，该标很重。
● Max Segment（ms）：每条路径最段寻路平。该标量实互中，寻路算法
最差情下现。
● Avg Len：路径平度。果A寻路算法路径上现，短路径上现不；B寻路算法
路径上现不，短路径上现，则A 该标优于B 标，为Avg Len 加主来路
径。该标向于路径上现寻路算法。
● Avg Sub-Opt：寻找到路径度/最优路径度平。果A寻路算法路径上现，
短路径上现不；B 寻路算法路径上现不，短路径上现，则B 该标优于A
标，为1 670 390次寻路路径是短路径。该标向于短路径上现寻路算法。
● Num Solved： 1 670 390次寻路中，成功。
● Num Invalid： 1 670 390次寻路中，返误路径。误路径是路径相路
法直线到达。
● Num Unsolved： 1 670 390次寻路中，没有寻找到路径。
● RAM（before）（MB）：寻路算法加载后，寻路之前占存。
● RAM（after）（MB）：寻路1 670 390次后占存，包所有寻路果占存
。
● Storage：占硬。
● Pre-cmpt（min）：费，图9.12中该列字之前 “+” 示并计算进
。
图9.12 参加GPPC比赛 22种算法果对比
9.4.3 GPPC参赛算法及其比较
到前为止，参加GPPC比赛算法有22种，其中参加GPPC 2014 有14种，可致分为下4类：
（1）对A* 进， Relaxed A*（RA*）和A* Bucket。
（2）利格算法， Jump Point Search（JPS）和SubGoal Graphs。
（3）先成意两第一个路压库， SRC。
（4）于优先级算法， Contraction Hierarchy（CH）。
图9.12给出了参加GPPC比赛 22种算法果对比，其中前14种为参加GPPC 2014 算法。第1列
（Entry列）为算法名，其后13列给出了每种算法 13个标上现。第1列中加粗算法示该算
法某标上达到帕累最优，该算法所加粗标，示帕累最优标。帕累最优
示：没有其算法帕累最优标上优于当前算法。，JPS（2012）帕累最优标为第6
个标Avg Sub-Opt和第12个标Storage，示没有其算法这两个标上优于JPS（2012）。22
种算法没有严格优劣关系，只是不同标上现各有优势，可于对不同标具求来
选择适合己算法。
下给出所有 GPPC比赛中得帕累最优算法，本章绍 JPS算法位列其中。
● RA*（2014）：第10个标RAM（before）和第12个标Storage帕累最优。
● BLJPS（2014）：第2个标Avg、第6个标Avg Sub-Opt和第12个标Storage帕累最优。
● BLJPS2（2014）：第2个标Avg、第6个标Avg Sub-Opt和第12个标Storage帕累最优。
● RA-Subgoal（2014）：第2个标Avg和第12个标Storage帕累最优。
● NSubgoal（2014）：第2个标Avg、第6个标Avg Sub-Opt和第12个标Storage帕累最
优。
● CH（2014）：第2个标Avg、第6个标Avg Sub-Opt和第12个标Storage帕累最优。
● SRC-dfs-i（2014）：第3个标20 Step和第4个标Max Segment帕累最优。
● SRC-dfs（2014）：第2个标Avg和第6个标Avg Sub-Opt帕累最优。
● JPS（2012）：第6个标Avg Sub-Opt和第12个标Storage帕累最优。本章主 JPS 未
算法中Avg Sub-Opt 现最优。
● PDH（2012）：第3个标20 Step和第12个标Storage帕累最优。
● Tree（2013）：第2个标Avg帕累最优。
参考文献
[1]Daniel Damir Harabor,Alban Grastien.Online Graph Pruning for Pathfinding on
Grid Maps.ResearchGate,January 2011.
[2]Nathan R.Sturtevant.The Grid-Based Path Planning Competition.Ai
Magazine.35（3）:66-69,September 2014.
第10章优化MMORPG开发效率及性能的有限多线程模型[2]
作者：鲁
摘要
MMORPG 为涉及量野感知，别是对有帮战、国战法品类，80%以上性消
Obj 移动、战、AI、属性同步等有野感知模上，低于20% 剩下所有逻辑，后
开发成本却占个开发成本 80%以上，这是MMORPG性分布性和开发成本性 “二八法则”。
单线程单进程模不足以承载过，是开发最；进程单线程模设计有很
展性，是同步以及异步调带来很开发和调试成本；线程模实际 MMORPG开发
中，也涉及加锁以及量异步调，开发和调试成本也不低。
有线程模期可以决以上问，平开发成本和性问。其核心设计思想是后台一次
tick严格区分成上不重叠两个阶段：单线程阶段和线程阶段。单线程阶段绝
分常请求，比加友、易等，是可以跨景随意访问，不线程问，单
线程一样程序即可；线程阶段景耦合度低消操作，比 AI、移动、战、属性同
步等。
10.1 引言
论是端还是，MMORPG 仍旧占着常市，很 MMORPG 戏运已经超过10
年，成功端也移植到了。后台服务器架构上，期端服务器于硬件制，
GameServer（为了后叙述，戏核心逻辑服务器一称为GameServer）了进程
分布式设计，至进程线程设计，往往投开发精力也很。本章简单绍前讯平台
主 MMORPG 戏架构设计以及对开发成本影响。
10.1.1 多进程单线程模型
讯研 MMORPG 戏 GameServer上一了单线程设计，以《御龙天》、《天涯明月》
和《》为，是进程单线程架构，这和讯后台设计系里 “ 系 ” 思想有渊
。这种架构很明显：先是离，单GameServer宕机不影响服，单线程操作让
开发也须心；其次是展性强，过分布式，可以到几万同线，比《御龙
天》单服承载可以达到4万以上。憾之一是为了充分利核CPU，往往一台机个
GameServer ，为进程存，实际机器存很；憾之二是异步逻辑过，
GameServer往往负责“否” 判，很 “是” 判和必须到中控Server上，并且还
同步到各个GameServer，即引了coroutine等来简化异步逻辑，同步和量异步调也
仍让开发成本很。
10.1.2 单进程多线程模型
讯引 MMORPG 戏，和系本了单进程线程架构，比《天龙八》和
《世》两款，以及云 Skynet，没有存弊端，也充分利核优势，不
中控Server同步。这种模式也有不之，先，为了操作简单异步调，很互法
约束了必须站同一个景上，给策划加以制；其次，为了加锁，又证性，有
跨线程调了很消息，过Service 式提服务，这种异步法太，仍旧比较杂；
最后，戏开发和软件开发区别很，求随着市持迭代动，代码设计之初模划分
晰，经历干次后耦合度越来越，线程加出概。于以上原，开发仍是其弊
端，往往涉及力。
10.1.3 单进程单线程模型
对MMORPG 优化本操作展开，过性分析工具，一位到操作着野
感知展开（性随着野加呈几级提升），其中包：野算法本身优化、野剪
低运算和络量量级。过极致优化，单进程单线程也足分MMORPG 求，很，
承载求只开服前几个。从运度看，为单服导量有和服策，可并不
过 PCU 撑，比《剑侠情》架构设计也只足2500 线即可，《》单
进程单线程跑 Windows机器上，承载压可达4000 ，讯研《仙剑侠 online》同样也是单
进程单线程模，单服也承载3500 线。单进程单线程有一个最优势，就是开发和调试成
本低，易于护，适于制紧张。是，优化到一阶段，到达性期以后，再有较突
破出很优化成本去提升。
10.2 有限多线程模型
过和业朋友，发现MMORPG有一个同，就是80%以上开发成本消正常逻辑
上， 80%以上性消和野有关模上。比《御龙天》，移动包和技包 CPU消
上占比之和 30%以上；战得比较《天涯明月》战，技逻辑消就 50%以上；
另一款讯研 MMORPG，为有后台寻路、素判、为树义杂AI以及分段技设计，CPU
消比同类品， 2018年10月试期，得一天CPU 分布，图10.1所示。
图10.1 MMORPG 一天CPU 分布
MMORPG后台主有两动力，一是消息动，包含上协议动和其 Server 消息

动，这分主来是战请求包和移动请求包，移动和战占这一分 80%左右性消；
二是器，包含各系心跳逻辑以及各个Obj 心跳逻辑，承载5000个线，怪和NPC
往往达到10万个之，此器主来是景心跳（AI、CD检查、敌等），这分占
个CPU 75%左右。这两分组成了区，累计占比达90%，同是有很跨
景操作，以及量公模访问（比件、帮）。另 10%是UI上各种请求操作，以及
挂、帮己心跳逻辑等，代码量极，耦合度很。么，有没有一种可，让区线程
并起来，又不影响其区代码杂度呢? 于以上设提出一个“有线程模 ”，其核心原
很简单，就是 GameServer 每一帧分成上不重叠两个阶段，即单线程阶段和线
程阶段，单线程耦合度、计算量代码，线程并计算量，耦合度低代码，图
10.2所示。
图10.2 有线程模线程阶段

从论上我看看有线程模想情下对性影响，原来单线程设计性消，
设离给线程并计算占比为mt，单线程占比为st， 8核下锁运，性随着
st 短提升，么公式：
e=1/（（1−st）/8+st）
果st=20%，性可以提升333%；果st=10%，性可以提升470%。后我从实际运果上
看，性峰刻，st占比平远于20%，至可以弱化到5%以，MMORPG 这种殊性给有
线程带来很提升空，图10.3所示。
图10.3 有线程模性价比
10.3 使用OpenMP框架快速实现有限多线程模型
于以上绍原，有经程序员须费太精力，可以己实现这么一框架。果想先
过几代码证一下，则推 OpenMP试试。OpenMP 一种可移植、可模，提给程
一个简单口来开发并应，持平台存 C、C++、Fortran 器程，可以
运绝器架构和操作系上，包 Solaris、AIX、HP-UX、GNU/Linux、Mac OS X和
Windows平台。译器令集、库和环变量组成，影响运为[1]。果以前没有过
OpenMP，建议先快速看看 OpenMP 快速章[2]，这里不述。
OpenMP 框架图 10.4 所示，这是一个 OpenMP 经典运模，一从一个主线程（ Master
Thread）开运单线程模式下，到 barrier（比从左到右第1个）后，进线程模
式， barrier（比从左到右第2个）是等待所有线程务成后，再次进单线程阶段
。这个设计思路和有线程模度匹，过几个令就可以构建有线程模。
图10.4 OpenMP框架
OpenMP里最经典 for语句这里并没有，这是为for语句每次循环有线程以及线程私有

请和销毁开销，概是毫秒级别，for 语句不适于每秒有几十次循环 MMORPG 戏服务器架
构，此选择了task模式[3]。我一次景心跳分成两分，一分运单线程模式下，命名为
TickSingle；另一分运线程模式下，命名为TickMulti。一旦运线程阶段，就一个
景 TickMulti 当作一个 task，给OpenMP进线程并计算。模一下戏循环，
每次tick至客端请求以及各个景心跳逻辑。以下为有线程实现核心码中，尽
量标所到 OpenMP标识，对业务逻辑了尽量简化，可以看到真正动就几个以#pragma开
令。
● parallel 令：义并区，#pragma omp parallel[clauses]，持个或个句。
● num_threads 句：parallel 令句，义线程。
● master 令：只有主线程程序分。
● task 令：义务，线程组某一个线程下来每一个务。
● taskwait：设 barrier，这个令证前 task 已经成，后往下
。
于以上代码，所有可以线程逻辑 Scene::TickMulti（）即可，以景
TickMulti 为task切分是最适合MMORPG ，OpenMP 证一个task只一个线程中，不再
次切分。当各个译器有集成，译，加选项-fopenmp，不引库
件即可译成功。有机上，繁忙可出现CPU 升，启动之前设环变量，让单
线程阶段其 CPU 策是“ 动息”即可。我可以启动本中加下语句：
得一提是，我分消息也延后给了线程阶段，对这分消息有两个求：一是逻辑简单，

没有跨景和局变量操作；二是受序乱，这个消息包和其分没有过赖关系。
之前，我很想选择移动包和技包延后到线程阶段，更细致建议可以参下一。
10.4 控制多线程逻辑代码
以上实现看上去很简单，下来我分析哪事情可以到线程阶段去，哪可以到单线程阶
段去，以下是建议单线程阶段逻辑。
● 对于局变量（global、static和单件）有尽量单线程阶段，比发件、组相
关、变帮等。
● 跨景有互尽量单线程阶段，比加伍成员后同步息给所有员、两个可不
一起私等。
● 代码逻辑很杂、未来展性很强功，比录、切景等。
● 其尽量代码单线程阶段，有较性消，再去线程。
最后一条常重，是有线程模 “有 ”所，我还是尽量证代码简单，为线
程得越，决问就越，开发成本和性上就。笔业务中，线程阶
段主是以下分，且是于压决，这分性消已经于90%。
● 动逻辑只包含移动和技。
● 移动和技心跳逻辑、AI逻辑。
● Obj 属性计算和更新。
● 为了决录 tps，分录事情延后到了线程阶段，比战力计算、阵计算等。
● 为了决切景消，切景后野更新延后到了线程阶段。
● 以性压为础，出现 top20 模中且和跨景、局关，其不建议
线程阶段。
10.5 异步化解决数据安全问题
一个线程进程同步和本身就是一个课，有线程模也有线程阶段，这个问就
不，杂问尽量让单线程阶段管是简化主意。果是一个MMORPG 从业，
可现就出，代码耦合度太，法证线程阶段不调到“不 ” 。举一个
易碰到：技可发死，死调 OnDie（）口，这个口是开
性，系可这里新或调，比可让单件实件系发一件，
造成件存局变量变（设件系没有象成立服务），这种情试图线程
程序中变局变量，这是不。以下代码可以说明这个。
为了加锁有逻辑，线程程序往往消息列异步化，给一个线程去

变。有线程不是刻运，当前景这次心跳 A线程，下次可 B线程，不简单发
消息给对应线程，是可以延后到下次单线程阶段去。这种情过一个消息，合
C++ 11 Lambda 达式，常易实现。以下代码示了果线程阶段到发件请求，则延后到
单线程阶段去过程。得意是，这个不过于繁，止性消消息上，性
占比上也应该是很分。
10.6 对“不安全”访问的防范
果某不是线程，并且造起来又有较成本，则应该明确拒绝运线程阶
段，让出异常。以加伍为，这个操作后很杂，我就明确让加伍
只运单线程阶段，有担心万一从线程阶段调过来怎么办? 此有一种和检查
机制，式是提一个名为CheckSingleThread 进检查，一旦发现线程阶段调，后
台开发员就到短或微提，很快就可以根栈息异步化。以下码示了异常且
告警过程。
同样，有运线程阶段，是我不希望其线程调过来，比景 Obj上
，为可引起冲突。同，也可以加一个对线程和检查 CheckMutilThread，
标识只运线程上。以身上属性设底层口为，这个口可变、、速度
等各种身上变量，我不希望有跨景访问，就可以明确出来。以下代码示了设
属性，果有法跨线程调就出异常且告警过程。
CheckSingleThread和CheckMutilThread对我帮助很，适当让我常快找到了

应该，并且过SingleDo延后到单线程阶段，访问冲突，以告警来动，
很。笔项试阶段毕后，引试后没有为线程访问导致冲突告警发
，控制线程代码量越，就越。
10.7 拆解大锁
加锁是不建议，是不绝对开，比底层发包口、底层日志口，持线程调，
么就很可有量加锁。提到加锁，是很疼问，正为戏逻辑杂、求不稳
，很易造成死锁，以及对担心。有线程不是量线程，只有量代码线程阶
段，其实是比较易控制。
先，建议先一锁（看上去是不成为），所有加锁逻辑，先不
，优先快速让代码跑起来，并且至不死锁。这锁具有建计，记录冲突日志和冲突
，后我根冲突计优先级，逐个锁去掉或分，这样至证版本造期是
稳，不为锁导致工。锁代码很简单，先试上锁，果有冲突则记录冲突，CPU
实现参 [4]。以下码简单示了记录锁冲突过程。
下来就是根实际优先级来去锁化，我标应该是每一帧不为锁冲突有明显

（线程阶段占比千分之一以）实际，后分析几个锁经。
利线程局变量加锁，这种式起来往往最简单，比之前一个返 static变量
，我只简单这个变量明为thread_local变量即可。对于C++ 11以下版本，果没
有这个标识符，OpenMP本身也提了强 private 句可以变量进线程私有化，并且还提诸
初化机、退出并区是否恢等操作[1]，这里不再述。
以下码可是程序原来存一个，之所以有 static 变量，计是为了繁
构造和析构，也可是为了单线程下调。是果这个运线程下就出问，可
个线程同读，成thread_local static MyStruct s_mydata 后，就不存线程冲突
问了。
另一种更常见情是，我希望线程阶段读操作是，么就尽量操作单线
程阶段，比伍和帮。线程阶段可以制读，有线程情下，确实证绝分
操作本身就单线程阶段，仍旧有，我就尽量操作加上CheckSingleThread检查。
这里举一个更典，来说明根具情去分析。比当两个帮宣战后，记录
计，为帮战同发个景中，此有跨线程访问可，所以最初代码可先加锁
证。码下：
是，这是一个事件，过锁计发现这里冲突较，对map和set 红黑树实现，

我知果不，读也不，果加锁，线程读也同样加锁。个延后到单线
程阶段是可，是操作异步化本身也有不开销，看很平。果只有树新操作
延后到单线程阶段，么不变树构情下，线程阶段是可以读，造成下代码后，
没有锁操作，又异步化为了低操作。
以上两个简单是想说明对于锁，果有证明可影响，么就过具分析尽量
到去锁化或加锁。另，果确和业务逻辑关不，么就可以拆分成锁。
10.8 其他建议
LuaJIT 为有2GB 存制（截至前，最新版本对64位持是默认关闭，不建议
Release阶段），果线程量较，则有可出现存不情。果移动、技、AI
上没有过 Lua，么建议还是 LuaJIT 持。果戏线程逻辑过于赖Lua，么
原 Lua 持线程运也是不选择。
以景心跳为一个task，每个task 并不平，线程阶段出现线程负载不情
，想标是线程平分担，这让线程阶段短。task 调度 GCC 模式下本是先
来先服务（FIFO），调度式比较变，是可以决哪个 task 先给OpenMP，给线程之前，我
对 task 上一帧进序列，这样就证操作先，以最可不让
个线程末期等待一个 task 成，进单线程阶段，从提了帧。
参考文献
[1]OpenMP.https://www.openmp.org.
[2]OpenMP 总 .https://www.cnblogs.com/pdev/p/10559045.html.
[3]OpenMP.https://computing.llnl.gov/tutorials/openMP/#Task.
[4]RDTSC 令实现纳秒级计器，
2010.https://blog.csdn.net/gonxi/article/details/6104842.
第五部分游戏脚本系统
第11章 Lua翻译工具——C#转Lua
作者：罗华、陈钢
摘要
本章绍一种C#代码转Lua代码译案，简称TKLua 译案。 TKLua 译案，开发项
可以 C#语进开发，发布项 C#代码译成Lua代码。项开发顾C# 开发
，项发布后又受Lua动态语利，适于有代码更新诉求 Unity 机戏。
TKLua 译案具有一性，与译案不同，了译程序集译代码
形式。该案利标 C# 译器译果成了级语性分析，幅度低了译度。其译
原是：
（1）利 Mono Cecil[1]库分析程序集中类、字段、法签名，后其译成对应 Lua所模
类构。
（2）过ILSpy [2]工具分析IL 令集，重建语句达式组成 AST（象语法树），并译成对
应 Lua 法。
（3） Lua类构与Lua 法合并成 Lua代码。
同样原，还可以 C#代码译成其语， JavaScript，以快速移植到微戏等平
台，从实现同一代码译到个语平台，了重开发工作。
11.1 设计初衷
机络戏客端对代码更新有很强诉求， Lua开发是实现代码更新常案。
果项模比较，往往开发练 Lua，设计常合码，输出质
量 Lua代码。于Lua是弱类语，运前以态分析（这也是TypeScript[3] 决核心问
），导致出现下列影响开发问。
● 绝分情下，IDE 以提成员动提示，这不是IDE设计问，是弱类语
性决。
● Lua 译期所检查误常有，许问运暴出来。
● 没有试盖情下项以重构，对于戏客端来说，试盖成本相对比
较。
本章绍 TKLua是一种极低成本译案，设计初是让开发过程对Lua 感知，开发
C#开发，运和发布，一 C#代码译成Lua代码。程序员受C# 强类、类推导、类
检查带来利性，又受译后Lua动态语更新优。
11.2 实现原理
11.2.1 参考对比行业内类似的解决方案
业已经有一决类问成案，列举下。
● Haxe[4] ：一种新程语，其译器可以 Haxe语译成其语，比
JavaScript、ActionScript、PHP、C++等。
● Bridge.NET[5]：这是一个开项， C#语译成JavaScript。
● TypeScript[3]：微软公司出品，是 JavaScript 一个严格超集。是加了态类和于
类向对象程，语格常 C#。其设计标是开发应，后转译成JavaScript。
以上决案是从码开，经过词法分析、语法分析等常译过程，合工程杂度较
。
TKLua 译案是从标译后程序集Assembly[6] （本章称“程序集”）开，相比
码，程序集构简单得。助程序集分析工具，可以很提取和程序构和令息，进
转输出逻辑达和原程序集一致 Lua代码。
11.2.2 翻译原理
TKLua 译案了译程序集形式，直译代码。该案利标译器译成
了级语性分析，幅度低了译度。
译器主原是利两个成开库，即 Mono.Cecil和ILSpy。其中 Mono.Cecil负责从程
序集中提取类、字段、法；ILSpy则负责分析法令序列。
TKLua 构图11.1所示，底层有两个开库Mono.Cecil和ILSpy（ILSpy 于Mono.Cecil），
译器分析器（ Analyze ）、类成器（ Type Generator ）和达式成器（ Expression
Generator）组成。
图11.1 TKLua 构图
● Analyze：分析程序集参和程序集关系。
● Type Generator：分析程序集中类、字段、法，成对应 Lua 构。
● Expression Generator：分析法，利 ILSpy重建 AST（象语法树），成对应 Lua
达式。
11.2.3 翻译流程
当C# 代码经过译得到程序集之后，译程上经过三步对程序集进分析和成，图11.2
所示。
（1）类构译，过Mono.Cecil分析程序集中包含所有类，以及类中义字段和法，
集到这息后，就可以成Lua对应类和构及法义了。意是，此所得到法
义只包含法签名，法得到法。
（2）法译，利 ILSpy 法中 IL 令序列重建成AST，译工具 AST转成Lua语句
和达式，形成Lua 法。
（3）第一步输出 Lua类构与第二步输出 Lua 法合成 Lua 件，从实现了C#到
Lua 译过程。
图11.2 译程图
第一步：类构译，图11.3所示。
图11.3 类构译
● 图左边是C# 代码，义了一个类Demo，其包含x和y两个成员变量，以及一个成员 Foo。

● 代码经过译之后，过Mono.Cecil分析程序集得到图中 Cecil 构，构包含了Demo
类、x和y字段，以及Foo 法义。
● 过对Cecil 构译，成图右边 Lua Demo类和Foo 法义输出。得意是，
此刻法还只是法签名，没有法。于 Lua 是弱类语，x和y字段须义。
第二步：法译，图11.4所示。
图11.4 法译
● 图左边是C# 代码，义了int x=32; int y=18; return x+y；三条语句。

● 代码经过译之后，形成图中 IL 令。IL 是于栈令，图中含义是 32存
0号栈空， 18存 1号栈空，后 add 令，并返运算果。
● 过ILSpy分析上述IL 令，成ILSpy对应 AST。
● 分析 AST ，并查找对应符号，最后译成 Lua 对应语句 local x=32; local
y=18;return（x+y）。
第三步： Lua类构和Lua 法合成 Lua 件，从实现了C#到Lua 译过程。
性能优化：为代码译之后，对字符串、常量、枚举、计算等进一系列优化，比删
代码、各种字符串、运开销等，这种优化也对最终 Lua代码成优
化果。可以为，TKLua 译代码是经过译优化之后代码，对性提升常有帮助。
11.3 翻译示例
本详细绍TKLua 译示。
译示 C# 代码下：
译示成 Lua 代码下：
C# 代码经过上述译过程之后得到Lua 代码。可以看到，这两代码中找到以下一一对应关
系。
● C#中调类 base.Awake（），译之后变成Lua中 Awake（self）。
● 泛 binding<…>（），译之后泛参变成法参 binding（…）。
● seats.Add，译之后变成Upvalue 存 F_Add。
● C#迭代器，译之后对应Lua迭代器。
● C# 格，译之后对应Lua 格。
注意：于在 Lua 中员访问通过 table（字典部分），其一 Hash表，
访问都一 Hash ，而不像编译型语言一在编译能员函和变量地址（虚函除外）。
以，Lua 员访问一额外耗，一般优化经验人员在编写Lua代会不变化函缓
存到Upvalue。因，处F_Add调翻译器优化结。虚函 Awake和Start则进行这
缓存优化。
11.4 实现细节
本详细绍译过程中一典细及优化法， Lua不持连赋、不参、
continue等问决案。
11.4.1 连续赋值
Lua中赋是没有返，此法对变量进连赋。TKLua 案是拆达式，
图 11.5 所示， y=x=foo （）拆成两次立赋，利临变量 csl_0 作为中存：
csl_0=foo（）; x=csl_0; y=csl_0。
注意：也能设计采闭包现连续赋值，如：y=（function（）x = foo（）; return x
end）（），但运行能会变多。
图11.5 决连赋问 ——拆达式
11.4.2 switch
于 Lua中没有switch语句，所以译过程中其语句来模。TKLua 案是 if
条件判和repeat循环来模 switch语句。
● switch中case判， if…else…模判。
● switch中break跳转， repeat…break模跳转。
译果下所示。
C# switch代码下：
译后Lua下 switch代码下：
注意：在Lua中if 件判和repeat 环分别只需要一令，能不受响。如采 table表
switch 功能，则需要别表创和销销，避免运行能变。
11.4.3 continue
于 Lua中没有continue语句，所以译过程中其语句来模。一个循环中可同
存意量 continue和break,TKLua 译是嵌repeat循环和break模：
● 加嵌repeat循环层。
● 原C#中一个continue，译成Lua中一个break，跳出层循环。
● 原C#中一个break，译成Lua中两个break，跳出两层循环。
C# while continue 下：
Lua下 while continue 下：

11.4.4 不定参数
C# 不参译后是组参，代码中不参息译器丢弃，译输出
其当作组参输出。这样常利，是以还原成更为 Lua不参。
C# 参代码下：
Lua 参代码下：
11.4.5 条件表达式
Lua可以过与或式模问号达式，下所示。
是此法有一个，当x为nil或 false 不符合条件达式 C#语意。为此，有两种决

案。
（1）闭包案： if语句包进闭包里，可以达式征，也决上述问。示
：
（2）wrap&unwrap 案：一个wrap 包 x 达式，当x为nil或 false 返标

记，最后 unwrap 还原。示：
相比，闭包性更，是 GC对象； wrap相对稳一，到GC对戏

影响，译器选择wrap机制。
11.5 运行性能
本对比了TKLua 案和Unity原案（IL2CPP）性，以此来说明TKLua 案适
。
TKLua 案译后 Lua代码 Lua 机上，相比Unity原案有机开销。
图11.6所示是 iPhone 7 Plus设上TKLua 案输出代码和Unity原案运性对比
。过对比我发现，TKLua 案译后 Lua代码所消是Unity原案 5～8 。
图11.6 性对比
可见TKLua 案可以 C# 戏代码，并且较持更新，是运性相比Unity

原案弱得，比较适合CPU消较戏，棋戏、卡戏等。
对于性感戏，则可以 CPU消较逻辑，直 C++或 C# 并导出给TKLua调
，这分逻辑不更新，是可以持C#或 C++原有性。
11.6 TKLua翻译蓝图
本绍 TKLua已经实现译图，是为了译性，列举了C# 各种级性。译
图一分为三分，图11.7所示。
图11.7 TKLua 译图
11.6.1 类关系
各类绍下。
● partial类：译后，动合并具类，标译器成工作。
● 匿名类：译后，成具实名类，标译器成工作。
● 嵌类：成Lua形式嵌关系，译工具成工作。
● 承类：成承关系类，译工具成工作。
● 泛类：分实现，后可充实现。
11.6.2 类成员
这分下。
● 字段初化：译后，初化中成赋过程，标译器成工作。
● 属性：译后，加set/get具，标译器成工作。
● 索引器：译后，索引对应过程，标译器成工作。
● 展法：译后，为类展法变成态调，标译器成工作。
● 运算符重载：译后，运算符重载变成具调，标译器成工作。
● 匿名：译后，匿名动变成实名，标译器成工作。
● 字段：弱类语字段，须别义，译工具成工作。
● 法：成对应常 Lua 法，译工具成工作。
● 构造：成对应 Lua初化，译工具成工作。
● 态法：成对应 Lua 局，译工具成工作。
● 泛：泛参变成参，成对应 Lua ，译工具成工作。
● 匿名构造和类成员初化：标译器动合并到构造中，译工具输出。
● 匿名态构造和态成员初化：标译器动成语句，译工具输出。
● 可选参：译后，未参动默认充，标译器成工作。
● 参：译后，等价于组参，标译器成工作。
11.6.3 方法体
这分下。
● Lambda 达式：译后，达式展开为具调，标译器成工作。
● 常量：译后，常量名替为具常量，标译器成工作。
● 枚举：译后，枚举替为，标译器成工作。
● 引关系：译后，引关系变成类之相互调，标译器成工作。
● Typeof：译后，替成具类，标译器成工作。
● 泛构造：译后，泛参实化，标译器成工作。
● 赋：成Lua赋，连赋拆，译工具成工作。
● 局变量：成Lua 局变量local，译工具成工作。
● 循环语句：反译后，所有循环变成单一 Loop 构，译工具成Lua for循环。
● 条件语句：成Lua if条件，译工具成工作。
● switch语句： if条件判和repeat循环组合模，译工具成工作。
● 集合初化（Collection Initializer）：标译器成构化令，译工具成工
作。
● 对象初化（Object Initializer）：标译器成构化令，译工具成工作。
● try…catch语句：成Lua xpcall，译工具成工作。
● 问号达式：成等价 “或与达式”。
● 其：本直译，译工具成工作。
注意：图11.7中“编译器” 列举高级翻译，准编译器编译，大降低了翻译
复。
11.7 发展方向
随着微戏兴起，越来越戏开关 H5 戏开发。果戏想原有
戏移植到H5 戏平台，则临着戏功 JS重一，工程量比较浩可情。是，原
有 C#工程简单重构后进译，或许可以幅度低重开发成本。
上述章详尽绍了 C#代码译成Lua代码，么利相同原，也 C#代码译成JS代
码，图11.8所示。
图11.8 TKLua JavaScript 向
于这样思路，TKLua 译案加实现了C#代码转JS代码译功，为戏快速移植到微

戏平台提了一种案。
C#代码下：
译器成 JS代码下：
果戏已经有Unity C#版本，么过上述译过程或许可以快速输出H5版本，以移植微
戏、 Q 一、Facebook Instant Games。
11.8 总结
TKLua 译原是对程序集，不是代码进译。程序集是经过译器译以及充分优化
，许语法糖译期就合成常构，所以幅度低了译度。这就是TKLua 译模式
业中优势所。
另一来说，从程序集开译器丢一码层息。程序集逻辑达上是
，是有这息丢让译工具更优输出选择，比不参和Lambda 。
TKLua 案最终运还是Lua 本，所以运性比Unity原案（IL2CPP）弱一。实际
项中可以对性求、功较稳逻辑只 C#或 C++来实现，其逻辑则可以 TKLua
案转成Lua，这样就可以证性同，戏随更新。
参考文献
[1]Mono.Cecil.Mono,2017.https://www.mono-
project.com/docs/tools+libraries/libraries/Mono.Cecil/.
[2]ILSpy.ICSharpCode,2019.https://github.com/icsharpcode/ILSpy/tree/v2.4.
[3]TypeScript.Microsoft,2013.https://www.typescriptlang.org/.
[4]Haxe.Foundation,Haxe,2017.https://haxe.org/.
[5]Bridge.NET.Object.NET,2017.https://bridge.net/.
[6]Assembly,2017.https://docs.microsoft.com/en-us/dotnet/framework/app-
domains/assemblies-in-the-common-language-runtime.
第12章 Unreal Engine 4集成Lua
作者：陆
摘要
Lua 作为一种轻量嵌本语，戏开发中得到了广泛应，提了戏业务开发
。对不同戏引擎， Unity和Cocos2d，现市上找到不 Lua集成案，本章主
绍 Lua集成到UE4中，得可以 Lua开发UE4 戏。本章分为三个分：
（1）为了持C++反，UE4为分C++代码成了息。本章绍利 UE4 息来实现
Lua与UE4 互，包 Lua与C++、Lua与图之互。
（2）对于没有息分，本章绍利模板程 C++类导出到Lua中。现代译器本身
已足强，利模板技术操纵译器可以为我成足 “ 水”代码，省去了利第三析工
具麻。这分思想也可以应到其 C++项中。
（3）本章绍进一步提 Lua UE4中开发和运，合Lua Table与C++
设计、优化构 GC、运加载技术等。
12.1 引言
Lua中模 C++ 类系，一是 C++ 过userdata Lua 机中，并为这个userdata
一个，后重该 __index 来实现对C++ 调和成员变量读取，重
__newindex 来实现对成员变量。
为C++是态类语， Lua是动态类语，Lua调 C++ 先调中实参从Lua栈
取出，后再调标，这个中（也称为“ 水” ）译前就确下来，且对不
同标不同中，下代码所示。
为每个Lua关心 C++ “ 水” 是一件重枯燥事情，下来主讨论利 UE4
息和模板程轻这分工作量。
12.2 UE4 元信息

UE4为己图本动成了类中， Lua 法直调这中，可以利
UE4为C++ 成息来实现调，最终调到真正关心 C++代码。为了持图本和C++ 一
致，图类对象也成同样息，所以也可以实现Lua与图互。
12.2.1 介绍
普 C++类代码，经过译器译之后丢很关于类本身息，类名字、类里有么成
员和成员变量、这成员是么类等，这息就称为息。常程序运是法取
到息，为了持序列化C++对象等辑器础功，这息必不可。UE4提了几个，
反功 C++代码类里，每次译工程 UE4 先对代码进一次分析，过标记集
反类息，并则成代码。这代码也一起参与最终译，并且引擎启动，
对于不同 C++类实化出对应息对象，这对象存了C++类描述息，即息。
可以成息类有两种：
（1）承 UObject 类，这种类有所有反功，实存是 UE4 系管
，有性开销和存开销。
（2）普构类，存开销，也不承类，可以管其存，
是只有成员变量可以成息，所以只访问成员变量，法调成员。
不同息类负责描述不同类息，主分为4类。
（1）描述一个变量类类是UProperty，成员变量或形参。
（2）描述类类是UFunction，包含个UProperty，负责描述参和返类
息。
（3）描述一个普构类类是 UStruct，有个 UProperty，描述个成员变量
息，没有包含UFunction。
（4）描述一个UObject 类类是UClass,UClass 承 UStruct，一个UClass可以包含个
UFunction和UProperty，对应于一个C++类包含个成员和个成员变量。
关系图12.1所示。
图12.1 类关系图
12.2.2 Lua通过元信息与UE4交互
不管是UClass、UStruct还是 UFunction，同是包含了 UProperty。UProperty 反
中了常重，记录了变量器中存移，器是一存。当于描述
UClass或 UStruct 成员变量，这个移代该成员变量类存布局中移。利这个移
，再器起，UE4就实现了读器中成员变量。
了移，对不同类成员变量，UProperty 出了不同类，图12.2所示。比，
描述一个int类变量类是UIntProperty。这类更详细记录了变量息，并且重载了
类读，证对不同类变量读正确进。，当变量类是，往器中
则是果从器移开往后4字存里；当变量类是构，描述
UProperty 类是UStructProperty，了构贝存，可还调构变量赋
操作。
图12.2 UProperty 出类
对不同成员变量读所息 UE4 UnrealHeaderTool工具分析出来，存一个
个UProperty实中，这实又存相应类息UStruct实里。UStruct可以根成员
变量名找到对应 UProperty，只提了构实，再合UProperty记录成员变量类存
布局中移，么就计算出该成员变量存，后根 UProperty 类进读就可以
了。为UClass 承 UStruct，所以描述 UObject 类，也可以同样式读成员变量。
12.2.4 函数调用
过息去调 C++ ，先决参问。UE4为每一个反成
了一个中，这个中一个buffer 作为参，主逻辑就是一个个实参
从buffer里取出来，赋给对应临变量，再这临变量去调真正 C++ 。对于每个
有一个UFunction实来描述，UFunction里 UProperty记录了每个实参这个buffer里移
，读 buffer里参法与上一读类成员式一样。当想 Lua中调 C++类某个，
先过类名找到 UClass实，再过名找到标 UFunction实，后过这个
UFunction提息存中分出一 buffer， UProperty 类从Lua栈中取出实参，并
移 buffer中，充buffer 毕后就可以去调中了，中再负责从buffer里
取出实参去调真正标C++ 。
，下这个：
UFUNCTION（）就是 UE4提给，标记一个成息和中。这个息

UFunction 实存两个 UProperty ：第一个是 UIntProperty ，存移为 0；第二个是
UFloatProperty，存移为4。 buffer 构图12.3所示。
图12.3 buffer 构
当调，先根 UIntProperty从Lua栈中取出一个，充到buffer 0字，再根

UFloatPropery从Lua栈中取出一个，充到buffer 4字。充毕后，去调 UObject类
ProcessEvent 法就可以了，图12.4所示。
图12.4 调示意图
上是比较简单情形，可还有返和引类，这息也记录息中，

根进即可。
12.2.5 C++调用Lua
UE4 可以调图，先明一个，并 UFUNCTION 加上
BlueprintImplementEvent 标记，UnrealHeaderTool就动为这个成实现代码。实现代
码中，主逻辑是实参构造出一 buffer，再过名找到图 UFunction，后这个
buffer去发起调。
UE4 这个实参buffer加上UFunction 签名等上下息构造一个调调栈，
UE4里是 FFrame实来存这个调栈，后这个FFrame实递给图机，图从
该FFrame中读取实参变量，计算束果 FFrame实中。该FFrame 递到己义
里，根则实参从FFrame实中取出 Lua 机进计算，并果 FFrame中，么
就 C++调图变成C++调 Lua。
UFunction 提了这个功，让我递 FFrame 这个，该过存
UFuntion Func成员变量中，该 4.20版本中签名为typedef void（*FNativeFuncPtr）
（UObject*,FFrame&,RESULT_DECL）。下是实现调 Lua 致代码：
有了签名FuncToCall，我就从Buffer中取出实参，压 Lua栈，与上一根签名从
Lua 栈中取出实参充 Buffer 程正相反，其本原类。下来原来UFunction里
Func设为这个义。
上中说到，对于每一个 C++类，有一个 UClass 实存反息，查找对应 UClass实
法可以过名字，UClass* Class = FindObject（ANY_PACKAGE,*ClassName），引擎初
化之后，反息局唯一并且只存一。UClass中包含了所有 UFunction 息，只
戏代码前对应 UFunction即可，：
当C++调这个标记了BlueprintImplementEvent ，就不再去图逻辑，是去

我义逻辑。图里调 Lua 也可以过该式实现，不同是C++调，调到
义 CallLua ，递进来是调 FFrame实。图调递过来 FFrame 实是
调，不是调，代码构建出调 FFrame实，代码可以直参
ScriptCore.cpp CallFunction 码，或直从调 FFrame实中找出实参，性更优。
12.2.6 小结
利 UE4 息，须成Lua“ 水”代码，就可以读类成员变量和调 C++ 。利
图机令式，C++也可以调 Lua 中。为图类也有一样息，所以也就
实现了Lua与图互。
12.3 通过模板元编程生成“胶水”代码
上一绍了过息来实现Lua与C++ 互。是这种式有比较制，UE4 了只
有类变量成息，其类则不，模板类。还有一个是，反调过程
中，类判来读 Lua栈里变量，这带来一性。此，实际项中，有可
想本中调引擎类某法，加上UFUNCTION 就达到，这引擎
码，一情下应当。到这素，有必实现一种离UE4反系，也可以实现Lua与C++
互技术。
离UE4反系，就求我己对每个导出 “ 水” ，负责从Lua栈
里读出，后去调标。
对每个不同 “ 水” 带来巨重性劳动，前市上有一工具可以帮助
成“ 水”代码。 swig和tolua++，我一类于C++ 件口件，工具
析成C++代码。还有，助Clang C++语法分析工具，可以直分析C++ 代码来成“ 水”代码，
实际项中一还得一件，告诉工具该为哪类、哪和成员变量成“ 水”代
码。
一来说，第三代码成工具度更，功也可以得更善，是总带来麻
，习起来更。现代C++ 译器已经越来越强，模板程提了可程式来控制译器
力，再合代码成力，最终实现件到C++ 代码中，利译器为我成“
水”代码并直参与译，所有误译期发现。这代码本身也是合法 C++代码，习
起来更易，和项合得更紧，也不运工具成代码。
12.3.1 接口设计
为了口导出到Lua中，这代码易于书、格式并且直观，只必
息就动成“ 水”代码。此础上为绝分 C++类导出，实现Lua调 C++ 功
尽量善，希望持性有：读 public成员变量，导出不同构造，导出成员、
static 成员、static 、，还持重载功。以下是一个典代码
。
代码主几个来成，比每个导出到 Lua 中类 LUA_GLUE_BEGIN和
LUA_GLUE_END 包起来，导出成员变量 LUA_GLUE_PROPERTY ，导出成员或
static类 LUA_GLUE_FUNCTION ，须成员变量类或成员类。
默认构造根类动导出，果想导出不同参构造，则 LUA_GLUE_CTOR ，代码
下：
果导出重载，则 LUA_GLUE_OVERLOAD ，并提重载签名，代码下：
对于有默认实参，所有导出持后上默认实参，该可以与签名里

默认实参不同。
对于有承关系类，可以 LUA_GLUE_END（）中下类类，持个类。
这可以义 .cpp 件中，也可以义 .h 件中，即该.h 件次包含也不造

成重义，这里利了译器对模板类去重功（后绍）。可以与类义不同件中，
成代码对导出类是有赖， #include 相关件。这样可以跨模口导出到
Lua中，戏模里导出引擎类，不必去引擎码。
这上尽量到了简，须了 Lua与C++ 互知识。并且代码只译成
功，就证导出成功。
12.3.2 实现
中册进Lua 机机，必须于Lua代码，这里利是static变量初化
机制，下代码：
当包含这段代码动态库加载，就调 RegisterFuncToLua::StaticVar 构造
。LUA_GLUE_BEGIN和LUA_GLUE_END 主就是来成这样构，LUA_GLUE_FUNCTION和
LUA_GLUE_PROPERTY 来成具中，这中 {} 包起来就可以成一个
initializer_list，可以作为实参初化一个组器，该组再框架，框架历该组中
册进Lua 机。
为了不引起重义，根类名出不同构， LUA_GLUE_BEGIN（A）成是
struct RegisterFuncToLua__A,LUA_GLUE_BEGIN（B）成是struct RegisterFuncToLua__B。
是果这段代码 .h 件中，并且个.cpp 件包含，么同一个类态成员变量义代
码还是重义误。
为了决这个问，我成模板类，代码下：
当个.cpp 件包含，也不出现态成员重义误，为C++ 器重化类

去重。这里举一个成该构：
类名和所包含调 doRegisterWork进册，册果是 Lua 机中成了一个
Table，里包含了可调中，并为其类名。LUA_GLUE_BEGIN 还包含一段化模板类代
码，来 C++中取导出类名。代码下：
当构变量压 Lua栈后，调该变量类化模板类找到名字，再过名字就 Lua

机中找到对应了。
C++和Lua 类系有着显区别，Lua读 C++中不同类变量不同读式。
C++中可以意义新类，是仍可以分成4类对待：
（1）础类， int、float、string等，读贝形式。
（2）UObject ，UObject类比较殊，单，下有绍。
（3） UObject 构，读过。
（4）义读操作类，常是一模板类， UE4 TArray。
默认情下，LUA_GLUE_BEGIN 导出构当作第3类来对待，果有殊求，则可以对
类化读操作，就可以控制读。这里以压 Lua栈为：
THas_PushValueToLuaStack模板类来试类 T是否具有义压操作，没有话就调上

化版本。CustomTypeToLua 模板类相当于一个适器，果对 T 化CustomTypeToLua 模板
类，并给这个化类加一个 PushValueToLuaStack 法，么THas_PushValueToLuaStack就
试过，就进下化版本。
Lua中读取成员变量，去调中，先从Lua栈中读取实，后成员变量
引到负责读取模板，模板根变量类选择对应化版本，最后对应压 Lua
栈操作。成员变量也是类，根类对应读取Lua栈操作。
12.3.4 引用类型
果参中存引类，则分为两种情来讨论。第一种情是础类引，、
、字符串等，础类变量 Lua中是过递，所以当C++ 实参，论也法
影响到Lua 机中变量。到Lua调可以个返，所以调 C++ 后，
引变量再次压 Lua栈，当成返递 Lua。第二种情就是构引，Lua 中持有是
构，所以取出该，后递给引调。当C++ 实参，直 Lua中
这个构变量，达到引递。之后为了与础类引式持一致，调束
，也实参当成返压 Lua调栈。
到实参引，所以一个临变量来存Lua栈里实参，调后，再
该临变量压 Lua栈。这样可有个，所以一个器来存。签名千变万化，法
直某一个类器，最后 Tuple 模板为每个不同成对应器。这里可以进
优化，为了构贝，不管签名中构参类是么，Tuple 器对应位实参
类是构类，调标调。这样后，器中成员类是础类
， Tuple 器也不带来构造析构开销，经试与纯工 “ 水”代码性一样。
Lua调 C++ 过程图12.5所示。
图12.5 Lua调 C++ 过程
当调束后，再 Tuple 器中引压 Lua调栈，为构 FVector 过递，所

以Lua中原来变量已经发了变，为了持一致，也当成返压 Lua栈，图12.6所示。
图12.6 Lua调 C++ 束后引参压栈
12.3.5 导出函数
Tuple是C++模板程中很重一个器，可以根类列成一个构，这个
构里对每个类成一个成员变量，并下标读成员变量，下标是第N个类
对应成员变量。之前讨论，我主利 Tuple来实现对C++ 调，其致逻辑是先根
导出签名，利性萃取技术（Traits）去历形参列，并为此成一个Tuple 器。
下以调一个成员为来进，代码下：
有法直根形参列成Tuple 器，，当参中有引类，Tuple不

引类作为成员变量类，所以 const、引 &、右引 &&等符去掉。还有一种情是之
前讨论过构，对于形参中构类，不管是、引还是类，我转成
类 Tuple 器中。上代码中 TraitTupleInerType模板就是来这个逻辑。
当有了这个Tuple 器之后，下来逻辑就是实参类从Lua栈中取出器中，后
Tuple 器包去调标C++ ，最后返和引实参压 Lua栈。代码下：
为构是当成存 Tuple 器里，标可不是构，这里
ConvertStructPointBack负责。助这个模板，就可以实现Lua对C++类成员
调，须关心具成员类。其类调程是类，核心是 Tuple
器作为。
最终LUA_GLUE_FUNCTION 义下：
一个[]（lua_State*inL）->int32{}中册到Lua中，当其调就 Lua栈和
对应成员，调模板 LuaPopAndCallAndReturn 成真正调逻辑。
12.3.6 默认实参
对于C++中可以加默认实参，实参是译期实现，所以运法得某个参
默认实参，为此代码工加默认实参，默认实参也是存 Tuple 器中。当Lua栈中
参不足，这默认实参充到临变量 Tuple 器中。图12.7（a）展示了Lua栈提足参
，图12.7（b）展示了当参不足，从默认实参 Tuple 器中读取实参。
图12.7 默认实参示
充临 Tuple变量代码下所示，带默认实参相比不带默认实参，了一逻辑，于判 Lua

栈中实参个是否充足，所以性上也差一。
12.3.7 默认生成的函数
一类有默认构造，operator==、operator+等础，省情下动导出这
，省去了为这 LUA_GLUE_FUNCTION 工作量。有类这删了，动为
成代码就调到不存，从译败。
以默认构造为，对于类 T，为动成中去调 new T（），这个类 T
默认构造删了或了private 符下，么就译报。
为了决这个问，可以殊义一个LUA_GLUE_BEGIN_XXX ，专对没有构造类。这
种式有两个，一是加量，提了杂度；二是了默认构造，还默认导
出其，析构，这问又暴出来了，必须为没有析构类，或干脆
一个么不动导出，么己加。
么，不加量情下，又尽可导出省呢? 对于某个类不存这
，让导出代码译不报即可，这里可以利模板 SFINAE 性，对于不符合条件，让
译器不去成误代码。下以默认构造为：
Lua代码不再直调 new T（），是调模板 TSafeCtor（），果类 T没有构造，
么就调下化版本，返一个空；果类 T有默认构造，么就调上化版
本，并返新构造实。对其动导出也类，证译没有问。
12.3.8 C++调用Lua
为已经实现了根不同变量类变量压 Lua栈模板，事情就变得很简单了。先过
名找到Lua ，后所有变量压 Lua栈，当发起调后，再从Lua栈中取返即可。
12.3.9 小结
利和模板程，可以成Lua调 C++ “ 水” ，这种“ 水” 标
签名变量出栈、栈，省去了运期类判，性优越，并且可以给 Lua导出几乎所有类
，制较，可展性强。
12.4 优化
12.4.1 UObject指针与Table
UObject 类 UE4 逻辑框架中举足轻重，只过工厂创建实并返，对UObject
实所有操作是过进，所以可以对UObject 一优化。当初次一个 UObject
Lua 机，为创建 userdata 后，一个字典 UObject 和这个userdata 关
起来，下次不管从哪里这个UObject ，先字典里查询之前是否过，是则之前创
建 userdata，这样是UObject userdata Lua 机里就具了唯一性，可以相等性判
，了userdata 创建，且当作为Table 索引，不同存两个相同 UObject 。
更进一步，可以 UObject 和Lua中一个Table 起来，这样 Lua 机中取该，取
到是 Table，图12.8所示。
图12.8 C++向Lua 递替为对应 Table
当这个Table 给C++ ，又可以转变真正 UObject ，图12.9所示。
图12.9 Lua向C++ 递Table 替为对应
这个Table可以展UObject Lua 机中力，为其存一变量、重载 C++

等，加了开发利性。
12.4.2 结构体
为C++ 返之后栈上存就了，果返是构类，么一存中
分一个构，并返制给这个存中实，后这个实返给Lua 机。果
调这样，每帧查询Actor Pos，久了， Lua 机中就存量存中
构引，一旦启动就引发卡顿。另，这构实常也只当上下中
一次，本身没有必存上。
我对返构了优化，对每一种构类创建了一个 RingBuffer，只同存
量该类实， 30个，当返，从RingBuffer中取出一个实，返制给，再
返 Lua中。RingBuffer是常存，了存分和开销，且Lua不管
命周期，对不造成影响。同， Lua中递构变量给C++ ，也须
上分存，可以从RingBuffer中取出实。
意是，RingBuffer 存循环利，法持久化存一个构变量。当持久化
， RingBuffer 实制给一个上实即可。
经过简单试， 100万个构， i7 器上 0.5s左右，经过优化后为0.001s，可
忽不计。
12.4.3 运行时热加载
本语本质上是根 “字符串”来一逻辑，当机运这 “字符串”，并告
知机，机就新逻辑。这样戏进程不关闭就运到新代码，开发调试。
为了证程序加载前后态一致性，只有逻辑可以加载，以持不
变。 Lua中常 require语法来加载Lua 件，所以以件为本单位加载。件里
代码更新了，么就重新加载该件，新加载件成来替原来。
意是，重新加载件，件代码。代码里有一语句是对以进
了操作，么一导致乱。上说件加载到了一个匿名中，么就可以这
个匿名关环，给创造一个沙环，让与相关代码不对真实环
作。一情下，这个沙环导致这代码败，为其逻辑去查询真实环中存
，新加沙环中不存，进加载败，下代码所示。
真实环中制到沙环中代价太，所以我给沙环关了一个殊。这个

对所有查询返一个“万 ” ，这个“万 ” 也对所有查询返 “万 ” ，这
“万 ” 可以进尽量操作不报，可以调不存等，尽可让件代码
成功。这主过Lua 机制 __index和__newindex 法来实现，其中__index对所有索引
返 “万 ” ，newindex对所有赋操作。
当成功重新加载件后，得到一新，为了证一致性，对应旧
upvalue 制到新上，之后历个Lua 机，原来向旧项成向新，这样就
成了以件为粒度加载。
第六部分开发工具
第13章使用FASTBuild助力Unreal Engine 4

作者：育
摘要
本章提 UE4项开发绍一决案和相关工具，主绍 FASTBuild这
款开分布式译工具来提 UE4项 C++代码译和材质着器（Shader）译。
本章还详细绍相关试过程，下先简单列出主试果。
● 代码译极试：重译UE4代码，只单机资 50分左右； FASTBuild分布式
译工具可以低到15分左右；经过进一步优化低到11分左右，提升了4～5 。
● 着器译极试：重译4万着器，只单机资 1 50分左右；分布
式可以低到5分左右，提升了20 左右。
● 材质辑器一试：某材质后，从“应 ”到看到览果，只单机资 1
分左右，分布式可以低到8秒，让材质辑器 “实览”功变得更加 “实 ”。
当，分布式之后还有其，开Unreal Editor（Unreal 辑器），新景速度
也提，为其中着器译提了，本章于篇幅就不一一绍了。果对提
UE4 项开发感兴趣，么请读本章。说明是，中所有、截图和代码
于Unreal Engine 4.20.3和FASTBuild 0.95，不同版本引擎代码译、为实现分布式进
代码等有所区别。另，中所展示试果于后绍到试和络，
根不同硬件环，分布式工具所起到果也有所不同，请意区分。
13.1 引言
UE4 其开、开、不更新和追求最新技术性，较硬件性，取更真实
果，也具有善戏模，以及丰件和工具持等，可以适于几乎品类和平台
戏开发，广受国开发商欢迎， UE4开发戏作也比较。
谈起 UE4 ，也普提起“重”这个字，相对，觉得 Unity3D 引擎
更“轻”。“重” 代 “功强，习曲线比较峭”“模比较，想不太易”等
观以，也隐含了一开发担忧。也许正为UE4开，开发商想 “更快、更
” 往往不觉想到代码，加或善分功或追求想果、等，常
译引擎代码工作；开发UE4 C++项程语性，运速度更快，是译速
度较慢；更模，豪华材质辑、层次构材质持等，让逻辑更晰、功更强，
也有一发动身问，往往累 ——比某个材质，想览或景中看
到果，往往等待一段；善模、件和工具也得戏更加丰，戏积
也更，开Editor或景变得更慢。
提 UE4项开发呢?为每个开发员一台级工作站，可以提，不
加成本情下，有办法提吗?这就想到了“分布式”。
13.2 UE4分布式工具
UE4 身也很重问，开发或引进了一 “分布式” 决案，下绍UE4现有分
布式技术。
13.2.1 Derived Data Cache（DDC）
档：https://docs.unrealengine.com/en-us/Engine/Basics/DerivedDataCache。
Derived Data Cache分本 Cache和络Cache，前于存本过资，
态模和模、材质和局着器、、形碰息（度图）、寻路碰息、度、
贴图、UV动、等，几乎包含了分 UE4 辑器直；后跟前性质相同，
是存络（比局）上录里，可于个。
开发员 Unreal Editor 开项或新景，Editor 优先从本 DDC里加载所，
这是上次运 Editor 过后存本，这就了重相同；果某
本 DDC里并不存，则试从络DDC里取，果存则制到本 DDC且加载到Editor
中；果没找到，则实件（材质着器），毕后存到本 DDC里下次。
可以想象一下，设有很开发员 Editor 辑景，果没有络DDC，么对于每
个资每个实一次；果有络DDC，则分有可只一次。这本身
就是一种“集中计算，分布 ” 经典应景，提个工作。
于根实际情设一 DDC 息，络路径息，所以默认并没有启
络DDC，根档具项件中设实现该功。
13.2.2 Swarm
档： https://docs.unrealengine.com/en-
us/Engine/Rendering/LightingAndShadows/Lightmass/UnrealSwarmOverview。
Swarm主于分布式计算光、影等光贴图，态和态/ 光较景中
发很作，加快光贴图成。当某个成员成光贴图，分务到其空客
机（可以是其成员）帮忙计算一分，分比越，计算务成速度就越快。这是
典 “分布式计算” 景。
就上所说，态和态/ 光较景中，Swarm 发很作，移动
端戏项、运低端 PC 上戏项等建议 Swarm；追求真实果，分是实
光项中，Swarm 作很。所以应根进设，设请参档。
13.2.3 IncrediBuild
IncrediBuild 是第三公司商业决案，是一种较为成分布式译工具。持C++项
分布式译，也持分布式运立开发工具等，各对应授权，单个功授权费还算
宜，果到功较，授权费则比较贵。
UE4 集成了该软件口，包含Unreal Build Tool（UBT）和ShaderCompiler两口
集成。果项成员上有 IncrediBuild 软件，设相应络环和对应
license，译UE4代码 UBT检到本有IncrediBuild，则优先进分布式代码
译；启动 Unreal Editor 初化，检本件是否许和了IncrediBuild，果检
过，则 Editor 过程中一旦有着器译求，就进分布式译。
下来绍本章主 ——开分布式译工具FASTBuild。
13.2.4 FASTBuild
：http://www.fastbuild.org/。
语：持C、C++、Objective-C和C#等。
译器： VisualStudio （ MSVC ）、 VisualStudio.Net （ C# ，前持本译）、 GCC 、
Clang、SNC、Intel compiler、GreenHills、CodeWarrior等。
标平台：Windows、Linux、Mac OS X、PS 3、PS 4、Xbox 360、Xbox One、Wii、WiiU、
Android和iOS。
工作系：Windows、Linux、Mac OS X。
以上绍来 FASTBuild 。这是一款开软件，于类 MIT协议，度较。
FASTBuild 持么标平台、么语，看上去比IncrediBuild 一，是怎么实现呢?原
来利了现代译器持 “Preprocessor”，即机制。，C++语译有两个
主过程，先析语义，对一 #if、#include 等语义关字进，同还进替、束符
替、号等，这个过程就称为“ ”，后进一步译成标对象件。现代持
语及其译器，持显式过程，即可以过参控制进，先成立
中件，不再赖其件等第三件。FASTBuild 就利了这一，常轻松实现了持
么语、么标平台，以及可以三主平台上工作。
另，FASTBuild也跟IncrediBuild一样持程语分布式译，也持第三立程序
分布式运，这是怎么到呢?原来设计了己本——.bff 件，档中可以查看到具
本格式和语法等。以程语译为，一个项上想 FASTBuild 实现分布式译，
就对该项所程语和译工具版本等性， .bff 件中详细记录。 C++项，
译器cl.exe 哪里，又赖哪 .dll 件，这个项里有个.cpp 件译（即
个译务），分别是么，又各有么件引，各了哪译参，译果是
么，等等。
还是以程语分布式译为，我看看 FASTBuild 工作程是怎样。根 .bff
件描述息，本对所有译务进成中件；下来中件译成真正 obj对象
，根本 CPU空程度分该译务是本还是发布到远程，果是后，则连
到可远程后，先译器程序发送过去，再译务后中件发送过去（果
同一次译中同一台远程先后分了个务，则每个务本身中件单发送，一开
发送译器程序则不重发送）。远程 FASTBuild主程序到译务后，直运之前
译器程序，该中件成标对象件；最后标对象件发起务。当，这
只是主工作程，实际工作程杂一，分译务远程中很久没有成怎么
，远程译出或有警告怎么， “ 译” 务（一称为分布式计算务）
等，有兴趣读可以了，于篇幅本章就不再进一步展开了。
么FASTBuild跟IncrediBuild 础工作程上有么区别，以及此哪具不同
呢? 明一下， IncrediBuild 是闭商业软件，与其工作原相关档较，此以下与
IncrediBuild相关分析，是作本根工作经一个总，参。
还是以程语分布式译为。IncrediBuild也译器程序发送到远程，不对
件进，直根本 CPU 空程度分译务是否发布到远程，果是，则直
发送件和译参过去，远程 IncrediBuild客端到译器程序直译该
件，当到某赖件，再向务发起索该赖件，并该件存到本存中，下一次
果有其译务也该件，则直从存中读取，不向务发起索。译成后，远
程果件发送务发起。
这个程也描述得比较简单，正是两主区别 ——FASTBuild ，
IncrediBuild不。后这了比较工作，实现起来比较杂，得也较。下
简单列两各有么利弊， 13.1所示。
13.1 FASTBuild与IncrediBuild对比
过这简单对比可以看到，IncrediBuild还是常有优势，进分布式代码译，相同硬

件和络环中一比FASTBuild 一。 FASTBuild也有其优势，我正确对待：即
进代码译，FASTBuild也可以提；进 “ 代码译” ，后试着器
译，名字中有“ 译”，实际上是分布式运立工具程序进分布式计算务，就
须“ ”，此应该相差几。当，果想比较“ ” 分布式工具，从这个
度来看，FASTBuild有比较优势。
13.3 在Windows系统下搭建FASTBuild工作环境
13.3.1 网络架构
作为开软件，FASTBuild 身也比较崇，社区里看到别提问，为不 IncrediBuild
样提一个服务器程序来实现分控制功呢? 员直 “去中心化”来，所以FASTBuild
是没有中心（即服务器程序）。
所有同一个局，可以某一个同录路径作为“Broker”，当某启
动FASTBuild主程序（FBuildWorker），该程序名称作为件名这个Broker 录里创建一
个空件，并且历该录下其类件，从得知络上有哪，当发起分布式务
，就可以过这个列去试连；当本机中其程序（不含FASTBuild主程序，以及协助其
分布式务运所有程序） CPU占超过一（20%）或退出主程序，从该录下
删代本机件，这样其就不利该帮助分布式务了。
过上简单描述，我对FASTBuild 络组成和各工作有了致了。下来两
台 A和B来示， A（后截图中IP 尾号为79）上建译环和发起译，B（IP 尾
号为97）协同译，展示建工作环。
13.3.2 搭建基本环境
A上正常译环， Visual Studio 2017 Community； B上只正常
Windows系环即可，须译器。
实际上这两台是平等，下称为 Worker—— 果 B 上也了译环，么B也可
以发起译，此 A就可以和B互。所以，下提到 “Worker”就是这种情下意
（举一反三，推导到两台以上情）。
关于FASTBuild本身和， FASTBuild 上有比较详尽档绍。主有两步：
和。
从下载最新版本程序压包，压到本录下。版本只包含FBuildWorker.exe和
FBuild.exe 这两个可件，前是（UI）程序，也是 FASTBuild 主程序；后是命令程
序，发起分布式务，该命令程序合不同参来。另，推下载FBDashboard
这个第三控程序，可以从FASTBuild 下载页中找到。该程序第三提，本身也
是于MIT协议开软件。后绍 UE4实际应中，我了该程序。
简单 “ ”之后，进一，步本跟系环变量设有关。
先压录路径加系环变量“Path”中，这样就可以访问FBuild.exe
分布式务了。
后设 Broker ，系环变量中加FASTBUILD_BROKERAGE_PATH = xxx即可，xxx是一
个所有Worker 读络路径。请意，FASTBuild 前还不持Unicode路径，果路径确实
有Unicode字符，则可以先该路径映到每个Worker 本符，这样就可以含ASCII字符短
路径 Broker 了。
另，果 Cache 功，则设 Cache ，系环变量中加
FASTBUILD_CACHE_PATH = yyy即可，yyy可以是络路径，也可以是本路径，请根设。
Cache路径也含有ASCII字符。意：Cache 件总量递，所以请根实际持空
足。另， MSVC 有一简单制（ /Z7，不 /clr），档中有说明。当，也
可以不设这个环变量， FASTBuild 译本中也有设具有相同作变量，请档中
查看，比较简单。
上述和设步所有Worker上进一，到此为止，本环设就成了。
意是，环变量变并不直应到已经开程序上， CMD、Visual Studio IDE等，有
请重启这程序。
13.3.3 可用性验证
初次建FASTBuild工作环，有可络策、或录权等素不正常工
作，所以我过简单实来证否正常。
先，每台机器上运 FASTBuild主程序（FBuildWorker.exe），图13.1所示，推
参 -cpus=−1,-mode=idle来运。
图13.1 FASTBuild主程序
上息绍下。
● 标栏：显示当前程序名称和版本号；当前运是x64位程序；机器名以及连了这
个“Worker”（么没，所以是0 Connections）。
● 工具栏：当前态设为“Work For Others When Idle”（参 -mode=idle），两台分
别了7个逻辑核CPU（参 -cpus=−1，即最逻辑核 1）。
● 主窗口：展示每一个逻辑核当前态，分别是第几个逻辑核；主机名（果此别
发起分布式译，这台参与了协同译，就这里展示每一个连到这台主机名）；这台
每个逻辑核上参与协同译正事情，当前没有参与务，且足“空 ” 态判策
，所以显示Idle 态（参与协同译后，显示正帮助“ 译xxx.cpp”等）。
该程序运后，果该机器正常读权访问Broker 录，且足“空 ” 态判策
（本机其进程 CPU 20%以下，则认为是“空 ” ），往Broker 录里一个以本
机器名为件名空件；当不足“空 ” 态判策或退出该程序之前，从Broker
录里删该件。所有Worker 可以过历这个Broker 录里这类件取当前可络端其
Worker 息。
后， A上发起译。
档口，很易找到一个“Hello World”示，绍 FASTBuild 本件
（.bff 件）。实际上这个示太了，并不展示分布式译功。所以我直以FASTBuild
代码作为示，可以下载页中下载到最新代码。
压代码到本意录下，可以 code 录下找到其主 .bff 本件，请本辑
器开，根实际译器和路径（主是Visual Studio 路径、Windows
SDK 路径等）。
命令窗口中进该 code 录， fbuild.exe -showtargets 查看所有译标参
，其中有一个 solution 标参，可以成 Visual Studio Solution 件，查看和
FASTBuild 代码；也可以其译类 target直译FASTBuild 代码。详细命令操作式，
可以运 fbuild.exe -help查看所有命令参，或查看相关档。
这里 -dist -clean参译All-x64-Release ，图13.2所示。
从译输出中可以看到，本机从 Broker 中发现了一个 Worker，是实际上后所有译
成.obj 件只提示“<LOCAL>”，并没有远程B机器名提示出现，也就是说，并没有到远程
B，问出哪里呢?
经过一番分析和试，总出这里主有4个可出现问决。
（1）所有Worker 上开 Windows 白名单。络应程序不开对 Windows
，一有包软件动册白名单， FASTBuild “ ”过于简单，
所以动为FBuildWorker.exe和FBuild.exe设白名单。
图13.2 译输出果1
（2）确 FASTBuild所 TCP端口是开。分公司有管策，默认屏所有必端

口。果是这种情，就开 FASTBuild 端口号权，默认端口号是31264，也可以根
实际情代码中成一不其程序占端口号。
（3）检查Broker 录访问权，确所有Worker机器从中正常读件。
（4）有一络环下（某跨段环等），机器法直过主机名析 IP 进
相互访问，此就 FASTBuild 代码，直本机IP 册Broker，以其机器可以直
取远程 IP 列。下这段是实现这个意图主代码。另，还该明和调
，比较简单，请充。
成译后，所有 Worker 上替原来“ ” 件（ FBuild.exe 和

FBuildWorker.exe），重新运主程序。此主程序窗口标栏中已经显示了本机IP （图
13.3所示）；当足“空 ” 态， Broker 录中也该IP 进记（图13.4所示）。
图13.3 标栏中显示IP
图13.4 Broker 录里出现以本机IP 命名空件
过对上述几个问查和决，再次试译，发现一切正常，出现了分译发远程

Worker上记录，图13.5所示。
图13.5 译输出果2
至此，Windows系中 FASTBuild分布式工作环已经建毕，并且过了可性证。下我

进一步绍 UE4代码译和材质着器译中 FASTBuild，为UE4 上翅膀！
13.4 使用FASTBuild分布式编译UE4代码和项目代码
13.4.1 准备工作
前绍了IncrediBuild已经 UE4 引擎译工具Unreal Build Tool（UBT），所以
IncrediBuild 分布式译 UE4 代码是不进（ IncrediBuild
机环即可），是FASTBuild并没有跟UE4发集，进分布式译UE4 代码之
前，我己动 UBT 代码，加对FASTBuild 持功。
其主思路前讲FASTBuild工作原已经绍过，即：只当前译器主程序（
cl.exe）、赖 DLL 件，项中设 Include、Library等公录，Windows SDK路径等
息，以及UBT本次译所有译务息（件、赖件、译参等）、息等
FASTBuild 本语法 .bff 件中即可。
说起来比较简单，实际动还是有相当度。还 FASTBuild是开软件，有一个
开社区，有很开为了周边相关程序，动UBT以持UE4和项代码译也有公开
第三，至可以 FASTBuild 下载页中找到相关，可存更新不及问，
找到相关程序后，只根实际 UE4版本调相应代码即可。
论，这一步是 FASTBuild加速UE4 代码译前提，可一调试UBT，相
还是得。
另，前提到开社区还有一个比较软件FBDashBoard，可以来可化控当前务
态。运 FBDashboard程序后，该程序隐原有 FBuildWorker程序系栏图标，并出现己
图标，图13.6所示。
图13.6 FBDashboard程序图标
实际试，发现可以很控分布式译务情，也有不正常工作

情，与UBT 代码类，也可存更新不及或合不问，此只重启该程序一
就可以决。
13.4.2 部署多机FASTBuild环境
前绍了 Windows系下建FASTBuild工作环，我该绍实际项成员
计算机上了环，并引了开社区 FBDashboard程序。这样一来，我就有了概15台
组成 FASTBuild分布式络，后绍试就是该分布式络下进。
13.4.3 编译UE4代码及对比测试
为了展示 FASTBuild分布式译工具实际果，我进了对比试。
● 硬件和络：试有i7 7700 CPU,32GB 存，512GB SSD,NVIDIA 1060显卡；络是
千兆局，加分布式络计算机是其成员开发机，总量有15台左右，一相差
几，其中有一台是属于性较工作站。
● 试对象：相同两 Unreal Engine 4.20引擎代码，其中一为原版本，只身计
算机资进译；另一是过UBT可以 FASTBuild进分布式译版本。试同一台
试机上对分别重译UE4代码 “Development Editor” 项（x64平台），观其中最
项 “UE4” 成译所消。
先只试本机资译UE4代码，以下是Visual Studio 输出截图，图13.7所示，
50分左右成了UE4这个主项译。
图13.7 输出截图1
着试 FASTBuild UE4，同样进译。图13.8所示，输出 Log格式已经发了变化

——前没有了务和总记录，有译务后有远程机器提示。
图13.8 输出截图2
译成后，FASTBuild还有详细汇总息，包含Cache Hit、Miss和Store （试分

布式译果没有启 Cache功，所以这几个一片空白），以及译成（有实际和
CPU逻辑核心概等），图13.9所示，最终只 15分左右就成了UE4引擎代码
译，不到单机译所三分之一。
图13.9 FASTBuild 汇总息
再看一下FBDashboard 截图，其比较类 IncrediBuild 控模式，可以常直观查看

到本次分布式译务中有哪远程机器协助了哪务，图13.10所示。
为是络分布式工具，所以本次试过程中我也意观了一下络量情，图13.11所
示。
这是发起务上选择比较有代性络量峰段截图，请意波形，其中线是发送
量，实线是量，纵轴每一个格代 100Mbps 。从图中发现平量超过了
300Mbps，也就是说，果百兆局，么络成为；即是千兆局，果同
发起分布式译，且相同段达到络量峰，此也存总络。
图13.10 FBDashboard 截图
图13.11 发起译机器络量情
13.4.4 优化FASTBuild
图13.11还隐含了一个可细心观发现问 ——“发送” 量和“ ” 量不成比
，“发送”比“ ” 波形本低很。存络，么是否可以这一优化
呢?
过详细读FASTBuild 代码发现，原来发起分布式务，发起 LZ4快速压算法
经过中件压后送到远程；是远程成译，成.obj 件后到发
起，并没有经过压。为了证这一发现，我再次过 FBuild.exe -forceremote参（强
制所有译务远程上）双机环中重一个项， UnrealHeadTool项，观
到远程机器卡态中得到发送字总，跟最终成 .obj 件总本一致，进一步
证了果没有压这一论。果对这 Obj 件进动 7z 快速压，发现可以压掉
65% 总件，这说明具有很优化空。
下是优化代码。
● Tools/FBuild/FBuildCore/WorkerPool/JobQueueRemote.cpp
● Tools/FBuild/FBuildCore/Protocol/Server.cpp
● Tools/FBuild/FBuildCore/Protocol/Client.cpp
13.4.5 再次测试分布式编译UE4代码
优化后成 FASTBuild程序替掉“ ” 录里原有程序，重新进上述分布式译UE4代
码试。
果图13.12所示， FBDashboard （右下）可以看到本次试 11分左右（该软件
右下提示），比优化前15分左右有了不进步。
图13.12 FBDashboard 控
优化后络量情图13.13所示，“发送”和“ ” 波形不再相差么，平量

本 100Mbps左右。此次优化不提了FASTBuild分布式译，且前提到 “ 同发起
分布式译可发总络量 ”也得到善。
图13.13 优化后络量情
13.5 “秒”编UE4着色器
络 DDC可以提升工作，并且也包含材质相关着器（Shader）和局着器
存，并不决所有着器问。，对于日常 Unreal Editor 比较繁
操作——材质辑，UE4提了功强式材质辑器，并且持实览，每次开
某个材质立即实译一次所有相关着器，意后击“应 ” （或“实
览”功开启），也实译一次所有相关着器。稍微杂一材质涉及到着器总可
有几百或上千，每次译这几分不等，越杂材质，想调试出最终果越重
干次、览操作，每次等Editor右下 “ 译着器”提示束看到果，
累加起来等待常可观。
下来绍 FASTBuild提材质辑，决材质辑、调试痛 “等待”问，
实现“秒” ！
13.5.1 准备工作
跟译 UE4代码类，也动 UE4 代码着器译相关分，以实现 FASTBuild进
分布式着器译。
代码思路跟UBT类，最终成一个循FASTBuild 本语法 .bff 件。与UBT不同
是，这种应其实属于“ 立程序”分布式式，须循么程语则，且可以
UE4 代码中关于 IncrediBuild 译着器分（ ShaderCompilerXGE.cpp ）实现
FASTBuild 译着器，主对象类FShaderCompileFASTBuildThreadRunnable，以及实化
等，所以简单一。论么简单，代码还是很，所以这里只简单展示分核心代码，其
分请发动力吧！
下是一与初化相关代码。初化从引擎件 BaseEngine.ini 中读取
息“是否许 FASTBuild 分布式译着器 ”；果许，则还查找看本是否存
FBuild.exe 程序；最后检所有着器件是否一个根录下（引擎着器和项录下着
器），发送到远程后，这着器件远程 FASTBuild临录下存，之相
对路径关系必须没有发变，否则译赖关系破。同足这三个条件，可以
FASTBuild分布式译着器。
下是成.bff 件件息、义 Compiler 息、赖件列（ExtraFiles）。
赖件，就是分布式译，先发送给远程机器其译所工具、着器件等。有了这件，远
程机器一就可以正常成协助工作。
下 CompilingLoop 实际译务，根实际着器列成.bff 件务列
，并运 FBuild.exe进分布式译。
过上代码本设 CompilerOptions = '\＂\＂ %d %d \＂%%1\＂ \＂%%2\＂ -xge_xml
%s'\r\n ＂可以发现，我这里取（偷）了个巧（懒）， Unreal Editor 调
ShaderCompileWorker 这个工具译着器，了 IncrediBuild 参，这样
ShaderCompileWorker工具就当成正 IncrediBuild来运不这个工具软件代
码了。跟UBT一样，这一步是实现分布式着器译关，所以请一调试一下，确
正常工作。
下来我进两项试：模着器译试和材质辑器着器译试。这两项试分
别对应局着器，尤其是 .ush 件可到情形，以及一工作中常见调试材质
果情形，证FASTBuild是否对着器译有所提升。试机器仍旧是前绍引擎代码分布式
译机器，络机环也一致。
13.5.2 大规模着色器编译测试
为了客观评 FASTBuild分布式译着器带来，先进一次“极 ”
试，即模着器译试，模局着器件Common.ush后临情形。单机译着器
操作步概下：
（1）禁 FASTBuild分布式译着器。
（2）开Editor，开Demo 景。
（3） Common.ush，随加几个空格存。
（4） Editor中 “Ctrl+Shift+.”快译着器，观 Editor各个译阶段以及“ 译着
器” 量提示。
为译着器跟译代码不一样，没有最终汇总报告，所以试着器译了
Windows 计器式来记录最终。这里只给出译开、显示译着器量提示和译
束截图，图13.14至图13.16所示。
图13.14 译开截图
图13.15 显示译着器量提示截图
图13.16 译束截图
从上述图中可以看到，实际译着器量有44000 个，从开译，到最终提示“ 译着

器”消，总 1 50分左右。
分布式译着器操作步与之类，只是一开 BaseEngine.ini 中启 FASTBuild进
分布式着器译，重新运 Unreal Editor并且 Common.ush后进同样操作，图13.17至
图13.19所示。
图13.17 分布式着器译1
译着器总是一样（上图是从录屏里截取，中显示着器总有细微区别，
是于暂机不么精确造成，实际上总是一样），只 5分左右就成了所有着
器译。
极试果让我很惊讶，经过了较果检查和觉果对比，确认着器译果
是正确， FASTBuild分布式译着器对提升确实常明显。
13.5.3 材质编辑器内着色器编译测试
平开发，有局着器情形，这种操作一比较，与着器译更切操
作是材质辑器和调试材质果。所以我又 Unreal Editor 材质辑器进了进一步
试。试选择了一个微杂一材质，也进了单机译和 FASTBuild分布式译两次对
比试。试步很简单，只简单了材质某个相同，观从击“应 ”到实际看到览
果。
单机着器译图13.20至图13.22所示。
图13.20 单机着器译1
从上述图中可以发现，只进了其中一个“Color 红输出到光 ”这么简单，

后应后提示有413个着器译，直到成译，总 1分。
启 FASTBuild分布式着器译试图13.23至图13.25所示。
图13.23 分布式着器译（材质）1

我进了相同操作，应后，8秒不到就成了。材质作为主现段之一，

UE4项中进材质辑也是日常工作中重。过本项试可以看到，FASTBuild分布式译着器
也可以帮助我提这工作，有短繁调试材质果带来等待。此，UE4材质
辑器 “实览”功也更加“实 ”和实，每次调试必须击查看果，得
调试材质这项工作更加。

13.6 总结
过上绍分布式译UE4着器可以看到，利了FASTBuild 持立工具程序
ShaderCompileWorker.exe 分布式运来实现提升，这进一步证实了FASTBuild并不是一
个分布式译代码工具，还可以实现很分布式计算务，这一上可以发想象力——希
望本章起到砖引作，让发现更分布式应景，提开发。
第14章一种高效的帧同步全过程日志输出方案[1]
作者：唐声
摘要
分情下，帧同步技术案戏，其所有逻辑运客端，服务器只于转
发和校。一旦客端之逻辑出现了不一致，服务器就法对其进正了，从造成当前这一单局
法救后果。为了决这个问，此提一种于位客端之不一致Bug 决案。
过程日志，是个戏逻辑中每一次调日志。该日志包含名字、所件名、
件以及实参息。可以见到这样过程日志，其量一是常，并且输出这
日志所 CPU开销也是常。
么，就利巧压案来量，以及巧优化案来提升性。最后达到
果是，盲中，当日志开关一直开，感觉不到与日志开关未开有区别。并且低端机
（龙625）量化试中，对fps 影响 1%左右；中端机中，为终是帧（30fps）运
，所以不出差别。
14.1 引言
现代戏引擎带日志系，并且功强实，是到戏引擎具有一性，
日志系先也是于性设计，对性反其次。正是为此，实际应
中，App 常设一个日志开关，于 App Release版中重级别不日志关掉。是果
到Bug，没有足日志息，则可法确位Bug 逻辑发；同样为此，日志法
盖所有相关逻辑，可正没有盖到 Bug 逻辑发，于是，即 App Debug版中到
Bug，也可确位Bug 日志息。
果有一个性日志系，情就不同了。我可以每一个口、每一个逻辑分
，至每一个我认为关逻辑输出日志；并且， App Release版中，我也可以日志
开关开，不担心当Bug发日志息问。
不同具应景下，对于性日志系具实现有所不同。本章绍一种已经成功应
于一个于 Unity 帧同步戏项具实现，并且该日志案实现思路也可以到其
应景中。
14.2 帧同步的基础理论
于帧同步戏项是本案一种常典应景。绍本案具实现之前，有必
先绍一下帧同步相关知识。果读对帧同步已经有所了，则可以跳过这一。
14.2.1 基本原理
一来讲，同步式可以分为三种：P2P、C/S和帧同步。P2P已经很出现现代中了；
C/S 是最为普和一种络同步式，现代戏引擎带络同步式是于 C/S 模式；
帧同步是相对异化一种络同步式，是以下情下具有 C/S模式法比优势：
● 一致性。
● 开发周期短。
图14.1所示，Server 逻辑切分为一个个等逻辑片，每一个片对应一个
Frame，每一个Frame有一个代逻辑序号。Client 输模到输命令（Cmd）
后，并没有 Cmd直给戏逻辑，是发送给了Server。果Server 同一个片（比 Frame
3）周期里，到了Client A与Client B 输，么就这两个Client 输以Cmd列形式
包含 Frame 3里。等到Frame 3 周期束，就 Frame 3分别发送给Client A和Client B。
么，两个Client 相同逻辑里，就到相同 Cmd列。
图14.1 帧同步原示意图
果Client A与Client B 逻辑也相同，么对于相同 Cmd输，论上，计算得

出相同逻辑果，从实现了一致性络同步。
于帧同步，可以种RUDP 案来适应弱络，并且达到常实性。于
Server不包含具戏逻辑，所以可以短开发周期。
14.2.2 系统抽象
可以进一步上述帧同步戏逻辑模象为图14.2所示。
图14.2 象计算模
个模可以象为“输 ->过程+运算->输出”。果到：当输 A与输 B 一致，输出

A与输出B也一致—— 论上，只过程A与过程B 一致，并且运算A与运算B也一致，即
Client逻辑代码一致即可。
，事情并没有这么简单，随着模模越来越，赖和赖关系越来越杂，总是
意中引一 Bug，从造成不一致问出现。出现这不一致问可原可以归纳为 14.1
和 14.2所示。
14.1 运算不一致可原
14.2 过程不一致可原
可以看出，有一分原，比不同硬件上精度不一样所造成计算果不一致等，可以

研发过程中过一技术段进控制。对于相对可控原，比态变量未重等所造成
Bug，最终现后逻辑过程中。实际项中，为架构设计原，核心逻辑层提
一给（或现）逻辑正常调，是这调里，果变了核心逻辑态，就有可
造成Bug。
这个，果每次逻辑过程调有对应日志成，么，对于确位Bug 是有着巨
帮助。别，项中后期，以及上线运期，个系越来越稳，不一致问出现也越
来越随机和偶现。这个，就常赖日志系来帮助位和决问。
14.3 本方案最终解决的问题
对于帧同步项，本案最终决问是，当两个客端出现不一致，怎么快速确
位造成不一致 Bug 发。
一位过程图14.3所示。于分日志系性消较，所以日志开关一是关闭。
当发现了一个Bug ，重新开日志开关，后重现Bug，这个取到日志进分析。同样
于分日志系性问，日志法盖所有逻辑过程，所以有可法从现有日志中发
现线索，或发现线索法明确位到问。于是，又加日志代码，重新构建版本，再重现一次
Bug。随着项越来越成，Bug 出现概越来越低，么重现Bug 成本越来越。此循
环反，位一个Bug 十分低下。
图14.3 一位过程
想中位过程图14.4所示。有一个性日志系，可以得日志开关是常开，并

且可以盖个系逻辑过程。么，一旦发现了不一致，过对比两个Client “ 过程日
志”，找到日志中不同一，过日志所附带息，就可以确快速位到不一致个
。
图14.4 想位过程
图14.5所示，展示了不一致两个过程对比示。
图14.5 不一致两个过程对比示

从论上，过对比过程A与过程B “ 过程名+参 ”日志序列，就可以位到造成不一致 Bug
所逻辑。
为了尽可精确位到出问逻辑，日志盖尽可。果上述过程是一个，
么就调每一个输出日志。果上述过程是中一个逻辑分语句，么就
这个语句输出日志。
果个系量常，么就一种法动第一代码之前日志代
码。同，为了实现逻辑输出日志，还持以动式位
日志代码。
为了实现性日志输出，对每一日志代码进 Hash 计算，得到一个示这一日志代
码唯一ID，日志件中只存该日志 ID以及日志参，不存其于提日志可
读性本息。
析日志，过日志ID从LogPdb（一个存了日志ID对应可读性息库件）件中
取该日志对应可读性本息，与日志参合起来显示可读性日志本。
14.4 全日志的自动插入
14.4.1 在函数第一行代码之前自动插入日志代码
为了尽可提日志逻辑盖，不可动每个第一代码之前日志代码。这里
正则达式来识别出所有（ + ）。
以下正则达式可以识别出C# 码中绝分代码（根不同开发员码习惯，有
喜欢 static等符 public等符前，只调正则达式即可。以下正则达式只是
一个实际示，可以根项实际情合适正则达式。果项是于C++ ，么
也可以合适正则达式识别出代码）：
以下正则达式可以代码础上识别出，并以此分析出名和形参列：
过已经识别出和形参列，可以动对应日志代码。，为
么对应日志代码为
其中，FSPDebuger.LogTrack是本案中于输出日志，其第一个参是这日志唯一

ID，后对日志进唯一码充这个参；后参是参列，是有一个细，
arg2 为不是础类，法直参与运算，从不输出到日志中。果arg2可影响
运算果，么可以适当位动日志代码（实际帧同步系中，这种情并不
见）。FuncName 作为日志代码义“ ”，这里有一个细，没有常C#或 C++
语法：/* */。这是为了让译器法译这代码，为后程中到这段义
“ ”。
当，果发现已经存日志代码了，或 FSPDebuger.IgnoreTrack（）标识为不
日志代码，则不进。么么情下可以标识为不日志代码呢?比一纯粹
Getter ，或一开发员万分确不有问，并且没有出。
14.4.2 处理手动插入的日志代码
为了善动日志代码法盖到一逻辑分不足，可以动位
日志代码。比：
其与动日志代码唯一区别是，后 “可读性本息” 是符合当前语法格

式。
14.4.3 对每行日志代码进行唯一编码
有种算法可以于计算一日志代码唯一码。比，过该日志代码 “ 件路径+代码
号”字符串来计算其 HashCode，以 HashCode 作为该日志代码唯一码。是一，字符串
HashCode 有一概重；另一，字符串 HashCode 是一个32位 Int类，可以示2
147 483 647 日志代码，实际项中是不可有这么日志代码。
根实际情，我项核心模中有2 400 日志代码，一个Short类足了，
运可以省很日志存（当，果经过计项日志代码确实法 Short类来示，
么就不得不 Int类）。
于是，我了一种比较简单算法来计算日志代码唯一码。
先，为了尽量不去上次已经码过日志代码，这一次正式码前，先历当前所有
日志代码，找出已经码过日志代码，从上一次 LogPdb 中取该日志代码分息（论
上，也可以不赖上一次 LogPdb，是直分析该日志代码及其上下代码以取所有息。么
赖上一次 LogPdb 是为了一程度上提工具性，比，果个项代码没有动，
么赖上一次 LogPdb 可以量正则达式），合该日志代码 “ 件路径+代码
号+ 参个 ”存这一次 LogPdb中。
其次，再一次历所有日志代码，找出未码过日志代码，从ID=1开试从LogPdb中查询该
ID是否已经占。果找到ID=N未占，则N 于该日志代码码，并存 LogPdb中。后从
ID=N+1开查找下一日志 ID，直到所有未码过日志代码码。存 LogPdb中，还存
该日志代码后：/#FuncName#/或 /*可读性本息*/。其中，过/# #/和/* */来区
别后是否为名。最后 /#FuncName#/删，不法译过。
14.4.4 构建版本
意是，以上操作每一次构建版本之前进，所成 LogPdb 与此次构建版本
号关。所以，每一个版本有一个与之对应 LogPdb 件，不同版本 LogPdb 件有可不
同。
14.4.5 整体工具流程及代码清单
图14.6所示为工具程。
图14.6 工具程
关代码下：
● 日志代码。
● 动日志代码。
● 对每日志代码进唯一码。
14.4.6 为什么不采用IL注入
对于C#，过译成IL 件。于代码习惯种样， IL 格式是一，么
于 IL 比于代码正则达式识别更加。是，为么不 IL 呢?原下：
● 果 IL 话，法取可读性息。
● 正则达式分析代码，可以很移植到C++项中。
14.5 运行时的日志收集
14.5.1 整体业务流程
图14.7所示，展示了运集日志，发现两个客端不一致，并且上日志进对比业
务程。
图14.7 业务程
到帧同步系，当前帧逻辑果=上一帧逻辑果+（当前帧逻辑过程+运算），一

旦发现了逻辑果不一致，并不对比从第1帧开日志。论上，只对比当前帧（或上
一帧，校是帧束计算，还是帧开计算）日志即可。
是于络输（图14.7中【1】与【2】所示），以及不同校计算案可
不同程度延迟发现问（比为了性，有不对所有态计算校，是计算关态校
，或其案计算校），此客端存最近50帧（或 100帧）日志，这个
可以根平络延以及逻辑帧进动态调。
于上述绍，我义一个FSPDebuger类，图14.8所示。
图14.8 FSPDebuger类
FSPDebuger.LogTrack（）重载了个实现，于持不同量参。LogTrackLoopQueue实现

了一个循环列，于存最近 50帧日志。LogTrackFrame 于存一帧日志，其中items和
args分别于存日志 ID和参列。到系 List类，一 GC，所以还另
一个LogTrackList。
关代码下：
● 当进一帧，于切 LogTrackFrame。
● 于输出一条日志（hash，即日志ID）。
14.5.2 高效的存储格式
为了最可省存，常紧构来存运日志。
图14.9所示，一个List<ushort>来存日志ID，一个List<int>来存日志参。没有费
一个字存空，此其实存是最（不离线压话）。
图14.9日志存格式
这是本案核心思路之一。
14.5.3 高性能的日志输出
于日志参为（相对于日志系，为了提日志可读性字符串参），并
且最终也不进日志本，是直存线性组中，毋庸，其性有了量级提升。
助于 LogPdb 存，最终导出日志，可以得与日志系相同可读性。
这也是本案思路核心之一。
14.5.4 正确选择合适的校验算法
图中，不同校算法对个业务程一影响。一有下几种案。
（1），对所有戏对象所有态计算Hash 。于所计算态量巨，法到
每一帧进计算。当服务器过该Hash 判出不一致，可真正发不一致已经过去很
帧了。
（2），对常或关态计算 Hash ，可以到每一帧进计算。是，当服务器
判出该Hash 不一致，可这之前干帧有常态不一致了。
（3）过累加和校，每一次对态赋，该态累加到校上。于累加计算性
是常，并且一帧里不每一个态出现赋变化，所以性也比态 Hash计
算很，可以到每一帧上报校。是其检力一，于位制和算法关系，计算
果可出现碰，导致校果。并且这态离分布戏各个，校很不
。
（4）过对每条日志（即日志 ID 与参）进累加和计算校。该案正与最终
过对比日志序列来位Bug 法相呼应，从实现逻辑洽。是该校算法存一碰
概，可以过连每帧校来低概，也可以类 MD5这种本身碰概就极低算法。
实际应中，可以根项实际情来选择不同校案和算法。
14.6 导出可读性日志信息
于日志存常紧，必须合LogPdb 还原出可读性日志息。
图14.10所示，从“日志ID序列”中历日志ID，从LogPdb中查询到该日志代码参个
ArgCnt，后过 ArgCnt 从“日志参序列”中取对应个参，最后合LogPdb中该日志
代码其息（件名、代码、名、）成可读性日志息。
图14.10 从LogPdb中导出可读性日志息
14.7 本方案思路的可移植性
本案思路也可以应于帧同步项中。从案实现中可以得出论：论是存还
是日志输出性上，已经比日志系更具优势了。
本案思路也可以应于C++项中。 C++项中习惯来输出日志， Release版中
可以过重义来剔不日志，这样个逻辑性是提升了，是同样临着一常偶
现 Bug—— 为当没有日志—— 法位Bug 问。本案有一日志性消，
是从案实现来看，其性消已经到日志系中最低了，并且实际项中得到证，其性影响
几乎可以忽。果该C++项也是于帧同步项，么移植本案就变得更加有必了。
14.8 总结
本章绍了一种已经实现应于帧同步项日志输出案，于存和输出性上极为
出，已经可以到输出个帧同步系调过程日志前提下，日志开关常开，以此来极
提当帧同步系出现Bug ，位Bug 工作。
我即上线一个项中，平每帧约输出1 750条日志，平每条日志带有1个参，每帧
日志量约为10KB，论上存50帧量为500KB。是，为了更加极致优化性，繁
存分，我为每帧先分 10 240条日志ID和10 240个参量。所以，我项个
LogTrack实际占存3MB左右，压后日志件约为50KB，可以快速上至日志服务器。
希望本案及其思路，可以给读带来一启发。
第15章基于解析符号表，使用注入的方式进行Profiler采样
的技术
作者：
摘要
，当工程中到一量性求，我可以选择工具，也可以选择代
码中一段来计运殊代码来实现。环中，工具 VTune 等进性
量比较，是运环中，或一个很得分性环中，工具
就不么了。于是，可以选择代码中一性计代码法。是，殊代码来
计息法有着极局性。先，必须业务代码中加或或性计代码，破了原先代
码性。其次，对计代码每一次，必须进一次译和发布过程，这样得周期变得
很，更严重是很易过偶现和意负载。最后，运环中，局性是常
，不先埋，还经常护，否则后，项量性计所淹没。
论是工具还是代码法来进性计，有着不可局性，为了决以
上问，我索看是否有一种法又进性计。于是就有了本章中提到
法。
本章绍一种于技巧运代码二进制来实现性计法。为了
更得标程序二进制，助于符号。最终实现了一个性量工具，
和运环中帮助我更了工程运并进优化。本章所讨论技术和平台、语息息相
关，是于篇幅，本章中出现所有代码和以x86平台Windows 7操作系下 Visual
Studio 2015环为，其环有干差异，思想是一致。
实践中比较赖可控运环，果不可控客环下，该法可杀毒软件当作毒
。过去实践中，往往服务器应或开发环下。
15.1 进行测量之前的准备工作
正式进量之前，先述运代码为，并实现量样代码技术，下
讲讲进二进制代码。
我知，最终 PC 上运程序是二进制，论么语，最终运是二进制形
式。果直二进制代码，么就可以实变程序为。这种法很
就已经计算机毒和软件破中繁了，命名为“ ”，为了区分SQL ，这里加上前
，命名为“二进制代码 ”。
15.1.1 注入的简单例子
讲二进制代码之前，我先一段代码来：
这个最简单 HelloWorld 代码译后样是：
果 011D20F8上更为：
么相应输出也跟着更。这样就实现了一个最简单。从这个中可以看到，

技术过正运程序二进制来变程序运。运技术，可以标程序
造成我希望样，包新代码、记录所。
15.1.2 注入额外的代码
上进正，一个远程进程中，示下：
以上中，核心为VirutalAllocEx和WriteProcessMemory两个API 调，分别远程进
程中创建了一个存空，以及对应二进制代码远程进程中。最后调 CreateRemoteThread创
建了一个线程，来实现远程进程中运。
15.1.3 注入的注意事项
对字符串是过程中很易误之一。
就中所说明，代码中对字符串存一是一个字符串，该向段中

具，当跨进程空后，向存是意义，所以我不代码中直
字符串义。
对字符串操作别慎，还别意调。
本质是跳转。总以上两个问，凡是涉及和存问，代码

中出现跨进程空后向存意义问。
别提示： VS Debug 模式下成代码果开启了 /RTC 开关进栈检，则成与
__RTC_CheckEsp 相关代码，这分代码代码变得不可。所以，当译来
，记得关闭/RTC开关。
么，决上所提及字符串和调问呢?看以下：
这个中，核心于过得 Kernel32.dll 中来远程中，以及远
程进程中创建一个存空，字符串制过去。其思想是分楚过代码译出来
哪是向存，哪是译成二进制，凡是向存，
。
15.2 性能的测量
符号就先绍到这里，下来进另一个主：性量。这个是主，
对标进程进运量，并且试合适式呈现出来。
15.2.1 时间的统计方法
计CPU开销，比较向于计法是开位记录一个，并且束位取
和开相得到差为运开销。
实践过程中，量法精度，以及量法对量本身干。先举几个：
最常 Windows API，可以得毫秒精度，并不推作为量。为其精度并

不，并且属于操作系级别，其本身开销足以影响到量本身。
推 __rdtscp ，该只有一条CPU 令，精度为CPU运周期。属于CPU 持，
论是精度还是本身对量干属于最优选择。
15.2.2 针对函数的采样
对样，先二进制件中找到样，后进和离开
两个位进样代码。进样所有为发之前进，所以我选
择调位。离开样比较杂，为不确认只有一个出口，一旦调
ret后，离开这个，是并没有硬性则证只有一个ret存，所以于此原，并
不过进样法位代码。此，必须一个技巧来证退出调
退出样。
1. 得样
下一个简单来说明符号得对应变量和。
远程进程代码：
试得远程进程中TargetFunc ：
以上中，先关符号操作一系列，这 DbgHelp.h中。该中以Sym关字
开一系列属于符号操作 API， SymInitialize和SymRefreshModuleList根进程句柄
来初化符号，SymFromName 是核心操作，过命名来取标进程中。当取后，
下来就是段，代码段该对应位进量过程了。
2.进样
这个步是原有代码中一段制代码，不影响原有代码运前提下记录下
来。当，果记录更息也是没问，这里就不篇幅来重讲述了。下为远程进程
中原有代码。
我希望最开一段代码来记录这个调次。么代码下：
该中，事先 0x120000 存中请了一个 dword 变量，当运到这段代码

，就可以变量+1。这段代码到上一个 push ebp之前运。为已经译二进制
件中是确，所以不随意移和充。这就另请一存来存代
码，并且 jmp 令跳转过去运，并跳转来。
于是有了这么一段代码，下来是这段代码到标位。计jmp 令代码总占

6字，么就标代码中掉6字位来 jmp 令，这导致原来占着位令
出来到新请存段中运。一条汇令是不截，所以当6字截原有
令，则原有令个出来。于是，总从标位出了9字到新请
存段中，最后还 6字跳到原有代码中，最终请21字存新代码。后是下
样：
至此，中到了凡是调口为0x000817B0 ，就得为0x120000 计器计
加1。
3.离开样
前提到，为法证一个只有一个ret离开，所以没有办法 ret 位对应样
代码来取束。这可以引一个技巧：Return Call。
所谓 Return Call，就是 A 中册一个B 调，束A ，B 调，后
再返到调 A 上层栈。下简单两汇代码实现了Return Call。
以上简单两汇代码可以让ret后跳转到eax所向。这里分析ret 为。ret相当

于jmp到栈顶所存，后一次pop操作，并不去管到底是不是这个调过来。
这个性让程序有了很操作空，只开，所有令还没有，调
Return Call 栈即可。当束程后， ret之前护栈平，所有中发
栈变化恢到调之前，此栈顶是之前push进去 Return Call ，
ret后进样。当进样，栈顶是调上层返，样操作
必须护栈平，样束后再ret就可以到调原。
果参，则可以先参栈，再栈，最后 Return Call 中参出
栈即可护栈平。
4. 正运
果当前程序正于运中，么不样正样上运，有极
概正运到令段中。恢环，也有概正运样，果这
上进或样话，则引起程序崩。所以，操作中这一发。
以上实现了两个，暂与对应进程 ID 相关所有线程，并判线程 EIP 是否
护代码段中，以及恢与对应进程ID相关所有线程。这样就可以选择一个不上运
刻进操作。
15.2.3 测量实战
上提到两个技巧，就可以实现一个开开计，束计
消，以及更事情。果进更杂计，则可以计 DLL中，代码是
对DLL 加载和调。以下是一个：
该中，总成了3段二进制代码，分别对应于量退出、开
和原有进跳转。并且中着重提到判标进程当前运位不再操
作分，否则导致标进程出。还原步中，意这个细。别意
是，对请代码段，也标进程并没有运该代码段进。
当成后，就可以
来读取果了，中量法，读出来是rtdscp 返。当更杂量，

可以一个构来存希望得到果。
15.3 总结
过符号帮助我得到详细标进程息后，并辅助以二进制代码段来
标进程为，实现了对标进程中性量，并且可以得到所有希望得到程序员
开发中。于只了量分代码，并且不再去量可以恢原，所以量
对性影响微乎其微。不重新译，也不工具辅助，只开发环下对应工
具就可以进量，常适合运环中，对突发性量求有常持。
同，该法并不于量，其应可以盖到二进制更新、随随加log 输出、
杂代码调试等，于篇幅有这里就不提了，不过思想是相。

腾讯游戏开发精粹

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

腾讯游戏开发精粹

Uploaded by

Copyright:

Available Formats

腾讯游戏学院

TENCENT INSTITUTE OF GAMES

Publishing House of Electronics Industry

公式 示， 先 义φ: 对于一个形 集S，有

检 某 x是否 形 （ 碍 ）之 示为：φ（x）≤0， 果 先知 每个 有号距离

果 2字 示每个格 SDF,256 × 256 栅 格 图 存 为 256 × 256× 2

为距离本身是线性 ，可以 双线性过 （Bilinear Filtering） 样 位 φ ，根

图1.5 双线性过 示意图

当前几乎所有 MOBA 杆移动过程中，碰到 碍 之后 是 着 碍 ， 不是直

上式中，n为碰 法线， 取呢?

SDF 为纯量 ，纯量 中某一 上 梯度（Gradient） 向纯量 最快 向， 此可以利

至此，得到当 杆 向移动 实际移动 向代码。

（ 形）半径r=0.5， 碍 轨迹呈 齿 ， 为SDF 本身就呈明显 齿

此 优化SDF 计算。前 SDF计算是栅格顶 到 栅格 距离， 区 本身是 边形

过双线性过 法，可得 半径r=0.5 A、B、C三 φ 为0.5， 此 碍

图1.11所示，n为梯度 向，r=0.5为 半径，实线 位于 碍 ， 心φ=−0.1； 线 位

么对于动态 碍 情 ，可以 成 态 图SDF和动态 碍SDF 叠加，即取二

以下为计算 SDF 代码。

对于矩形， 设 标系原 矩形中心，矩形 个象 是相互 ，则可 此问 退化为 一个

决此问 ，只 进 次迭代求出最终 正 位 即可。 当 移动步幅较 ， 现等，

原 示 式为32位 ， 22.10 格式，即22位有符号 ，10位 。可 示精

原 示 式为64位 ， 32.32 格式，即32位有符号 ，32位 。可 示精

这意味着两个 和/差，就是这两个 对应 和/差 示 。

其中， 是两个 对应 商， 是这个商再乘以2n得到 所 示

。 乘以、 以2n 运算可以 过移位操作来实现。

对于VC， 前还没有128位 类 ，可以 intrinsic function _mull128来计算，并 两

第三个参 中 64位变量 ，即可以得出计算 果 64位。

对于VC就不 了， intrinsic function中没有128位 法。 是可以 汇 代码来实现。

这里 a_low 给 存器rcx， a_high 给rdx， b 给r8， ret 给r9。

就是一个 。 勒展开式 误差是

可以看出，x 果离a很远 话，误差也 很 。

对于给 n，我 标就是求出Pn 系 ， 得误差绝对 最 最 ：

这里 软件Mathematica求 合 项式 系 。 Mathematica中 次输 下命令：

其中，{x,{1,2},4,0} 示 区 [1,2]上逼近， 分 4次 项式、分母0次 项式 有 式进 逼

后根 终边所 位 ，我 就可以得到所 求 三 和sinθ,cosθ之 关系。比

其中，e [x]是e 次 ，很 易求 。 {x}属于[0,1]区 ， 这个区 可以

一项， 分情 下比较 两项即可（ 上说只 是这两项之一， 开

其归一化（单位化） 法是V 乘以向量x,y,z分量平 和 开 。引擎 常提 一个

后 过 顿迭代法再计算一次（相对误差 到0.00001%以 ）， 图2.4所示。

fixedpoint（32.32） 示 实 ，对比 double（双精度） 标 库 实现，平 误

2.6 性 果（运算 计，单位为ms）

对于 f1（1）和f2（0）， 设有一动 Pm， 该 曲线 足：

可以看到，最终动 Pm不 出现 程中， 为隐含 ，对 是透明 。为了 分段曲线当作一

类 ，也可以得到曲线 度 程L s（t）， 曲线 度 程l1（t）和l2（t） 示 归一化

这 系 可以离线 计算 （ 态路径），或 运 初 化曲线 计算（动态构建路径）。

τ为切线 （张弛 ）， 图3.2所示，这样 分情 下，只 路径两个端

实现上，路径上 路 路 息构建曲线 ，总是 路 转 到 己 局 标

即 参 u 达 曲线 度计算 ；设一个参 u到参 t 变 t（u），且 足t（0）=0,t（1）

为得到变 t（u）， 求出L（t） 反 t=L-1(l)。

（1） [0,1]区 进 等曲线 度 划分，得到n条等 曲线段 ，对应 参

（2）对每一条曲线段 ， 样m个L（t） 该区 ，得到 集

（3）以 度为 变量， 最 二乘法 合 足 样 项

（4） 剩 区 重 步 2和步 3，求出L-1(l) 所有区 近 ，则 为 组

其中，A、B、C 参见“端 二次样条 构建”。L（t）为严格单调 ，适合 Newton-

对于 弧 参 化后 曲线 程gs（u），其求 计算比原 曲线 程 fs（t） 一次 项式

图中上 为原 曲线，下 为弧 参 化后 曲线，重参 化后，等参对应曲线上 等距。

后从该位 沿着−Ni+1 向 FH 试是否存 碰 可以作为 撑 ： 果存

和Pi 切平 平 ，可以看作是原水平运动 向 Ti 引导曲线 变了 向， Ni发 了 转，

下 过程中 果 到可以作为 撑 碰 ，则转为跑动 态。其 碰 式类 于跑

计算该法平 与 曲 线 g2 （ u ） Pg2 ， 该 对应 曲线参 为 ，局 标系为（

对于二次曲线构成 路径 ， 意相机 转最 不 和曲线 切线相关 （ 对齐到

其中，ρ代 水 度，g 是重力加速度，V 代 水 积。 力 向是竖直 ，作 位 水

其中，Fb代 力，来 上一个公式，r 是质心到 水 积 中心 向量。 戏 实际计算中，我

同 ，为了更 调试 力 感，我 提 了 力力矩参 ParamTb，最终 力计算公式为

公式示，先义φ: 对于一个形集S，有

检某 x是否形（碍）之示为：φ（x）≤0，果先知每个有号距离

果 2字示每个格 SDF,256 × 256 栅格图存为 256 × 256× 2

为距离本身是线性，可以双线性过（Bilinear Filtering）样位 φ ，根

图1.5 双线性过示意图

当前几乎所有 MOBA 杆移动过程中，碰到碍之后是着碍，不是直

上式中，n为碰法线，取呢?

SDF 为纯量，纯量中某一上梯度（Gradient）向纯量最快向，此可以利

至此，得到当杆向移动实际移动向代码。

（形）半径r=0.5，碍轨迹呈齿，为SDF 本身就呈明显齿

此优化SDF 计算。前 SDF计算是栅格顶到栅格距离，区本身是边形

过双线性过法，可得半径r=0.5 A、B、C三 φ 为0.5，此碍

图1.11所示，n为梯度向，r=0.5为半径，实线位于碍，心φ=−0.1；线位

么对于动态碍情，可以成态图SDF和动态碍SDF 叠加，即取二

对于矩形，设标系原矩形中心，矩形个象是相互，则可此问退化为一个

决此问，只进次迭代求出最终正位即可。当移动步幅较，现等，

原示式为32位， 22.10 格式，即22位有符号，10位。可示精

原示式为64位， 32.32 格式，即32位有符号，32位。可示精

这意味着两个和/差，就是这两个对应和/差示。

其中，是两个对应商，是这个商再乘以2n得到所示

。乘以、以2n 运算可以过移位操作来实现。

对于VC，前还没有128位类，可以 intrinsic function _mull128来计算，并两

第三个参中 64位变量，即可以得出计算果 64位。

对于VC就不了， intrinsic function中没有128位法。是可以汇代码来实现。

这里 a_low 给存器rcx， a_high 给rdx， b 给r8， ret 给r9。

就是一个。勒展开式误差是

可以看出，x 果离a很远话，误差也很。

对于给 n，我标就是求出Pn 系，得误差绝对最最：

这里软件Mathematica求合项式系。 Mathematica中次输下命令：

其中，{x,{1,2},4,0} 示区 [1,2]上逼近，分 4次项式、分母0次项式有式进逼

后根终边所位，我就可以得到所求三和sinθ,cosθ之关系。比

其中，e [x]是e 次，很易求。 {x}属于[0,1]区，这个区可以

一项，分情下比较两项即可（上说只是这两项之一，开

其归一化（单位化）法是V 乘以向量x,y,z分量平和开。引擎常提一个

后过顿迭代法再计算一次（相对误差到0.00001%以），图2.4所示。

fixedpoint（32.32）示实，对比 double（双精度）标库实现，平误

2.6 性果（运算计，单位为ms）

对于 f1（1）和f2（0），设有一动 Pm，该曲线足：

可以看到，最终动 Pm不出现程中，为隐含，对是透明。为了分段曲线当作一

类，也可以得到曲线度程L s（t），曲线度程l1（t）和l2（t）示归一化

这系可以离线计算（态路径），或运初化曲线计算（动态构建路径）。

τ为切线（张弛），图3.2所示，这样分情下，只路径两个端

实现上，路径上路路息构建曲线，总是路转到己局标

即参 u 达曲线度计算；设一个参 u到参 t 变 t（u），且足t（0）=0,t（1）

为得到变 t（u），求出L（t）反 t=L-1(l)。

（1） [0,1]区进等曲线度划分，得到n条等曲线段，对应参

（2）对每一条曲线段，样m个L（t）该区，得到集

（3）以度为变量，最二乘法合足样项

（4）剩区重步 2和步 3，求出L-1(l) 所有区近，则为组

其中，A、B、C 参见“端二次样条构建”。L（t）为严格单调，适合 Newton-

对于弧参化后曲线程gs（u），其求计算比原曲线程 fs（t）一次项式

图中上为原曲线，下为弧参化后曲线，重参化后，等参对应曲线上等距。

后从该位沿着−Ni+1 向 FH 试是否存碰可以作为撑：果存

和Pi 切平平，可以看作是原水平运动向 Ti 引导曲线变了向， Ni发了转，

下过程中果到可以作为撑碰，则转为跑动态。其碰式类于跑

计算该法平与曲线 g2 （ u ） Pg2 ，该对应曲线参为，局标系为（

对于二次曲线构成路径，意相机转最不和曲线切线相关（对齐到

其中，ρ代水度，g 是重力加速度，V 代水积。力向是竖直，作位水

其中，Fb代力，来上一个公式，r 是质心到水积中心向量。戏实际计算中，我

同，为了更调试力感，我提了力力矩参 ParamTb，最终力计算公式为

当u,v,w三个向量逆列， P 三 ABC 正，V是于0 ；反之， P 三 ABC

以积作为权重，可以得到个几中心。个积和几中心计算公式下：

其中，ρ是度，C 是升力系，和形以及朝向有关，S 是浸没水中积，

公式中 ParamT1 是升力力矩系，R是转矩阵，massCenter是质心。

中受到力为 F,ρ是度，C 是力系，S 是参积，一义为运动向

公式中Vtotal是积，m是重量，v是速度，Vinc和Vdec分别代加积和

其中，Paramd是本第一个公式中常量项，即 ;Vimmerse是水积。

这里 ParamT d是一个与有关常量。

公式中 Params 是调击力影响常量。Vnew 是对每个三形成分别计算再

求和。只有当水积从0变成 0 算作Vnew，否则算作Vinc。

● 对向量每个分量足。之所以对每个分量分别检，是为Fr 朝向和v 朝

向是不同。这里 m是质量。

● 两模相等。之所以只模相等，是为Tr 是正比于w 。这里 I

是惯性张量，戏中一为一个三向量。R和前中义相同，是转矩阵。

代前进，我可以得到移动力：。转向求出转向力矩，设已经算出转向力

矩 T,T 为负代朝左转，为正代朝右转，我可以得到转向力矩：。

Paramc是一个控制向心力常量，和质量成正比。这里 vlocal.fwd和wlocal.up分别是 v

local向量中代前分量和w local 向量中代上分量，为一个。比 Unity中，y是up

更新机制核心是BuoyancyUpdate类，有以下三个口。

本章绍3D 戏素存、优化，适于前端、后台。2014年《天涯明月》项组曾分