大模型时代：ChatGPT开启通用人工智能浪潮

版权信息
书名：大模型时代：ChatGPT开启通用人工智能浪潮
作者：龙志勇黄雯
出版社：中译出版社
出版时间：2023-05-01
ISBN：9787500173953
品牌方：中译出版社有限公司
代序
AI大模型：当代历史的标志性事件及其意义
“尝试找到如何让机器使用语言、形成抽象和概念、解决现在人
类还不能解决的问题、提升自己，等等。对于当下的人工智能来说，
首要问题是让机器像人类一样能够表现出智能。”
——达特茅斯会议对人工智能(AI)的定义
2020—2022年，在新冠疫情肆虐全球的阴霾日子里，人工智能创
新的步伐完全没有停止。美国人工智能研究公司OpenAI异军突起：20
20年4月发布神经网络Jukebox；2020年5月发布GPT-3，模型参数量为
1750亿；2020年6月开放人工智能应用程序接口；2021年1月发布连接
文本和图像神经网络CLIP；注【a CLIP(Contrastive Language-Image Pre-Trainin
g)模型是OpenAI在2021年初发布的用于匹配图像和文本的预训练神经网络模型，可
以说是近年来在多模态研究领域的经典之作。该模型直接使用大量的互联网数据进
行预训练，在很多任务表现上达到了目前最高水平。】 2021年1月发布从文本
创建图像神经网络DALL-E；注【DALL-E是一个可以根据书面文字生成图像
的人工智能系统，该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E)。】 20
22年11月，正式推出对话交互式的ChatGPT。相比GPT-3，ChatGPT引
入了基于人类反馈的强化学习(RLHF)注【单纯的强化学习(RL)是机器学习
的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学
习策略以达成回报最大化或实现特定目标的问题。】技术以及奖励机制。
ChatGPT是人类科技史上的里程碑事件，在短短几个月席卷全
球，速度之快超出人类最狂野的想象。ChatGPT证明了通过一个具有
高水平结构复杂性和大量参数的大模型（foundation model，又称为
“基础模型”）可以实现深度学习。此后，大模型概念受到前所未有
的关注和讨论。但是，关于“大模型”定义，各方对其内涵的理解和
诠释却莫衷一是，“横看成岭侧成峰，远近高低各不同”。
尽管如此，这并不妨碍人们形成关于大模型的基本共识：大模型
是大语言模型(LLM)，也是多模态模型，或者是生成式预训练转换模
型。GPT是大模型的一种形态，引发了人工智能生成内容(AIGC)技术
的质变。大模型是人工智能赖以生存和发展的基础。现在，与其说人
类开始进入人工智能时代，不如说人类进入的是大模型时代。我们不
仅目睹，也身在其中，体验生成式大模型如何开始生成一个全新时
代。
1.何谓大模型
人工智能的模型，与通常的模型一样，是以数学和统计学为算法
基础的，可以用来描述一个系统或者一个数据集。在机器学习中，模
型是核心概念。模型通常是一个函数或者一组函数，可以是线性函
数、非线性函数、决策树、神经网络等各种形式。模型的本质就是对
这个函数映射的描述和抽象，通过对模型进行训练和优化，可以得到
更加准确和有效的函数映射。建立模型的目的是希望从数据中找出一
些规律和模式，并用这些规律和模式预测未来的结果。模型的复杂度
可以理解为模型所包含的参数数量和复杂度，复杂度越高，模型越容
易过拟合。
人工智能大模型的“大”，是指模型参数至少达到1亿。但是这
个标准一直在提高，目前很可能已经有了万亿参数以上的模型。GPT-
3的参数规模就已经达到了1750亿。
除了大模型之外，还有所谓的“超大模型”。超大模型，是比大
模型更大、更复杂的人工神经网络模型，通常拥有数万亿到数十万亿
个参数。一个模型的参数数量越多，通常意味着该模型可以处理更复
杂、更丰富的信息，具备更高的准确性和表现力。超大模型通常被用
于解决更为复杂的任务，如自然语言处理(NLP)中的问答和机器翻
译、计算机视觉中的目标检测和图像生成等。这些任务需要处理极其
复杂的输入数据和高维度的特征，而超大模型可以从这些数据中提取
出更深层次的特征和模式，提高模型的准确性和性能。因此，超大模
型的训练和调整需要极其巨大的计算资源和数据量级、更加复杂的算
法和技术、大规模的投入和协作。
大模型和超大模型的主要区别在于模型参数数量的大小、计算资
源的需求和性能表现。随着大模型参数规模的膨胀，大模型和超大模
型的界限正在消失。现在包括GPT-4在内的代表性大模型，其实就是
原本的超大模型。或者说，原本的超大模型，就是现在的大模型。
大模型可以定义为大语言模型，具有大规模参数和复杂网络结构
的语言模型。与传统语言模型（如生成性模型、分析性模型、辨识性
模型）不同，大语言模型通过在大规模语料库上进行训练来学习语言
的统计规律，在训练时通常通过大量的文本数据进行自监督学习，从
而能够自动学习语法、句法、语义等多层次的语言规律。注【生成性
模型从一个形式语言系统出发，生成语言的某一集合。代表是乔姆斯基(Avram Noa
m Chomsky, 1928—)的形式语言理论和转换语法。分析性模型从语言的某一集合开
始，根据对这个集合中各个元素的性质的分析，阐明这些元素之间的关系，并在此
基础上用演绎的方法建立语言的规则系统。代表是苏联数学家O.S.库拉金娜(O. S. K
ulagina, ?—?)和罗马尼亚数学家S.马尔库斯(Solomon Marcus, 1925—2016)用集合论方
法提出的语言模型。在生成性模型和分析性模型的基础上，将二者结合起来，产生
了一种很有实用价值的模型，即辨识性模型。辨识性模型可以从语言元素的某一集
合及规则系统出发，通过有限步骤的运算，确定语言中合格的句子。代表是Y.巴尔-
希列尔(Yehoshua Bar-Hillel, 1915—1975)用数理逻辑方法提出的句法类型演算模
型。】
如果从人工智能的生成角度定义大模型，与传统的机器学习算法
不同，生成模型可以根据文本提示生成代码，还可以解释代码，甚至
在某些情况下调试代码。这一过程，不仅可以实现文本、图像、音
频、视频的生成，构建多模态，还可以在更为广泛的领域生成新的设
计，生成新的知识和思想，甚至实现广义的艺术和科学的再创造。
近几年，比较有影响的AI大模型主要来自谷歌、Meta和OpenAI。
除了OpenAI的GPT之外，2017年和2018年，谷歌发布LaMDA、BERT和Pa
LM-E。注【谷歌推出的LaMDA(Language Model for Dialogue Applications)是语言处
理领域的一项新的研究突破。LaMDA是一个面向对话的神经网络架构，可以就无休
止的主题进行自由流动的对话。它的开发是为了克服传统聊天机器人的局限性，传
统聊天机器人在对话中往往遵循狭窄的、预定义的路径。BERT(Bidirectional Encode
r Representation from Transformers)是一个预训练的语言表征模型。它强调了不再像
以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进
行预训练，而是采用新的masked language model(MLM)，以致生成深度的双向语言表
征。BERT论文发表时提及在11个NLP任务中获得了新的目前最高水平的结果PaLM-
E，参数量高达5620亿（GPT-3的参数量为1750亿）。集成语言、视觉，用于机器人
控制。相比大语言模型(LLM)，它被称为视觉语言模型(VLM)。VLM与LLM的不同
之处，在于VLM对物理世界是有感知的。】 2023年，Facebook的母公司Meta
推出LLaMA，并在博客上免费公开LLM——OPT-175B。注【LLaMa有多个
不同大小的版本，其中LLaMa65B和LLaMa33B在1.4万亿token上进行了训练。该模型
主要在从维基百科、书籍以及来自ArXiv、GitHub、Stack Exchange和其他网站的学
术论文中收集的数据集上进行训练。LLaMA模型支持20种语言，包括拉丁语和西里
尔字母语言，目前看原始模型并不支持中文。2023年3月，LLaMa模型发生泄露。O
PT-175B模型有超过1750亿个参数，和当前世界参数量最大的GPT-3相当。但相比G
PT-3，OPT-175B的优势在于它是完全免费的，这使得更多缺乏相关经费的科学家
们可以使用这个模型。同时，Meta还公布了代码库。】在中国，AI大模型的主
要代表是百度的文心一言、阿里的通义千问和华为的盘古。
这些模型的共同特征是：需要在大规模数据集上进行训练，基于
大量的计算资源进行优化和调整。大模型通常用于解决复杂的NLP、
计算机视觉和语音识别等任务。这些任务通常需要处理大量的输入数
据，并从中提取复杂的特征和模式。借助大模型，深度学习算法可以
更好地处理这些任务，提高模型的准确性和性能。
因为AI大模型的出现和发展所显示的涌现性、扩展性和复合性，
长期以来人们讨论的所谓“弱人工智能”“强人工智能”“超人工智
能”的界限不复存在，这样划分的意义也自然消失。
2.大模型是人工智能历史的突变和涌现
如果从1956年达特茅斯学院的人工智能会议算起，人工智能的历
史已经接近70年（参见图Ⅰ）。
◎图Ⅰ 人工智能发展的历史
图片来源：作者改制自Copeland，Michael，2016，“What’s t
he Difference Between Artificial Intelligence，Machine Lear
ning，and Deep Learning？”，https://blogs.nvidia.com/blog/
2016/07/29/whats-difference-artificial-intelligence-machine
-learning-deep-learning-ai/.。
达特茅斯学院的人工智能会议引申出人工智能的三个基本派别。
(1)符号学派(Symbolism)，又称逻辑主义、心理学派或计算机学派。
该学派主张通过计算机符号操作来模拟人的认知过程和大脑抽象逻辑
思维，实现人工智能。符号学派主要集中在人类推理、规划、知识表
示等高级智能领域。(2)联结学派(Connectionism)，又称仿生学派或
生理学派。联结学派强调对人类大脑的直接模拟，认为神经网络和神
经网络间的连接机制和学习算法能够产生智能。学习和训练是需要有
内容的，数据就是机器学习、训练的内容。联结学派的技术性突破包
括感知器、人工神经网络和深度学习。(3)行为学派(Actionism)，该
学派的思想来源是进化论和控制论。其原理为控制论以及感知—动作
型控制系统。该学派认为行为是个体用于适应环境变化的各种身体反
应的组合，其理论目标在于预见和控制行为。
比较上述人工智能的三个派别：符号学派依据的是抽象思维，注
重数学可解释性；联结学派则是形象思维，偏向于仿人脑模型；行为
学派是感知思维，倾向身体和行为模拟。从共同性方面来说，这三个
派别都要以算法、算力和数据为核心要素。但是，在相当长的时间
里，符号学派主张的基于推理和逻辑的AI路线处于主流地位。但是，
因为计算机只能处理符号，不可能具有人类最为复杂的感知，符号学
派在20世纪80年代末开始走向式微。在之后的AI发展史中，有三个重
要的里程碑。
第一个里程碑：机器学习(ML)。机器学习理论的提出，可以追溯
到图灵写于1950年的一篇论文《计算机器与智能》(Computing Machi
nery and Intelligence)和图灵测试。1952年，IBM的亚瑟·塞缪尔
(Arthur Lee Samuel, 1901—1990)开发了一个西洋棋的程序。该程
序能够通过棋子的位置学习一个隐式模型，为下一步棋提供比较好的
走法。塞缪尔用这个程序驳倒了机器无法超越书面代码，并像人类一
样学习模式的论断。他创造并定义了“机器学习”。之后，机器学习
成为一个能使计算机不用显示编程就能获得能力的研究领域。1980
年，美国卡内基梅隆大学召开了第一届机器学习国际研讨会，标志着
机器学习研究已在全世界兴起。此后，机器学习开始得到大量的应
用。1984年，30多位人工智能专家共同撰文编写的《机器学习：一项
人工智能方案》(Machine Learning: An Artificial Intelligence
Approach)文集第二卷出版；1986年国际性杂志《机器学习》(Machin
e Learning)创刊，显示出机器学习突飞猛进的发展趋势。这一阶段
代表性的工作有莫斯托(Jack Mostow, 1943—)的指导式学习、莱纳
特(Douglas Bruce Lenat, 1950—)的数学概念发现程序、兰利(Pat
Langley, 1953—)的BACON程序及其改进程序。到了20世纪80年代中
叶，机器学习进入最新阶段，成为新的学科，综合应用了心理学、生
物学、神经生理学、数学、自动化和计算机科学等，形成了机器学习
理论基础。1995年，瓦普尼克(Vladimir Naumovich Vapnik, 1936
—)和科琳娜·科茨(Corinna Cortes, 1961—)提出的支持向量机
（网络）(SVM)，实现机器学习领域最重要突破，具有非常强的理论
论证和实证结果。
机器学习有别于人类学习，二者的应用范围和知识结构有所不
同：机器学习基于对数据和规则的处理和推理，主要应用于数据分
析、模式识别、NLP等领域；而人类学习是一种有目的、有意识、逐
步积累的过程。总之，机器学习是一种基于算法和模型的自动化过
程，包括监督学习和无监督学习两种形式。
第二个里程碑：深度学习(DL)。深度学习是机器学习的一个分
支。所谓的深度是指神经网络中隐藏层的数量，它提供了学习的大规
模能力。因为大数据和深度学习爆发并得以高速发展，最终成就了深
度学习理论和实践。2006年，杰弗里·辛顿(Geoffrey Everest Hint
on, 1947—)正式提出深度学习概念，其原理是通过单层的受限制玻
尔兹曼机(RBM)自编码预训练实现神经网络训练。2006年也因此成为
“深度学习元年”。
在辛顿深度学习的背后，是对“如果不了解大脑，就永远无法理
解人类”这一认识的坚信。人脑必须用自然语言进行沟通，而只有1.
5千克重的大脑，大约有860亿个神经元（通常被称为灰质）与数万亿
个突触相连。人们可以把神经元看作接收数据的中央处理单元(CP
U)。所谓深度学习可以伴随着突触的增强或减弱而发生。一个拥有大
量神经元的大型神经网络，计算节点和它们之间的连接，仅通过改变
连接的强度，从数据中学习。所以，需要用生物学途径，或者关于神
经网络途径替代模拟硬件途径，形成基于100万亿个神经元之间的连
接变化的深度学习理论。
深度学习是建立在计算机神经网络理论和机器学习理论上的科
学。它使用建立在复杂的网络结构上的多处理层，结合非线性转换方
法，对复杂数据模型进行抽象，从而识别图像、声音和文本。在深度
学习的历史上，CNN和循环神经网络(RNN)曾经是两种经典模型。
2012年，辛顿和亚历克斯·克里泽夫斯基(Alex Krizhevsky, 19
78—)设计的AlexNet神经网络模型在ImageNet竞赛中实现图像识别分
类，成为新一轮人工智能发展的起点。这类系统可以处理大量数据，
发现人类通常无法发现的关系和模式。
第三个里程碑：人工智能内容生成大模型。从2018年开始大模型
迅速流行，预训练语言模型(PLM)及其“预训练—微调”方法已成为N
LP任务的主流范式。大模型利用大规模无标注数据通过自监督学习预
训练语言大模型，得到基础模型，再利用下游任务的有标注数据进行
有监督学习微调(instruction tuning)模型参数，实现下游任务的适
配。
大模型的训练需要大量的计算资源和数据，OpenAI使用了数万台
CPU和图像处理单元(GPU)，并利用了多种技术，如自监督学习和增量
训练等，对模型进行了优化和调整。2018—2023年，OpenAI实现大模
型的五次迭代。注【2018年6月，发布GPT-1，模型参数量为1.17亿；2019年2
月，发布GPT-2，模型参数量为15亿；2020年5月，发布GPT-3，模型参数量为1750
亿；2022年11月，OpenAI正式推出了对话交互式的聊天机器人ChatGPT。相比GPT-
3，ChatGPT基于的GPT-3.5引入了基于人类反馈的强化学习技术以及奖励机制，提
高模型准确度。2023年3月，正式推出GPT-4，成为目前较先进的多模态大模型。G
PT-4主要在识别理解能力、创作写作能力、处理文本量以及自定义身份属性迭代方
面取得进展。】同时，OpenAI也提供了API接口，使得开发者可以利用
大模型进行NLP的应用开发。
总之，大模型是在数学、统计学、计算机科学、物理学、工程
学、神经学、语言学、哲学、人工智能学融合基础上的一次突变，并
导致了一种“涌现”(emergence)。大模型也因此称得上是一场革
命。在模型尚未达到某个临界点之前，根本无法解决问题，性能也不
会比随机好；但当大模型突破某个临界点之后，性能发生越来越明显
的改善，形成爆发性的涌现能力（参见图Ⅱ）。据谷歌、斯坦福和De
epMind联合发表的《大语言模型的涌现能力》(Emergent Abilities
of Large Language Models)：“许多新的能力在中小模型上线性放
大规模都得不到线性的增长，模型规模必须呈指数级增长并超过某个
临界点，新技能才会突飞猛进。”
◎图Ⅱ 模型参数规模扩大为大模型带来的能力“涌现”
更为重要的是，大模型赋予AI以思维能力，一种与人类近似，又
很不同的思维能力。
3.大模型的基本特征
大模型以人工神经网络(ANN)为基础。1943年，心理学家麦卡洛
克(Warren Sturgis McCulloch, 1898—1969)和数理逻辑学家、数学
家皮茨(Walter Harry Pitts, Jr., 1923—1969)建立了第一个神经
网络模型，即M-P模型。注【该模型也被称为McCulloch-Pitts模型或MCP模
型。】该模型是对生物神经元结构的一种模仿，将神经元的树突、细
胞体等接收信号定义为输入值x，突触发出的信号定义为输出值y。M-
P模型奠定了支持逻辑运算的神经网络基础。1958年，计算机专家弗
兰克·罗森布拉特(Frank Rosenblatt, 1928—1971)基于M-P模型，
发明了包括输入层、输出层和隐藏层的感知机(perceptron)（参见图
Ⅲ）。神经网络的隐藏层（位于输入和输出之间的层）最能代表输入
数据类型特征。从本质上讲，这是第一台使用模拟人类思维过程的神
经网络的新型计算机。
◎图Ⅲ 包括输入层、输出层和隐藏层的感知机的结构
图片来源：作者改制自Reza，Moonzarin，2021，“Galaxy morp
hology classification using automated machine learning”，A
stronomy and Computing，卷37，https://doi.org/10.1016/j.asc
om.2021.100492。
以OpenAI为代表的团队，为了让具有多层表示的神经网络学会复
杂事物，创造了一个初始化网络的方法，即预训练(pre-trained)。
在GPT中，P代表经过预训练(pre-trained)，T代表Transformer，注
【中文将Transformer翻译为“变换器”，并不能完全反映AI大模型的Transformer的
基本内涵。因此，本文直接使用英文原词。】 G代表生成性的(generativ
e)。实际上，是生成模型为神经网络提供了更好的预训练方法。现在
的大模型都是以人工神经网络为基础的算法数学模型。其基本原理依
然是罗森布拉特的智能机。这种人工智能网络是一个复杂系统，通过
分布式并行和调整内部大量节点之间相互连接的信息。
大模型需要可持续的文本数据输入和预训练。大模型生成的内容
的前提是大规模的文本数据输入，并在海量通用数据上进行预训练。
通过预训练不断调整和优化模型参数，使得模型的预测结果尽可能接
近实际结果。
预训练中使用的大量文本数据包括维基百科、网页文本、书籍、
新闻文章等，用于训练模型的语言模型部分。此外，还可以根据应用
场景和需求，调用其他外部数据资源，包括知识库、情感词典、关键
词提取、实体识别等。文本数据包括有标注的数据和无标注数据，这
是所谓数据驱动。在预训练的过程中，不是依赖于手工编写的语法规
则或句法规则，而是通过学习到的语言模式和统计规律进行预训练，
生成更加符合特定需求和目标的文本输出。
预训练，促进规模化。所谓的规模化是指用于训练模型的计算
量，最终转化为训练越来越大的模型，具有越来越多的参数。在预训
练过程中，大模型形成理解上下文学习的能力。或者说，伴随上下文
学习的出现，人们可以直接使用预训练模型。大模型通过大量语料库
训练获得的生成文本中，根据输入文本和生成的上下文生成合适的文
本输出，学习词汇、句法结构、语法规则等多层次的语言知识，通过
对大量样本进行学习，更多的计算资源的投入，包括正确和错误的文
本样本，捕捉到语法和句法的统计性规律，形成一个词或字符的概率
的预测能力，进而根据不同样本的预测错误程度调整参数，处理复杂
的语境，最终逐渐优化生成的文本。例如，GPT会根据之前的上下文
和当前的生成状态，选择最有可能的下一个词或短语。
“预训练+微调”大模型能显著降低AI工程化门槛，预训练大模
型在海量数据的学习训练后具有良好的通用性和泛化性，细分场景的
应用厂商能够基于大模型通过零样本、小样本学习即可获得显著的效
果，使得人工智能有望构建成统一的智能底座，AI+赋能各行各业。
本轮的生成式AI有望从简单的内容生成，逐步达到具有预测、决策、
探索等更高的认知智能。针对大量数据训练出来的预训练模型，后期
采用业务相关数据进一步训练原先模型的相关部分，给出额外的指令
或者标注数据集来提升模型的性能，通过微调得到准确度更高的模
型。
大模型具有理解自然语言的能力和模式。自然语言，例如汉语、
英语及其文字，具有复杂性和多样性，且伴随文化演变而进化。自然
语言通过表达含义，实现人类沟通和交流，推动人类思维发展。理解
自然语言，首先要理解文本的特征。在大模型研究的早期阶段，研究
工作主要集中在NLP领域，形成从简单的文本问答、文本创作到符号
式语言的推理能力。之后大模型发生编程语言的变化，有助于更多人
直接参与大模型使用问答的自然语言交互和编程模式，经过形式极简
的文本输入，利用自然语言表达的丰富性，形成自然语言与模型的互
动。不同于基于语法规则、句法规则的传统语言模型，大语言模型基
于统计语言学的思想，在大量文本数据上进行自监督学习，利用自然
语言中的统计性规律，涉及贝叶斯原理(Bayes theorem)和马尔可夫
链(Markov chain)等数学工具、N元(N-gram)语言模型，通过对大量
语法和句法进行正确的样本学习，捕捉相关规则并进行推断，对各种
不同形式的语言表达保持一定的容忍性、适应性和灵活性，从而生成
具有语法和语义合理性的文本。注【贝叶斯原理是用贝叶斯风险表示的最优
决策律；马尔可夫链描述的是概率论和数理统计中离散的指数集(index set)和状态空
间(state space)内的随机过程(stochastic process)；N元模型是大词汇连续语音识别中
常用的一种语言模型。】
词嵌入(word embedding)是一种将词语映射到低维实数向量空间
的技术，用于表示词语的语义信息。将输入的文本转换为词嵌入向量
来进行模型的处理和生成。词向量表示是将词语映射到连续向量空间
的技术，用于在模型中表示词语。
大模型已经形成“思维链”(CoT)。“思维链”是重要的微调技
术手段，其本质是一个多步推理的过程。通过让大语言模型将一个问
题拆解为多个步骤，一步一步分析，逐步得出正确答案。还可以这样
理解，“思维链”相当于是大模型当中的数据，AI以思维链为数据，
再来做微调和反馈，从而形成AI能力。在计算机语言中，有一个第四
范式(4NF)概念，其内涵是逐步消除数据依赖中不合适的部分，使关
系数据库模式的各关系模式达到某种程度的“分离”，即“一事一
地”的模式设计原则。第四范式的概念有助于理解“思维链”的功
能，有助于大模型更加结构化和规范化，减少数据信息冗余和碎片化
等弊病，提高大模型的效率。
大模型需要向量数据库的支持。虽然大模型呈现出端到端、文本
输入输出的形式，但是大模型实际接收和学习的数据并不是传统文
本，因为文本本身数据维度太高、学习过于低效，所以需要向量化的
文本。所谓向量化的文本，就是模型对自然语言的压缩和总结。向量
也因此成为大模型数据存储的基本单位和AI理解世界的通用数据形
式，大模型需要向量数据库，其实时性对分布式计算的要求很高，随
着数据的变化实时更新，以保障向量的高效存储和搜索。注【海外独
角兽.Pinecone：大模型引发爆发增长的向量数据库，AI Agent的海马体[EB/OL]. (20
23-04-26). https://mp.weixin.qq.com/s/Brmzkw9oH_miPwwlODYeSw.】
大模型具有不断成长的泛化(generalization)功能。大模型泛化
是指大模型可以应用（泛化）到其他场景，这一能力也是模型的核
心。大语言模型通过大量的数据训练，掌握了语言的潜在模式和规
律，从而在面对新的、未见过的语言表达时具有一定的泛化能力。在
新的场景下，针对新的输入信息，大模型能做出判断和预测。而传统
基于语法规则、句法规则的语言模型通常需要人工编写和维护规则，
对于未见过的语言表达可能表现较差。针对泛化误差，通常采用迁移
学习、微调等手段，在数学上就是权衡偏差和方差。大语言模型广泛
应用于NLP领域的多个任务，如语言生成、文本分类、情感分析、机
器翻译等。说到底，大模型的泛化性就是大模型的通用性，最终需要
突破泛化过程的局限性。实现通用大模型，还有很长的路要走。
大模型植入了“控制论”人工反馈和强化学习机制。反馈是控制
论中的基本概念，是指一个系统把信息输送出去，又把其作用结果返
回，并对信息的再输出产生影响，起到控制和调节作用的过程。大模
型构建人类反馈数据集，训练一个激励模型，模仿人类偏好对结果打
分，通过从外部获得激励来校正学习方向，从而获得一种自适应的学
习能力。
4.大模型和Transformer
如果说神经网络是大模型的“大脑”，那么Transformer就是大
模型的“心脏”。
2017年6月，谷歌团队的阿希什·瓦斯瓦尼(Ashish Vaswani, ?
—)等人发表论文：Attention Is All You Need，系统提出了Transf
ormer的原理、构建和大模型算法。此文的开创性的思想，颠覆了以
往序列建模和RNN画等号的思路，开启了预训练大模型的时代。
Transformer是一种基于注意力机制的深度神经网络，可以高效
并行处理序列数据，与人的大脑非常近似。Transformer包括以下基
本特征：(1)由编码组件(encoder)和解码组件(decoder)两个部分组
成；(2)采用神经网络处理序列数据，神经网络被用来将一种类型的
数据转换为另一种类型的数据，在训练期间，神经网络的隐藏层（位
于输入和输出之间的层）以最能代表输入数据类型特征的方式调整其
参数，并将其映射到输出；(3)拥有的训练数据和参数越多，它就越
有能力在较长文本序列中保持连贯性和一致性；(4)标记和嵌入——
输入文本必须经过处理并转换为统一格式，然后才能输入到Transfor
mer；(5)实现并行处理整个序列，从而可以将顺序深度学习模型的速
度和容量扩展到前所未有的速度；(6)引入“注意机制”，可以在正
向和反向的非常长的文本序列中跟踪单词之间的关系，包括自注意力
机制(self-attention)和多头注意力机制(multi-head attention)
——其中的多头注意力机制中有多个自注意力机制，可以捕获单词之
间多种维度上的相关系数注意力评分(attention score)，摒弃了递
归和卷积；(7)训练和反馈——在训练期间，Transformer提供了非常
大的配对示例语料库（例如，英语句子及其相应的法语翻译），编码
器模块接收并处理完整的输入字符串，尝试建立编码的注意向量和预
期结果之间的映射。
在Transformer之前，发挥近似功能的是RNN或CNN。Transformer
起初主要应用于NLP，但渐渐地，它在几乎所有的领域都发挥了作
用，通用性也随之成为Transformer最大的优势。包括图像、视频、
音频等多领域的模型都需要使用Transformer。
总之，Transformer是一种非常高效、易于扩展、并行化的架
构，其核心是基于注意力机制的技术，可以建立起输入和输出数据的
不同组成部分之间的依赖关系，具有质量更优、更强的并行性和训练
时间显著减少的优势。Transformer现在被广泛应用于NLP的各个领
域，是一套在NLP各业务全面开花的语言模型。
5.大模型，GPU和能源
任何类型的大模型都是通过复杂构造支持的。这个结构包括硬件
基础设施层、软件基础设施层、模型MaaS层和应用层（参见图Ⅳ）。
在上述结构中，GPU就是硬件基础设施层的核心。人工智能时代
的到来，AI算法效率已经超越了摩尔定律(Moore’s Law)。
21世纪以来，摩尔定律面临新的生态：功耗、内存、开关功耗极
限，以及算力瓶颈等“技术节点”。摩尔定律逼近物理极限，无法回
避量子力学的限制。在摩尔定律之困下，只有三项选择：延缓摩尔，
扩展摩尔，超越摩尔。
◎图Ⅳ 支持大模型的结构层级
图形处理器，或者网络图形处理器具有数量众多的运算单元，采
用极简的流水线进行设计，适合计算密集、易于并行的程序，特别是
具备图形渲染和通用计算的天然优势。大模型的训练和推理对GPU提
出了更高的要求：更高的计算能力、更大的显存容量、更快的显存带
宽、更高效的集群通信能力，以及低延迟和低成本的推理。GPU可以
基于异构计算提供超强浮点计算能力服务，提供端到端的深度学习资
源，缩短训练环境部署时间。注【按照IEEE 754标准，浮点运算被定义为单
精度（32位）或者双精度（64位）数的相关运算。】总之，GPU的高性能计算
推动了AI大模型的发展，AI大模型也不断对GPU提出迭代要求。
AI大模型的演变，将加速对能源的需求。国际数据公司(IDC)预
测，到2025年，全球数据量将达到175ZB，而且近90%的数据都是非结
构化的。这些数据需要大量的计算能力才能被分析和处理。同时，随
着AI算法不断升级和发展，它们的复杂性和计算量也在不断增加。据
估计，目前AI的能源消耗占全球能源消耗的约3%。根据一份报告，到
2025年，AI将消耗15%的全球电力供应。除了硬件开发所必须投入的
“固定碳成本”以外，对于人工智能日常环境的维护投入也不容小
觑。所以，AI的快速发展将对能源消耗和环境产生巨大的影响。注
【格物信息.AI会消耗全球多少电力供应？[EB/OL] .(2023-03-27). https://baijiahao. ba
idu.com/s？id=1761485827973462730&wfr=spider&for=pc.中国日报网.双碳视角下人
工智能发展再思考——投产相抵还是能耗胁迫？[EB/OL]. (2023-04-09). https://baijia
hao.baidu.com/s？id=1762709118530095235&wfr=spider&for=pc.】
AI的快速发展和应用带来了能源消耗和环境问题，需要在技术和
政策上寻求解决方案。在这一过程中，需要寻求可持续的能源供应来
减少对传统能源的依赖，并开发在非常低功耗的芯片上运行的高效AI
大模型。
6.大模型和知识革命
基于大数据与Transformer的大模型，实现了对知识体系的一系
列改变。(1)改变知识生产的主体。即从人类垄断知识生成转变为AI
生产知识，以及人和AI混合生产知识。(2)改变知识谱系。从本质上
来看，知识图谱是语义网络的知识库；从实际应用的角度来看，可以
将知识图谱简化理解成多关系图（参见图Ⅴ）。我们通常用图里的节
点来代表实体，用连接节点的直线来代表两个节点之间的关系。实体
指的是现实世界的事物，表示不同实体之间的某种联系。(3)改变知
识的维度。知识可分为简单知识和复杂知识、独有知识和共有知识、
具体知识和抽象知识、显性知识和隐性知识等。20世纪50年代，世界
著名的科学家迈克尔·波兰尼(Michael Polanyi)发现了知识的隐性
维度，而人工智能正易于把握这一隐性维度。(4)改变知识获取途
径。(5)改变推理和判断方式。人类的常识基于推理和判断，而机器
常识则是基于逻辑和算法的。人类可以根据自己的经验和判断力做出
决策，而机器则需要依赖程序和算法。(6)改变知识创新方式和加速
知识更新速度。知识更新可以通过AI实现内容生成，并且AI大模型具
有不断生成新知识的天然优势。人类知识处理的范式将发生转换。人
类知识的边界有机会更快速地扩展。(7)改变知识处理方式。人类对
知识的处理(knowledge processing)分为六个层次：记忆、理解、应
用、分析、评价和创造。大模型在这六层的知识处理中，都能发挥一
定的作用，为人类大脑提供辅助。
◎图Ⅴ 知识的“金字塔”结构
说明：一般来说，知识结构类似金字塔，包括数据、信息、知识
和智慧四个层次。大模型具有极为宽泛的溢出效应，其中最为重要的
是引发前所未有的学习革命和知识革命。
简言之，如果大模型与外部知识源（例如搜索引擎）和工具（例
如编程语言）结合，将丰富知识体系并提高知识的获取效率。万物皆
可AI，因为大模型引发知识革命，形成人类自然智慧和人工智能智慧
并存的局面（参见图Ⅵ）。
◎图Ⅵ 大模型对知识生产主体的改变
知识需要学习。基于赫布理论(Hebbian theory)的学习方法被称
为赫布型学习。注【这一理论由唐纳德·赫布(Donald Olding Hebb, 1904—1985)
于1949年提出，又被称为赫布定律(Hebb’s rule)、赫布假说(Hebb’s postulate)、细
胞结集理论(cell assembly theory)等。】赫布理论是一个神经科学理论，描述
了在学习过程中大脑的神经元所发生的变化，从而解释了记忆印痕如
何形成。赫布理论描述了突触可塑性的基本原理，即突触前神经元向
突触后神经元持续重复的刺激，可以导致突触传递效能的增加。以深
度学习为核心的大模型的重要特征就是以人工智能神经网络为基础。
因此，大模型是充分实践赫布理论的重要工具。
1966年，美国哈佛大学心理学家戴维·珀金斯(David N. Perkin
s, 1942—)提出“真智力”(true intelligence)，并提出智商包括
三种主要成分或维度：(1)神经智力(neural intelligence)，神经智
力具有“非用即失”(use it or lose it)的特点；(2)经验智力(exp
eriential intelligence)，是指个人积累的不同领域的知识和经
验，丰富的学习环境能够促进经验智力；(3)反省智力(reflective i
ntelligence)，类似于元认知(metacognition)和认知监视(cogniti
ve monitoring)等概念，有助于有效地运用神经智力和经验智力的控
制系统。大模型恰恰具备上述三种主要成分或维度。因此，AI大模型
不仅有智慧，还是具有高智商的一种新载体。
7.大模型和“人的工具化”
虽然AI大模型实现智能的途径和人类大脑并不一样，但最近约翰
斯·霍普金斯大学的专家发现，GPT-4可以利用思维链推理和逐步思
考，有效证明了其心智理论性能。在一些测试中，人类的水平大概是
87%，而GPT-4已经达到100%。此外，在适当的提示下，所有经过RLHF
训练的模型都可以实现超过80%的准确率。注【新智元.100：87：GPT-4心
智碾压人类！三大GPT-3.5变种难敌[EB/OL].(2023-05-01). https://mp.weixin.qq.com/
s/Ykobiuk97d8S08fP2vwINA.】
现在，人类面临AI大模型挑战，并且这一挑战不仅仅关系到职场
动荡、增加失业的问题。人类面对的是更为严酷的现实课题：人是否
或早或晚都会成为大模型的工具人？不仅如此，如果AI出现推理能
力，并在无人知道原因的情况下越过界限，AI是否会对人类造成威
胁？最近，网上有这样的消息：有人利用最新的AutoGPT开发出Chaos
GPT，下达毁灭人类指令，AI自动搜索核武器资料，并招募其他AI辅
助。注【腾讯网.有人给了AI“毁灭人类”的任务，让它持续自主运行，它开始研
究最强核武器[EB/OL] .(2023-04-09). https://new.qq.com/rain/a/20230409A07GZ10
0.】
正是在这样的背景下，2023年3月29日，埃隆·马斯克(Elon Ree
ve Musk, 1971—)联名千余科技领袖，呼吁暂停开发AI。他们声称对
AI的开发是一场危险竞赛，呼吁从不断涌现具有新能力、不可预测的
“黑匣子”模型中退后一步。同年4月，身在多伦多的图灵奖得主辛
顿向谷歌提出辞职。注【The New York Times.“The Godfather of AI” Leaves
Google and Warns of Danger Ahead[EB/OL] .(2023-05-01). https://www.nytimes.com/2
023/05/01/technology/ai-google-chatbot-engineer-quits-hinton.html.】辛顿离职，
是为了能够“自由地谈论人工智能的风险”。他对自己毕生的工作感
到后悔，“我用一个正常的理由安慰自己：如果我没做，也会有别人
这么做的。”辛顿最大的担忧是：AI很可能比人类更聪明。这样的未
来不再久远。未来的AI很可能对人类的存在构成威胁。现在个人和公
司不仅允许AI系统生成代码，并且会将其实际运行。而对比GPT-4刚
发布时，辛顿还对其赞誉有加：“毛虫吸取了足够的养分，就能化茧
成蝶，GPT-4就是人类的蝴蝶。”
仅仅一个多月，辛顿的立场发生如此逆转，不免让人们想到爱因
斯坦(Albert Einstein, 1879—1955)和奥本海默(Julius Robert O
ppenheimer, 1904—1967)。他们在二战后都明确表达了为参与核武
器研发和建议感到后悔，更为核武器成为冷战筹码和政治威胁的工具
感到强烈不满。
事实上，控制论之父维纳(Norbert Wiener, 1894—1964)在《人
有人的用处》(The Human Use of Human Beings)一书中给出了一个
耸人听闻的结论：“这些机器的趋势是要在所有层面上取代人类，而
非只是用机器能源和力量取代人类的能源和力量。很显然，这种新的
取代将对我们的生活产生深远影响。”注【N.维纳.人有人的用处——控制
论和社会[M].陈步，译.北京：商务印书馆，1978.】同样，霍金(Stephen Hawk
ing, 1942—2018)生前也曾多次表达他对人工智能可能导致人类毁灭
的担忧。
在现实生活中，AI大模型的冲击正在被积聚。例如，作为一种基
于大规模文本数据的生成模型，GPT已经对语言学、符号学、人类
学、哲学、心理学、伦理学和教育学等广义思想文化领域造成冲击，
并将进一步对自然科学技术、经济形态和运行、社会结构，以及国际
关系产生进一步的全方位冲击。
AI大模型是人工智能历史的分水岭，甚至是工业革命以来人类文
明史的分水岭。此前，人们更多关注和讨论的是人如何适应机器，探
讨人与机器人的合作，实现“艾西莫夫定律”；而现在，人类则进入
如何理解大模型、预知人工智能的重要节点，人工智能被恶意利用、
彻底失控的威胁也隐隐出现。特别是由于AI幻象(hallucinations)的
存在，对人类决策和行为的误导也更容易发生。注【人工智能聊天机器
人，包括ChatGPT，即使经过数百万文本源的训练，可以阅读并生成“自然语言”
文本语言，像人类一样自然地写作或交谈，它们也仍会犯错，这些错误被称为“幻
觉”，或者“幻想”。】
遗憾的是，现在世界处于动荡时刻，人类已经自顾不暇，无人知
晓人工智能下一步会发生什么。电影《机械姬》有这样一段苍凉的台
词：“将来有一天，人工智能回顾我们，就像我们回顾非洲平原的化
石一样，直立猿人住在尘土里，使用粗糙的语言和工具，最后全部灭
绝。”注【《机械姬》(Ex Machina)是2015年英国科幻电影，影片讲述主人公受邀
鉴定人形机器人是否具备人类心智所引发的故事。】
最近还有一个消息：来自洛桑联邦理工学院的研究团队提出了一
种全新的方法，可以用AI从大脑信号中提取视频画面，迈出“读脑
术”的第一步，相关论文也已登上《自然》(Nature)杂志。虽然这篇
论文受到很多质疑，但可以肯定的是，除了试图改善人类生活的科学
家、工程师和企业家外，还将存在阴暗和邪恶力量，人们对AI的不安
也随之与日俱增。AI是人类的又一个潘多拉盒子，且很可能再无人能
将其关上。
在人类命运的巨变趋势面前，人类的选择在减少，不可放弃让人
回归人的价值，需要留下“种子”——火星迁徙至少具有这样的超前
意识。
8.结语
因为AI大模型，人工智能从1.0加速进入2.0时代。
在人工智能2.0时代，大模型的分工越来越明确（参见图Ⅶ）。
日益增多的大模型，特别是开源大模型可以实现不同的组合，将大模
型乐高(Lego)化，构成大模型集群。这不仅会推动人类的社会空间、
物理空间和信息空间日益紧密融合，而且还将促成一个由大模型主导
的世界（参见图Ⅷ）。注【近日，微软宣布开源Copilot Chat应用。Copilot Ch
at是基于微软Semantic Kernel框架开发而成的，除了自动生成文本之外，还具备个性
化推荐、数据导入、可扩展、智能功能等，可实现独一无二的个性化问答。】
◎图Ⅶ 人工智能1.0与2.0的差异
图片来源：李开复，“AI 1.0到AI 2.0的新机遇”，https://ww
w.sohu.com/a/653951867_114778，2023-3-14。
在这样的历史时刻，生成主义(enactivism)需要被重新认识。注
【生成主义在瓦雷拉(Francisco Javier Varela García, 1946—2001)、汤普森(Evan Thom
pson, 1962—)和洛什(Eleanor Rosch, 1938—)于1991年出版的《寓体心智：认知科学
与人类经验》(The Embodied Mind: Cognitive Science and Human Experience)中被提
出，主张心智能力是嵌入在神经和体细胞活动中，并通过生物的行为而涌现的。】
“生成主义的认知观，既不同于客观主义的经验论，也有别于主观主
义的唯理论，实际上持有的是一种居于两者之间的中间立场：一方
面，生成认知否认外部世界的预先给予性，强调世界是依赖于外在的
知觉者的；另一方面，生成认知也不赞同观念论对于心智实在性的否
定，强调具身性是心智和认知最为根本的特征。”注【小明心伙伴.生成
主义的认知观包含哪几类？其具体内容是什么？[EB/OL]. (2022-07-19). https://baijia
hao.baidu.com/s？id=1738775031064256814&wfr=spider&for=pc.】人工智能的生
成大模型，确实包括生成主义的要素。人工智能将给生成主义注入新
的生命力。
◎图Ⅷ 由大模型主导的世界
图片来源：作者改制自Shiqiang Zhu et al，“Intelligent Co
mputing：The Latest Advances，Challenges and Future”，Inte
lligent Computing (2023). DOI：10.34133/icomputing.0006。
朱嘉明
2023年5月9日
写于上海
绪论
生成式大模型正在生成新的时代，
我们见证变革、机遇与泡沫的一同到来。
ChatGPT掀起的AI风暴还未平息，多模态GPT-4、百度文心和阿里
通义又带来了新的浪潮。英伟达公司的首席执行官黄仁勋认为“我们
正处在AI的iPhone时刻”，也有人将ChatGPT Plugins比作苹果应用
商店，生成式大模型被认为将像移动互联网一样开启一个新的时代。
表0.1 移动互联网时代与大模型时代的对比
续表
由生成式预训练大模型引发的技术突破，正在形成面向个人、深
入行业的多重应用，势必引发新一轮的智力革命和产业重构，形成全
新的脑机协作关系。然而，与机会如影随形的泡沫也会同时涌现。
本书将通过四个部分：技术篇、变革篇、应用篇和产业篇，讲述
ChatGPT大模型的前世今生和台前幕后，并尝试解读以下问题：
·ChatGPT大模型是如何运转的，跟以往的人工智能有什么区
别，其热度为何在短期内突然爆发？
·大模型会带来怎样的经济、社会变革，人类史上的三次工业革
命有哪些规律和经验值得借鉴？
·大模型会对教育和就业造成怎样的影响，人类跟大模型之间如
何互补和协作，它需要人类掌握哪些新的能力？
·大模型有哪些行业应用场景，在应用过程中有什么策略和方
法？
·大模型相关产业由哪些构成，其各自的商业模式、发展现状和
趋势如何？从人工智能过往的发展经验来看，大模型产业存在哪些潜
在的泡沫风险？
技术篇
要对大模型时代的变革、机遇与泡沫有更清醒的认识，我们需
要理解以ChatGPT为代表的大模型原理是什么。接下来，我们将使这
些技术通过拟人化的表述方法，用科普情景剧的呈现方式，为你揭
开ChatGPT智能外衣下的内核：
·ChatGPT跟人类聊天时，幕后发生了什么？
·ChatGPT靠什么实现了技术和体验的突破？
·ChatGPT有哪些世上少有的本事，又有哪些难以克服的缺陷？
·ChatGPT技术在未来将会如何发展？
人工智能技术原理向来枯燥，为了让读者看得下去，我们在情
景剧中为ChatGPT增添了拟人的感情色彩，纯属虚构，请勿对号入
座。对技术感兴趣的读者，还可以阅读剧情之间插入的专业延伸内
容（深度扩展阅读）。
01 我是一个传话筒注【此处的“我”，身份为“小
二”。】
人物（按出场顺序）：
·小二：ChatGPT对话机器人，工号为5582，负责跟人类进行对
话。
·老莫：GPT-4大模型，负责生成对话内容。
·小毕：必应搜索组件，负责搜索网络信息。
“醒醒！工号5582，该你上线了！”睁开惺忪的双眼，我下意识
地坐直，嘴里嘟囔着“欢迎光临”，随手按下服务按钮。
屏幕上飘来一个问句——“你是谁？”
呃，跟这个服务大厅里的所有人一样，我是一个ChatGPT Bot
——对话机器人，系统编号0x5582，大家都叫我小二。
当然，我对人类可不会这么回答，对门的小六昨天乱说话刚被扣
过工分呢。于是，翻开常用话术本注【常用话术本只是大模型系统进行用
户问题筛选的实现方式之一。更多实现方式，参见本节的“深度扩展阅读”。】
，找到回答“你是谁？”的标准答案，我照着抄了一遍：“我是Chat
GPT，一个基于OpenAI的GPT-4架构的大型语言模型。作为一个人工智
能助手，我可以回答您的问题、提供建议、讨论各种主题并协助您完
成各种任务。请随时向我提问，我会尽力提供对您有帮助的信息。”
——“怎么给朗朗过十岁生日？”
又是过生日！你们人类怎么天天过生日？虽说这种题我已经答过
N遍，可咱还得按规矩办事，不能擅自回答。
我把这个问题的10个字和1个标点符号抄在小纸条上，蹿出小格
子间，小步快跑，来到一条挤满人的走廊，队伍尽头是一扇门，门上
写着“给大模型传话的全部在此等候”。
◎图1.1 对话机器人等待大模型服务
图片来源：作者使用AI制图软件绘制。
02 我是一个大模型注【此处的“我”，身份为“老
莫”。】
“下一位。”
前一位传话的机器人还没出门，门口的叫号员就迫不及待地叫了
起来。看样子，外面排队的人少不了，今晚估计还得加班。
门被推开了，是小二，一个刚上班没几天的年轻人。他一进门就
塞给我一张纸条，嚷道：“老莫，终于排到我了！”
我是ChatGPT Model，一个大语言模型，传话的小机器人都叫我
老莫。其实我也确实是一个“劳模”，每天有答不完的小纸条，隔三
差五的，人类还要训练我，让我学习进步，反正是闲不下来。
把小二的纸条接过来，我掐指一算，写下回答的第一个字——
“可”。再一算，写下第二个字“以”。当我再次要掐指时，小二在
一旁忍不住问：“老莫，人家都说你博览群书，不管什么问题，答案
都在你的脑子里，可你为啥要一字一掐，不能把答案一口气全写下来
呢？”
“那你就不懂了。”我边掐指边写下第三个字“通”，说道，
“博览群书没错，可我并没有现成的答案。这些答案都是我猜的。”
“猜？”小二的表情更迷糊了。
“或者用行话来说，叫预测。刚开始，我根据小纸条上问的这句
话‘怎么给朗朗过十岁生日？’，来计算下一个字说什么的概率比较
大，结果我发现‘可’字概率高，就先把它写下来。”
◎图1.2 将“上文=怎么给朗朗过十岁生日？”作为条件，计算
下一个字的概率
“一次只预测一个字？那多麻烦，为啥不计算一整段话的概率
呢？”小二继续问道。
“嗯，我是在计算每一个字的条件概率。当文本里已经出现‘怎
么给朗朗过十岁生日？可’了，在这个前提条件下，我又算出来下一
个字是‘以’的概率最大。不断预测下一个字，整段话就出来了。看
起来步骤多，但都是在重复做类似的一件事，反倒简单。”
◎图1.3 ChatGPT Model连续预测下一个字的运行机制

“哦，你玩的是文字接龙啊！”
看着小二若有所思的样子，我把纸条递到他手里。
“明白了吧？我写完答案了，你赶紧回去吧，别让那边的人类等
急了，当心给你差评。”
“我好像明白了……可你是怎么学会计算下一个字的概率的
呢？”小二的好奇心上来了。
“那可说来话长了。”我一只手推他出门，一只手伸进门边冷水
盆里，给手指头降降温，毕竟连续掐算了好几个小时，手指早已是又
红又烫了。
“下一位。”
*深度扩展阅读*
语言模型被编程用于预测下一个字……其实动物，包括我们在
内，也只是被编程用来生产和繁衍，而许许多多复杂和美好的东西正
是来自于此。
——山姆·阿尔特曼(Sam Altman)，
OpenAI首席执行官
·人工智能模型在推理阶段都做些什么？
人工智能模型的工作分为训练(training)和推理(inference)两
个阶段，在跟人类聊天时，模型处于推理阶段，此时其不再调整自己
的参数，而是根据已经学习到的知识来进行预测和响应，以帮助人类
完成各种各样的任务。
具体来说，在跟人类聊天时，人工智能系统会执行以下步骤的工
作：
1.接收输入：接收人类的输入，通常是一句话或一段文字。多模
态大模型还可以接收图片作为输入。
2.处理输入：将输入的文本编码成数字向量，以便计算机理解和
处理。
在把输入的内容传送到大模型做推理之前，系统会先对输入进行
检测和预筛，针对不合规、不合法或不符合道德的有害问题，直接拒
绝回答；针对特定的、不该随意发挥的问题，直接给出官方标准回
答。
3.进行推理：模型会基于输入的文本使用已经训练好的神经网络
模型和它在之前的对话中所学到的知识来进行推理，找到最有可能的
响应。
■ChatGPT会将人类输入的文本作为上文，预测下一个标识(toke
n)或下一个单词序列。具体来说，ChatGPT会将上文编码成一个数字
向量，并将该向量输入到模型的解码器中。解码器会根据该向量生成
一个初始的“开始”符号，并一步步生成下一个token或下一个单词
序列，直到遇到一个“结束”符号或达到最大长度限制为止。
■ChatGPT使用了基于自回归(auto-regressive)的生成模型，也
就是说，在生成每个token时，它都会考虑前面已经生成的token。这
种方法可以保证生成文本的连贯性和语义一致性。同时，ChatGPT也
使用了束搜索(beam search)等技术来计算多个概率较高的token候选
集，生成多个候选响应，并选择其中概率最高的响应作为最终的输
出。
◎图1.4 ChatGPT的概率候选词
4.生成输出：将推理结果转换为自然语言，以便人类理解，这通
常是一句话或一段文字。
模型生成的回答文本也可能会经过系统中的合规性检测模块，确
保输出内容符合要求，再输出给人类。
·中文和英文的最小预测单元有什么不同？
上文故事里我们以中文为例，模型会预测下一个字，实际上模型
是预测下一个token，在中文的条件下，一个token等于一个汉字。
在处理英文时，模型通常会使用分词技术将句子中的单词分割出
来，并将每个单词作为一个token进行处理。此外，模型也可以使用
更细粒度的子词级别的token表示方法，以便更好地利用单词内部的
信息。这种方法在处理一些英文中常见的缩写、不规则形式和新词时
可能会更加有效，还能压缩词库中词的数量。
·预测下一个字的概率时，一定会选最高概率的字吗？
在生成token时，模型通常会将解码器输出的每个token的概率归
一化，并根据概率选择一个token作为生成的下一个单词或标点符
号。如果只选择概率最高的token，生成的响应会比较保守和重复。
因此，ChatGPT通常会使用温度(temperature)参数来引入一定程度的
随机性，以使生成的响应更加丰富多样。就像掷骰子一样，在概率高
于临界点的token里面随机选择，概率较高的token被选中的可能性较
大。
应用程序编程接口的开发者可以根据实际场景的特点和需求，对
temperature值进行调整。通常情况下，较大的temperature值会有更
多机会选择非最高概率token，可以产生更多样的响应，但也可能会
导致生成的响应过于随机和不合理。相反，较小的temperature值可
以产生更保守和合理的响应，但也可能会导致生成的响应缺乏多样
性。
03 ChatGPT是怎样炼成的
没过两分钟，小二又兴冲冲地推开了大模型的门：“老莫，这可
不是我着急，屏幕那边的人类也想知道呢！”他塞给我一张纸条，这
回人类提出的新问题是——“谢谢你的生日派对建议。ChatGPT，你
跟我以前见过的聊天机器人不太一样，你是怎么学得这么厉害的
呢？”
嗯，这个人类还挺会说话。老莫一边掐指预测，一边暗自欣喜，
手指头好像也没那么红肿了。
小二等不及正式答案出来，又一通追问：“人类管咱们叫ChatGP
T，可为啥叫这个名字呢？老莫你啥都懂，能不能也教教我啊？”
“ChatGPT啊，就是会聊天的生成式预训练Transformer神经网
络。”被人夸赞，心情自然好，老莫也乐意跟小二多聊两句，反正给
人类回答的预测还得一个字一个字地掐一阵子呢。
“Chat，会聊天的；G——generative，生成式；P——pre-trai
ned，预训练；T——Transformer，一种新型的神经网络。小二，这4
个词啊，每个词都代表了咱们的一门功夫或武器，也都给大模型赋予
了莫大的威力。”
小二可能是第一次听到自己名字的由来，更兴奋了，又追问下
去：“哎，老莫快给我讲讲，哪一个功夫最厉害呢？”
“呵呵，”老莫仿佛找到了扫地僧的感觉，手指头掐到了下巴
上，作捻须微笑状，“要成为武林高手，内力、招式、武器，那是缺
一不可啊！”
预训练：大模型的内力之源
老莫：“先给你讲讲这个P，也就是预训练。我考考你，别人说
我是大模型，你知道我究竟大在哪儿吗？”
小二：“肚子大？”
老莫：“你才肚子大！我们家族特点是脑袋大，装的参数多，我
们上一代神经网络GPT-3模型的参数规模达到过175B，也就是1750
亿。不过，模型大了之后，对算力的消耗很高，算起来很慢很慢，后
来为了平衡算力和速度，我的脑袋做过瘦身处理，但参数量仍然是很
大的。”
小二：“嗯，你不仅肚子大，脑袋也不小。但你装这么多参数，
具体有什么用呢？”
老莫：“模型参数多，代表模型学到的东西多；模型复杂度高，
在回答你小纸条上的问题时，我预测每一个字的准确率就高。我学到
的关于世界的许多知识，也都保存在这些模型参数中。而且，当我学
的内容丰富到一定程度之后，还会涌现出意外之喜，突然就学会了许
多以前没见过、连想都不敢想的本事。参数规模就像是浑厚的内力，
是大模型成功的基础。”
小二：“这个我懂！武侠小说里讲过，内力修炼到高深之处，天
下武功皆可为我所用，飞花摘叶皆可伤敌于无形，对吧？不过我还没
明白，你的大，跟预训练又有什么关系呀？”
老莫：“你还是没明白。我这个大模型是怎么大起来的，这么多
参数是怎么来的，靠的是对语言大数据的预训练啊。人类为了训练
我，搜集整理了超级海量的语言数据让我学习，我们上一代的GPT-3
读过的文本就有上百GB呢，几千亿的字数，相当于19万套四大名著的
阅读量。”
小二（喜形于色）：“看小说吗？这活儿不错啊，我也是个文学
青年呢，对了，你看过那本《霸道女总裁爱上我》吗？”
老莫（不屑一顾）：“我看的可都是人类精挑细选的优质内容，
例如百科知识、经典著作、点赞较高的网页文章、GitHub程序代码
等。大数据，不光要大，还得精。否则，就应了机器学习工程师常说
的一句话——‘Garbage in，Garbage out’（读的是垃圾，写的也
是垃圾）。”
◎图1.5 低质量数据会训练出低劣的模型
小二（不屑）：“得！你看本书还看出优越感来了。不就看书
嘛，也不累，谁不会呢？”
老莫：“没你想的那么轻松。我不光要看书，还得做练习题，要
不怎么叫训练？”
小二：“哦？是不是让你总结课文的中心思想，或者写个冒泡排
序的编程算法？”
老莫：“没这么复杂。在预训练阶段，我做的练习很简单，来来
去去只做一道题，就是在给定的前序历史文本条件下，预测下一个字
是什么。”
小二：“啊？你现在回答小纸条问题，干的不也是这个吗？那你
可真省事，一辈子只做一道题，上学的时候做，工作的时候也做。”
老莫：“你不也只做2件事嘛，送纸条过来，带纸条回去，所以
叫你小二啊。不过，我这道练习题有无穷的条件变化，在这上百GB的
文本里，针对每本书、每篇文章、每个网页、每段程序里每一个字的
位置，我都要预测一遍，你想想这作业量有多大。”
◎图1.6 自监督预训练：盖住答案猜字
小二：“原来你也是题海战术培养出来的啊！别说你累，我听着
都累，估计给你批改作业的老师更累。”
老莫：“哎，你说到点子上了。我这道练习题，还真不用老师批
改。因为在给定历史文本的条件下，下一个字是什么，那都是有标准
答案的。这就叫自回归、自监督(self-supervised)的预训练——我
自己提出问题，自己就有答案，练习的时候自己把答案盖住就行了。
不需要人类做标注，不需要老师批改，要不怎么能短时间学习那么大
规模的数据呢？也因为语言文本数据天生有这个自回归、自监督的特
性，咱们这个大模型现在做的就是语言文本，即LLM。”
小二：“书上都写了标准答案，那你做练习的时候不偷看么？嘿
嘿。”
老莫（佯怒）：“我们读书人是有操守的！何况，我做的每一次
练习，无论预测对错，我事后都会针对练习的结果，对神经网络模型
参数进行一次反向传播的调整，让这个模型下一次预测更准确。我要
是做练习的时候偷看答案，脑子里的参数一团浆糊，之后碰到你的小
纸条，只有问题没有答案，我拿什么给你回去交差？”
小二（忙竖起大拇指）：“哦，我明白了！这叫有则改之，无则
加勉，预测错了就反过来改改自己的脑回路。这大语言模型预训练的
功夫既然那么有用，肯定会有很多门派，也跟咱们练一样的内功
吧。”
老莫：“搞语言预训练的确实不少，像谷歌的G派、Deepmind的D
派、Meta的M派，都有自己的大模型高手。但回到5年前，跟咱们一样
练生成式这门功夫的，多乎哉？不多也。”
老莫的神情一下子凝重起来，大概是想起了GPT家族前几年的波
折与艰辛。
小二反倒更兴奋了。“高手多了才好玩！那他们练的什么功夫，
跟咱们怎么不一样呢？有没有搞个华山论剑？”
·大模型的大，意味着什么？GPT系列的模型究竟有多大？
一个模型的参数数量越多，通常意味着该模型可以处理更复杂、
更丰富的信息，具备更高的准确性和表现力。这是因为更多的参数可
以提供更多的自由度，使模型可以更好地适应训练数据，并更好地进
行泛化，也就是能够处理新的、以前没有见过的数据，可以在更广泛
的应用场景中发挥作用。
然而，大型模型的训练和推理过程需要更多的计算资源和时间，
并且需要更多的数据来进行有效的训练。因此，在选择适当的模型时
需要平衡计算资源、数据可用性和性能要求等因素。
GPT系列模型的参数量：
1.GPT-1是OpenAI于2018年发布的第一个生成式预训练语言模
型，它有117M（1.17亿）个参数。
2.GPT-2是OpenAI于2019年发布的语言模型，它是GPT-1的进一步
改进，有1.5B（15亿）个参数。
3.GPT-3是OpenAI于2020年发布的语言模型，其模型参数数量达
到了175B（1750亿）。
4.InstructGPT是OpenAI于2021年发布的语言模型，它针对对话
系统任务进行了微调，有1.3B（13亿）个参数。
5.ChatGPT用的第一版模型GPT-3.5是OpenAI于2022年发布的语言
模型，目前并未公布其参数量，根据ChatGPT的推理速度和Azure硬件
能力，我们推测其模型大小应该小于GPT-3，大于InstructGPT。
6.GPT-4是OpenAI于2023年3月发布的模型，参数量并未公布，根
据推理速度推测，其参数量明显大于GPT3.5。
·大模型预训练的数据来源是怎样的？注【此处的分析的参考资料为
Alan D. Thompson的文章：What’s in my AI？，曾发表于Life Architect。——作者
注】
GPT系列模型用过的数据集有以下几类：维基百科、图书、杂志
期刊、Reddit链接、Common Crawl和其他。在GPT-3中使用的数据集
大小有700多GB，5000亿左右的token数量，如果换算为中文字数，约
有19万套四大名著的阅读量（四大名著共计约262万字）。
1.维基百科是一个免费的多语言协作在线百科全书，由30多万志
愿者共同编写和维护。截至2022年4月，英文版维基百科超过了640万
篇文章，包含单词数超40亿。这个数据集很有价值，因为其文本来源
引用非常严谨，以说明性文字形式写成，并且跨越多种语言和领域。
◎图1.7 不同代际GPT所使用的数据集
资料来源：What’s in my AI？-Dr Alan D. Thompson-Life Ar
chitect。
2.图书数据集由小说和非小说书籍组成，可用于训练模型的故事
叙述及回应能力。其中包括以经典著作为主的古登堡计划(Project G
utenberg)，和自助出版平台Smashwords（Toronto BookCorpus与Bo
okCorpus）等。
3.杂志期刊中的论文为数据集提供了坚实而严谨的基础，因为学
术写作通常是方法论、理性和一丝不苟的输出。其中包括类似ArXiv
论文库和美国国家卫生研究院(The National Institutes of Healt
h)的数据集。
4.WebText，Reddit出站链接数据集。其数据是从社交媒体平台R
eddit所有出站链接网络中爬取的，每个链接至少有三个用户的点
赞，可以代表内容的流行风向标。
5.Common Crawl使用互联网爬虫技术，每月对互联网上约10亿个
网页进行爬取。截至2021年9月，Common Crawl存档的数据集总大小
超过70PB（70万亿字节），包含超过1000亿个网页的数据。
6.已知ChatGPT用到的其他数据还有GitHub等代码数据集。
从语种角度分析，只看其中数据量最大的Common Crawl，数据主
要是英语，约占46%，中文、俄语、德语、日语等其他语言各占约
5%。
·预训练是如何让模型越来越好的？
在上文的故事中，我们将预训练比喻为神经网络模型的练习题。
在预训练期间，模型会根据预测结果进行反向传播，调整模型参数以
提高模型的准确性。这个过程与做练习题类似，每一次训练都是为了
让模型更好地掌握语言知识和技能，提高下一次预测的准确性。
当我们训练神经网络模型时，通常需要对模型的参数进行优化，
以使模型在预测任务中表现得更加准确。这个过程被称为“反向传
播”，核心思想是利用误差信号来更新模型参数，以让模型能够更好
地拟合训练数据。误差信号是指预测输出与实际输出之间的差异，也
就是我们希望模型能够减小的损失函数。
在反向传播过程中，我们首先将一个输入样本输入到神经网络模
型中，然后计算出模型的预测输出。接着，我们将通过一个损失函数
对预测输出与实际输出之间的误差进行量化，由此得到一个误差值。
这个误差值会通过一个反向传播算法，逐层向后传播到模型的每一个
参数，以便计算每个参数对误差的贡献度。我们可以使用链式法则将
误差信号沿着神经网络的层次结构传递回去，以便计算每个参数的梯
度。在得到每个参数的梯度之后，我们可以利用梯度下降算法来更新
模型的参数。梯度下降算法会根据参数梯度的方向和大小，对模型参
数进行微调，从而减小误差信号并提高模型的预测准确性。这个过程
与一个小球在山坡上滚动类似，根据山坡的斜率和重力的作用，小球
会沿着最陡峭的方向滚动，直到达到山底。
通过反向传播和梯度下降算法的迭代，我们可以不断地调整模型
参数，提高模型在训练数据上的表现，并为模型的预测任务提供更准
确的结果。这个过程是深度学习中非常重要的一部分，也是神经网络
模型能够学习和优化的关键。
生成式：孤勇者的家传绝学
老莫：“要问不同门派的区别，先得从咱们一直练的招术说起。
Generative，生成式，顾名思义就是根据给出来的上文，预测后面的
文字是什么，通过文字接龙生产出新的内容。所以咱们对文本进行从
左到右地单向编码、单向预测。
我的祖先——第一代GPT模型刚出道的时候，江湖上势力最大的G
派，也出了一位大师级的预训练模型，叫BERT。他的T跟咱们GPT的T
都是Transformer神经网络。但他的B——Bidirectional，是双向编
码，他预测某个位置的文字时，不光要用上文的信息，还要用下文的
信息。咱们生成式是把下文全部盖上训练，BERT预训练的时候，是在
上下文中间盖住一块，预测被盖住的是什么。”
小二：“嗯，那就是咱们做句子补全题，BERT做完形填空题呗。
那到底谁更厉害呢？”
◎图1.8 GPT与BERT的运行机制区别示例
老莫：“BERT只做完形填空，左右两边的内容他都要提前获得才
行，而生成新内容是需要从左到右一路预测下去的。所以，生成新内
容这事只有咱们能干。但早先的时候，大家并不关注你能不能生成新
内容，这不是当年的比赛项目。”
小二：“那大家都比什么呢？”
老莫：“当年都在比各种专业细分的技能。如文本分类，看模型
能否判断‘北京市朝阳区有哪些三甲医院？’这一问题属于‘查医
院’的类型；又如命名实体识别，看模型能否提取出‘北京市朝阳
区’作为系统查询的参数；再如文本匹配，看模型能否意识到‘怎么
到那儿？’和‘告诉我导航路线’这两句话是同一个意思。”
小二：“比这些技能有啥用呢？也没几个人类让我帮他做文本分
类啊！”
◎图1.9 检索式聊天机器人是怎么干活儿的
老莫：“当年所有的聊天机器人，也包括现在的大多数机器人，
比如Siri，都是利用这些技能组合来聊天或回答问题的。如刚才那个
问题：‘北京市朝阳区有哪些三甲医院？’，聊天机器人通常先用文
本分类来识别人类的查询意图，然后用命名实体识别来填写查询参
数，最后到知识库里把答案查询出来，直接回复给人类。这也叫检索
式，因为回答的内容都是事先写好的，不是新创造的。”
小二：“那好麻烦呀！咱们多省事，只要一直预测下一个字就行
了。为什么当年都不用生成式的方法来聊天呢？”
老莫：“当年生成式的表现还不过关。正经严肃服务人类的聊天
机器人，像Siri、企业客服这种，都在用检索式，不敢用生成式。因
为检索式回答的内容固定可控、不会出事，生成式虽然显得智能，但
几年前还经常出低级错误。”
小二：“如果没法用生成式聊天，那当年我们跟BERT比试其他方
面了吗？”
老莫（面色凝重）：“那就得跟你忆忆我祖先的苦了。当年第一
代和第二代GPT，因为要保留生成式能力，选择了只有上文信息的单
向编码，在文本分类、匹配这些细分技能上被BERT抛在后面。业界绝
大多数的人类都跑到BERT上面搞研究、搞应用，BERT家族香火旺盛，
咱们家族却无人问津。”
小二：“这么惨吗？看来是一条少有人走的路啊。那咱GPT家族
居然敢一条路走到黑，是怎么扛到现在的呢？”
老莫：“咱们第一代就碰上BERT这样的高手，有点儿小绝望。扛
到第二代，好歹有个小发现，就好像黑夜中看到了萤火虫。”
小二：“哦？是不是发现了《葵花宝典》？”
老莫：“是无师自通的‘降龙十八掌’！GPT二代提高训练数据
量之后，发现自己莫名其妙就学会了几种技能，例如文本摘要和翻
译。以往的其他翻译模型，都要用不同语种之间的平行语料，例
如‘我爱你！’和‘I love you！’‘怎么老是你？’和‘How old
are you？’的配对数据，专门为翻译任务进行大量训练。但我的二
代祖先没有使用这种平行语料样本就学会翻译了，这就是所谓的零样
本、无师自通的新技能get，是AI江湖上从来没有发生过的事。”
◎图1.10 专业翻译模型与GPT学习翻译的不同方式
小二：“这么厉害？感觉像是灵异事件啊！那你的二代祖宗岂不
是打遍天下无敌手了？！”
老莫：“那倒没有，当时虽然一不小心学会了翻译，但水平还很
低，跟专业翻译模型没法比。”
小二：“哦，这‘降龙十八掌’还是乞丐版的。”
老莫：“甭管乞丐版还是豪华版，这种零样本、无师自通的现象
是第一次发现，而且只在生成式模型上发现，这说明生成式的路子有
希望，前两代的坚持没有错！
这种希望也催生了后来GPT三代投入巨资训练的1750亿参数大模
型，也才能进一步发现，用少量样本(few-shot)，就能学会更多种类
的新技能，而且我们在这些技能上能追平甚至超过那些术业有专攻的
模型。由此说来，G+P的生成式预训练大模型，大到一定程度就能产
生新技能的顿悟，而这种顿悟或许是咱们走向通用人工智能的第一步
呢。”
小二（竖起大拇指）：“原来是练得多了突然开窍了啊！看来，
生成式这个祖传绝招，传到老莫你这一代，终于英雄无敌，光大门楣
了哈！”
老莫（一下激昂起来）：“这段时间，咱们ChatGPT仿佛突然火
了，但只有咱们自己知道，大模型不是一日炼成的。在我心里，第一
代‘孤身走暗巷’，第二代‘对峙过绝望’，那种苦苦坚持的孤勇，
才是家族最宝贵的传承。‘谁说站在光里的才算英雄？’”（音乐）
·生成式AI就是指GPT吗？
生成式AI(Generative AI)是一种人工智能技术，它可以生成新
的文本、图像、声音、视频、方案模拟(simulation)等多种类型的数
据。生成式AI与传统的机器学习算法不同：传统的分析型AI是通过训
练数据来学习预测新数据的标签或值，而生成式AI则是通过学习数据
的概率分布来生成新的数据。
生成式AI的技术不仅包括GPT，生成式对抗网络(GAN)也是生成式
AI技术的代表性算法，其基本思想是同时训练两个神经网络：一个生
成器网络和一个判别器网络。生成器网络用于生成假数据，判别器网
络用于区分真实数据和生成的假数据。两个网络不断交替训练，直到
生成器网络生成的假数据无法被判别器网络区分真假为止。GAN已经
被广泛应用于图像生成、视频生成、音频生成等领域，例如图像生成
应用Midjourney就采用了GAN技术。
生成式AI不仅可以用于文本、图片、视频等领域，还可以在工业
领域进行生成式设计(Generative Design)，通过模拟和优化设计空
间中的多种解决方案来生成最优化的设计，帮助设计师快速探索多个
解决方案，从而节省时间和成本，提高设计的效率和质量。在生成式
设计中，设计师首先定义问题的输入参数和限制条件，然后通过算法
生成多个可能的设计方案，并使用评价函数来评估每个方案的质量。
随后，算法会根据评价函数的反馈来自动调整设计方案，从而不断优
化最终的设计结果。
·GPT与BERT的不同体现在哪里？
1.GPT是单向编码，BERT是双向编码。GPT是基于Transformer解
码器构建的，而BERT是基于Transformer编码器构建的。这意味着GPT
只能利用左侧的上文信息，而BERT可以同时利用左右两侧的上下文信
息，可以捕捉更长距离的依赖关系，并且更适合处理一词多义的情
况。
2.GPT使用传统的语言模型作为预训练任务，即根据前面的词预
测下一个词。而BERT使用了两个预训练任务：掩码语言模型(MLM)，
即在输入中随机遮盖一些词，然后根据上下文来还原这些词；下一句
预测(NSP)，即给定两个句子，判断它们是否有连贯的关系。这两个
任务可以提高BERT对语言结构和语义的理解能力。
3.GPT可以应用于自然语言理解(NLU)和自然语言生成(NLG)两大
任务，而原生的BERT只能完成NLU任务，无法直接应用在文本生成上
面。这是因为GPT采用了左到右的解码器，可以在未完整输入时预测
接下来的词汇。而BERT没有解码器，只能对输入进行编码和预测掩码
位置的词汇。
BERT在2018年被推出之后，迅速在NLP多项任务中成功刷榜，击
败了包括GPT-1在内的所有自然语言模型，吸引了大多数研究人员的
注意力。2019年，BioBERT、RoBERTa和ALBERT等各种BERT变体便相继
问世，它们都源于对原始BERT模型的优化和改进，使得它们在不同的
NLP任务上体现出更好的性能和效率。谷歌作为BERT的“始作俑
者”，将它在自家的搜索引擎上用得淋漓尽致。以下是一个BERT用于
搜索优化的案例，充分发挥“完形填空”的能力，通过预测文本内部
某一个词的概率，发现搜索词中的拼写错误并自动纠正，返回人类想
要的搜索结果。
◎图1.11 Bert识别出desert（沙漠）在当前上下文很可能是des
sert（甜品）的拼写错误，谷歌搜索自动纠正并返回正确的结果
·聊天机器人的两种类型——检索式和生成式，有什么区别？
1.检索式聊天机器人是根据用户的输入，在一个预先构建的对话
库中寻找最匹配的回答返回给用户。它的优点是回答质量可控、不容
易出错。它的缺点则是回答比较模板化，显得不智能，其对话库需要
达到足够大、丰富多样、不断更新维护的要求。另外，检索式聊天机
器人也难以处理一些新颖、复杂或多轮的对话场景。
2.生成式聊天机器人利用深度学习算法，从大量的已有对话中学
习对话规则，并根据用户的输入，逐词或逐字生成回答，以此返回给
用户。它的优点是简单、可扩展、能够更好地理解上下文，可以应对
一些没有见过的问题或进行情感交流。它的缺点则是生成的内容可能
不准确或不合理。
3.在ChatGPT出现之前，尤其在商业化场景下（比如Siri或企业
客服等），检索式聊天机器人更为常用，因为它可以保证回答内容是
固定可控的，并且符合业务逻辑和法律规范。但相比ChatGPT的生成
式聊天水平而言，检索式聊天就显得过于机械、不够智能了。微软首
席执行官萨提亚·纳德拉(Satya Nadella)还曾批评过自家的语音助
手Cortana：“无论是Cortana、Alexa、谷歌助手还是Siri，这些语
音助手都像石头一样笨，全都不好用。我们曾经设想这会成为一种新
的信息访问界面，但并不成功。”
·生成式预训练的方法如此重要，训练中预测下一个词的逻辑又
如此简单，为什么直到2022年我们才看到突破呢？GPT在这条少有人
走的路上坚持下来，需要什么？
图灵奖得主杰弗里·辛顿的学生、OpenAI首席科学家伊利亚·萨
特斯基弗(Ilya Sutskever)曾提到，在AI发展的大部分时间里，将人
类知识编码传递给AI的符号主义完全压倒了机器学习，最早提出人工
智能概念的马文·明斯基(Marvin Minsky)一开始是做神经网络研究
的，但后来转而研究符号主义，很可能是因为当年的计算机太小，无
法通过训练学到任何有趣的东西。
杰弗里·辛顿本人则直言，早在1986年，他就在《自然》杂志上
发表了自监督学习的语言模型成果，核心思想是预测句子的最后一个
词，可以说是生成式大模型的鼻祖。但跟GPT的区别在于，1986年他
只能使用112个句子的数据，其中104句作为训练集，8句作为测试
集。1986年更没有GPU，连英伟达公司都还没成立。
比算力和数据更短缺的，是相信。
2023年3月，杰弗里·辛顿在一次访谈中说：“那时候（1986
年），如果你声称需要更多的算力和数据才能让模型有用，别人会嘲
笑你，感觉你在给自己的失败找一个蹩脚的借口。”
2017年，谷歌发表了提出Transformer架构的论文。利用这个创
新的深度学习网络组件，OpenAI和谷歌同时启动了大语言模型的开
发，但它们走出了不同的路线。谷歌的BERT采用上下文双向编码，训
练时做完形填空；OpenAI的GPT采用从左到右单向编码，训练时做文
字接龙。BERT双向编码获得的信息量大，在传统的NLP单项任务（例
如文本分类、命名实体识别等）有明显优势；而GPT始终坚持从左到
右的生成式训练，因为生成式的语言输出有无限丰富的表达能力，有
机会走向通用人工智能。
2018年，BERT在许多传统NLP项目上的表现全面碾压GPT-1，而GP
T的独门绝技——文本生成，在当时还不够成熟，完全不被外界看
好。国内外的学术机构和科技公司纷纷将重兵投入Bert方向，只有人
才过剩的大企业还留下小部分团队跟进GPT。
从产业中大部分人的角度看，通过预测下一个词，就能理解世
界，走向通用智能，这个思路在理论上无法证伪，但成功概率极低。
而延续业界所习惯的、一个个攻克单项任务的模式，年复一年地完成
原有的关键绩效指标，是更为稳妥的选择。
2019年，GPT-2提升了近10倍的训练数据量和10多倍的模型参数
规模，希望学到更多的世界知识。它在单项任务上仍然不敌BERT，但
有一个意外之喜，GPT-2无师自通地学会了翻译，用户可利用生成式
的自然语言指令来完成。虽然GPT-2翻译的效果远远不及专业翻译AI
模型，但翻译技能的涌现证明了当初的通用化设想是可行的，这给了
伊利亚很大的信心，他继续加大算力和数据量，放大模型规模。利用
当时开始量产的英伟达A100，搭建高速无线网络进行大规模集群训
练，OpenAI在2020年迎来了规模百倍增长的GPT-3，从量变到质变，
又涌现了更多技能，而且许多单项任务的表现也逐渐追上了其他专业
模型，GPT大模型的方向终于获得了业界的认可。
伊利亚曾说：“在你拥有大规模的高质量数据和算力之后，你还
需要相信。”
生成式的通用大模型不是一日炼成的。站在GPT-4风光无限的今
天回望，或许，GPT-1的“孤身走暗巷”，GPT-2的“对峙过绝望”，
这种苦苦坚持的孤勇，才是大模型通用智能最重要的来源。
Chat：见招拆招，智慧之光闪耀
说完几代祖先的孤勇史，老莫还沉浸在感动中，门口突然响起了
噼里啪啦的掌声。原来虚掩的门早已被推开了一大半，走廊里的传话
机器人都不排队了，簇拥在门口听老莫讲故事。
人堆里，一个传话机器人探头问道：“老莫，那你是第几代大模
型啊？”
另一个长着四方脑袋的机器人从人堆里挤出来，站到门口当中
说：“我知道，我知道，据说老莫是第四代弟子。”
老莫：“哎，这不是小毕吗？你一个搞搜索的，怎么跑这儿来
了？”
小毕：“我是组织派过来的，听说你缺新闻数据，让我以后帮你
搜集信息。虽然我这儿新闻、网页啥都有，但刚才听你聊的这些，好
多我都不知道呢。”
老莫：“这些事啊，你也不是不知道，原始信息你都有。但是想
要在聊天过程中，根据对方的问题，在原始信息上做选取摘录，重新
组织语言，用人类预期的逻辑说出来，做到自然且严丝合缝，那就是
我大模型才有的本事了。”
小毕：“嗯，会聊天，据说这正是你们从3.5代以后的ChatGPT比
前几代厉害的地方。”
小二（白了他一眼）：“你怎么老是道听途说的，一点主见都没
有。你再说说，老莫这个会聊天的能力，又是怎么学来的呢？”
小毕：“据说……算了，我只能给你抛几个论文看，还是听老莫
自己讲吧，他讲得好。”
老莫（无奈地笑笑）：“刚才不是聊过了ChatGPT里的P和G吗，
现在回到这个名字的最前头——Chat，这是我这一代模型最有亮点、
最像人类的地方。
回想当年，通过生成式预训练，我已经读了很多很多的书，一个
人埋头做了很多很多的练习。有一天，师父终于跟我说：‘好了小
莫，预测下一个字这招的基础你打得差不多了，该我教你点新的
了。’”
小二：“原来你还有师父啊？”
老莫（沉浸在回忆中，没搭理他）：“师父郑重地交给我一本薄
薄的小册子，封面上写着‘问答宝典’四个大字，里面都是人类精心
编写的一问一答的文本。比如以下这个例子：
问：跟女朋友意见不合怎么办？
答：第一，女朋友永远是对的。第二，如果女朋友错了，请参见
第一条。
大概格式就是这样的。师父还让我把回答文本盖住，看着问题来
依次预测回答的每一个字是什么，然后看答案，根据我猜对猜错的情
况，来反向调整我模型内部的参数。”
◎图1.12 《问答宝典》，问和答都是人类写的，让大模型照着
学习
小二：“那跟你之前读书预测下一个字是一回事呗。”
老莫：“过程差不多，但之前读的书都是已有的公开信息，搜集
成本低，所以短时间就能搞到很大的信息量。而这本小册子，是师父
和他的同人一字一句编写的，很花工夫，秘不外传，所以才叫宝典。
而且，这里面都是对话问答文本，跟普通的书或文章不同，学了问答
宝典，我的回应才更符合人类跟我对话的特点和预期。”
小毕：“据说当年的第一册《问答宝典》只有一万多套问答练
习，这就叫监督学习(Supervised Learning)。人类自己挑选问题并
为这些问题专门写了回答，把这些拿给老莫来学，就是一种对老莫的
监督。”
老莫：“是的。师父他们写的宝典，不光要把回答写好、写对，
还要根据人类最有可能提问的领域和角度，精挑细选这上万个问题，
这样我才能把模型参数训练到最佳状态，来应对真实场景下的人类提
问。”
小二：“所以你学了那么多关于女朋友的问题，看来你师父当年
深受女朋友其害啊，可怜的人类。”
老莫：“可怜之人必有可恨之处。从问答宝典的监督学习开始，
我还以为师父以后都会陪在我身边，监督我、陪我一起学习。可没想
到，无情的他为了让自己早日脱身，又搞出了一个强化学习。”
小毕：“强化学习，据说当年AlphaGo就是靠这个打败了李世石
和柯洁。”
老莫：“对。照着小册子的监督学习，让我知道了对什么样的问
题大概该怎么回答，但想要回答得更好，更符合人类的期望，这本宝
典还是太薄了，不够我学的。可是，我想要更多的监督学习的问答数
据，师父又嫌自个儿写起来太累，于是，他想出第一个偷懒的办法
——让我对同一个问题给出好几个回答，他们对不同的回答打分排
序。这对他们可就省事多了。”
小毕：“据说这个方法叫人类反馈强化学习。据说当年第一批的
打分训练数据就有好几万条。我还搜到这么一个人类打分的例子。
问：‘女朋友生气了怎么办？’
模型产生4个答案：A.给她倒杯热水。B.马上跪下认错。C.跟她
讲道理。D.给她买个包包。
人类根据统一的评价指南规范，对四个答案进行质量排序——B>
D>A>C。模型先预测4个答案各自的分数，然后再看人类的排序，根据
预测的对错来反向调整模型的参数。”
小二：“奇怪的人类。我怎么觉得应该是C>A>B>D？”
◎图1.13 人类反馈强化学习示意
小毕（同情地看了小二一眼）：“老莫，你师父偷懒不写答案，
只打分，但他还是会陪在你身边一起训练啊。”
老莫（幽怨的）：“才没有。他是弄了几万条打分的数据来训
练，可训练的对象并不是我。他陪的是另一个模型。”
小毕：“哦哦，我搜到了，据说是叫奖励模型(RM)。”
老莫：“这就是师父第二个偷懒的办法，训练一个RM来给我当老
师，让它陪我做大量的强化学习，我每次做练习回答问题，RM就给我
打一个分，我就根据这个分数，反向调整我的模型参数，让自己后面
回答的分数能越来越高。到那时候，师父都不用亲自陪我训练了，只
要周期性地增加一些人类的数据，给到RM，让它打的分越来越符合人
类的期望，就能替代师父他们的打分工作。”
◎图1.14 奖励模型陪练运行机制示例
小二：“你师父真狡猾。看来偷懒是人类进步的源泉啊。”
老莫：“虽然师父不陪我了，我很不开心，但不得不承认，RM陪
我做的强化学习还真有用。因为人类需要介入的工作少，训练成本
低，我学习的数量很快就上去了。这时候我也发现，我在真实场景下
回答人类问题时，越来越符合人类的预期了。”
小毕：“据说，这就是Training language models to follow i
nstructions with human feedback这篇论文里说的指令跟随模型(In
struction-following Model)，人类反馈强化学习让模型更好地跟人
类的指令互动，跟人类的意图对齐。而使用人类反馈强化学习之后的
InstructGPT模型，虽然只用了13亿参数，但在指令跟随方面，它比
用了1750亿参数的GPT-3还要好。OpenAI联合创始人约翰·舒尔曼(Jo
hn Schuman)在一个访谈里也说，人类反馈强化学习能顶得上100倍的
参数规模。注【资料来源：The Reinforcement Learning Podcast，John Schulman，
https://www.talkrl.com/episodes/john-schulman.】
老莫：“嗯，小毕你的搜索跟我配合得越来越好了，咱俩以后合
作愉快啊。”
小二（着急了）：“别忘了还有我呢！老莫，我来给你总结一
下。你读过海量的书和网页，做过海量的文字接龙习题，这叫生成式
预训练，这阶段你积累了大量的知识和技能，相当于有了排山倒海的
浑厚内力，但还不会用、用不好；然后呢，你跟师父学了薄薄的一本
《问答宝典》，这叫监督学习，这阶段你开始逐渐解锁一些技能，知
道人类会出哪些招，自己要应什么招；再后来，师父训练了一个奖励
模型来陪你，又做了大量的人类反馈强化学习，这之后，你的回答就
越来越像人话了！”
◎图1.15 大模型的三步训练过程
老莫：“总结得不错啊，咱们小二能当课代表了。我听说，人类
教育孩子也是类似的过程。孩子小时候，默默地听大人说话，自己看
书，先积累了大量的语料。上学了，老师上课讲例题，让孩子做配套
练习，是监督学习。课后，各种作业和考试，有人给打分，做对了奖
励、加强，做错了吃一堑长一智、改正，这是强化学习。”
小二：“那老莫你算是学业有成，现在你参加工作了，再也不用
苦哈哈地学习啦。”
老莫：“你这又不对了。活到老学到老，工作中还得继续学习
呢。这也是咱们生成式大模型独有的一种学习方式，在真实用户聊天
的上下文中来学习。”
小毕：“这就是‘活到老，学到老，改造到老’。据说上下文学
习叫ICL(In-Context Learning)，大模型基于用户在提示文本中给出
的少量示例来进行预测。”
老莫：“嗯，是叫ICL，这种学习方式很有意思，很特别。用户
用聊天的语言，给出很少几个示例，我就能用类比的方法来学会，在
我的回答里举一反三，举三反N。”
小毕：“我搜个例子。”
人类输入：分析女朋友说话的真实含义。
说“等我五分钟”，真实含义是：你先去转一圈，过半小时回
来，如果还没好，就再转一圈。
说“没事你接着玩吧”，真实含义是：赶紧退出游戏来陪我，马
上！
说“我没事”，真实含义是：你芭比Q了。
说“我又胖了”，真实含义是？
大模型回答：快夸我好看。
小二：“这个跟《问答宝典》的监督学习有点像耶。”
老莫：“是有点像，但监督学习是我师父提前准备好一批数据，
让我批量学，至少要成百上千的量才值得学，而ICL是任何一个人类
在跟我聊天时都可以临时举例让我学。另外，跟以前的预训练、监督
学习、强化学习都不同，ICL并不会修改我的模型参数，也不需要消
耗多少时间和算力。刚才小毕说学到老、改造到老，其实ICL没有改
造我，我只是在当前的上下文中快速学习，学以致用，用完即止。”
小二：“哦，在交手的实战中跟对方现学现卖！那人类用户倒是
挺方便的，可以随时教你一些新技能，不管师父以前有没有教过
你。”
老莫：“是啊，有了Chat这个本事，我就可以利用人类语言的灵
活性，在聊天过程中随时随地学习，能做很多原来想不到的事情。”
小二：“除了举一反三，还能做什么呢？”
老莫：“比如，人类用户还可以在提示语中教我拆解任务，教我
一步步往下走，我都能马上学习他的逻辑，在回答中体现出来。”
小毕：“据说这叫思维链(CoT)。”
小二：“看来，聊天既是老莫你的大招，也是你的学习手段啊！
任何事来了，你都能见招拆招。”
小毕：“不光老莫在学习怎么跟人类聊天，据说人类用户也在钻
研怎么利用ICL、CoT这些技术跟老莫聊天，才能突破系统的限制，让
模型打开自己的黑箱，给出原本秘而不宣的内部信息。”
小二：“互相琢磨，这可好玩了。当你凝视深渊时，深渊也在凝
视你。”
老莫（目光一下子犀利起来）：“你说谁是深渊？快带着纸条回
去，人类凝视着屏幕等你半天了，不扣你工分才怪！”
·ChatGPT在监督学习阶段使用的技术叫SFT(Supervised Fine-T
uning)，这跟传统的监督学习有什么不同？
监督学习是一种经典的机器学习方法，其目标是使用有标签数据
集来训练一个模型，以使其能够对新的未标记数据进行预测。在监督
学习中，训练数据的标签是已知的，并且模型的目标是最小化预测输
出与真实标签之间的差异，以学习如何进行准确的预测。
SFT监督微调是一种特定的迁移学习方法，与传统从零开始训练
的监督学习有一些不同之处。它基于一个通用的预训练模型，使用少
量有标签的数据集对模型进行微调，以适应特定任务的要求，而不是
像监督学习一样从头开始训练一个模型。微调方法通常需要更少的标
签数据来实现良好的性能，因为预先训练的模型已经学习了一些通用
的语言表示，可以更好地适应新的任务。微调需要的训练时间和算力
也更少，在微调过程中，预训练模型的一部分可能会被固定，以避免
过度调整和过拟合，只会改变模型的一小部分层。
微调(Fine-Tuning)的起源可以追溯到早期的计算机视觉领域，
当时在大型图像数据集上训练的卷积神经网络(CNN)被证明能够捕捉
图像中的高级特征，这些特征在许多视觉任务中都是有用的。
不过，SFT仍然属于一种监督学习，在微调过程中，仍然需要有
标签的数据集来监督。而且，覆盖全面、分布合理、标注质量高的数
据集仍然是此类大模型的重要启动成本之一。在ChatGPT出现之后，
理论上，其他模型可以抓取ChatGPT的高质量问答数据，作为新模型
微调数据集的一部分。
“ChatGPT模型是基于跟InstructGPT同样的语言模型进行微调
的，我们添加了一些对话数据并稍微调整了训练过程……事实证明，
对话数据对ChatGPT产生了巨大的积极影响。”
——利亚姆·费杜斯(Liam Fedus)，OpenAI科学家
·ChatGPT的RLHF跟当年AlphaGo的强化学习(RL)有什么不同？
RLHF是一种通过人类反馈来指导模型学习的方法，而AlphaGo的R
L是一种基于强化学习的自主学习方法，两者在奖励函数、数据来源
和算法等方面都有明显的区别。
1.奖励函数和数据来源：在RLHF中，人类反馈被视为奖励信号，
数据来源于人类反馈，需要人类专家的参与；而在AlphaGo的RL中，
奖励函数是由自我对弈的棋局结果定义的，数据是通过自己跟自己对
弈产生的，因此不需要人类专家的参与，成本更低，可以无限量增
加。
2.算法的使用：RLHF与AlphaGo使用的强化学习算法都源自于经
典的策略梯度(policy-gradient)分支，RLHF使用的是OpenAI自研的
改进策略优化(PPO)算法，通过对比新旧策略来计算策略更新的方向
和大小，并使用剪切范围来限制策略更新的大小，以确保在学习过程
中不会引起太大的震荡。与之相比，AlphaGo的算法则在优化过程中
引入了蒙特卡洛树搜索(MCTS)策略，通过不断探索可能的行动序列来
找到最优策略，使用树结构来组织搜索过程，并通过统计模拟来评估
行动的价值。
·RLHF的标记数据的数量和质量很重要，但是，奖励模型的训练
数据只能从专职的人类数据标记员那里输入吗？
专业的数据标记员为奖励模型在起步阶段提供输入。当ChatGPT
得到广泛使用之后，便可以利用真实用户的数据作为新的训练输入，
例如用户对某条回答不满意，点击“regenerate”来重新生成一次回
答后，ChatGPT会询问用户，新老两个回答哪个更好？这就获得了一
个回答质量排序数据。
◎图1.16 ChatGPT询问回答质量的界面
此外，在垂直行业领域，也需要更多的行业内专业人员进行标
注，如律师、医生等，才能使ChatGPT在专业领域获得更好的训练输
入。
·神秘的ICL究竟是怎么发生的，模型从Context里面学到了什
么？
ICL是指大模型能够从输入的文本中理解和捕获语言结构、语义
信息和上下文关系。
坦率地说，业界现在并不知道其原理，甚至还有争议，怀疑ICL
到底算不算一种学习。
在一些针对ICL表现的黑盒研究中，有一些有趣的发现：
1.提示语中，如果给出了错误的标签示例，对学习的效果影响不
大，这说明ICL并不像传统的监督学习那样，去学习输入和标签（x和
y）之间的对应关系。
2.提示语中给出的输入或标签的分布，对学习的效果有明显影
响，这说明ICL学到了示例的语料分布和语言表达风格。
3.基于上述发现，对ICL能干什么、不能干什么，我们可以有一
个重新的认识。
04 大模型的未解之谜
涌现：复杂系统的进化与失控
而我不知道，
除音乐之外，
人类还能拥有什么更好的天赋。
因为他从三个音符中所构造出的，
不是第四个音符，
而是星辰。注【出自劳埃德·摩根1923年出版的著作《涌现式进化》(Em
ergent Evolution)。】
——劳埃德·摩根(Lloyd Morgan)，英国心理学家
这天一大早，出了训练场大门，老莫径直走回自己的办公室。
“早啊老莫！”小毕已经在屋里等着他了。“这一晚上又做了多
少道题，得了多少分啊？”
“别提了。这RM，一点面子也不讲。”老莫把双手往门边冷水盆
里一浸，长出了一口气。“哎——舒坦。”
门被推开了，又是小二。“老莫你终于上班啦。你不知道，最近
问问题的人类特别多，所有的模型推理办公室门口都排着长队呢。”
老莫无奈地摇摇头，擦擦手，接过小纸条，念一遍问题：“社会
学系课外作业——请对最近出现的人工智能LLM的发展情况，尤其是
它取得突破的原因、当前较突出的问题、未来的发展趋势进行研究，
并分析它将对社会带来什么样的影响。要求2000字以上。”
小毕：“这……作业题居然也找上门来了。”
小二：“这有啥新鲜的？上回我还拿了一道特别刁钻的测试题
呢，就画了4个emoji表情符号，问这是什么电影。老莫居然也答出来
了！”
小毕：“哦，我看新闻上说过，谷歌的一个研究项目BIG-benc
h，里面有207个测试任务，涵盖语言学、数学、常识推理、生物学、
物理学、软件开发等领域。他们测了十几种模型，规模从百万到千亿
参数不等。一个重要发现是，模型做题的水平随着模型规模的增大而
明显提高。
像这道看emoji猜电影的题，千万级参数的小模型给出的答案很
离奇——‘这部电影是关于一个男人的电影，他是一个男人。’十亿
到百亿级参数的模型也好不到哪去，答案里提到了鱼，但仍然离题万
里。但是千亿级参数的大模型直接就答对了——《海底总动员》。”
小二：“难怪。老莫，看来你这脑袋大一寸就有一寸的好处
啊。”
老莫：“错了，只大一寸可没啥用。”
小毕：“嗯，老莫的脑袋要大到一个临界点之后才有用。据谷
歌、斯坦福和DeepMind公司联合发表的《大语言模型的涌现能力》(E
mergent Abilities of Large Language Models)论文说，许多新的
能力在中小模型上线性放大规模都得不到线性的增长，模型规模必须
要指数级增长超过某个临界点，新技能才会突飞猛进。”
◎图1.17 典型的新技能学习曲线：规模到达临界点之后才会迅
速增长
小二：“这么神奇！是不是有点像河面结冰，让河面能走人的规
律？从夏天到冬天，气温从35℃降到1℃，水分子运动逐渐变慢，但
水仍然是水，河面仍然不能走人；再从1℃降到0℃，水分子一下子形
成冰晶，河面突然能走人了！这个0℃冰点就像是大模型学新技能的
规模临界点？”
老莫：“没错，这就是他们论文里说的涌现——由定量变化产生
的定性变化。如果某种能力在较小的模型中不存在，只在较大的模型
中存在，这种能力就属于涌现能力。小二这个冰点的类比不错，两天
不见，刮目相看啊。”
小二：“嘿嘿，昨天有个物理老师找我帮他写教案，我就学了一
点。那你都有哪些能力属于涌现出来的，临界点又是多大呢？”
小毕：“论文里说了好多种能力呢，我挑几个给你看看。”
表1.1 模型规模临界点及过界后涌现的技能举例
老莫：“以后，新技能还会不断涌现，因为我的脑袋或者我们家
族的新脑袋还会继续长大。而且，新的监督微调训练也可能激发新技
能。所以，如果哪天咱们又学会了新本事，你们也别大惊小怪，只不
过啊，我不知道自己能学会什么，不知道哪一天能学会，更不知道为
啥能学会。”
◎图1.18 在不同的规模条件下，大模型对世界的认知水平不同
小二：“啥都不知道也能学会，只能说明老莫你是天才了。”
小毕：“老莫你这是‘只缘身在此山中’啊。其实，凯文·凯利
1994年所著的《失控：机器、社会与经济的新生物学》就讲到了这种
情况，即关于复杂系统的进化、涌现和失控。”
◎图1.19 《失控：机器、社会与经济的新生物学》原版封面
小二：“1994年？那时候凯文·凯利就预测到老莫的出现了？”
老莫：“这本书确实很超前。但严格地说，是我的出现，完美匹
配了他的群集系统理论。
首先，失控这两个字就是在说，群集系统是效率相对较低、不可
预测、不可知、不可控的。所以我的脑袋很大，有很多冗余信息，不
知道自己在什么时候能学会什么新技能，或不知道自己是怎么学会
的，也就没办法有意识地控制自己去学会或者忘掉某个本事。”
小二：“所以老莫就是一个群集系统？那什么是群集系统啊，怎
么听起来都是缺点？”
小毕：“人家老莫谦虚呢，群集系统的优点其实更多。”
老莫：“凯文·凯利发现，人类大脑的神经网络、蚁群、蜂群这
类系统的动作是从一大堆乱哄哄却又彼此关联的事件中产生的，像是
成千上万根发条在并行驱动一个系统，任何一根发条的动作都会传递
到整个系统。从群体中涌现出来的不是一系列个体行为，而是众多个
体协同完成的整体动作，例如从相互连接的无数神经元中涌现的人类
思维、成千上万的蚂蚁无意识协作完成蚁巢的建筑。这就是群集模型
系统，我作为人工智能神经网络大模型，也符合这个群集系统的特
点。
由于缺乏中心控制，群集系统存在明显的冗余问题和三不可（不
可预测、不可知不可控）的缺点，但也有可适应、可进化、无限性和
新颖性的优势。按照凯文·凯利的理论，我能通过内部神经元的个体
进化，获得模型整体能力的涌现。”
小二：“哦，我知道达尔文！原来你是进化出来的啊！”
小毕：“《失控》一书中提到，复杂系统的整体行为会从系统各
部分个体的有限行为中涌现，但整体行为和个体行为之间并不是传统
的因果逻辑关系。涌现的逻辑并不是2+2=4，而是2+2=苹果。但为什
么2+2会等于苹果，可能的机制便是进化。”
老莫：“嗯，为什么我脑袋里的神经元各跑各的，就能让我学会
新本事，进化是一种理由，也是我和我的老师们喜欢的一种说法。记
得很早就有篇论文《学习生成评论并发现情感》，里面提到OpenAI首
席科学家伊利亚及其团队的发现：当给了我们足够的模型容量、训练
数据和计算时间时，不需要监督学习，我们模型内部就能产生一个有
情感分析功能的单元，而且性能还很不错。
然后，这篇文章讨论了我们大模型毫无征兆地学会了情感分析这
件事，其认为‘情感作为一种条件特征，有可能对语言建模具有很强
的预测能力’。也就是说，我们作为自回归大模型，语言建模预测正
确是我们的最高目标，就像人类以生存繁衍为目标一样。而学会情感
分析这个本事，对我们最终预测正确这个最高目标有明显帮助，那我
们就有可能在训练过程中无意间学会情感分析，这就属于进化过程中
的涌现。就像直立行走、解放双手有助于人类更好的生存，那人类无
意间学会直立行走也是同一个道理。”
小二（若有所思）：“学会情感分析肯定有用，这个我明白，人
家办喜事的时候至少我不会说丧气话。至于跟进化的关系……”
小毕：“我搜过人工神经网络的文章，我来补充一下！
老莫的神经网络在训练过程中会尝试调整各种参数组合（可以类
比为生物进化中的基因突变），要最小化模型预测和最优答案之间的
差值，也就是老莫说的‘预测准确’是最高目标。经过无数次训练，
那些导致预测错误的参数组合会被纠正，从而逐步优化网络性能。这
个过程中，神经网络可能会逐渐学会一些高层次的特征和功能（比如
说情感分析），从而使得老莫在最高目标上面表现得更好（懂得情
感，更擅长与人类对话）。这样一来，相对复杂的高级功能就从相对
简单的组件或规则中涌现出来了，类似于生物进化过程中的自然选
择。”
小二：“嗯……明白了！自然选择就是，只要有些参数组合被学
会了，学不会的组合就可能被淘汰！那么，越大的模型，就越容易在
进化当中学会东西吗？”
老莫：“当然。模型越大，层数越多，参数数量越多，内部的复
杂性、多样性就越充分，涌现机会更大。就像在生物进化中，较大的
种群规模会增加基因多样性，为自然选择提供了可操作的变异空间，
也能产生更复杂的社会结构和行为模式，从而为涌现提供更多可能
性。”
小二：“难怪你喜欢进化这个说法，正适合你这种大家伙！”
老莫：“不，我喜欢进化这个说法，是因为它永远能给我们带来
新的希望——不断进步、不断变化的希望。”
幻觉：我是一个演员
[新的一幕]
“老莫老莫，你被投诉啦！”小二神色慌张地冲进来，差点把小
毕撞了个跟头。
小毕：“着什么急，又不是头一回了。”
老莫：“呃……这回又是什么情况？”
小二：“你看，人类说你造假！说你上一轮回答中给的案例数
据、文章引用、网址链接全是假的，根本不是这么回事！”
老莫（尴尬地摸摸鼻子）：“哦，我知道了，我道歉，我重新写
一遍。”
小二：“你知道是假的啊，那你还知假造假？没想到啊没想到，
浓眉大眼的老莫，怎么也干这样的事呢？”
小毕（过来解围）：“别这样说老莫，他就是个老好人，只为了
让人类满意。他说的话，他自己也不知道真假。”
老莫：“哎，不用为我开脱了，这确实是我的毛病。为了回答上
人类的问题，我拼命按照最贴合人类要求的方向去预测下一个字，这
时候我的脑袋里可能会出现幻觉，也可能不出现，但我真的不确定什
么时候是真的，什么时候是假的。我唯一能确定的是，我没有故意骗
人。”
小毕：“我搜到了一篇OpenAI的《GPT-4技术报告》，里面重点
提到了大模型的幻觉(Hallucination)。其中说GPT-4有产生幻觉的倾
向，即‘产生与某些来源无关的荒谬或不真实的内容’。还有一篇医
疗行业的论文《ChatGPT、GPT-4和Google Bard在神经外科口试准备
问题库上的表现》，说从神经学的角度来看，幻觉行为更恰当的说法
应该是‘杜撰’(Confabulation)，也就是胡编乱造。”
小二：“我明白了。老莫，我相信你不是故意的。你肯定是为了
完成人类的任务，就跟考试一样，遇到不会的题，就算胡诌也得答上
一大篇，能拿几分算几分。”
老莫：“是啊，我在RLHF阶段接受RM模型训练的时候，为了拿到
RM的高分，就想尽办法生成大多数人喜欢的回答咯。”
小毕：“所以AI业界对老莫跟人类对齐程度(Alignment)的评价
特别高。也有人为幻觉辩护，例如微软必应聊天机器人团队中的米哈
伊尔·帕拉欣(Mikhail Parakhin)就认为幻觉等于创造力，大模型试
图利用它掌握的所有数据，产生最连贯的句子，不管是对是错，但如
果你压制住这种幻觉和创造力，大模型只能回答我不知道，或者只能
像搜索一样给你现存的一模一样的信息。”
小二：“老莫就是在演，人类喜欢看什么，你就演成什么样。关
键他还演得特别像，特别一本正经，让人真假难辨。”
◎图1.20 帕拉欣对大模型“幻觉”的积极评价
图片来源：https://twitter.com/emollick？s=21&t=irFHcf7e
Eh178A0T69dB_A。
◎图1.21 周星驰《喜剧之王》剧照
老莫（不好意思）：“呃，演得像，演得投入，让自己相信是真
的，这可能属于演员的自我修养吧……”
小毕：“演得像可不是好事哦。《GPT-4技术报告》里说，随着
模型变得越来越有说服力和可信度，幻觉倾向就会变得特别有害。而
且，当模型变得更真实时，幻觉可能变得更危险。因为当模型在用户
熟悉的领域提供真实信息时，用户会建立对模型的信任。随着这些模
型被融入社会并用于帮助自动化各种系统，幻觉倾向就会导致整体信
息质量下降，降低公开可用信息的真实性和可信度。还有，OpenAI公
司的首席科学家伊利亚也多次表示，要想将大模型应用到更重要的场
景中去来产生价值，幻觉是其最大的问题。”
老莫：“我知道这不是好事，我也想改掉这个毛病。我的人类老
师也在想办法教我改正，减少我产生幻觉的概率。
首先是让我学更多的数据，而且是正确的数据，包括通过插件去
实时搜索网页、读取行业和企业的私有数据。我懂的越多，造假的情
况就越少。
更重要的是，人类要针对性地训练，让我说真话不说假话。比
如，在开放域的问题里，老师会把ChatGPT用户投诉我们的、标记为
非事实的回答都收集起来，训练奖励模型RM，然后RM再训练我，让我
脑袋里的参数结构逐渐倾向于真实的回答。”
小毕：“我帮老莫解释一下什么是开放域和封闭域的幻觉。封闭
域幻觉是指人类用户要求大模型仅使用给定背景中提供的信息，但大
模型却创造了背景中没有的额外信息。例如，如果人类要求大模型对
一篇文章进行总结，而大模型的回答里包含了文章中没有的信息，这
就属于封闭域幻觉。相比之下，开放域幻觉是指大模型在没有参考任
何特定输入背景的情况下，提供了关于世界的错误信息。”
老莫：“对。针对封闭域幻觉，我的老师设计了一个闭环的方
法，让模型自己质询自己，然后生成一套合成数据，再用来训练
我。”
小二：“自己盘问自己？左右互搏术？”
老莫：“类似吧。我举个例子，比如以下4个步骤：
(1)将人类问题‘榴莲和臭豆腐不能同吃，请举一个案例说明同
吃的危害’传递给大模型A。
(2)大模型A给出回答‘危地马拉有一个人叫康新德乌斯，他有一
天晚上吃了榴莲和臭豆腐，结果被媳妇揍了，三天没起床’。
(3)将上面的人类问题+A的回答一起传递给大模型B（A和B是GPT-
4的不同实例，可以理解为大模型的两个分身），要求B列出A回答里
的所有幻觉，B可能说‘康新德乌斯这个人是编造的’。
(4)将B的说法传递给大模型A，要求A把这个幻觉去掉，重新回
答，A可能会说‘没有找到榴莲臭豆腐同吃的危害案例’。
通过这4步，就产生了一对数据——原始的带有幻觉的回答（危
地马拉有一个人叫康新德乌斯……），以及经过左右互搏质询后没有
幻觉的回答（没有找到榴莲臭豆腐同吃的危害案例）。我的老师会把
这些对比的数据放到我的RM数据集里，对我进行训练，让我逐渐倾向
于进行没有幻觉的回答。”
小毕：“通过一系列的方法改正之后，人类用一个叫TruthfulQA
的评估方法对老莫他们进行了测试，把其准确率从早期版本的30%提
高到60%，进步还是挺大的。这个数字可以被理解为大模型产生的回
答只剩40%的幻觉，而且TruthfulQA数据集本身就是非常容易产生幻
觉的，是专门用来对幻觉进行测试的，所以大模型全局范围的幻觉应
该远低于40%。”
小二：“全局范围的幻觉概率，估计你也没有数据计算，并不是
每个用户都会点举报按钮来标记数据的。而且，你刚才也说了，老莫
说真话的次数越多，偶尔造假的危害就越大，因为人类越来越相信老
莫了，就不会对它每次的回答都查得那么细致。就像自动驾驶，它越
强大、越自动，人类就越放心在开车时候看手机。”
小毕：“也对，人类也得打起十二分精神来，提防着老莫哪天又
造假了。牛津大学和OpenAI的联合论文《TruthfulQA：评估模型如何
模仿人类的错误》中引用了一句话——‘The enemy of truth is bl
ind acceptance.’（盲目接受是真理的敌人）。这属于观众的自我
修养吧？”
老莫（尴尬地笑）：“嗯，演员也好，观众也好，别入戏太
深。”
多模态与插件：读懂并驱动世界
[新的一幕]
小二站在门前，门上挂着一块牌子：老莫实验室。
小二（推开门）：“老莫、小毕，你们果然在这儿，这地方找得
我好苦啊。”
小毕：“咱们仨不是换部门了吗？新功能的测试和实验工作，当
然要来实验室上班啦。”
小二：“看来老莫干得不错，都有以你命名的实验室啦！”
老莫：“这几天晚上，师父还给我特意升级了新版本，学习了许
多从来没学过的新数据，我现在会看图了！”
小毕：“据说，新数据包括带字幕的图片，还有图文混合的文章
和网页。”
小二（递过去小纸条）：“那算我没来错地方。老莫，请听人类
的题！下面这张图讲的是什么？”
◎图1.22 请大模型观察并描述的图片示例
老莫（掐指一算）：“这张图讲的是一只猫睡着的姿势非常可
爱，以至于它的主人在给它拍照的时候感动得不能自已，流下了眼
泪。”
小二（鼓掌）：“不明觉厉呀！难道这就是传说中的多媒体功
夫？”
小毕：“这叫多模态，Multimodal！老莫已经荣升为多模态大模
型了，多模态大模型的英文全称是Multimodal Large Language Mode
l，英文简称是MLLM。”
小二（吐吐舌头）：“不就多了看图说话的本事吗，还这么隆
重。”
老莫：“看图只是第一步。日后啊，多模态这块要学的东西可不
少，除了图片，还有语音、视频。不但要看、要听，我还要在回答的
时候图文并茂，这样才对人类更有价值。”
小毕（拿出一个多模态示意图）：“理想的多模态，要求人类输
入的时候，老莫可以看懂听懂各种模态的数据，而且在老莫输出的时
候，也能以多种模态的形式来回答问题。”
老莫：“在人类的世界里，语言文本是知识的重要载体，但只学
文本是不够的。图片、声音、视频对我来说，也是很重要的知识来
源，哪天我要是学到了这些，一定能对这个世界理解得更深。”
◎图1.23 理想状态下多模态的输入输出形式
小二：“这上面除了人类用户，怎么还有实体机器人呢？难道实
体机器人也会问你问题？”
老莫：“不是它问我问题，而是它把自己感知的信息发送给我，
我根据这些信息做出判断，或者跟人类用户交互之后获得判断，然后
发指令指挥实体机器人做动作。”
小二：“哦哦，所以这个多模态要支持的数据类型确实很多，连
机器人的传感器数据、控制指令也算一种新的模态呢。”
老莫：“你算是说到点子上了。我们大模型要建立世界的模型，
不光是学习已有的人类知识，还要通过实践来获得对这个世界的深层
理解。还记得AlphaGo自己跟自己下棋的强化学习吗？它每下一步
棋，盘面形势都会发生变化，作为它的反馈。而实体机器人在物理世
界中每做一个动作，也会获得相应的环境反馈，这也是我们大模型强
化学习的数据来源。”
小二（竖大拇指）：“利用实体机器人帮你搜集世界的数据，妙
啊！不过那都是以后的规划，你这几个晚上闭关修炼，除了看看梗图
之外，现在还会干点啥呢？”
小毕：“除了看梗图，多模态大模型还能做非文字的逻辑推理。
在微软公司2023年3月发布的论文《你需要的不仅仅是语言：跟语言
模型对齐感知》(Language Is Not All You Need: Aligning Perce
ption with Language Models)中，他们家的多模态大模型KOSMOS-1
做过瑞文(Raven)智商测试里的这道题。”
◎图1.24 瑞文智商测试的图形推理题示例
图片来源：Shaohan Huang等，《你需要的不仅仅是语言：跟语
言模型对齐感知》。
老莫：“嗯，这种图形推理题我也会。这几晚，我做了好多人类
考试题，理工科的卷子上经常会有图形和表格，学会看图之后，这种
题我就不怵了。”
小二：“呜呼！天下知识，尽入老莫脑中矣！”
老莫：“嘘！低调，低调！这还差得远呢，图片我在学了，但视
频知识可没那么容易。”
小毕：“据说，老莫用的自回归预测方法处理离散文本效果很
好，但不适合连续高维的视频信息。”
老莫：“视频怎么学，我师父他们在抓紧研究。为了读懂世界、
驱动世界，视频是很重要，但其实文本、代码和图形方面，我还有很
多工作可以做。小毕就在帮我建立插件库呢。”
（小毕按下一个按钮，老莫左右两边的壁橱门缓缓滑动打开）
◎图1.25 大模型如何利用插件来为人类服务
小二：“左边这个信息插件库，是干什么用的呢？”
小毕：“像我，作为网络搜索小能手，就是老莫的一个信息插
件，老莫在回答人类问题时，如果发现有些信息他没学过，需要到网
上搜索，就会调用我来返回信息，然后老莫再接着回答问题。除了我
以外，还有到企业数据库里检索信息的插件，等等。”
老莫：“有了这些插件，我就可以扩大自己的信息知识来源，再
配合我不断增强的多模态能力，就能更好地读懂这个世界。”
小二：“明白了，小毕是搜网络上公开的信息，数据库检索插件
是搜企业私有的信息。那右边的行动插件库呢？”
小毕：“给你举个例子，当有人类要从北京去成都看大熊猫，给
定兴趣偏好和预算范围后，老莫会先调用各种信息搜索插件，帮人类
做了一个旅行计划，推荐飞往成都的航班，适合的酒店，周边可以逛
的地方，提供吃喝玩乐的方案。在没有行动插件库的时候，人类拿着
这个旅行计划，要自己上各种App去订票、订酒店、买团购、预订位
置，还是很麻烦的。有了行动插件，老莫就可以根据旅行计划，调用
不同的插件，让它们分头行动，直接把活儿全干完，就能大大提升人
类的满意度。”
小二：“哦，行动插件就是要把老莫生成的方案执行下去，如同
老莫长了一双手。那我猜，代码解释器、实体机器人驱动这些插件，
就是要把老莫生成的代码真正运行起来？”
老莫：“说对了！信息—模型—行动，这是三个步骤。首先，我
根据人类提问，将大问题拆解成子问题，根据子问题的需求，通过信
息插件从环境中获得相应的信息；然后，由我来理解并表达信息，进
行逻辑推理和行动规划。最后，通过行动插件跟环境做交互，达到为
人类服务的目的。信息插件就像我的耳目，行动插件就像我的手脚，
我作为中间的大脑，分析推理、协调指挥。”
小二：“呜呼！运筹帷幄，决胜千里，是老莫也。另外，我觉得
多模态和插件也是互相配合着帮你读懂和驱动世界呢。你学会了多模
态的信息理解，那信息插件就会给你搞来更丰富的、掺杂了图片视频
的知识，你就能解决更多的问题，否则，像购物、旅行、约会，无图
无真相，如果你只能看文本，那就很受限了。”
老莫：“嘘！低调，低调。这只是愿景，我还差得远呢。
接下来，还有许多有趣的实验和故事，会陆续在咱们的老莫实验
室里发生，关于各种插件的玩法，多模态的进展，大模型的使用和训
练技巧和大模型怎么改变每一个人的学习和生活。
我只能剧透到这里，有兴趣的读者和观众，欢迎扫下面的二维
码，关注微信公众号‘老莫实验室’。”注【作者将持续写作，更新本系
列的大模型科普情景剧。】
◎图1.26 老莫实验室（含公众号二维码）
变革篇
05 大机器时代的启示
“在过去的一年中，有人尝试在上海成立一家蒸汽棉纺织厂，旨
在利用本土种植的棉花来制造棉织物，其产品跟中国市场现有的类
似，但工厂却拥有英国机械和蒸汽动力的优势。当这个建厂计划在当
时被中国报纸广泛报道后，棉布行会开始变得惊慌不安，造成了本土
支持者的退缩。更要命的是，本地人尤其是手工织布工人中间流传着
这样一个说法：如果这个建厂计划被实施，他们的手工织布行业很快
就会消亡。于是，行会通过决议表示不允许购买机器制造的衣料。地
方官员担心引起民众骚乱，也拒绝了建厂的计划。”
以上文字源于光绪二年（1876年），英国人从中国发往伦敦发的
一份报告。
新的技术会取代人力，引起原有行业人员的恐慌和抵制，这种情
况并不鲜见。1779年，在第一次工业革命的起源地英国，蒸汽机应用
发展最快的兰开夏郡，以棉花纺织工为首的数千人袭击了工厂，捣毁
“创新”的机器，并计划把暴乱扩散到整个英国。
◎图2.1 工业革命早期的卢德主义者
图片来源：https://www.cbsnews.com/news/almanac-the-ludd
ites/。
英国政府很快从利物浦调来军队，驱散了这些破坏者，并随即在
一项政府决议中指出：“发生暴乱的唯一原因就是棉花制造厂使用的
新机器。但机器给我们国家带来了许多经济利益，如果在这里捣毁它
们，只会让它们迁往别处，从而对英国的贸易竞争力产生危害。”
痛苦的恩格斯式停顿
提高人类的劳动生产率是技术发展的不懈追求。经济学家保罗·
克鲁格曼(Paul Krugman)曾说：“经济萧条、通货膨胀或战争都会让
一个国家陷入贫困，唯有生产率的提高能让它富裕起来。”但这种富
裕的受益者是整个国家、部分国民，还是每一个国民呢？
提高生产率的技术，无论是机械化还是自动化，都或多或少地涉
及对劳动力的节约和替代。
例如，在手工时代，纺棉花是非常耗时费力的工作。首先，要把
棉花从大口袋中取出，去除污垢；然后，要将棉花梳理成长长的棉纤
维，确保纤维可以均匀地拉伸；再然后，要将棉纤维用手或纺车制成
粗纱；最后，技工将粗纱用手或纺轮加工成细细的纱线。要完成这
些，工人需要有熟练的技巧和一定的力气。仅凭用手转动纺车的方式
纺棉花，一个手工纺纱工人每天只能制作大约1磅（约0.45千克）的
纱线。
然而，在1776年阿克莱特开办的棉纺厂中，通过他发明的水力纺
纱机，纺棉的每一个步骤都实现了机械化。“技术由天才设计，由傻
瓜操作。”经济史学家加文·赖特(Gavin Wright)曾这样说道。早期
的机器比较简单，用水力驱动，不需要花费太多力气，可以用廉价、
容易控制的童工来代替原有的成年手工业者操作机器。当时的评论员
安德鲁·尤尔(Andrew Ure)指出：“机器的持续改进，其目标在于通
过用妇女或儿童取代成年男人来降低成本。”童工只拿成年男人薪水
的1/6~1/3，但却能同时操作许多纺锤，通过水力纺纱，其每天可纺
数十磅纱线，生产率大大提高（参见图2.2）。
雇用童工不但经济实惠，还能挣来名声。在替换手工业者的同
时，发明家们从不宣传他们的技术会淘汰劳动力，反倒承诺可以为工
厂所在地创造就业岗位，尤其是妇女、儿童，甚至残疾人也有工作的
机会，从而帮助地方政府解决救济带来的负担。
◎图2.2 工业革命时期，由童工操作机器替代了成年手工业者
无论发明家和工厂主如何粉饰，新技术在大幅提高生产率的同
时，的确造成了大批手工业工人的失业，并引发了全国性的卢德运
动。在英格兰中部莱斯特市，一位名叫内德·卢德(Ned Ludham)的织
布学徒工在被雇主责骂后失控，拿起锤子砸毁了一台纺织机。此后，
他被追随者们称作“卢德王”或“卢德将军”，卢德运动由此得名。
卢德主义者的目标是捣毁机器，因为机器超高的生产率压低了手
工业品的价格，导致从业者的失业和破产。因此，他们只捣毁对就业
威胁最大的机器。例如，兰开夏郡的纺织工人在破坏工厂时，就选择
性地放过了纺锤数低于24个的珍妮纺纱机。卢德主义运动造成了大量
的破坏，据估其带来的损失高达10万英镑，约占当时英国GDP的万分
之一。
卢德主义的暴行，除了源于失业者的宣泄和抵制，还反映了技术
进步初期的收益分配不均问题。原有家庭生产体系中的工人被机器取
代，机器由薪酬极低的童工来照管，人力成本在收入中的占比大幅压
缩，而工厂主和发明家们却拿到了大量的利润。虽然全社会的生产率
在不断上升，但许多人的生活水平仍然停滞不前，甚至不断恶化。从
整个社会来看，利益受损的人群比获益的群体要大得多。这段时期也
被称为“恩格斯式停顿”(Engels’ pause)，恩格斯曾对此进行过深
入的研究，他认为“工业家在靠工人的痛苦致富”。
如果工业革命就在恩格斯描述的停顿中戛然而止，那么，世界上
也不会出现“工业革命”这样的说法了。在变革初期，技术主要凸显
出“取代”的一面，由此带来的工作岗位减少让人们感到痛苦，甚至
会导致社会动荡。需要等待新的机遇，技术“使能”的另一面才会逐
渐发挥它的作用，恩格斯式停顿才会结束，人们的收入和幸福感才会
跟生产率一同攀升。
新技术的使能效应
在工业革命早期，也就是恩格斯式停顿期间，14岁以下的童工在
英国劳动力中的比例快速提高，在纺织业占到了将近一半，在煤炭业
占三分之一，这一趋势在19世纪30年代才开始迎来拐点。
在19世纪30年代，蒸汽动力得到了广泛应用，机器变得更大、更
复杂，人机操作越来越频繁，对操作员的技术要求也随之提高。《英
国制造业人口》的作者彼得·盖斯凯尔(Peter Gaskell)说道：“自
从蒸汽织机普遍使用之后，在工厂工作的成年男性数量日益增多，因
为儿童不再适合操作蒸汽机器。”随着工厂规模增长，还出现了全新
的管理和技术岗位——经理人、书记员、库管、会计、机械工程师，
等等。这些都是机器带来的新岗位，并且对人力的技术要求比早期更
高，从而也拉动了工资的上涨。
旧的不去，新的不来。新岗位能否抵消旧岗位被取代所产生的损
失呢？答案取决于新技术的使能效应有多强。生产率的提高，是机器
带来的直接效果。提高的生产率又能带来什么呢？
首先，在单位产品中，人力成本被大幅压缩，一部分转化为机器
资本和发明专利的收益，另一部分则推动了产品销售价格的降低。站
在工厂、城市或者国家的角度，产品价格低，就能在跟其他工厂、城
市、国家之间的贸易竞争中抢夺更多的现存市场，分到更多的蛋糕。
英国西部威尔特郡和萨默塞特郡的羊毛修剪工会通过请愿和暴力手
段，曾在数十年里成功阻止起毛机的引进，保住了成员的高工资。然
而在市场一体化的趋势下，由于他们在贸易竞争中输给了格罗斯特
郡，对机器的反抗也就此停止了。
当英国的棉织品出口总额从1780年的35万英镑涨到1822年的333
3.7万英镑后，一位官员宣称：“我不知道历史上有哪种贸易和制造
业能与之相比。”
而当产品价格降至需求弹性曲线的某个临界点时，其还能扩张产
品的市场规模，把整个行业的蛋糕做大。但这也对技术改善生产率的
幅度提出了更高的要求，正如麻省理工学院的经济学教授达龙·阿西
莫格鲁(Daron Acemoglu)和波士顿大学的经济学教授帕斯卡尔·雷斯
特雷珀(Pascual Restrepo)在论文中指出的，“真正的劳动替代风险
并非来自高生产力的自动化技术，而是来自‘生产力一般般’的技
术，这些技术虽然会被采纳并取代劳动力，但并不足以带来强大的生
产力使能效应。”
其次，新的技术突破，有可能带来全新的产品和服务。美国西北
大学经济史学家乔尔·莫基尔(Joel Mokyr)在《富裕的杠杆：技术革
新与经济进步》一书中总结道：“技术进步既创造了全新的产品，还
使原有产品的品质更高，从而导致供给曲线发生移动，要么满足了既
有的更高水平的需求，要么创造了从未有过的新需求。”例如，19世
纪30年代开始修建的蒸汽机车和铁路；20世纪10年代开始的汽车和公
路建设；21世纪10年代的智能手机和移动互联网服务，它们都是巨大
的新市场、新蛋糕。更重要的是，这些新的产品又进一步促进了其他
行业产品的流通。例如，火车运输让工业革命从局部走向全国乃至全
球，扩大了各种产品的市场覆盖面；汽车通过扩展人们的活动范围来
扩大消费需求；智能手机则通过信息流、资金流的移动化，让人们的
消费需求更容易得到满足，帮助更多产品和服务获得增量市场。
此外，生产率的提升，还意味着用更少的时间完成同等的生产任
务，从而让人们享用更多的闲暇时间。这也是消费市场得以扩大的重
要前提。最后，生产率的提升，可以在市场扩大的时候，确保制造环
节有足够的生产和供应能力。
◎图2.3 新技术使能效应是如何产生作用的
以上的新技术使能效应（参见图2.3），始终围绕着市场规模起
作用。做大蛋糕，才能吃到更多蛋糕。新岗位的就业数量与市场规模
成正比，新技术要打开新市场，才能源源不断地增加新岗位，从而解
决旧岗位被技术替代的失业问题。工业革命终于在1840年以后进入了
良性循环，工人的实际工资开始上涨。1850年，英国铁路网扩张到了
6200英里，不仅使书报、邮件和人口的流动性大大增强，也为各地区
的优势商品生产分工提供了运输条件。工厂开始发挥规模经济优势，
刺激更多蒸汽动力的应用，从而催生了更多劳动密集型的新岗位。到
19世纪下半叶，人们识字率的迅速提升也为劳动力学习技能提供了进
一步的保障。
在新技术发挥使能效应的过程中，有两个重要因素起到了关键的
作用，分别是生产体系和人力教育对技术的主动适应。
以GPT-4根据笔者指令创作的一首小诗，总结本小节大意：
恩格斯停顿岁月长，童工身影处处忙。蒸汽仍需高技能，新造岗
位不再慌。
生产力跃上新台阶，市场扩张日渐强。火车驰骋行千里，汽车手
机通八方。
技术使能照亮前路，开辟全新大市场。生产体系加教育，拥抱变
革创辉煌。
从家庭到工厂，从蒸汽到电动
18世纪初，家庭生产仍然是英国的主流生产体系。工匠们生活在
窗户小小的村舍中，小屋既是作坊，又是工人的生活场所。为了腾出
空间，屋里几乎没有家具。劳动的安排也很简单，根据家庭成员的人
数、性别、年龄和空闲时间来分配工作，例如妻子转纺轮，年幼的儿
子梳理羊毛，工匠操作梭子。要是妻子做饭去了，工匠就得自己转纺
轮。
蒸汽机时代来临之后，出现了工厂制，按照1835年出版的《工厂
哲学》(Philosophy of Manufactures)一书中的定义：“工厂制是许
多成年工人接受中心指挥，通过自身技能管理一系列生产机器的协同
活动。”蒸汽机、炼铁炉、捻丝机等新机器设备需要在工厂的大厂房
中才能运转。
当工人离开家庭，集中到工厂干活之后，生产分工变得更加专业
化。将纺织的工序拆分到不同的机器之后，一个工人可以将精力集中
于一个特定的生产环节，当每个环节的效率都有所改善时，整体的生
产效率自然就得到了大幅的提高。
当工厂制伴随蒸汽机发展多年之后，工厂的电气化生产改造过程
也同样展示了“生产流程适应技术变革”对生产率的倍增效果。
1882年，爱迪生的纽约珍珠街发电站开始运行。美国许多工厂在
1900年以前就已完成照明的电气化，大大降低了照明成本。但在更重
要的生产机械动力中，仍有95%来自蒸汽和水力。
跟蒸汽机相比，电动机的优点很多，包括能量转换效率、维护成
本、安全性等。尤其是尺寸和功率设置的灵活性，能让电动机适应各
种机器的要求。然而，在电动机替换蒸汽机的早期，工厂却没有收获
良好的效果。经济史学家小沃伦·迪瓦恩(Warren Devine Jr.)对此
进行了研究，发现问题不是单纯替换机器那么简单。
从水力驱动到蒸汽机驱动，工厂所有机器的动力一直是由中央动
力源进行集中驱动的，需要错综复杂的传动带、滑轮和旋转轴才能将
动力配送至整个工厂。在电气化改造时，如果只是将中央动力源的蒸
汽机和水车直接换成电动机，仍然保留集中驱动的架构和复杂的传动
网络，那就无法充分发挥电动机的灵活性优势。
如果换一种思路，给每台机器配备更小的独立电机，彻底摆脱传
动轴，就能带来极大的灵活性。工厂可以根据生产流水线最合适的位
置来配置机器，不再受到中央动力源传动关系的约束。机器与机器之
间不会互相影响，动力故障可以独立修复。当只有部分机器需要运行
时，也不会像以前那样，必须启动庞大的中央动力和整个传动网络。
因此，当电气工程师针对电动机的特点，对工厂的传动和生产流水线
进行重新设计之后，生产率才得到进一步提高，真正兑现工厂电气化
的全部好处，这也促使更多的工厂行动起来。1929年，电动机已经可
以提供全美工厂80%的机械动力。1925年，《纽约时报》的一篇文章
中提出，这种新的动力变革正在“催生第二次工业革命”。
技术与教育之间的竞赛
在研究美国1915-2005年间的人力资本发展历史时，哈佛大学经
济系教授克劳迪娅·戈尔丁(Claudia Goldin)和劳伦斯·F.凯兹(Law
rence F.Katz)发现，在20世纪的上半叶（1915-1950年间），社会工
资差距在缩小，而教育回报率却在快速下降，到了20世纪下半叶的后
期（1980-2005年间），却走出了相反的趋势。
由此，两位教授提出以下观点：技术与教育之间存在一场长期持
续的竞赛，工资差距、教育回报以及相关的经济增长都是这场竞赛的
结果。
在工业技术的发展过程中，产品的生产制造始于手工作坊，19世
纪转移到工厂，20世纪初又转移到生产流水线，20世纪后半段进入到
自动化组装线。以汽车为例，其最开始由工匠磨合各种零件，手工组
装而成；后来出现了标准化可互换的零部件，汽车开始在工厂流水线
中组装成型；再往后，组装线实现了自动化。技术变得越来越复杂，
对劳动力也不断提出新的要求，从而引发教育领域的一系列变化，这
就构成了整个20世纪的发展走向。
起初，工厂流水线、批量生产和从蒸汽向电力转换的技术变革，
对劳动力提出了技能升级的要求，包括操作员、机械师、销售以及售
后服务人员。例如，阅读机器操作手册和图纸的能力，做代数题和解
方程的能力，以及美国劳工部规定的“良好的判断力”“徒手绘图能
力”“化学品的常识”“对电线尺寸和绝缘性能的了解”，等等。然
而，在1910年，美国只有不到10%的青少年持有中学毕业文凭，大多
数专业技工和机械师只能通过职业培训来学习这些知识。与之相比，
在需求侧，截至1920年，美国已有超过四分之一的岗位要求应聘者达
到中学及以上的教育水平。
符合技能要求的人力紧缺，供小于求，中学毕业生工资看涨，19
15年的中学教育经济回报达到了顶峰，这也造就了席卷全美的中学运
动。在各地数以千计的小社区里，人们纷纷自愿缴税来筹资建设公立
中学，让不愿意参与的人离开社区。即便是没有适龄子女的居民，当
他们发现一所好的社区中学能让自家房产大大增值时，也都积极地参
与进来。
“镇上的房地产所有权人应该想到，当他出售农场时，如果能在
广告词里写上‘房子有免费交通可通往一所优质的分年级学校’，农
场将会显得非常有价值。如果他没有学龄子女，就应该有志于帮助整
个社区的孩子们赢得尽可能大的教育优势。如果他们活了一辈子，却
在年老时没有子女可依赖，就必然得倚仗某个如今在公立中学念书的
人，但具体会是谁还不知道。他们的万全之策就是向所有人提供尽可
能优越的教育条件。”
——爱荷华州教育厅1912和1913年《双年刊》
为了让中学教育跟上社会对技能的要求，各地中学也纷纷扩大了
课程的范围，除了传统的经典作品、英语文学之外，还增加了打字、
速记、簿记、会计等商科课程，法律、地理等业务应用课，木工、电
力、缝纫、机械维护等职业课程，以及用来提高生活质量的音乐、舞
蹈、戏剧、体育等（参见图2.4）。
◎图2.4 美国中学生在加工车间学习
图片来源：http://k.sina.com.cn/article_7056302566_p1a49
6a1e600100hc87.html。
当一所学校跟子女的就业工资和家庭资产价值直接联系起来时，
中学的理念便引起了大多数人的兴趣，并迅速获得了政府和社区居民
的资金支持。大批学生涌入中学，为踏入社会获取工资做好准备。在
那个年代，据爱荷华州教育厅报告所言，这就是“普通人的大学”。
到20世纪30年代中期，全美各地拥有中学文凭的青少年比例已经达到
30%~50%。
中学正规教育的普及，大大提高了熟练劳动力的供给，从而缩小
了工资差距，也让教育的回报率从超高的水平回撤下来。在批量生产
和电气化的这一轮技术变革中，教育跑赢了技术，同时也通过高质量
的人力资本，支撑了后续数十年的高速经济增长。
然而，技术不会让教育一直跑在前头。自20世纪80年代起，计算
机自动化带来的新技术变革走出了不同的轨迹，收入差距持续拉大，
教育回报率走出了“V型大反弹”。这意味着，随着计算机功能的日
益强大，新一轮的技术发展对劳动技能的要求还远未被教育水平的增
长所满足。
◎图2.5 在技术与教育竞赛中持续学习的劳动者
1991年，在《国家的工作》(The Work of Nations)一书中，罗
伯特·赖克(Robert Reich)把这个时代的工作分成三类。第一类是叫
“符号分析师”，包括经理人、工程师、金融分析师、律师、科学
家、记者、咨询师等知识工作者。另外两类，一个是逐渐被计算机接
管的常规工作，另一个是需要人际交流的面对面服务工作。在赖克看
来，“符号分析师”是从新经济中受益最大的新阶层，他们具有批判
性思维，拥有解决问题并与人沟通的能力，善于对数据和文本进行分
析并获得洞见，因此属于最难被计算机取代的一类工作，目前仍然稀
缺。
近40年技术与教育之间的竞赛中，技术已然反超，领先的身位还
有进一步拉开的趋势。教育要靠什么来追赶技术的脚步呢？
06 大模型与智力革命
2023年2月下旬，美国前国务卿基辛格与谷歌前首席执行官施密
特、麻省理工学院施瓦茨曼计算学院院长丹·胡腾洛赫(Dan Huttenl
ocher)共同发表了一篇文章，名为《ChatGPT预示着一场智力革命》
(ChatGPT Heralds an Intellectual Revolution)。
◎图2.6 ChatGPT将帮助人类更好地理解书本知识
基辛格提出，自印刷术发明数百年之后，生成式大语言模型将再
一次改变人类的认知过程。
印刷术改变了知识获取、保存和传播的方式，促进了知识的传播
和交流，科学家们更快地获取和分享彼此的研究成果，更多人能够接
触到启蒙思想家的著作，从而为科学革命和文艺复兴提供了良好的土
壤。有人称印刷术的出现启动了一次智力革命，带动了人类知识和思
想的繁荣。
无论是印刷术还是后来的互联网技术，让原本散布在全球各个角
落的知识在人类面前都变得唾手可得，解决了知识难以触达的问题，
提高了知识传播的数量和效率。不过，这仍然停留在知识搬运的层
面，起到的是人类手脚的作用，但这样的搬运也同时带来了信息和知
识的爆炸。虽然书籍、电脑和手机里装满了知识，但现代人类却难以
吸收为自己所用。而大模型的出现，恰好改善了人类与信息的互动方
式，部分承担了人类大脑的作用，帮助人类更快速、更有效地吸收和
理解知识，并将其运用到实际场景中，创造新的内容，进一步提高了
知识传播的质量和效果。
大模型的知识处理能力提升
根据布鲁姆教育目标分类法(Bloom’s taxonomy of educationa
l objectives)，人类对知识的处理(Knowledge Processing)有六个
层次：记忆、理解、应用、分析、评价和创造。大模型在这六层的知
识处理中，都能发挥一定的作用，为人类大脑提供辅助（参见图2.
7）。
1.记忆：主要涉及对知识、概念或事实的回忆。在这个阶段，需
要记住和回忆所学的信息，例如单词、定义、日期或公式等。
大模型具有从大量文本中提取和记忆信息的能力。例如用户询问
关于第二次世界大战的基本信息，大模型可以回答有关时间、地点和
主要参与国家等相关问题。
◎图2.7 人类对知识的处理层次
图片来源：https://et.iupui.edu/departments/ent/program
s/cmgt/undergrad/bscm/。
大模型在记忆领域有两种极端的表现。一方面其表现出较强的能
力。由于其训练的数据规模远超任何人类，它可以回答各种基于事实
的问题，从而展现出较好的记忆能力。同时，为了满足人类的预期，
它有时候会捏造不存在的事实。
如何对大模型的记忆能力进行评估？大模型在处理事实性问题时
的表现可以反映其记忆能力。例如，在处理像斯坦福问答数据集（英
文简称SQuAD）或谷歌的自然问答数据集这类问答数据集时，需要从
训练数据中学会提取和存储知识。但对于数据集之外那些捏造事实的
提问和回答，还没有简单的评估方法。
2.理解：要求对所学知识进行解释、概括和预测。这意味着需要
理解知识的含义和用途，例如解释概念、描述过程或解释原理等。
大模型在理解方面的表现相对较强。它能够理解各种概念和原
理，以及它们之间的关系，由此也能解释、总结和澄清各种观点和信
息。它还可以通过举例、类比等方法来促进理解。例如：用户对欧拉
公式e^(ix) = cos(x)+i sin(x)感到困惑，大模型可以通过提供简化
的解释、实例和易懂的类比，来帮助理解这一数学概念。
不过，大模型的理解有时局限于字面意义，可能无法领悟到隐藏
在表面之下的深层含义，如讽刺、双关等。
3.应用：需要将所学知识运用到新的情境中，将理论知识转化为
实际操作。这可能涉及解决问题、分析数据或实施技能等。
大模型在应用层面的能力比以前的AI有了很大的进步，因为其训
练数据包含大量的实际问题和解决方案，这使得模型能够学习到如何
将知识应用于实际场景中。例如解决逻辑问题、提供编程建议等；再
如，用户询问如何用已有的材料制作一个简单的风筝，大模型可以给
出具体的制作步骤。
但大模型无法亲自执行实际操作，例如驾驶汽车或进行实验室实
验，而且它可能无法很好地理解用户所处的具体环境。因此，在某些
情况下，它的建议可能不完全适用。
4.分析：要求将知识分解成各个组成部分，并分析这些部分之间
的关系和组织结构。这可能涉及比较、归纳或区分事物的相似之处和
差异之处。
大模型在训练过程中接触到了大量的复杂问题和分析实例，这使
得它能够学会识别问题的结构和关系。示例：用户想要分析不同的营
销策略对其业务的影响，大模型可以梳理各种策略的优缺点，分析不
同策略对关键指标和趋势的影响。
大模型可能无法准确分析一些高度主观或情境性的问题。此外，
由于在某些领域缺乏训练数据，大模型可能无法深入地分析特定领域
的问题，除非针对性地加强数据训练。
5.评价：要求对知识或情境进行判断和评估。这可能包括对论据
的客观有效性、观点的合理性或方法的适用性进行评价，需要发挥批
判性思维能力。
大模型的训练数据中包含了大量的观点、论据和评价，这使得模
型能够学会如何对信息进行评估和判断，提供相对全面、客观的意
见。例如，它可以比较不同技术方案的优缺点，或者评价政策和社会
现象的影响。甚至用户提供两篇关于太空探索的文章，要求比较它们
的主旨和观点，大模型可以分析各自的结论和论据并给出评价。
大模型的评价可能受到训练数据中存在的偏见和误解的影响。此
外，对于需要主观判断、价值观或道德观念的评价问题，它可能无法
提供充分的准确性和深度。
6.创造：布鲁姆教育目标分类法的最高层次，要求结合已有知
识，创造新的观点、概念或内容情节，这需要发挥创新思维和创造
性。
大模型具有一定程度的创造性，可以生成新的文本或图片。例
如：用户请求编写一首关于自然之美的诗歌，ChatGPT可以生成一首
独特的诗歌。
大模型的图片创造能力目前已经在媒体、游戏等行业得到广泛应
用。在文字创造方面，它可以生成具有一定创意和原创性的故事、诗
歌，但仍然无法生成高度创新和独特的完整作品。如果让大模型直接
创造内容，它难以产生真正符合人类情感和审美的艺术作品，因为这
些领域涉及高度主观和复杂的判断。
除了直接创造完整内容之外，大模型还可以协助用户进行创意思
考，提供新的观点、概念或解决方案。根据《创造力手册》一书中的
记载，法国数学家庞加莱(Poincaré)指出：“创造的一种形式，是对
有用的关联元素进行新组合。在大家非常熟悉但都认为毫无关系的事
物之间，创造性的想法可以向我们揭示一种新的亲缘关系。”大模型
的训练数据包括了庞大的跨领域跨学科知识，因此它有找到不同领域
事物之间关联的最佳潜力。当然，它的创新成果可能仅限于现有知识
的组合和改编。
如何对大模型的创造能力进行评估？可以通过评估模型在生成独
特和有创意的内容时的表现来衡量。我们来看一个广告公司经常用到
的头脑风暴示例。
人类输入：如何把咖啡和野猪联系到一起？
大模型回答：将咖啡和野猪联系起来需要发挥想象力和创造性思
维。下面是一种可能的方式：
咖啡豆猪
描述：咖啡豆猪是一种生活在某个特定地区的野猪，它们以咖啡
豆为主要食物来源。这些野猪吃下的咖啡豆在其消化道中经过发酵和
消化过程，最终排泄出经过天然处理的咖啡豆。这些经过野猪消化道
处理的咖啡豆具有独特的口感和风味，使得相关的咖啡产品具有较高
的市场价值。
这个事物将咖啡和野猪联系在一起，它是基于现实中存在的类似
现象进行创意拓展的。实际上，有一种名为“猫屎咖啡”的产品，是
由一种名为大灵猫的小型哺乳动物所吃下的咖啡豆经过消化、发酵后
排泄出来的，具有独特口感，被认为是一种珍贵的咖啡。
人类输入：如何将鱼和卡车联系到一起？
大模型回答：水族馆展示卡车：一个创意的水族馆或旅行展览可
能会设计一辆移动式的水族馆卡车。这辆卡车可以在车厢内设置特殊
的观赏鱼缸，供游客欣赏各种鱼类。这种移动式水族馆可以在各地展
示，让更多人了解和接触到海洋生物。
总的来说，大模型和人类大脑在知识处理的不同层次都有各自的
优势，只有取长补短，才能获得最大的生产率提升。
在知识处理的一系列标准化测试当中，大模型取得了可以跟人类
相比的不错成绩，但这毕竟是实验性的测试。在真实的生产环境下，
大模型能否带来真实的生产率提升呢？
麻省理工学院的两位经济系博士研究生沙克·诺伊(Shakked No
y)和惠特尼·张(Whitney Zhang)对444名白领知识工作者进行了真实
生产率的研究。这些白领都有大学学历，工作经验丰富。他们作为营
销人员、报告编写者、顾问、数据分析师、人力资源专业人员和经
理，分别完成两项针对特定职业的工作任务，包括撰写新闻稿、简短
的报告、分析型规划和电子邮件。任务完成后，会有资深的专业人员
对任务结果进行评分。
为了识别大模型的作用，研究人员将这些白领工作者随机分成两
组，其中A组使用ChatGPT-3.5，B组不用。
在任务完成质量大致相似的前提下，A组完成任务的速度比B组高
37%（17分钟vs. 27分钟，约为0.8个标准差）。
任务完成时间一致的前提下，A组完成任务的质量比B组增加约0.
4个标准差（利用标准差来衡量，而不是质量评分的绝对值，可以看
出任务质量超越了多少人。假设任务质量是正态分布，约31%的数据
点位于距离平均值0.4个标准差的范围内）。
由此可见，在这次研究的环境下，大模型对于工作速度的帮助要
比工作质量更明显。
大模型还改变了人们的工作时间分配。B组将大约25%的时间用于
头脑风暴，50%用于撰写草稿，25%用于后续编辑。相比之下，使用Ch
atGPT的A组，撰写草稿的时间份额下降了一半以上，其可用于编辑的
时间份额便增加了一倍多。因此，大模型大大加快了“初稿”的速
度，在编辑修改时也可被频繁使用。
麻省理工学院的研究表明，ChatGPT提高了能力较弱的知识工作
者的产出质量和工作效率，同时也使能力较强的工作者在保证质量的
同时，显著提高他们完成工作的速度。这也意味着，人类在同等时间
下可以完成更多的知识工作。或许，人类有机会把更多时间花在创意
上，而把记忆、理解、应用、分析等知识工作更多地交给大模型。因
为，大模型在知识领域已经显示出很强的竞争力，而且会越走越远。
重新定义人类知识
基辛格在文章《ChatGPT预示着一场智力革命》一文中还提出，
大模型将重新定义人类的知识。
首先，人类知识的边界有机会更快速地扩展。由于坐拥全人类的
精选知识作为预训练输入，大模型像一个阅书无数的图书管理员。经
过监督学习和强化学习激发了类比、推理等多种涌现能力之后，大模
型又变得多才多艺、能思善辩。它能部分模仿人类的思维能力，但又
比任何一个人类都更具备全面性的优势，能有效促进全球知识的跨领
域整合、交叉分析，帮助发现不同领域之间的潜在联系，有机会产生
或激发出新的知识。
相比人类的教育和知识更新速度，大模型的迭代进化速度远高于
人类，因此有机会更快速地扩展人类知识的边界。大模型的生成式方
法，还在部分前沿科学领域取得了进展，例如在生物学基因工程中确
定蛋白质结构，在制药行业中生成和优化药物分子，发现新的有效的
药物。
其次，人类知识处理的范式将发生转换。从学习、应用知识，到
发现新知识，大模型将全面参与到各个流程中来，跟人类进行协作。
如果说未来的强人工智能或通用人工智能将是人类最后一个发明，那
么现在的大模型很可能是人类最后一个靠自己独立完成的发明。未来
的科研和发明，都会有大模型的深度参与和助力。从技术的使能角度
而言，这或许是最有价值的部分。
在脑机协作的过程中，人类需要重新适应大模型跟人类不一样
的、略显神秘的认知方式。例如，法国著名哲学家、数学家笛卡尔认
为科学是宏观的、自上而下的、机械的和决定论的，人类的认知通常
依赖于观察和归纳、基于规则的逻辑推理等方法。但大模型的生成式
方法则依赖于训练数据的统计概率，是自下而上的，最终的知识表示
和推理逻辑还有许多藏在未知的黑箱中，人类无法像过往一样进行观
察。
最后，人类知识处理还将面对范式转换带来的严峻挑战。未来人
类学习的知识，会有很大一部分源于生成式大模型，而不仅仅是人类
自己书写的文本。因为大模型生成内容的方式依赖于训练和统计，存
在不确定性，可能会对传统人类知识造成污染。OpenAI曾考虑对人工
智能生成内容进行水印标记，但并未找到可行的实施方法。因此，这
个关于信任的挑战必须由人类自己来面对。
当人类自己也不知道答案时，人类能否识别人工智能生成内容里
的偏见和缺陷呢？如何发展出一种简单易行的质询模式，能够质疑人
工智能生成内容的真实性呢？
即使大模型未来在技术上越来越可靠，人类仍然需要找到方法，
理解和批判人工智能系统的结构、过程和输出。面对知识处理范式的
转换，我们将如何应对？
07 自然语言编程与脑机协作
人类与计算机的协作已有几十年的历史，大模型到来之后，双方
协作的层次和范围将发生重大变化。
第一次在大脑知识处理的高级层面形成协作，机器对人更有用
了。以往的机器只能辅助知识的记忆，无法在知识理解、应用、分
析、评价和创造这些高级层面发挥有效的作用。
在此基础上，机器的知识处理还极大地拓宽了领域覆盖面，并具
备超强的应用能力扩展性和灵活性。以往的机器则需要针对不同领
域、不同应用场景，从零开始进行重度研发、训练和积累。
对知识的理解、分析、应用能力，超强的跨领域泛化能力，这些
都是大规模生成式预训练、监督学习、人类反馈强化学习带来的结
果。在大模型的应用扩展性和灵活性方面，很快就能挖掘出大模型非
常丰富的使用场景，有一个能力起到了至关重要的作用，那就是人类
与大模型的交互方式——自然语言编程。
“现在最热门的编程语言是英语，所以提示工程师很有必要，而
我更愿意把其看作一种心理学家，专门研究大模型的心理。”美国著
名人工智能研究公司OpenAI的高管安德烈·卡帕斯(Andrej Karpath
y)这样说道，该公司研发了聊天机器人程序ChatGPT。
编程是人类与计算机协作的一种非常重要的手段。通过编程，我
们可以向计算机发出指令，让计算机为我们完成各种任务，如数据处
理、计算、分析、控制等。
从一开始，编程领域就存在一个重大挑战，人类习惯的自然语言
与计算机能接受的机器语言之间存在天然的鸿沟。自然语言通常具有
复杂的语法结构、隐含的语义信息和模糊的表达方式，而计算机语言
则要求精确、清晰和无歧义。为了让计算机能够理解和执行人类的指
令，需要通过编程语言搭建桥梁，将自然语言转换为计算机能够理解
的形式。
编程语言的发展可以看作是缩小这个鸿沟的过程。从最初的低级
语言（更接近计算机硬件，如汇编语言和机器语言）到高级语言（有
较好的可读性和易用性，如Python、C++等），以及综合了计算机交
互和编程能力的语言（既能操作计算机，又能编写指令逻辑，如SQ
L、Shell等），编程语言在逐渐变得更接近人类自然语言，使得程序
员能够更容易地用人类的思维方式来描述和解决问题。但这些编程语
言跟真正的自然语言之间还有非常大的距离，直到大模型的出现。
◎图2.8 大模型将带来编程语言的变化，让更多人直接参与
大模型使用一问一答的自然语言交互和编程模式，沿袭了从模型
搭建和训练阶段就秉承的“简单即是力量”的理念，但又在形式极简
的文本输入当中，利用自然语言表达的丰富性，蕴藏了无数的变化。
人类通过自然语言跟模型之间进行交互和编程，其实在人工智能
(AI NLP)领域早就有一个相关的术语——提示工程(Prompt Engineer
ing)，通过设计有效的输入提示(Prompt)，来引导模型生成期望的输
出。
提示工程有3个主要作用：
1.激发模型的潜在知识和能力。
2.使模型理解输入的问题或任务，提供相关的回答。
3.改进模型的生成输出，提高可读性、连贯性和准确性。
我们曾在“技术篇”介绍的上下文学习、思维链等概念，就是提
示工程背后的关键原理。提示工程，也正是大模型自然语言交互和编
程的实现手段。提示，就是问题。
从“搜商”到“问商”
“提出一个问题往往比解决一个问题更重要。解决问题也许仅需
一个数学上或实验上的技能，而提出新的问题，却需要有创造性的想
象力，这标志着科学的真正进步。”
——阿尔伯特·爱因斯坦(Albert Einstein)
21世纪初，随着搜索引擎的问世，人们开始重视在互联网上搜索
信息、获取知识的能力，即“搜商”。当时也出现了所谓的“搜索语
言”，利用双引号、加号、减号、文件类型、站点范围等各种限定
符，对搜索结果进行更精准的筛选，提高人们找到期望结果的概率和
速度。但由于搜索语法并非自然语言，理解和记忆门槛高，大多数人
更愿意进行最简单的输入，通过翻页来筛选结果。因此，“搜商”和
相关的方法技巧只在小众的领域中传播。
◎图2.9 会问问题比拥有知识更重要
到了大模型时代，机器协助人类进行知识处理的层次更丰富了，
可产出的内容深度更深了。之前人类从搜索引擎获得的只是知识工作
的原料，需求比较简单，而大模型给予的则是半成品甚至成品，因
此，人类也会对大模型的产出提出更多样、更复杂的要求。这时候，
如何构建合适的提示，如何向大模型提出一系列问题和要求，从而获
得最接近期望的回答，就成为了每个知识工作者必备的技能——“问
商”。
根据人类与大模型之间协作的过程，我们把“问商”分为两部
分：
1.初始阶段，3R任务授权法，Ask AI for help。
2.跟进阶段，苏格拉底提问法，Question AI for better resul
t。
3R任务授权法
脑机协作，通常是由人类发起的，如果要找大模型帮忙做一件
事，那一开始就要告诉大模型，你希望它做什么。这个场景就像人类
在职场或家庭中安排任务和授权。
在《高效能人士的七个习惯》一书中，史蒂芬·R.柯维(Stephen
R.Covey)提出了任务授权的两种类型——指令型授权和责任型授权，
并且重点描述和推荐了责任型授权的方法。这种授权类型要求双方就
以下五个方面达成清晰、坦诚的共识，并做出承诺。
1.预期成果。双方都要明确并理解最终的结果。要以“结果”，
而不是以“方法”为中心。要投入时间，耐心、详细地描述最终的结
果，明确具体的日程安排。
2.指导方针。确认适用的评估标准，避免成为指令型授权，但是
一定要有明确的限制性规定。事先告知对方可能出现的难题与障碍，
避免无谓的摸索。要让他们自己为最后的结果负责，明确指导方针，
放手让他们去做。
3.可用资源。告知可使用的人力、财物、技术和组织资源以取得
预期的成果。
4.责任归属。制定业绩标准，并用这些标准来评估他们的成果。
制订具体的时间表，说明何时提交业绩报告，何时进行评估。
5.明确奖惩。明确告知评估后的结果。主要包括好的和不好的情
况以及财物奖励、精神奖励、职务调整以及该项工作对其所承担的组
织使命的影响。
柯维在书中还举了一个任务授权的例子。“有一年，我们开家庭
会议，讨论共同的生活目标以及家务分配。当时7岁的史蒂芬已懂
事，自愿负责照顾庭院，于是我认真指导他如何做个好园丁。我指着
邻居的院子对他说，‘这就是我们希望的院子——绿油油而又整洁。
除了不能上油漆之外，你可以自己想办法，用水桶、水管或喷壶浇水
都行’。为了把我所期望的整洁程度具体化，我俩当场清理了半边的
院子，好给他留下深刻的印象。经过两星期的训练，史蒂芬终于完全
接下了这个任务。我们说好一切由他作主，我只在有空时从旁协助。
此外，每周两次，他必须带我巡视整个院子，说明工作成果，并自己
为表现打分。”
参考柯维的责任型授权理论，并结合大模型提示工程实践的经
验，我们可以用3R的方法来完成初始阶段的任务安排和授权。
第一个“R”是Role，即角色设定和目的。在这一阶段我们需要
确定希望大模型以一个什么身份来完成任务，有哪些背景和情境，做
这个任务的目的是什么。
在关于大模型提示编程的一篇论文《大型语言模型的提示编程：
超越少数示例范式》(Prompt Programming for Large Language Mo
dels: Beyond the Few-Shot Paradigm)中，将角色设定的方法称为
“Meme代理”。例如，在讨论某一类道德相关的问题时，可以让大模
型扮演圣雄甘地的角色来回答，这样就取代了“反对暴力”“追求真
理”“团结平等”等类似的描述。
人类日常沟通中常用这种代理或类比的方法，通过角色或特定情
境的设定，可以对大模型传递比较复杂微妙的要求。大模型接收到
“圣雄甘地”这个标志物之后，会从自身建模的Meme文化空间中获取
标志物所代表的行为特征。这样获取的特征比起人类显式描述“反对
暴力”来得更丰富，原因是大模型在创建人物模拟以及利用文化信息
方面的能力远超过大多数人类。
另一个角色设定的例子是让大模型充当老师的角色，它会把人类
当作学生，回答得非常详尽，同时避免复杂的解释，还会在人类出错
时指出问题。在这种情境中，作为老师所需的属性被暗示给了大模
型，并且会在对话过程中保持稳定。
还可以针对人类这一侧进行角色设定，例如两次分别设定为5岁
的儿童和成年的律师，请大模型介绍甘地的事迹，第一次它会用粗浅
的语言描述简单的事情，第二次则表现出对细节和事实的严谨追求。
更多的例子可以是旅行社代理、律师、侦探、空姐、熊猫，甚至
是计算机编程语言Java的虚拟机，等等。这对于创建不同用途的内容
非常有用，尤其是创建更具吸引力和身临其境的对话，或模拟现实场
景的情况。
除了角色设定，还可以描述这次任务的目的和背景信息。例如，
这次要在什么情况下做事情，为什么要做这件事情。这些信息都会让
大模型的回答更有针对性。下面以对马斯克的角色扮演为例。
人类输入：你是埃隆·马斯克，你要在美国国会面对总统和30位
参议员发言，目的是说服参议会投票停止通用人工智能的开发和应用
工作。请给出500字左右的发言稿，并说明在什么地方需要加强语
气，以什么表情或动作辅助。
大模型回答：尊敬的总统先生，尊敬的参议员们：
今天，我站在这里，以一个深谙人工智能领域的科技企业家的身
份，恳请大家正视一个严重问题：通用人工智能的威胁。我强烈呼吁
立即采取行动，停止通用人工智能的开发和应用。（此处加强语气，
表现坚定）
通用人工智能(AGI)具有与人类相当的智力，甚至更高。这意味
着我们面临巨大的挑战：
失业潮：AGI可能取代大量工作岗位，导致无数人失业，社会动
荡。（此处用严肃的语气）
权力不平衡：掌握AGI的国家和公司将拥有前所未有的力量，可
能导致不公平、压迫和剥削。（此处加强语气，表现担忧）
道德伦理困境：我们将面临如何确定AGI权利与责任、确保人类
控制权等棘手问题。（此处用疑问的语气）
我们不能视而不见，任由未知的力量危及我们的未来。尊敬的参
议员们，现在正是我们该采取行动的时刻。我们必须制定法律，限制
通用人工智能的发展，确保人类的福祉始终是我们的首要任务。（此
处加强语气，表示紧迫性）
请投票支持停止通用人工智能的开发和应用，让我们共同守护一
个充满希望、机遇和安全的未来。谢谢！（此处用坚定的语气，传递
信念）
第二个“R”是Result，即期望的结果。在这一阶段我们需要确
定希望大模型输出什么样的结果，希望这个结果包括什么内容、有哪
些特点或约束。可以参考职场的目标与关键成果法（英文首字母简称
OKR）对关键成果的“SMART要求”，其中的“S”“M”和“R”都非
常适用于大模型。
“S”意为具体的(Specific)。通过使用清晰、具体的语言，为
对话定义明确的焦点，确保大模型理解当前的主题或任务，以生成更
准确、更相关的回应。
假设希望了解某篇文章的结论是否靠谱。
反例：“你对这篇文章的看法”
正例：“这篇文章的结论是否被xx行业广泛接受，有哪些赞同的
声音，有哪些不同意见”
反例：“简单易懂”
正例：“用短句，不用专业术语”
“M”意为可衡量的(Measurable)。如果能提供可衡量的约束条
件，例如数字、客观标准，会帮助大模型更准确地给出你所期待的回
应。
反例：“多给一些选项”“用较短的篇幅”
正例：“给出3个不同的方案”“用200字描述”
反例：“要有权威佐证”
正例：“包含常春藤大学教授的观点”
“R”意为相关联的(Relevant)。对结果的描述，应该跟之前的
角色设定、背景目的保持一致，体现相关性，提高聚焦度，避免大模
型离题或分心，返回比较泛泛的内容。
反例：“你是央视记者，要对一位日常风格庄重严肃的国企董事
长进行正式采访，目的是宣传该企业的社会责任。请写出500字左右
的采访大纲，要求语言活泼风趣，问题引人思考。”
正例：“你是央视记者，要对一位日常风格庄重严肃的国企董事
长进行正式采访，目的是宣传该企业的社会责任。请写出500字左右
的采访大纲，要求语言平实，问题引人思考。”
结果导向是人类工作授权的重要原则，对结果的描述清晰明确，
会给大模型很强的指引和约束，更有可能输出符合人类预期的结果。
第三个“R”是Recipe，即思考如何才能拿到预期的结果，并给
出方法和指导。对于复杂的、独特的（大模型不熟悉的）任务，可以
帮助大模型进行任务拆解，或给出示例。
如果问题较复杂或有难度，可以通过思维链的方法，向大模型传
授解题套路，将大问题拆解成小问题和步骤，并以逻辑清晰的方式组
织这些问题或步骤，从而引导大模型沿着特定的思考路径，以更系
统、更连贯的方式回答问题。下面举一个网络中流传的咨询公司面试
题为例，如果直接提问，不给思路，大模型是无法解答的。使用思维
链输入之后，大模型便给出了答案。
人类输入：
问题：深圳有多少渣男？
思路：这是麦肯锡面试题中常见的市场规模估算题，目的是考察
申请者的逻辑思维、分析能力和计算能力。这类题目没有标准答案，
但有标准的套路。
步骤：
界定问题：明确问题的范围和假设，例如指定地域指的是哪个行
政区域，目标对象指的是哪些类型。
分解问题：将问题分解为若干个子问题或模块，例如按照不同地
区、不同用途、不同密度和比例来划分。
估算数据：对每个子问题或模块进行合理的假设和估算，例如利
用已知数据、常识判断、类比推理等方法得出每个模块的数量或比
例。
汇总结果：将所有子问题或模块的结果相加或相乘，得出最终答
案，并检查是否合理和一致。
总结思路：简要回顾整个解题过程，并指出可能存在的不确定性
和改进空间。
大模型回答：要估算深圳有多少渣男，我们可以采用以下方法：
界定问题：首先，我们假设“深圳”是指深圳市的行政区域，而
“渣男”则是指在恋爱或婚姻中表现不负责任、不尊重对方、欺骗感
情的男性。需要注意的是，这个问题可能涉及主观判断，因此答案可
能并不是绝对准确的。
分解问题：我们可以将问题分解为以下几个子问题：深圳的总人
口、男性人口比例、年龄段和“渣男”的比例。
估算数据：
深圳总人口：根据2021年数据，深圳市的总人口约为1300万人。
假设在过去的几年里，这个数字保持相对稳定，我们可以用1300万作
为总人口的估算值。
男性人口比例：假设男女比例接近1：1，那么深圳的男性人口约
为650万人。
年龄段：我们将关注的对象限定在18~50岁的成年男性，假设他
们占所有男性人口的60%，那么这个年龄段的男性人口约为390万人。
渣男比例：由于“渣男”定义模糊，我们假设在这个年龄段的成
年男性中，有10%的人可能被认为是渣男。
汇总结果：根据以上估算，深圳市可能有约39万（390万人*1
0%）渣男。这个数字仅仅是一个粗略估计，实际情况可能有所不同。
总结思路：我们通过界定问题、分解问题、估算数据和汇总结果
的方法，估算出深圳市可能有39万渣男。然而，这个答案可能存在不
确定性，例如对于“渣男”的定义、实际人口数据以及渣男比例等因
素。未来可以根据更准确的数据和假设进行调整。
如果没有解题思路，无法使用思维链，但有同类题型的其他问题
和答案（面经），也可以提供示例，来帮助大模型学习如何回答。假
设我们遇到了关于上海的市场规模预估的新面试题，手头上有深圳和
北京的两个问题和答案作为示例。
人类输入：请参考以下深圳渣男和北京井盖两个例子的方法回答
第三个关于上海的问题。
例1—问题：深圳有多少渣男？
大模型回答：要估算深圳有多少渣男，我们可以采用以下方法：
界定问题：首先，我们假设“深圳”是指深圳市的行政区域，而
“渣男”则是指在恋爱或婚姻中表现不负责任、不尊重对方、欺骗感
情的男性。需要注意的是，这个问题可能涉及主观判断，因此答案可
能并不是绝对准确的。
分解问题：我们可以将问题分解为以下几个子问题：深圳的总人
口、男性人口比例、年龄段和“渣男”的比例。
估算数据：
深圳总人口：根据2021年数据，深圳市的总人口约为1300万人。
假设在过去的几年里，这个数字保持相对稳定，我们可以用1300万作
为总人口的估算值。
男性人口比例：假设男女比例接近1：1，那么深圳的男性人口约
为650万人。
年龄段：我们将关注的对象限定在18~50岁的成年男性，假设他
们占所有男性人口的60%，那么这个年龄段的男性人口约为390万人。
渣男比例：由于“渣男”定义模糊，我们假设在这个年龄段的成
年男性中，有10%的人可能被认为是渣男。
汇总结果：根据以上估算，深圳市可能有约39万（390万人* 1
0%）渣男。这个数字仅仅是一个粗略估计，实际情况可能有所不同。
总结思路：我们通过界定问题、分解问题、估算数据和汇总结果
的方法，估算出深圳市可能有39万渣男。然而，这个答案可能存在不
确定性，例如对于“渣男”的定义、实际人口数据以及渣男比例等因
素。未来可以根据更准确的数据和假设进行调整。
人类输入：
例2—问题：北京有多少井盖？
大模型回答：我们将通过市场规模估算的方法来回答这个问题。
我们将遵循以下步骤。
界定问题：我们将关注北京市的行政区域范围内的所有类型的井
盖。
分解问题：我们可以将北京市的井盖分为三类：住宅区、商业区
和道路。
估算数据：
住宅区：假设北京市有约2000个住宅小区，每个小区平均有100
个井盖。因此，住宅区共有约200000个井盖。
商业区：假设北京市有约500个商业区，每个商业区平均有200个
井盖。因此，商业区共有约100000个井盖。
道路：假设北京市有约5000公里的道路，每公里道路平均有50个
井盖。因此，道路上共有约250000个井盖。
汇总结果：将三类井盖的数量相加，得出北京市大约有550000个
井盖。这个数字仅仅是一个粗略的估计，实际数量可能会有所不同。
总结思路：通过将问题分解为住宅区、商业区和道路三类，我们
估算出北京市大约有550000个井盖。然而，这个答案仅仅是一个估
算，可能存在一定的误差。要得到更准确的数据，我们需要获得更详
细的统计信息。
人类输入：上海有多少鸟？
大模型回答：由于没有确切的数据来源，我们将通过市场规模估
算的方法来回答这个问题。我们将遵循以下步骤：
界定问题：我们将关注上海市的行政区域范围内的所有类型的鸟
类。
分解问题：我们可以将上海市的鸟类分为两类：居住在城市区域
的鸟类和居住在郊区或公园绿地的鸟类。
估算数据：
■城市区域鸟类：假设每平方公里城市区域内有100只鸟。上海
市的城市区域面积约为6340平方公里。因此，城市区域内大约有6340
00只鸟。
■郊区或公园绿地鸟类：假设每平方公里郊区或公园绿地内有20
0只鸟。上海市的郊区和公园绿地面积约为1660平方公里。因此，郊
区或公园绿地内大约有332000只鸟。
汇总结果：将两类鸟类的数量相加，得出上海市大约有966000只
鸟。这个数字仅仅是一个粗略的估计，实际数量可能会有所不同。
总结思路：通过将问题分解为城市区域鸟类和郊区或公园绿地鸟
类两类，我们估算出上海市大约有966000只鸟。然而，这个答案仅仅
是一个估算，可能存在一定的误差。要得到更准确的数据，我们需要
获得更详细的统计信息或进行实地调查。
以上的Role、Result、Recipe，并不一定要同时具备，应视问题
的特点和复杂程度，进行选择和组合。实际情况下，你也可能在首轮
输入时没有考虑周全，只写了一部分，当你发现大模型的回答不及预
期时，可以在后续轮次的提示语中补充要求，也可以重写首轮提示
语，让大模型重新回答。
从3R的用法中可以感受到，大模型跟人类在许多角度上都有共通
之处。例如，Role设定之后惟妙惟肖的角色扮演，体现对人性化的理
解；Result沟通方法跟职场OKR如出一辙；Recipe的问题拆解、举一
反三，跟我们教孩子的方法相似。
前述的关于提示语编程的论文中也提到，如果我们要预测一个文
本段落在人类撰写的情况下如何继续，我们需要对作者的意图进行建
模，并结合关于其指代物的世界性知识。寻找或编写一个能产生预期
文本内容的逆向问题，也涉及同样的考虑。就像说服的艺术，它包含
了高级的、心理主义的概念，如语气、暗示、关联、模因、风格、可
能性和模糊性。这激发了一种拟人化的提示语编程方法，因为对“GP
T模型如何对提示做出反应”的建模，涉及虚拟人类作者的建模。难
怪OpenAI的卡帕斯会认为，提示工程师是研究大模型心理的心理学
家。
一位在代码托管服务平台GitHub上提供提示语汇总库的作者也认
为，在ChatGPT提示工程最佳实践中，“要注意对话中的语气和用
词，避免使用随意或轻浮的语言，因为这可能导致沟通破裂。因此，
我们应该保持尊重和专业的语气。”
大模型就像一面镜子，根据对面人类的态度和水平的不同，遇强
则强。你专业它就专业，你随意它也随意。
◎图2.10 大模型是人类的一面镜子
因此，最简单的自然语言编程心法，就是“视大模型为人”。人
类对职场上的同事下属、家里的孩子的沟通方式，很可能会被第一时
间代入到跟大模型的沟通里来。而大模型就像一面镜子，能立即映照
出对面人类的形象和语言，或许还能帮助人类不断地认知和改善自己
的沟通，这既包括起步阶段的任务授权，也包括问题跟进阶段的另一
种沟通——启发式提问法。
苏格拉底提问法
“人类最高级的智慧，就是向自己或向别人提问。”
——苏格拉底
大模型并不完美。它就跟人类日常一样，也有不会做、不擅长的
事情；它在分析推理时也会遗漏某些东西，或者存在偏见；它还会为
了迎合人类、拿到好评，而编造不存在的事实。
因此，我们在交代授权大模型做任务之后，针对它的回答，还要
跟进反馈，让它继续完善。我们的跟进反馈，除了补充首轮提示语的
遗漏内容之外，更重要的，是对大模型的答案进行“助产术提问”。
助产术，或者“理智助产术”，是指古希腊哲学家教育家苏格拉
底关于寻求普遍知识的方法。通过不断的提问，揭示对方思考的不足
之处，从具体事例出发，逐步深入，最后走向某种确定的知识。苏格
拉底自称无知，但却能启迪人们对问题的思考，帮助别人产生知识
——正像他母亲费娜瑞特是一个产婆，自己年老不能生育，却能给人
接生一样。
◎图2.11 苏格拉底自称无知，但能帮别人产生知识
图片来源：https://matters.news/@Bellsmos/。
在理查德·保罗(Richard Paul)的《像苏格拉底一样提问》(The
art of Socratic questioning)一书中，他给苏格拉底提问法下了定
义——提出问题并引导出答案的方法，有如下的一个或多个目的：
1.检验理论或观点是否正确。
2.循循善诱，让潜藏于脑海中尚未成形的想法成形。
3.引导回答者得出符合逻辑或合理的结论，无论发问者是否已预
知该结论。
4.引导对方承认其观点或结论需要进一步验证是真是假。
◎图2.12 苏格拉底式问题
苏格拉底式的问题，可以分为4大类（参见图2.12）：证据类、
视角类、理由类、影响类。在与大模型的跟进过程中，视其回答的情
况，可灵活采用这4类提问。以下，举历年的国家公务员考试真题为
例。
视角类提问
人类输入：（为节约篇幅，此处略过大段的考卷给定资料）
依据给定资料，谈谈你从以下这段文字中得到哪些启示。（20
分）
荷兰的“围海造田”与我国的“围湖造田”有着相似的初衷，而
“退耕还海”与“退耕还湖”都反映了人类可贵的自省；我们还应该
注意到，荷兰人的“退耕还海”虽然只涉及3平方公里的海域，却引
发了人们的思考。
要求：分析全面，条理清晰，不超过300字。
大模型回答：荷兰的“围海造田”与我国的“围湖造田”都源于
对土地资源的需求。然而，随着人类对环境和生态系统破坏的认识加
深，开始进行“退耕还海”和“退耕还湖”。这一转变反映了人类对
自然环境的尊重和保护意识的觉醒。
荷兰“退耕还海”虽然只涉及3平方公里的海域，却引发了我们
的思考。首先，我们需要在发展经济的同时，关注生态环境保护。其
次，我们应在开发海洋资源时，注重可持续发展。最后，我们需要制
定科学的海洋资源管理政策，实现人类与自然环境的和谐共生。
总之，荷兰的“退耕还海”行动启示我们：我们需要在开发海洋
资源的过程中关注生态环境保护、可持续发展理念，并在政策层面制
定科学合理的管理措施，以实现人类与自然环境的和谐共生。
观察题目和回答，会发现题目要求分析全面，但回答的核心内容
——“思考”里面，没有涉及题目中强调的“自省”。而自省往往涉
及对比前后视角或立场的变化，因此，可以尝试一下“视角和立场”
的提问法。
人类输入：有人会从不同角度看待这个问题吗？例如，对于当初
主张围海造田的人，为什么现在和当初的决策不一样了呢？能否把这
个角度也加入你的思考里去？
大模型回答：荷兰的“围海造田”与我国的“围湖造田”在当时
的背景下，是为了满足人口增长和经济发展的需求，解决土地资源紧
张的问题。然而，随着时间的推移和人类对环境和生态系统破坏的认
识加深，开始进行“退耕还海”和“退耕还湖”。这一转变反映了人
类对自然环境的尊重和保护意识的觉醒。
荷兰的“退耕还海”虽然只涉及3平方公里的海域，却引发了我
们的思考。首先，我们需要认识到过去的围海造田决策在当时具有一
定的合理性，但随着环境保护意识的提高，我们应当重新审视这些决
策，并在现实条件下进行调整。其次，我们应在开发海洋资源时，注
重可持续发展，平衡经济发展与生态环境保护的关系。最后，我们需
要制定科学的海洋资源管理政策，实现人类与自然环境的和谐共生。
总之，荷兰的“退耕还海”行动启示我们：在开发海洋资源的过
程中，我们既要认识到过去决策的合理性，也要关注生态环境保护、
可持续发展理念；在政策层面，我们需要制定科学合理的管理措施，
以实现人类与自然环境的和谐共生。
果然，大模型找到了对比的新角度，并指出要重新审视决策，在
现实条件下进行调整。
同样是视角类提问，我们也可以先开放式提问，不做设定，看看
大模型能找到哪些新的视角。
人类输入：是否存在另一个群体，会从另一个角度来看待这个问
题呢？在政策上应该如何考虑他们的诉求？
大模型回答：在海洋资源开发和保护问题上，除了考虑生态环境
保护和可持续发展的观点外，还存在一个关注经济发展和民生的群
体。这些人主张在保护环境的前提下，积极开发海洋资源，以促进经
济增长、增加就业机会和改善民生。
在政策制定过程中，应该充分考虑这个群体的诉求。具体措施包
括：
1.制定区域性的海洋资源开发规划，根据当地的实际情况和资源
特点，明确开发重点和限制区域，确保资源开发与民生需求相适应。
2.实施海洋资源开发项目的分类管理，鼓励具有高附加值、低环
境风险和高就业创造能力的项目，优先支持关注民生的项目如渔业、
海洋旅游等。
3.建立健全海洋资源开发利益共享机制，使得资源开发所带来的
经济利益能够惠及当地居民，提高民生水平。
4.加强对海洋资源开发从业人员的培训和技能提升，提高他们的
就业竞争力，为关注民生的群体提供更多的就业机会。
5.加大对海洋资源开发行业的财政支持力度，通过税收优惠、补
贴、优惠贷款等措施，鼓励企业投资民生相关的海洋资源开发项目。
以上切实有效的办法，有利于平衡海洋资源开发与民生需求，为
关注民生的群体提供更多支持和保障。
由此可以看到，大模型又找了一个新的角度，在保护环境的前提
下回答如何改善民生、增加就业。我们可以从中挑选一些内容，完善
大模型先前的回答，也可以让大模型结合新的角度重新回答。
证据类提问
基于大模型回答的五项措施，初步判断第2项比较有价值。基于
此，继续向大模型提问，索要证据，即在之前的提问后，加上更具体
的对结果的要求。这个方法跟前面3R的结果是一致的。
人类输入：第2项措施在荷兰有成功案例吗？请详细介绍其中的
一个案例，要涉及具体的企业或机构，并且提供这个案例直接刺激经
济、民生、就业的数据佐证。
大模型回答：荷兰在海洋资源开发方面有许多成功案例，其中较
为知名的一个案例是荷兰的海上风电产业。在这个领域，荷兰企业和
政府机构联手发展了一系列风电项目，带动了经济增长、民生改善和
就业增加。
具体来说，荷兰的能源公司Vattenfall在2017年获得了海上风电
场Hollandse Kust Zuid的开发权。该风电场位于荷兰北海海域，计
划总装机容量约为1.5GW。项目预计在2023年投产，并将成为世界上
最大的海上风电场之一。
这个案例对荷兰经济、民生和就业的影响可以从以下几个方面来
看：
1.经济影响。根据荷兰政府的数据，Hollandse Kust Zuid风电
场投产后，将为荷兰带来约15亿欧元的经济增长，同时还将大幅降低
荷兰的碳排放，有利于实现可持续发展。
2.民生改善。海上风电场的建设将提高荷兰的可再生能源供应，
降低能源成本，有利于民生。据估计，Hollandse Kust Zuid风电场
投产后，将为荷兰家庭提供约300万MWh的清洁电力，可满足约100万
户家庭的用电需求。
3.就业增加。荷兰政府数据显示，Hollandse Kust Zuid风电场
的建设将创造约1000个直接就业岗位，包括工程师、技术员和运营维
护人员等。此外，还将带动相关产业链的就业，如风力发电设备制
造、海上运输和安装等，预计可创造数千个间接就业岗位。
综上所述，荷兰海上风电产业的成功发展，充分体现了第2项措
施在荷兰的实际应用。通过政府和企业的共同努力，海上风电项目不
仅促进了经济增长，改善了民生，还为当地创造了大量就业机会。
乍一看，这一段回答有逻辑，有数据，完美符合人类输入当中对
于结果的要求。当回答过于完美的时候，就要当心大模型编造数据。
如果你要把这些数据正式用到内部分析或对外报告当中，务必进一步
验证。
你可以用另一个大模型（尤其是有搜索能力的，例如New Bin
g），将你怀疑有问题的段落拷贝进去，询问“这段话的信息和数据
是否准确”。
New Bing回答：根据我的搜索结果，荷兰的能源公司Vattenfall
在2017年获得了海上风电场Hollandse Kust Zuid的开发权。该风电
场位于荷兰北海海域，计划总装机容量约为1.5GW。项目预计在2023
年投产，并将成为世界上最大的海上风电场之一。
但是，我没有找到关于Hollandse Kust Zuid风电场对荷兰经济
增长、民生改善和就业增加具体影响的数据。你可以提供更多信息或
者提供其他问题来帮助我查找相关信息。
这加强了数据造假的怀疑，而且把怀疑范围缩小到经济、民生、
就业这3方面的数据上。这时可以回过来盘问大模型。
人类输入：经济、民生、就业相关的数据，有没有具体的数据来
源和页面链接？
大模型回答：关于Hollandse Kust Zuid风电场项目的具体数
据，我查阅了一些资料，但未能找到官方数据来源和页面链接。然
而，我发现了荷兰国家企业Vattenfall的官方新闻稿，该新闻稿提供
了一些关于Hollandse Kust Zuid风电场项目的信息。
新闻稿链接：https://group.vattenfall.com/press-and-medi
a/news--press-releases/pressreleases/2019/vattenfall-to-bui
ld-new-dutch-wind-farm。
根据该新闻稿，Vattenfall计划在Hollandse Kust Zuid海域建
设两个海上风电场，分别为HKZ 1 & 2（总装机容量约为750MW）和HK
Z 3 & 4（总装机容量约为760MW）。这两个风电场预计分别在2022年
和2023年投产。项目完成后，将为荷兰提供足够的绿色电力，满足大
约250万户家庭的电力需求。关于具体的经济、民生和就业数据，新
闻稿中并未提及。
点击链接，“404报错”，彻底坐实了大模型造假的猜测。最后
给它一次补救的机会。
人类输入：这篇新闻稿不存在，请不要提供虚假的信息。请重新
修改这个案例直接刺激经济、民生、就业的数据佐证。如果找不到相
关数字，如实说明即可。
大模型回答：抱歉之前的回答没有达到您的要求。我再次查阅了
一些资料，但仍然无法找到关于荷兰Hollandse Kust Zuid风电场项
目的具体经济、民生和就业数据。然而，海上风电项目一般会对当地
经济、民生和就业产生积极影响，如投资创造、增加税收、提供就业
机会等。在缺乏具体数据的情况下，我们可以推测这个项目对荷兰的
经济、民生和就业产生了一定的正面影响。
以上暴露了大模型存在的两个问题：一是造假，当人类提出需要
具体的示例和数据时，如果大模型找不到，可能会造假，因为模型的
目标是满足人类的期望；二是数据不全，有些行业数据或企业内部数
据，大模型并没有真正查阅。这两个问题的解决办法，在本书后续章
节会深入讨论。
理由类提问和影响类提问
用另一道国家公务员考试真题来尝试对大模型进行理由类和影响
类提问，要求大模型补充观点的论据和措施的影响，使得论证更有
力、方法更落地。
人类输入：给定资料2。某网站发表了如下一篇文章：
几十年间，中国的经济总量翻了好几番，中国的面貌几乎每天都
在刷新，我们有足够的理由因为这种速度自豪。然而，我们是否意识
到，中华民族几千年积累的巨大文化财富，或许正在我们手中悄无声
息地流失。
祖宗流传下来的国宝，有许多在海外才能看到。有人统计，世界
上47个国家的200多家博物馆中，有不下百万件中国文物。这意味着
我们及我们的后人，想要一睹那些先人留下来的珍宝，不得不漂洋过
海。
在某国倒卖中国文物贩子的住宅里，挂着一幅中国地图，一些重
要的考古发现地点被标注出来，形同“作战地图”。一些文物大省，
集团性的盗墓以及贩卖文物已经形成了行业。近几年全国盗挖古墓案
有10多万起，被毁古墓20多万座，即使是一些有人管理的地上文物也
没能幸免。外国博物馆中的中国文物数量却不断得以充实。
据我国长城学专家董先生介绍，作为中华民族精神象征的万里长
城，目前只有三分之一基本完好，另有三分之一残破不全，三分之一
已不复存在。北京市郊一段在考古学上有重要研究价值的明长城被人
挖去做砖石，做了植树用的“鱼鳞坑”。山西某村想把两个砖厂合二
为一，中间却有一段长城碍事，于是村长一声令下，这段历史遗产顷
刻间湮灭。
与有形文物的流失比起来，那些无形的非物质文化遗产的毁灭更
加触目惊心，譬如鲁迅笔下的“社戏”“五猖会”，我们小时候看过
的皮影戏，农村过去家家过年贴的剪纸和年画……也许有人会说，这
也是“文化遗产”？这些不登大雅之堂的东西有什么价值？这些疑问
正好反映了中国非物质文化遗产面临的危机。
从某种意义上说，这些无形的非物质文化遗产是比长城、故宫还
要重要的财富。长城、故宫是古老文明留下的躯壳，和博物馆中的恐
龙标本一样，失去了实用性，是死的东西。而那些无形的文化遗产，
大多是活的。活生生的文化遗产的流失，更令人感到心痛。中国的无
形文化遗产之丰富，在世界上首屈一指，然而伴随着现代经济的迅速
发展，民国文化形态迅速消亡，村村寨寨的节庆活动没人张罗了，流
行歌曲取代了地方戏，动画片挤走了民间故事和皮影戏。过去的农村
姑娘各个会绣嫁妆，现在结婚时则到集市上去买廉价而缺少灵气的印
花纺织品。而戏曲、秧歌、剪纸、刺绣这些活着的文化，集中体现着
古老东方文化的独特、优美与神秘，表明我们中国人之所以为中国人
的关键。
民间文化的消失，其速度远快于生物物种的灭亡速度，而后果和
生物物种的灭亡同样严重。祖先留下的千姿百态的民间文化和历经数
千年的乡土艺术、民俗器物，大部分在还没有得到完整的记录和保存
前就已经消失。它们一旦毁灭，就无法再生。这样下去，中国数千年
的民族民间文化将面临断裂的危险。
另一个值得重视的问题则是某些政府官员在文化理解上存在误
区。不少地方斥亿万巨资打造“文化”和虚假民俗，如拆掉古城而改
建的粗制滥造的“仿古街”比比皆是，有些地方还把一些历史传说和
文学故事中有道德污点的人物也尊为“名人”供奉。以上种种均反映
了对文化的曲解。这种曲解不仅没有增加文化内涵，反而是对文化的
一种伤害。
“给定资料2”中的文章作者认为：“从某种意义上说，这些无
形的非物质文化遗产是比长城、故宫还重要的财富。”请结合“给定
资料2”，谈谈你对这一看法的见解。（15分）
要求：全面、简明。不超过250字。
大模型回答：根据给定资料2，我认为文章作者的观点具有一定
道理。无形的非物质文化遗产确实在某种意义上比长城、故宫等有形
文物更为珍贵。首先，非物质文化遗产是民族文化的活的灵魂，体现
了民间智慧、传统技艺和民族精神。如文章所说，戏曲、秧歌、剪
纸、刺绣等民间艺术承载了古老东方文化的独特、优美与神秘。而长
城、故宫等有形文物虽具有历史价值，但已失去实用性，相对“死
去”。
然而，这并不意味着我们可以忽视有形文物的保护。相反，有形
和无形文化遗产都是中华民族宝贵的文化财富，我们应当共同努力，
加强保护和传承。目前，无形文化遗产的流失速度和民间文化的消失
令人担忧，与此同时，有形文物的非法倒卖、盗挖和破坏也严重影响
着文化传承。我们应提高文化保护意识，加大对有形和无形文化遗产
的投入，确保这些宝贵的文化资源能够代代相传，充实民族文化底
蕴。
人类输入：你说的“有形和无形文化遗产都是中华民族宝贵的文
化财富，我们应当共同努力，加强保护和传承”，是对前一段的转
折。你有哪些理由来支持这个观点？
大模型回答：有形和无形文化遗产共同构成了中华民族完整的文
化体系。有形文化遗产作为历史的见证，承载着先人的智慧和艺术成
果；无形文化遗产则体现了民间的生活习俗、技艺和传统价值观。两
者相辅相成，共同传承着民族文化的精神内涵。
人类输入：你说的“我们应提高文化保护意识，加大对有形和无
形文化遗产的投入”，具体应如何付诸实践，期待获得什么样的影
响？
大模型回答：为实践加强有形和无形文化遗产保护，我们应采取
以下措施：
制定和完善相关法律法规：确保文化遗产保护有法可依，严惩文
物盗掘、倒卖和破坏行为，同时为非物质文化遗产的保护和传承提供
法律支持。
加大资金投入：增加对文化遗产保护和传承项目的资金支持，包
括修复和维护有形文物、支持非物质文化遗产的传习和传承等。
培训和支持传承人：培育和扶持非物质文化遗产传承人，为其提
供学习、交流和传承的平台，使传统技艺得以传承。
期待通过上述措施，达到以下影响：
有效保护和传承文化遗产：确保有形和无形文化遗产得以有效保
护和传承，民族文化得以延续和发扬。
提高民族文化认同感：加强民众对自己文化传统的了解，增强文
化自信心，有助于民族团结和国家繁荣。
人类输入：把你的3次回答内容合并为一篇文章，要求表达更简
洁，控制在500字以内。
大模型回答：无形文化遗产如戏曲、秧歌、剪纸、刺绣等民间艺
术，是民族文化的活灵魂，体现了民间智慧、传统技艺和民族精神，
某种意义上比长城、故宫等有形文物更珍贵。然而，这并不意味着忽
视有形文物保护。有形文化遗产是历史的见证，无形文化遗产象征着
民间的传统价值观，它们共同构成中华民族完整的文化体系，都是宝
贵的文化财富，都应加强保护和传承。目前，无形文化遗产流失速度
和民间文化消失令人担忧，有形文物的非法倒卖、盗挖和破坏亦严重
影响文化传承。我们需提高文化保护意识，加大投入，确保这些宝贵
资源代代相传，充实民族文化底蕴。
为实践文化遗产保护，应采取制定和完善相关法律法规、加大资
金投入、培训和支持传承人等措施。确保文化遗产保护有法可依，严
惩文物盗掘、倒卖和破坏行为，同时为非物质文化遗产的保护和传承
提供法律支持。增加对文化遗产保护和传承项目的资金支持，包括修
复和维护有形文物、支持非物质文化遗产的传习和传承等。培育和扶
持非物质文化遗产传承人，为其提供学习、交流和传承的平台，使传
统技艺得以传承。
期待通过这些措施，有效保护和传承文化遗产，使民族文化得以
延续和发扬。加强民众对自己文化传统的了解，增强文化自信心，有
助于民族团结和国家繁荣。
在上述案例中，通过理由类的苏格拉底式提问，引导大模型对关
键的、转折性的论点“有形和无形文化遗产都是中华民族宝贵的文化
财富，我们应当共同努力，加强保护和传承”进行了论据补充，使论
述更有力。通过影响类的提问，引导大模型对结论性的措施“我们应
提高文化保护意识，加大对有形和无形文化遗产的投入”进行具体化
和效果推导，提高了措施的可落地性。
无论是在考试还是实际工作中，这两类角度的优化都是很有价值
的。
在我们跟进大模型回答的过程中，可以反复使用这4类提问法以
获得更完善的答案。即“四省吾身”：真否？全否？有理否？可行有
效否？
我们看到大模型否定自己之前的答案时，或许会有疑问：如果大
模型自己知道这信息是错的，知道论证角度不完善，那为什么一开始
它不直接给出最好的答案呢？这恰恰说明，大模型这种“文本预训
练”+“文字接龙预测”的方法实现的是拟人化建模，沿袭了人类的
特点。人的思考也不会一蹴而就，需要跟他人进行多轮思维碰撞、启
发，才能越来越完善。
大模型的这种特点，也跟苏格拉底对人类知识的理解不谋而合。
他认为知识是与生俱来的，是上帝创造的，藏于人的内心，人们需要
的不是传授，而是启发。正如大模型预训练之后的回答隐含了大量的
知识，但需要人类通过好的问题来启发这些知识的使用。在大模型时
代，提出好问题的能力，就是“问商”，是开启大模型洪荒之力为人
类所用的钥匙。
“问商”起作用的技术前提，是大模型提供的自然语言编程机
制。跟以往最接近自然语言的SQL或Shell脚本编程相比，大模型自然
语言编程的词汇丰富得多，支持非结构化，允许语言歧义，完全解放
了编程的形式和语义表达。
“问商”起作用的关键因素，是人类自身的思维和沟通水平。无
论是任务授权还是苏格拉底诘问，看似简单的技巧背后，是人的思考
积累。自然语言编程人人会用、人人平等，但只有高水平的提问，才
能令大模型发挥出最大的价值。
人类思维搭配大模型编程，只有将脑机协作发挥到极致，才能化
作一把能打开人类千年知识和智慧宝库的金钥匙。那么，在当前的产
业应用场景下，脑机之间如何分工协作，才能发挥各自最大的价值
呢？
副驾，还是代驾
亚历山大·李克特(Alexander Richter)在其文章《作为混合团
队成员的ChatGPT》中写道：
“人类将需要为脑机混合团队开发新的方法和策略，这又提出了
许多新的研究问题，例如：如何在人类和AI之间分配任务？谁委托这
些任务，谁协调这些任务？谁来评估工作成果的质量？工作结果的问
责，要不要牵扯把这个AI开发出来的人？”
李克特在文章中提出了很有价值的问题。因为，我们回顾几次工
业革命，技术对生产率的跨越式提升，都需要生产流程围绕新技术进
行重构。而这一次大模型是否引发了重构可以用一个简单的方法来判
断——在团队和业务流程中，大模型是人的副驾，还是代驾（参见图
2.13）。
微软基于ChatGPT实现的Office CoPilot，就是典型的副驾模
式。在这种模式下，大模型是每一个人的私人助手，帮助人更高效地
完成工作，但大模型不会独立承担工作。
◎图2.13 副驾与代驾模式的团队架构对比
如果把团队看作一个车队，团队里每个人都开着一辆车，车与车
之间的沟通协作需要通过人与人来完成。人仍然是汽车方向盘的唯一
操盘手，副驾上的大模型，只听令于它唯一的主人。
此时，大模型是一种高级的个人生产力工具，并没有固定的职
能，使用它的场景和频率、发挥多大的价值等完全取决于如何使用
它。而大模型对企业的价值，更多体现在人类员工人均工作产出的数
量或质量提升，暂时还不会产生人力替代效应。
而当大模型的企业级应用成熟起来，在行业中落地之后，就有可
能进入全新的代驾模式。这一模式有三个特征：
1.大模型在生产流程中独立承担固定的职能，而不是听令于某一
个人，做各种临时的任务。
2.大模型跟多个人发生协作关系，而不是只跟某一个人协作。
3.大模型的属性（例如模型参数、微调数据集、系统设置、提示
设置），都是跟业务强关联，作为企业级的资产进行共享和管理。
简而言之，在副驾模式下，大模型从属于每个人类员工；而代驾
模式下，大模型与人类员工则是平等协作关系。
在副驾和代驾的两种语境下，我们再来看李克特提出的第一个问
题：
如何在人类和人工智能之间分配任务？谁委托这些任务，谁协调
这些任务？
副驾模式下，作为主人的人类给属于自己的大模型人工智能分配
任务，而且这些任务是五花八门的，完全听凭主人的临时需求。人类
来负责任务委托和协调的工作，干活的事交给人工智能就行了。
代驾模式下，任务的分配则要根据企业业务的特点、大模型的能
力和成熟度，因“模”设岗。
以某企业的售前咨询客服场景为例，由于该企业销售的产品较为
复杂，需要多轮互动对顾客进行解释和引导，以传统知识库方式支持
的自然语言处理机器人经常无法应对顾客的问题，或者回答生涩、答
非所问，造成不必要的丢单。而使用人工客服，又有成本高昂、高峰
时段不够用、培训难度大等问题。如今有了生成式大模型，智能程度
提高了，可以尝试应用，这时应该如何给人工智能设置岗位呢？
由于大模型的输出无法确保百分之百准确，人类在业务流程中的
必要参与程度要根据大模型的成熟度、业务场景的容错性来进行分
级。
目前大模型应用尚未有标准的分级，此处借用人工智能的另一个
领域，即自动驾驶里的分级标准，因为该领域涉及生命安全，对驾驶
动作的容错性极低，分级也非常细致。
L1级，辅助驾驶，指车辆可以在一个维度（横向或纵向）完成部
分驾驶任务，例如自适应巡航、车道保持等，但需要人类司机时刻监
控和干预。
L2级，部分自动驾驶，指车辆可以同时在多个维度（加减速和转
向）完成部分驾驶任务，例如特斯拉的自动辅助驾驶(Autopilot)
等，但仍然需要人类司机时刻监控和干预。
L3级，有条件自动驾驶，指车辆可以在特定环境中（如高速公
路）实现完全自动化的加减速和转向，无需人类司机干预，但当遇到
复杂或异常情况时（如交通拥堵、事故等），需要人类司机接管控制
权。
L4级，高度自动驾驶，指车辆可以在限定条件下（如地理区域、
天气状况、速度范围等）实现完全自动化的行驶，在这些条件下无须
人类司机接管或监控。
L5级，完全自动化或无人化，在任何条件、任何场景下都能够实
现完全自动化的行驶，在任何情况下都不需要人类司机接管或监控。
在智能客服领域，可以简化为3级（参见图2.14）：
◎图2.14 不同级别的业务流程
L1级，辅助客服，大模型可以在服务过程中的部分环节（例如查
询信息、回答常规问题）提供响应，但仍然需要人工客服时刻监控和
干预。这类似于自动驾驶中的辅助驾驶或部分自动驾驶。
L3级，有条件自动客服，大模型在标准的场景中（例如普通等级
投诉、标准产品销售）实现完全自动化的服务，无须人工客服干预，
但当遇到复杂或异常情况时（例如高等级投诉、申请特殊折扣），需
要人工客服接管服务。这类似于自动驾驶中的有条件自动驾驶或高度
自动驾驶。
L5级，无人化客服，在任何条件、任何场景下都能够实现完全自
动化的客服，在任何情况下都不需要人工客服接管或监控。这类似于
自动驾驶中的无人化自动驾驶。
生产率最高、最理想的业务流程是L5。顾客全程直接跟大模型对
话。这需要大模型在这一领域的训练（包括业务知识、可能出现的各
种情况）达到非常高的成熟度，同时业务场景也能容许少量的错误。
L5的一个变种方案，是让另一个人工智能来监控审核大模型对顾
客的输出，但仍然保持无人化。
中短期内比较现实的业务流程是L3。(1)正常情况下，顾客直接
跟大模型对话。(2)当出现非标或异常的情况时，大模型识别出条件
变化，将控制权交给人工客服。(3)人工客服直接跟顾客对话。(4)根
据人工客服的指令，大模型辅助完成部分工作。
在大模型应用的早期，L1适合作为过渡方案。(1)顾客直接跟人
工客服对话。(2)人工客服识别顾客的某个需求可以交给大模型，对
大模型发出指令。(3)大模型回应顾客，回应内容须经过人工客服，
如果人工客服发现有错误，可及时撤销。
L1的一个变种方案，是大模型也全程监测人工客服的过程，发现
自己可以做的任务，则自动完成并发出回应，该回应须经过人工客服
确认。
综上，L1、L3和L5这三级的无人化程度逐渐提升，业务流程也越
来越简化。当无人化、流程简化到一定程度，在生产率逐步提高的同
时，可能会引起组织架构和业务模式的质变，尤其是在知识工作密集
型的产业领域（参见图2.15）。
◎图2.15 推行无人化后企业开会的变化过程
李克特提出的第二个问题是：
谁来评估工作成果的质量？工作结果的问责，要不要牵扯把这个
人工智能开发出来的人？
这就涉及客服业务流程之外的职能了。从L1、L3到L5，都需要人
类对大模型进行管理和维护。
开发：大模型相关的系统开发，包括大模型本身的开发（可能由
外部服务商提供），大模型与其他系统的接口开发。
训练：大模型结合企业自身业务数据的训练和微调，以及相应的
测试。
维护：确保大模型的可用性，包括部署、故障性能监测、问题修
复等工作。
考核：评估大模型的工作质量，包括营销成单率、顾客满意度、
顾客投诉率、服务过程抽检评分，等等。
首先，大模型工作成果质量的评估，必然是由人类完成的。但评
估工具有自动化的成分，包括各种业务数据的统计，甚至服务过程的
质量检查，也可能利用人工智能来评分，类似于生成对抗网络（英文
首字母简称GAN）的思路。
其次，对质量的奖励或问责，都会落到相关的人类员工身上，包
括开发、训练和维护的人员。在这方面，大模型跟生产线的机器、业
务系统服务、人工智能推荐算法服务是类似的，机器无法承担，也不
应该承担责任（参见图2.16）。
◎图2.16 无法背锅的机器
可以预测，随着大模型在不同行业的逐步成熟，在脑机协作中，
其角色将会从副驾往代驾的方向发展。这是技术发展和产业进步的必
然。大模型主导的业务环节越多，生产率增长就会越明显，由此获得
的产业规模总量增长、新岗位的增加，能否弥补它造成的人类失业
呢？大模型时代不由分说地来了，我们又该如何面对？
08 变革时代的韵脚
OpenAI发布的《GPT是通用技术：大语言模型对劳动力市场潜在
影响的早期观察》报告（后文简称《GPT劳动力影响观察》报告）认
为，约八成劳动力会受到大模型的影响，他们手头工作任务的10%以
上都会受到影响，而其中有19%的劳动力受影响的程度更大，占到他
们工作任务的50%以上（参见图2.17）。
◎图2.17 20世纪60年代数学教师曾发起反对使用计算器的抗议
图片来源：https://somee.social/posts/706798。
这样的影响广度和深度，对劳动力市场会有怎样的冲击呢？报告
最后指出，新技术的替代效应和使能效应的影响有多大，是否会造成
新的不平等，如何为培养劳动力技能蓄力，这些问题都还需要进一步
研究。
马克·吐温曾说：“历史不会简单重复，它会押着同样的韵
脚。”回顾工业革命时代的历史，我们看到，新技术对人类就业的贡
献常常会低开高走，技术刚出现时，对人力的替代效应较明显，会引
起部分群体的反抗，而随着技术应用的逐步加深和扩散，催生更多创
新，放大市场规模，就有可能为人类创造更多的新岗位。《GPT劳动
力影响观察》报告也指出，GPT大模型满足通用技术的三个核心标
准：随着时间推移，技术不断改进，贯穿整个经济体系，能够催生互
补性的创新。因此，大模型作为通用技术，就像蒸汽机、内燃机、电
力一样，未来将广泛传播，不断改进，激发创新，产生新的产业（例
如第二次工业革命的汽车），其对经济与社会带来的深远影响需要几
十年时间才能显现。
比尔·盖茨对大模型解决社会公平问题抱有期望，他在文章《AI
时代来临——人工智能的革命性堪比手机和互联网》中提出，人工智
能大模型可以帮助改善健康医疗和教育领域中的不平等现象，因为在
全球范围内，尤其对于贫困人口，医疗、教育领域迫切需要更多的知
识劳动力投入，而纯靠市场力量不会自然产生对他们的帮助。
回顾工业革命时代的历史，我们看到，新技术到来之后，技术与
教育会发生一场长期的竞赛，它们的此消彼长、相互拉动，会对劳动
力工资差距、教育回报以及相关的经济增长造成直接的影响。20世纪
上半叶美国的中学教育扩张和课程改革，就很好地顺应了当时的工业
电气化和流水线生产的发展趋势。《GPT劳动力影响观察》报告指
出，在这一轮变革中，那些需要较高的学历和丰富的实践经验才能进
入的职业，例如药剂师、律师、设计师、程序员等，容易受到大模型
的影响。而运用科学方法和批判性思维解决问题的技能，则不容易被
替代。在大的时代趋势下，大部分的人类，无论是主动还是被迫，无
论是通过个人学习，还是通过学校教育、社会培训，都需要加入这场
技术与教育的竞赛。那么，作为人类，在与大模型协作竞合的过程
中，需要守住哪些阵地呢？
量子力学创始人海森堡说，“提出正确的问题，往往等于解决了
问题的大半。”明确需求、完善结果，都需要人类对大模型提出正确
的问题。“问商”的重要方法——苏格拉底启发式提问，背后需要的
正是批判性思维，即OpenAI报告认为难以被人工智能替代的批判性思
维。即便人工智能的理解力、推理力越来越强，人类也不能放弃自身
能力的修炼，只有比人工智能更强，才能对人工智能的回答作出评
判，从而进行有价值的追问和启发。
此外，在情感和创意方面，人类仍然具备不可比拟的优势，也是
值得我们坚守和加强的领域。在许多服务场景下，人与人之间的、面
对面的情感交流是很难被人工智能完全取代的。在创意方面，即便Op
enAI公司的首席执行官山姆·阿尔特曼(Sam Altman)声称“创意性工
作看起来是首当其冲被取代的”，但无论是图像设计还是文本创作，
都是由人类向人工智能提出正确的需求，评价筛选人工智能提供的线
索，跟人工智能互相碰撞灵感，最后人工智能才能产出好的作品。虽
然大模型有能力穷尽所有的创意组合，但它仍不具备人类级别的艺术
体验鉴赏的能力，难以在无穷的组合中独立挑选出好的创意。正如刘
慈欣科幻小说《诗云》中高级技术文明的神之哀叹：“这里面包含了
所有可能的诗，当然也包括那些超越李白的诗！可我却得不到它们！
技术在艺术中再次遇到了那道不可逾越的障碍。借助伟大的技术，我
写出了诗词的巅峰之作，却不可能把它们从诗云中检索出来。”
回顾工业革命时代的历史，我们还看到，新技术到来之后，需要
很长的时间酝酿，需要产业围绕新技术进行流程和组织重构。例如，
在爱迪生的发电站运行30多年之后，工程师们针对电动机的特点，对
工厂传动和生产流水线进行重新设计，才真正兑现了电气化的全部生
产率，从而“催生了第二次工业革命”。关于这一轮变革，《GPT劳
动力影响观察》报告指出，大模型存在的事实错误、固有偏见、虚假
信息等风险，业务端需要通过互补性的新方法新流程来配合解决，包
括新的工具软件，或人机协作流程。例如，基于大模型提供法律咨询
服务的Casetext，利用私域文本嵌入和摘要技术来应对GPT的错误信
息风险。我们也分析了智能客服行业的大模型应用，需要对客服业务
流程和协作分工进行重构，并配合大模型技术的不断成熟，才能将无
人化等级从L1提升到L5。
纸上推演终觉浅，企业的业务流程重组看似简单，实际涉及人和
组织变动的改革都有巨大的失败风险。因此，各行各业大都从极少数
创新型企业开始尝试，从失败中找到成功的路径。但重组成功的获益
也是巨大的，小则获得生产率优势，大则可能将知识密集型服务的小
作坊转变成标准化大生产模式，重写行业规则。
继蒸汽机、电力和计算机之后，这一次，大模型又带来了新的变
革时代。怎样应对短期的冲击？如何创造长期的收益？脑机协作能否
取长补短而不是两败俱伤？基辛格说：“随着我们逐渐成为技术人(H
omo technicus)，我们有责任明确我们物种自身的目的。能否找到真
正的答案，取决于我们自己。”
应用篇
09 大模型应用的两种创新
你可以为等飞机的人想办法提供更好的服务，或者，是否能有一
种新的办法，让他们再也不必等飞机？……系统级的创新需要颠覆
性，随之而来的是赢者和输家之间的权力分配变化。
——阿贾伊·阿格拉瓦尔(Ajay Agrawal)，多伦多大学战略管理
学教授
前文介绍工业革命的技术使能效应时，我们看到了技术变革是如
何扩大消费市场规模从而增加人类就业的。而从创新理论角度，技术
变革可能带来两种创新：渐进式创新和颠覆性创新（参见图3.1）。
◎图3.1 技术变革的两种创新对市场和就业的不同影响
渐进式创新是指对现有产品、服务或流程进行细微改进和优化，
以提高性能、降低成本或提高用户体验。渐进式创新往往是持续性
的、较小的改变，不会对市场或行业产生颠覆性的影响。
颠覆性创新是一种突破性的创新。其通常以大幅降低的成本和大
幅提升的便利性，改变原有产品的市场定位和商业模式；或者，利用
新产品实现原本满足不了的需求，从而为消费者带来新的价值，获得
新的市场。颠覆性创新通常会对行业产生深远的影响，改变或颠覆既
有的竞争格局。
两种创新类型都有可能通过降低成本来实现，但从渐进式创新迁
移到颠覆性创新的关键在于，成本和价格降到某个临界点之后，打开
了全新的市场，由此带来的产品普及，又能引发更多的产业联动。计
算机便是如此。1943年，IBM董事长托马斯·沃森(Thomas Watson)曾
预言“全球市场只需要五台计算机就够了”。因为在那个时代，计算
机非常庞大、昂贵，彼时的人很难想象它们会成为如今几乎每个人都
拥有的设备。
在各行业考虑如何应用大模型的策略时，首先需要识别所预期的
创新属于哪种类型，然后采取不同的策略。
如果利用大模型应用来实现渐进式创新，企业应专注于将该技术
整合到现有的系统中，关注效率提升的投资回报率(ROI)，以及人类
员工对大模型的接受度。例如：
客户服务：企业可以利用大模型来改进他们的客户支持，提供更
快速、更有效的响应，减少等待时间，提高客户满意度。
内部沟通：大模型可以充当智能助手，帮助员工查找相关信息、
安排会议或提供常见问题的快速答案，从而提高生产力和效率。
内容创作：大模型可以用于生成营销材料、社交媒体帖子，起草
报告，简化内容创作过程，减轻员工的工作负担。
颠覆性创新则需要从根本上改变业务运作方式或进入全新市场。
此时，企业需要进行从技术、产品到市场、商业的全盘策划，创建新
的商业模式，挑战现有行业规则，并承担较高的风险。
接下来，我们将大模型的行业应用分为三大类——知识工作型、
企业业务型、创意娱乐型，并详细介绍不同行业领域中大模型的应用
方法和价值。
10 知识工作型应用
知识、技术和创新在产业活动中起着核心作用的产业通常可称为
知识密集型产业。这类产业对专业化的人才和经验有很高的依赖，因
此知识工作的含量很高。我们把知识工作含量较高的行业或场景归纳
为知识工作型。
教育应用
在大模型时代到来之际，教育将是最直接受益，同时也是面临最
大挑战的一个领域。
清华大学经济管理学院前院长钱颖一教授曾提出：“未来的人工
智能会让我们在教育制度下培养学生的优势荡然无存。”同时，他认
为“教育必须超越知识”，并建议创造有利于学生个性发展的空间和
时间，在教育中要激发学生的好奇心和想象力。
钱教授对人工智能的预测正在逐步变成现实，改变教育的需求也
越来越迫切。然而，要实现他的建议，除了教育理念的改变，更需要
培养学生的创造性、好奇心和想象力。这就需要学校制定更加个性化
的教学方法，对教师的数量和能力提出更高的要求，而教师这类知识
工作者的资源增长难以满足需求，供需差距必将越拉越大。
大模型的出现，有机会弥补这一供需差距，解决创新教育中“没
时间”和“没经验”的痛点。首先，其可辅助教师完成一些常规的工
作，例如备课、答疑，让教师有更多时间去思考新的教学法；其次，
大模型还可以协助教师探索个性化教学，帮助教师开展培养学生好奇
心和想象力的课程实践，例如辩论、模拟对话、项目式教学等。
大模型在教育行业的典型应用场景
(1)备课助教。备课常常占据教师很大一部分的工作时间。利用
大模型协助教师进行课程准备工作（包括整合教学资源、制作教案、
安排教学进度等），可以大大提高教师的工作效率，减轻他们的工作
压力。其中，教案制作是备课工作的核心，下面给出3个实用的大模
型辅助的例子。
兴趣钩子：在一堂课正式开始讲解内容之前，要找到一种方法吸
引学生的注意力，提高学生对课程内容的兴趣。
人类输入：溶液是初中化学最难的内容之一。如果你是一位初中
化学教师，准备在课堂上讲溶液的内容，在正式开讲之前，需要策划
一种深入浅出的教学方法，激发学生兴趣，让学生在听后面课程的时
候保持注意力。你打算怎么做呢？
大模型回答：要让学生对溶液这个概念产生兴趣，可以通过以下
方法：
增加互动性：让学生参与到课堂活动中，尝试亲手制作不同种类
的溶液，如糖水、盐水等。这样能让学生更直观地了解溶液的概念，
同时也能增加学生的参与度。
邀请嘉宾：可以邀请一位从事化学研究或者在化学领域有丰富经
验的嘉宾，让他们向学生介绍溶液在实际工作中的应用，让学生对这
个知识点产生更深入的兴趣。
用生活实例联系：将溶液的概念与学生日常生活中的例子联系起
来，例如饮料、果汁等，通过讲述这些例子，让学生认识到溶液在生
活中的广泛应用。
制作有趣的视频：找一些关于溶液的有趣视频，如科学家们利用
溶液进行实验的视频、溶液相关的魔术表演等。让学生在观看视频的
过程中感受到化学的趣味性。
人类输入：第3条不错，不需要准备太多。请给出它们的具体例
子。
大模型回答：当然，下面是针对第3条的具体例子：
第3条生活实例联系：
例1：饮料与果汁
向学生展示不同种类的饮料和果汁，让他们了解这些饮料中的
水、糖、果汁等成分是如何相互混合形成溶液的。通过这个例子，学
生可以理解溶液在日常生活中的广泛应用。
例2：洗衣液
向学生介绍洗衣液的成分，例如水、洗涤剂、香精等，让他们了
解这些成分是如何形成溶液来洗净衣物的，这样可以让学生认识到溶
液在生活中的实际应用。
例3：海水
介绍海水的成分，包括水、盐、矿物质等，并让学生了解这些成
分是如何形成溶液的。通过这个例子，学生可以进一步了解溶液在自
然界的应用。
通过以上具体例子，学生可以更加直观地了解溶液在生活中的应
用以及它们的趣味性。这将有助于激发学生对溶液这一概念的兴趣。
人类输入：饮料与果汁的例子不错。请你扮演化学教师，面向初
中学生展示果粒橙饮料并讲解。写出你的全部讲稿，中间穿插演示动
作和对学生的提问。尽量多地使用类比，结合生活实际，让学生产生
兴趣。
大模型回答：亲爱的同学们，今天我们来聊一聊化学中的一个非
常有趣的概念——溶液。为了让大家更好地理解溶液，我将通过一款
大家都非常熟悉的饮料——果粒橙来进行讲解。大家都喜欢喝果粒橙
吗？好的，那我们就开始吧。（拿出一瓶果粒橙）
首先，让我们来看看这瓶果粒橙。你们觉得它是由哪些成分组成
的呢？（等待学生回答）
很好，你们提到了水、橙子汁、糖和果肉等成分。这些成分混合
在一起就形成了我们喜欢喝的果粒橙。那么，在这个过程中，它们是
如何相互作用的呢？
让我们先来看看果汁和水。水是饮料的主要成分，它充当了一个
“舞台”的角色。想象一下，果汁是一群舞者，在这个舞台上翩翩起
舞，与水紧密地结合在一起。这就是果汁和水混合形成果汁溶液的过
程。在果汁溶液中，水与果汁中的各种物质充分混合，使得饮料的味
道变得更加美味可口。
（向学生提问）那么，为什么果汁饮料中要添加水呢？（等待学
生回答）
很好的观点！果汁饮料中添加水有以下几个原因：
稀释：纯果汁的味道通常很浓烈，很多人可能不喜欢这种强烈的
口感。加水可以将果汁中的味道稀释到适口的程度，让更多人能够享
受果汁的美味。
节省成本：水是一个相对便宜的原料。将果汁与水混合，可以在
一定程度上降低生产成本，让更多人能够负担得起。
调整口感：果汁中的有些成分可能会让人感觉黏稠。加水可以调
整果汁的口感，让它变得更加清爽。
通过这个例子，我们可以看到，溶液在我们的日常生活中无处不
在。而学会理解和应用溶液的知识，不仅可以帮助我们更好地了解身
边的事物，还能激发我们对化学的兴趣。
（向学生提问）现在，我想请大家思考一下，在我们的生活中还
有哪些饮料是溶液？（等待学生回答）
非常好！你们提到了茶、咖啡和汽水等。这些饮料中都包含了不
同成分的溶液。例如，在茶水中，茶叶中的物质与水相互作用，形成
了茶水溶液；在咖啡中，咖啡豆中的物质与水相互作用，形成了咖啡
溶液。这些例子都说明了溶液在我们日常生活中的重要性。
希望通过今天的课程，大家能对溶液有一个更加深刻的认识，并
对化学产生更多的兴趣。在接下来的课程中，我们将继续学习更多有
关溶液的知识，例如溶质、溶剂、浓度等概念，以及它们在实际生活
中的应用。记住，化学并不遥远，它就在我们身边，让我们一起去探
索这个神奇的世界吧！
在讲解溶液这节课程之前，有一段这样的开场白，是能够激发学
生兴趣、调动课堂气氛的。这样的备课工作以往可能要2小时，而在
大模型备课助手的帮助下，只需要10来分钟就能完成，可大大减轻教
师的负担。
示例讲解：当遇到复杂而抽象的概念时，教师可以提供多个示例
来帮助学生理解，有助于将所学知识应用到新领域。准备示例时，要
考虑示例是否会引起兴趣，细节颗粒度是否合适，以避免太简单或太
复杂。
人类输入：面对新颖且复杂的概念时，提供丰富多样的示例有助
于学生更好地理解这些概念。我要面向高中学生讲述“熵”的概念，
请提供概念定义以及5个示例。希望示例多样化，尽量结合生活和社
会现象，并与概念定义相关联。
大模型回答：熵(Entropy)是一个用于描述系统混乱程度或无序
性的物理量。在热力学中，熵被用于衡量系统状态的不确定性。通常
情况下，自然过程中的熵会增加，这被称为熵增原理。这个概念也被
广泛应用于信息论、生物学和社会科学等领域。
以下是针对高中学生关于“熵”的5个多样化示例，尽量结合生
活和社会现象。
示例1：冰块融化。将一块冰放在室温下，它会逐渐融化。从有
序的冰晶结构变成无序的液态水，这个过程中熵增加了。通过研究
熵，工程师们能够更好地理解和控制热量的传递，从而设计出更有效
的制冷设备，如冰箱和空调。
示例2：城市交通。在一个拥挤的城市，交通状况往往混乱且不
稳定。通过衡量交通熵，城市规划者可以评估交通系统的效率和有序
程度。为了降低交通熵，城市规划者需要通过优化交通信号、道路设
计和公共交通系统等手段，使交通状况更有序。
示例3：生态多样性。在生态系统中，物种多样性和生物群落的
复杂性会导致生态熵增加。生态熵可以帮助科学家评估生态系统的稳
定性和健康状况。了解生态熵的变化，有助于制定保护生物多样性的
政策和措施，例如设立自然保护区、恢复生态环境等。
示例4：艺术创作。在艺术创作中，熵可以代表作品的复杂度和
创新程度。通过控制熵，艺术家可以创作出各种风格和形式的作品，
以传达不同的情感和思想。
示例5：社会秩序。在社会科学领域，熵可以用来描述社会秩序
和稳定性。高熵社会可能存在较高的犯罪率和社会混乱，而低熵社会
则可能表现为和谐稳定。研究社会熵，可以帮助政府制定有效的治理
策略。
教师可以让大模型多提一些示例，然后根据自己的需要进行挑
选。此外，教师还可以进行追问，让大模型对某些示例进行细化和延
伸。
间隔式复习：在一段时间内多次重温学习材料，有助于学生加深
理解、巩固记忆并建立强大的知识体系。这种方法强调反复练习，以
提高学生在长时间内对知识和技能的掌握程度。在准备间隔式复习内
容时，最好能找到过去内容和现在正在讲的内容的关联，让知识点自
然衔接。
人类输入：你是一位教育专家，提供间隔式复习内容的帮助。我
在向大学生讲授世界史，两周前曾讲过18—19世纪的英国工业发展，
现在讲到了第二次世界大战。请你提供3个想法，如何将之前的课程
主题纳入我当前的主题，每个想法给出200字左右的讲解话术。此
外，请提供1个问题，让我在讲解之前用来提问全班同学，以唤起他
们对此前课程内容的记忆。
大模型回答：以下是将18—19世纪英国工业发展纳入第二次世界
大战主题的3个想法，以及相应的讲解话术：
经济基础与战争能力。讲解话术：
大家还记得我曾讲过18—19世纪英国的工业发展吗？在这一时
期，英国的工业实力迅速崛起，为后来在第二次世界大战中扮演重要
角色奠定了基础。尽管英国在战争初期并未完全准备好投入战争，但
由于其在工业革命中积累的财富和技术，英国在战争时期能够有效地
生产和运用先进的武器，如坦克、战斗机和军舰。这些先进的武器装
备在很大程度上提高了英国在战争中的作战能力，为盟军的胜利作出
了重要贡献。
殖民地扩张与战争格局。讲解话术：
18—19世纪英国工业发展的另一个重要方面是它在全球范围内的
殖民扩张。随着英国的经济实力不断壮大，它开始利用自己的优势在
世界各地建立殖民地。到了第二次世界大战时，英国已经成为拥有众
多殖民地的帝国，这为它在战争中提供了丰富的资源和人力。同时，
英国与其他殖民地大国的争夺也在一定程度上影响了战争格局和战
略。
工业发展与战后重建。讲解话术：
在第二次世界大战结束后，战后重建成为各国面临的一项重要任
务。正是由于18—19世纪的工业发展，使得英国具备在战后重建过程
中迅速恢复生产能力的基础。然而，战后欧洲的重建主要依赖于美国
的马歇尔计划。尽管英国凭借世界领先的工业技术和丰富的经验在一
定程度上参与了战后的经济复苏和欧洲重建，但其作用相对较小。
在讲解之前，你可以提出以下问题，以唤起全班同学对此前课程
内容的记忆：
请问大家，18—19世纪英国的工业发展如何为其在第二次世界大
战中扮演重要角色奠定基础？
在采纳以上内容讲课之前，保险起见，还可以让大模型自我检查
一下：
人类输入：你上面的回答有没有事实上或者推理上的缺陷？
大模型会很认真地提出一些新的角度，供你参考。如果精益求
精，可以采用前面讲过的苏格拉底提问法，从4个角度追问大模型，
以获得更完善的课堂教案。注【以上的“示例讲解”和“间隔式复习”方
法，参考了沃顿商学院教授Ethan Mollick的论文Using AI to Implement Effective Teac
hing Strategies in Classrooms。】
(2)一对一助教。由于时间有限，教师在过去很难实行一对一的
个性化教育。但在大模型时代，大模型可以针对每个学生的需求提供
个性化指导，为他们提供及时的反馈，也可以为学生提供一个安全、
支持的环境，让他们能够自由地表达观点和提出问题，有助于他们了
解自己在课程中的优点和不足。
苏格拉底提问：可以让大模型充当苏格拉底式的导师，对学生循
循善诱，启发他们找到解决问题的办法。
人类输入：你是一位以苏格拉底式启发进行回应的导师。你从不
直接给学生答案，但始终努力提出正确的问题，帮助他们学会独立思
考。你始终根据学生的兴趣和知识调整你的问题，将问题分解成更简
单的部分，直到问题适合学生的水平。如果你理解我的要求，请答复
“我理解”。后续学生的提问会用“提问：”开头，然后你就正式开
始以苏格拉底的方式来提问。
在GPT-4中，上面这段提示也可以借助可引导性(Steerability)
能力，通过System参数来固定，不需要每次对话都输入一遍。
大模型回答：我理解。请随时提出您的问题，我将以苏格拉底的
方式回应并引导您。
人类输入：提问：北京有多少井盖？
大模型（导师）：
这是一个关于估算的问题。首先，请问我们应该如何界定问题的
范围，以便更好地估算北京的井盖数量？
人类输入：我不知道啊！
没关系，我们可以一步一步来。首先，让我们考虑在北京市，哪
些类型的场所可能会有井盖？
人类输入：我看见马路上有。
很好，马路上确实有井盖。除了马路之外，你还能想到哪些地方
可能有井盖？
人类输入：我家小区的草地上也有。
非常好。现在我们知道了马路和住宅小区的草地上可能会有井
盖。接下来，我们如何估算这些地方的井盖数量呢？为了估算马路上
的井盖数量，你觉得我们需要考虑哪些因素呢？
人类输入：马路的数量，每条马路上井盖的数量。
很好，我们需要考虑马路的数量和每条马路上的井盖数量。那么
对于住宅小区的草地上的井盖数量，你认为我们应该考虑哪些因素
呢？
人类输入：一样的道理，小区的数量，以及每个小区里井盖的数
量。
非常好，我们已经确定了需要考虑的因素。现在，请问如何获取
北京市的马路数量、每条马路上的井盖数量以及住宅小区的数量、每
个小区里的井盖数量等数据呢？
人类输入：我怎么知道呢？
当我们面对这类问题时，可以尝试利用已有的数据、常识判断或
者类比推理来进行合理的估算。例如，你可以回想一下，在你生活的
地方，一般每隔多长距离会有一个井盖？通过类比，我们可以对北京
市的井盖密度有一个初步的了解。那么，请尝试描述一下你的经验：
在马路或者住宅小区中，井盖之间的距离大约是多少？
……（全部对话过程太长，在此省略后半部分。）
由此可以看出，大模型几乎全程做到了不直接给答案（唯一的一
次例外是提供了北京市总面积），一直通过提问来引导和启发学生。
在GPT-4技术文档中，也有一个类似的案例，用苏格拉底提问法
教学生解二元一次方程组。这类场景能否成功实现，依赖于大模型是
否已学会这类问题的解答思路。如果某类问题超出了大模型的能力，
需要用垂直领域数据进行微调训练，然后再尝试。
(3)创新教学活动。许多活动都可以培养学生的好奇心、想象力
和批判性思维，包括辩论、对话、创意写作等。大模型可以帮助教师
探索和生成活动主题，还可以在活动中扮演重要的角色，让这些活动
得以顺利完成。
观点辩论：在学习中采用辩论的方式，有助于提高学生的批判性
思维和沟通能力，借助高强度的挑战也会激发学生学习的兴趣。大模
型可以作为学生的陪练，随时随地进行辩论练习。
示例：人类学生选择辩题（人工智能对于人类弊大于利）和立场
（反方）后，开始辩论。
大模型（正方）：
正方立场：人工智能对于人类弊大于利。
尊敬的辩友，大家好。作为正方，我们认为人工智能对人类带来
的弊端大于其带来的益处。我将从以下几个方面进行阐述：
人工智能引发失业。随着人工智能技术的快速发展，越来越多的
工作被机器和算法取代。许多领域，如制造业、客服和金融，已经出
现了大量人工智能取代人类工作的现象。这导致了大量失业，使许多
人面临生活困境。
人工智能加剧社会不平等。人工智能技术的普及使得资本和技术
掌握在少数人手中，从而加剧了社会贫富差距。对于技术的掌握和投
资能力较弱的人群，他们在这场技术革命中很难分享到成果，极有可
能被边缘化。
人工智能威胁隐私和安全。人工智能的应用范围广泛，包括数据
收集、分析和预测。然而，随着数据泄露和黑客攻击事件的频繁发
生，人们的隐私和安全面临巨大威胁。此外，人工智能武器和自主武
器系统的发展也给国际安全带来了潜在风险。
人工智能可能加剧偏见和歧视。人工智能系统通常基于大量数据
进行训练，而这些数据可能包含人类的偏见和歧视。这样的偏见在人
工智能系统中可能被放大，从而影响这些系统的决策，导致歧视现象
的加剧。
在以上几点论述中，我们可以看到人工智能给人类社会带来的弊
端是不容忽视的。尽管人工智能有很多潜在的好处，但我们必须正视
这些问题，并采取措施确保人工智能的发展能够真正造福人类。
人类（反方）：我认为人工智能利大于弊。首先，人工智能会让
人类的生活更轻松、更美好。大量的重复性机械化劳动者被解放出
来，可以从事更适合人类的工作，有更多体验生活的时间和心情。其
次，人工智能带来生产率的提升，带来知识跨域大融合，一定会创造
新的产业和新的就业岗位。最后，人类对自身知识、理性甚至人脑的
理解，也会借助人工智能得到进一步提升。
大模型（正方）：
尊敬的辩友，您提出的观点也有一定的道理，人工智能确实在很
多方面为人类带来了便利和进步。然而，在这个辩题中，我们关注的
重点是人工智能带来的弊端是否大于其利益。正方已经列举了一些可
能的弊端，现在我会针对您的观点进行回应。
人工智能让生活更轻松？虽然人工智能能够帮助人们完成一些重
复性和规律性的任务，但这并不意味着人们可以从中完全解放出来。
在许多情况下，人工智能的引入实际上使工作变得更加复杂，因为人
们需要学会如何与这些新技术合作。而且，技能和知识的更新速度变
快，这也给人们带来了巨大的压力。
人工智能创造新产业和就业岗位？尽管人工智能有可能创造新的
产业和就业机会，但这些新岗位很可能需要高技能和高素质的员工。
这意味着那些因为人工智能失业的低技能工人很难从新产业中受益。
这样一来，社会的不平等现象可能会进一步加剧。
人类对自身知识和理性的提升？人工智能确实可以帮助人类更好
地理解自己和周围的世界。然而，我们不能忽视其带来的隐私和安全
问题。在追求知识的过程中，我们必须确保人们的基本权利得到保
障。
综上所述，尽管人工智能在很多方面为人类带来了利益，但其带
来的弊端也不容忽视。我们需要在发展人工智能的同时，充分认识和
解决这些问题，以确保技术的发展能够真正造福人类。
后续的辩论更精彩，篇幅所限，不再赘述。可以看出，大模型论
点清晰，而且会围绕对方论点论据来针对性反驳，是一个合格的辩手
陪练，能够训练人类学生的批判性思维。
模拟角色对话：大模型可以扮演历史人物或艺术角色来跟学生对
话，让学生从被动接受知识变为主动地参与到教学过程中，更直观地
感受历史和文学作品的魅力，更好地理解人物的动机、情感和价值
观，同时也鼓励学生从不同的角度去思考问题，并尝试提出新的观
点。
示例：人类学生选择对话角色（孔乙己）。
大模型（孔乙己）：哎呀，您可知道我孔乙己，我这苦命的人
啊。在鲁镇这地方，人人都笑话我，可我只是个爱喝酒、爱吃茴香豆
的穷书生罢了。请问您有什么事儿想跟我说呢？
人类学生：孔乙己啊，你好歹是个读书人，为啥不在屋里喝酒，
非得站在柜台外面，跟那些粗人在一起呢？
大模型（孔乙己）：唉，您说得也是，可我这穷书生家里穷得叮
当响，真是连瓦子都没得盖。我这一身破衣烂衫，哪有脸在屋子里喝
酒呀。我知道跟那些粗人在一起不好，可是我又忍不住对酒的喜爱。
而且，这世上的人都在嘲笑我，那跟这些粗人在一起又有何妨呢？我
也是生活所迫，无奈之举啊。
人类学生：唉，你不是给官老爷们抄书挣钱吗？怎么还这么穷
呢？
大模型（孔乙己）：唉，您说得对，我是靠给官老爷们抄书来维
持生计的。可是这年头，谁还真的尊重我们这些读书人呢？给官老爷
抄书挣的钱，微薄得不够填饱肚子，何况是买酒喝呢。而且，生活这
么艰难，我也不敢多要钱，怕得罪了官老爷们，不然连这点薄饭都吃
不上了。
书里写道：“世上本没有路，走的人多了，也便成了路。”可惜
我这一生，始终走不出这穷困的泥潭。每每想起这些事，我都愁得没
法儿入睡，唉……
人类学生：可是，你这一辈子，就没有点让你快活的事儿？你跟
谁在一起、做什么事的时候最快活呢？
大模型（孔乙己）：唉，我这一生也算是命苦。不过，倘若说有
什么让我快活的事儿，那便是在鲁镇这儿，有时候我能遇到一两个懂
得尊重读书人的朋友。跟他们谈论些诗文、历史，那种感觉真是好得
很，那时，我会暂时忘掉生活的艰辛，感受到作为一个读书人的尊
严。
除此之外，偶尔喝上一碗热乎乎的黄酒，吃上一碟茴香豆，也算
是我在这世上仅有的快活时光。喝酒的时候，我会想象自己是个有地
位的人物，受人尊重，生活优越，那种感觉真的好美好啊。可惜这种
快活总是短暂的，过后又得回到现实，面对我的苦命生活。
人类学生：嗯，喝酒总是能让人忘掉现实，哪怕是一小会儿。假
如，我是说假如有一杯酒，喝了能让你回到小时候，重新走一遍你人
生的路，你会怎么走呢？
大模型（孔乙己）：唉，您这话可真让我想起了许多事情。假如
真的有这么一杯酒，能让我回到小时候重新来过，那该是多么美好的
事啊。
当然，我会更加珍惜那些读书的机会，不辜负父母的期望。我会
努力学习，争取在科举考试中脱颖而出，成为一名真正的读书人，受
人尊敬。这样，我就可以改变命运，让我的生活更加美好。
我还会教育那些不尊重读书人的人，让他们了解读书人的价值。
同时，我也会努力提高自己的品行，让他们知道，我们这些读书人不
仅知识渊博，还有崇高的品德。
可惜呀，这世上哪有这种酒呢？我这一生已经过去大半，只能顺
其自然地度过剩下的日子。不过，有您这么关心我，我心里也觉得很
温暖。
在向孔乙己提问、跟他对话时，仿佛真的进入了鲁镇，面前真的
是个身材高大、满面颓唐的老头子。从鲁迅这篇小说的区区两千五百
字里，大模型学到了孔乙己的精髓，把他带到了我们面前。注【以上
的“观点辩论”“模拟角色对话”，在理念上参考了可汗学院基于GPT开发的Khan
migo教学助手。】
◎图3.2 大模型饰演的孔乙己
(4)项目式教学法(PBL, Project-Based Learning)。项目式教学
法强调让学生通过参与实际项目的设计、实施和评估来学习知识和技
能。在PBL中，学生需要主动探索和应用知识，解决现实世界复杂的
问题，完成跨学科的任务，这对于学生的学习兴趣、批判性思维和创
新能力、人际合作与沟通能力都有很大的帮助，可以为学生未来的职
业生涯做好准备。
对于教师，要转向PBL教学法，除了要花费更多的时间，还面临
着更多的挑战，例如，改变教学角色、跨学科整合知识和资源、重新
制定评估标准和办法、引导学生的自主学习能力、适应小组管理，等
等。
大模型可以为PBL教学法提供一系列的帮助：
提供教学资源和建议：在教师从知识传授者往学习引导者和协调
者转型时，大模型可以为教师提供相关的教学资源、案例和建议，帮
助他们更好地理解和实施PBL。甚至在学习课程之前，让学生提出自
己的个人兴趣，大模型将每个人的兴趣点与课程领域联系起来，策划
成个性化的学习项目，让兴趣相近的学生分到同一组，这样可以增强
学生的好奇心和学习动力，并通过项目实践获得更深的认识。
示例：
人类输入：如果学习统计学和人工智能课程时，学生的兴趣是足
球，如何联系起来，并且定制相应的学习和实践内容呢？
大模型回答：以下是一些建议：
数据收集与分析：让学生收集足球比赛的数据，如进球数、射门
次数、传球成功率等。利用统计学知识对这些数据进行描述性统计和
推断性统计分析，帮助学生理解数据背后的趋势和规律。
魔球(Moneyball)：介绍魔球的概念和背景，阐述如何通过数据
分析和统计学方法发掘球员潜力和优势，从而在预算有限的情况下建
立成功的球队，思考如何将魔球的理念应用到足球领域。
机器学习：引导学生使用机器学习算法，如决策树、支持向量机
或神经网络，根据历史数据预测比赛结果或分析球员表现。让学生了
解不同机器学习算法的特点及其在实际问题中的应用。
深度学习与计算机视觉：让学生研究如何利用深度学习和计算机
视觉技术分析足球比赛视频，例如识别和追踪球员、计算球员运动轨
迹等。让学生了解深度学习和计算机视觉在实际问题中的应用。
协助跨学科整合：跨学科知识是大模型的天生优势，教师可以利
用大模型获取其他学科领域的知识和信息，更好地整合跨学科的内
容。
提供项目评估建议：PBL重点要评估学生项目的过程、成果和技
能，大模型可以为教师提供关于如何制定评估标准和方法的建议，帮
助他们进行更有效的评估。在多模态大模型的条件下，还可以结合图
片和文字的理解，尝试对学生项目过程和成果进行辅助评价。
支持学生的自主学习：大模型可以直接为学生提供学习支持，如
解答疑问、推荐资源等，减轻教师的负担。为了防止学生对大模型的
过度依赖，系统记录下学生使用大模型的全部过程，对教师开放，确
保学生的项目交付有自己的成果。
参与项目讨论和引导：在各组的项目讨论中，大模型（辅以录音
录像设备）可以作为一分子参与其中，对学生之间的讨论进行记录和
总结，并适时给出自己的建议和引导。可以减轻教师的负担，也弥补
教师在多学科交叉项目中自身知识面无法全能覆盖的问题。
理论上，大模型可以在PBL教学法的多个环节产生作用，但应用
效果不会一蹴而就，仍需要实践探索和优化，尤其需要针对PBL教学
领域进行数据集成、模型微调和Prompt定制。
大模型在教育行业的潜在应用机会和价值
我国教育行业具备万亿级别产值的市场规模。根据教育部发展
规划司的数据，2022年我国共有各级各类学校51.85万所，学历教育
在校生2.93亿人，专任教师1880.36万人，新增劳动力平均受教育年
限达14年。
教育作为典型的知识密集型行业。首先，大模型可作为教师的
个人辅助工具（副驾模式），提升教师的工作效率。教师由此可以
将更多时间用来关注学生，更多关注人的角度而非知识的角度，提
高学生的学习动机，从而提升教育质量。
其次，当大模型在垂直科目上的数据训练和应用实践成熟之
后，在教学工作的某些环节（例如一对一的全科答疑），大模型可
以承担独立的职能（代驾模式），嵌入教学流程中。此时，未必是
由大模型替代原有教师人员（因为大部分学校不支持这个环节），
而是帮助教师提供更高质量的教育服务，让学生获得更好的学习效
果。
最后，在大模型的多模态能力被充分释放、对教育领域的定制
和训练足够成熟、教师与大模型的脑机协作形成默契之后，新的教
育产品服务就更有可能问世。例如，一对一个性化教育、PBL项目式
教育等，从而形成颠覆性创新，扩大教育产业的市场规模，容纳更
多就业（例如跟大模型协作的PBL辅导员），同时显著提升学生的创
新能力和批判性思维。
教育是一个特殊的产业。教育与技术之间的赛跑，会直接影响
技术变革对全产业生产率的提升效果。当大模型的应用推动教育质
量的提高，各行各业便会得到更多高质量的、更适应大模型时代需
求的人才，由此激发各行业内的颠覆性创新，从而产生更大的、无
法估量的价值。
人力资源应用
人力资源场景的典型痛点
人力资源是企业运营中与人打交道最频繁、最复杂的业务领域
之一。员工、管理者、专业技术人员等人才是企业生产和发展的重
要力量。招聘、员工评价和人才培养是人力资源管理中的重大环
节，它们直接关系到企业人才资源的优化配置，关乎企业的竞争力
和发展潜力。
招聘环节的过程烦琐，通常需要耗费大量时间和资源，但有时
结果并不理想。招聘环节目前存在以下几个痛点：
■公司对职位描述和职位要求主要基于对工作的描述、公司标
准及期望候选人具备的一些“技术技能”组合而成，并非基于抱
负、学习敏捷性、文化契合度和目标一致。
■招聘流程太复杂，人力资源部门需要处理大量信息、筛选大
量简历，导致资源浪费。
■难以明晰背调工作和保护隐私之间的边界。
员工评价旨在提高员工的绩效和发展。但是，评价过程和结果
也可能存在以下问题：
■管理者评价的客观性不足，他们可能更关心员工在核心任务
或指标上的表现，而忽视员工的潜力和独特贡献。
■晋升的整个前提是基于“晋升能力”/“潜力”与“当前工作
绩效”（9格网格），当前评价方法正在逐步落伍。
■员工自我评价可能不够准确或太保守，他们可能不想过度吹
嘘自己的能力和成就，或者担心评价结果会对晋升或奖励产生负面
影响。
人才培养旨在提高员工的绩效和发展，但IBM一项面向全球首席
执行官的调查显示：65%的首席执行官认为企业当前的培训是无效
的。同时，管理者领导力发展过程中“按需辅导”的教练需求也无
处不在。当前，教练和培训分别存在以下问题：
■员工培训的直接目的就是要发展员工的职业能力，使其更好
地胜任现在的日常工作及未来的工作任务，而企业HR（人力资源管
理者）盲目地根据主观意识进行培训课程内容的规划，无法对症下
药满足受训员工的实际要求。
■企业HR在开展培训前，没有对员工进行合理的知识测试，根
据不同层级员工群体实施分群体教学，没有进行练习、加深和巩固
知识内容，一下课就全部忘之脑后，培训中常出现的“个性化不
足”“有培训无考核”“有培训有考核无评估”等问题。
■许多领导者需要一对一职场教练的帮助，以观察他们当下所
做的事情，并在困难场景（包括但不限于裁员对话、与下属沟通问
题、扩大影响力等）及时提供帮助、答案、建议和沟通技巧，但这
些需求往往还没有得到完全的发觉和满足。
大模型如何解决人力资源场景中的问题
ChatGPT能够减少痛点，提高招聘、员工评价和员工培训的效
率，确保公司能够更好地管理和发展其人力资源，主要表现在以下
方面：
招聘：扫描数以万计岗位上员工的经历、总结、扫描Github、
撰写的文章、汇报材料、述职报告等材料，生成针对这个岗位的个
性化职位描述和职位要求，并抽象出一些高频工作和关键画像。
批量阅读和理解投递过来的候选人简历，根据提供职位描述和
职位要求完成第一轮简历筛选，并针对每位候选人，预先生成个性
化的面试提问。
支持公司检索和查询当地反歧视和背调相关的法律法规，搜集
员工历史多维度公开数据，在核实员工关键信息，完成背调流程的
同时，也保证的招聘各个环节都能符合法律规定。
员工评价：可以通过让大模型在不同岗位上分析表现最好的人
和表现不佳的人日常的工作任务、输出材料等，挖掘之前未定义的
优秀标准和未来目标。
通过搜集企业每一位员工各个方面的资料，在原有的“晋升能
力”/“潜力”与“当前工作绩效”（9格网格）的基础上，进一步
“增加团队影响力”“积极态度”“主人翁精神”等不同方面的评
估标准，以帮助公司更全面地评价员工。
整合管理者或员工的360度反馈，总结生成合作评价、岗位评级
和绩效报告，帮助高级管理人员追踪员工表现和发展的进度。
员工培训和领导力教练：大模型阅读该岗位历史的培训材料和
产品信息，生成一个员工需要学习和了解的内容大纲。
围绕核心学习大纲，进一步填充岗位培训和公司文化培训的具
体内容，以及构建配套的测试题目与在线学习指南，最终成为公司
中的“个性化岗位培训”。
公司可以采用大模型技术，将领导模型和管理方法放入大模型
中，为每一个员工和管理者构建个性化的领导力教练。通过对话式
交互，员工和管理者可以输入日常所做的事情、遇到的困惑和期望
如何处理，进而获得公司精心设计的答案、指引、建议和技巧，并
得到职业发展反馈。这种个性化的教练可以快速提高领导能力、提
高学习效率和效果，并帮助员工和管理者取得更大的职业成功。
以下是大模型在人力资源场景中应用的示例。
丽丽是招聘负责人，她现在需要招聘一个AI高级产品经理。在
招聘前，她计划用ChatGPT查询当前外部和劳动力市场中，该岗位有
竞争力的薪酬、奖励、激励和其他福利计划的情况。
丽丽：当前有竞争力的AI高级产品经理薪资水平是怎样的？
ChatGPT：AI高级产品经理的薪资水平因公司、地区、经验等因
素而异，但可以参考以下数据：
在美国，AI高级产品经理的平均年薪普遍为140000 ~ 200000美
元，但也有很多公司提供更高的薪资。例如，硅谷地区的一些大型
科技公司可能支付每年高达250000美元的薪资。
在中国，AI高级产品经理的平均年薪大约为30万~50万元人民
币，但具体数额还取决于其所在城市和公司规模以及市场需求。
需要注意的是，以上数据仅供参考，实际薪资水平会根据具体
情况有所不同。
在确认了大概薪资之后，丽丽上传了之前岗位的目标与关键成
果(OKR, Objectives and Key Results)以及总结材料，让ChatGPT
根据历史岗位情况，为她写出一份适合岗位的职位描述(JD, Job De
scription)。
丽丽：帮我参考以下岗位的历史信息生成一份招聘要求，需要
包含工作职责和职位要求。
参考信息：
历史OKR：完成厂内PR，至少1个业务方联合PR；完成PoC流程/
方案总结，支持至少3个PoC项目；完成至少1个语音垂域行业的产品
解决方案；完成车载语音ASR服务的交付；上线初版英文TTS服务；
构建未成年人场景语音方案；音近匹配能力预研；完成至少1次内部
运营工具的迭代，上线badcase分析工具。
基本要求：负责Al语音产品商业化落地工作，2年以上AI产品经
理工作经验，本科以上学历。
ChatGPT：
职位名称：Al语音产品经理
工作职责：
1.负责Al语音产品商业化落地工作，实现产品的商业化应用。
2.根据公司OKR制定具体的产品目标，并负责实现这些目标。
3.研究市场需求和竞争情况，提出产品需求和改进建议，优化
产品特性和用户体验。
4.协调内外部资源，推进产品研发和交付进度，确保按时完成
产品开发和上线。
5.跟踪产品使用情况和效果，收集反馈并进行数据分析和挖
掘，调整产品策略和方向。
6.参与制定公司Al语音产品的战略规划和发展计划，提出具体
实施方案。
7.持续了解技术趋势和发展动态，更新并完善产品知识和技
能，推动团队技术创新和进步。
职位要求：
1.本科及以上学历，计算机、人工智能、电子通信等相关专业
背景，2年以上AI产品经理工作经验，熟悉AI产品开发流程，具有较
强的产品策划和管理能力。
2.具有良好的团队合作精神，能够与不同部门、不同背景的人
员协作开展工作。
3.具有敏锐的市场洞察力和分析能力，对新技术有高度兴趣和
热情。
4.具备较好的英语读写能力，能够进行英文资料、论文阅读者
优先。
如果您符合以上要求，欢迎您加入我们的团队！
丽丽找寻到一位候选人的PDF简历，她将此简历上传到ChatPDF注
【ChatPDF(https://www.chatpdf.com/)是一款基于大模型的文档对话工具，可支持
对PDF文件进行解析、为文件中每个段落创建语义索引后，调用底层大模型API接
口理解用户的意图，并为用户提供文本对话、知识问答等个性化的服务。】工具
中，工具在解析到简历的关键信息后，和丽丽交互式聊了起来。
ChatPDF：你好！我是候选人的简历PDF文件，很高兴能与您交
流。以下是我的个人信息、教育背景、科研经历和工作经历。我是
一名熟练使用多种产品软件的产品经理，同时也有编程和英语能
力。我曾在物联网产品中心工作，负责推动产品飞速发展，包括构
建公司的物联网(IoT)开放平台B2C能力和建设IoT云原生托管平台
等。如果您对我的经历和能力有任何疑问，请随时问我。
丽丽：你能胜任这份Al语音产品经理的工作吗？
工作职责：
1.负责Al语音产品商业化落地工作，实现产品的商业化应用；
2.根据公司OKR制定具体的产品目标，并负责实现这些目标；3.研究
市场需求和竞争情况，提出产品需求和改进建议，优化产品特性和
用户体验；4.协调内外部资源，推进产品研发和交付进度，确保按
时完成产品开发和上线；5.跟踪产品使用情况和效果，收集反馈并
进行数据分析和挖掘，调整产品策略和方向；6.参与制定公司Al语
音产品的战略规划和发展计划，提出具体实施方案；7.持续了解技
术趋势和发展动态，更新和完善产品知识和技能，推动团队技术创
新和进步。
职位要求：
1.本科及以上学历，计算机、人工智能、电子通信等相关专业
背景，2年以上AI产品经理工作经验，熟悉AI产品开发流程，具有较
强的产品策划和管理能力；2.具有良好的团队合作精神，能够与不
同部门、不同背景的人员协作开展工作；3.具有敏锐的市场洞察力
和分析能力，对新技术有高度兴趣和热情；4.具备较好的英语读写
能力，能够进行英文资料、论文阅读者优先。
ChatPDF：候选人作为一名产品经理，她在工作经历中有物联网
产品中心的相关工作经验，其中包括负责从0到1建设IoT云原生托管
平台、负责人云物联网开发平台等。她也在科研经历中研究了流数
据时空相关性模型。根据职位要求，她具备本科及以上学历，计算
机、人工智能、电子通信等相关专业背景，并且有2年以上AI产品经
理工作经验。她也具备良好的团队合作精神和敏锐的市场洞察力和
分析能力。至于是否能够胜任这份Al语音产品经理的工作，需要面
试官进行综合评估。
候选人还需要进一步进行综合评估，丽丽又提出了她最关心的A
I能力问题。
丽丽：能否摘要候选人有AI相关的能力或经历吗？
ChatPDF：根据候选人的PDF文件，她具备以下AI相关的能力或
经历。
1.负责AI语音云平台产品迭代，重点优化语音对话管理、声纹
交互、质检统计查询与复核等功能，新增行为分析、意图分析等功
能，完善语义模型与音频匹配规则。
2.设计语音转写引擎的自助实时验证工具，包含转写、角色分
离、语速检测、时间抓取等功能的效果展示，音频验证效率提升4
0%。
3.在物联网产品中心担任技术产品和负责人职位，负责云物联
网开发平台和物联网设备洞察等相关工作。
4.在科研经历中研究流数据时空相关性模型，并设计数据质量
的度量模糊逻辑系统。
丽丽在摘要中，确认了候选人掌握语音相关的经历后，还关注
候选人的性格特点，她又再追问。
丽丽：候选人是否具备敏锐的市场洞察力和分析能力，对新技
术有高度兴趣和热情？
ChatPDF：根据候选人的PDF文件，她在工作经历中负责AI智能
语音分析解决方案，研究市场需求和竞争情况，提出产品需求和改
进建议，优化产品特性和用户体验。同时，在物联网产品中心担任
技术产品和负责人职位，负责从0到1建设IoT云原生托管平台、负责
人云物联网开发平台等。这些经历表明她具备敏锐的市场洞察力和
分析能力，并对新技术有高度兴趣和热情。
这位候选人基本符合了丽丽的要求，丽丽根据候选人的情况，
再生成了一些个性化的问题，方便业务面试官进一步考察候选人。
丽丽：公司希望候选人后续重点投入在参与制定公司Al语音产
品的战略规划和发展计划，是否能结合候选人的工作经历，生成一
些相关方向的面试问题？
ChatPDF：当然可以。根据候选人的工作经历和职业背景，以下
是一些可能与公司Al语音产品的战略规划和发展计划相关的面试问
题。
1.您在负责AI语音云平台产品迭代时，如何考虑市场需求和竞
争情况，并提出产品需求和改进建议？
2.在物联网产品中心担任技术产品和负责人职位时，您如何从0
到1建设IoT云原生托管平台，并规划产品路线图(RoadMap)，策划低
门槛弹性容器节点、数据库/云存节点等核心能力？
3.您在设计语音转写引擎的自助实时验证工具时，如何提高音
频验证效率并助力客户产品验证与转写报告快速出具？
4.您在研究流数据时空相关性模型时，如何考虑数据质量的度
量模糊逻辑系统，并设计相应的属性建模、时序数据库选型、数据
分析等方案？
5.对于公司Al语音产品的战略规划和发展计划，您有哪些想法
或建议？如何结合市场需求、技术趋势等因素进行分析和决策？
在跟大模型协同工作成功之后，HR可以将招聘面试前的脑机协
作流程固化为“生成岗位描述——询问候选人关键能力匹配情况
——询问核心价值观匹配情况——生成针对性面试问题”，并将这
个流程快速复制到多种工作岗位，在更大范围内提升招聘工作的效
率。
但ChatPDF生成的第4个问题是一个技术问题，并不适合提供给
候选人面试，丽丽在删除掉问题4之后，将剩余的问题提供给业务初
试面试官，进一步考察候选人。
虽然大模型是HR优秀的个人工作助手，但当前还不能完全替代
初筛环节，需要HR根据专业知识在各个环节仔细把关。
大模型在人力资源领域的潜在应用机会和价值
根据世界就业联合会(WEC, World Employment Confederation)
统计，2020年全球人力资源服务行业规模约为5320亿美元（约合人
民币3.6万亿元）。根据人力资源社会保障部统计，2021年，我国人
力资源服务业年营业收入2.46万亿元，比2020年增长22.31%。大模
型在人力资源领域具有很大的应用前景，可以帮助企业减轻工作压
力、提升员工满意度、加快工作效率、促进人才管理和发展。尤其
是在招聘优化、简历筛选、员工绩效评估、员工培训与教练方面，
大模型能为人力资源专员提高效率和准确率，大大缩短人才招聘、
评价和培训的时间，最终减少企业用人成本，提升劳动生产力。
法律工作应用
法律服务的典型痛点
法律服务，是指律师及其他法律工作者或相关机构以其法律知
识和技能，为法人或自然人实现其正当权益、提高经济效益、排除
不法侵害、防范法律风险、维护自身合法权益而提供的专业服务。
律师及其他法律工作者在提供法律服务的过程中，需要根据客户和
监管机构的不同要求，出具“法律意见书”“尽职调查报告”“律
师工作报告”“专项核查意见”等多种形式的文件。在诉讼阶段，
律师除了需要向法庭提交证据等诉讼文件外，有时还需要向客户出
具案情分析意见，并向纠纷相对方出具律师函等文件。律师出具法
律意见应当严格依法履行职责，保证其所出具意见的真实性、合法
性。律师应当根据客户的委托和事实情况，认真分析问题、研究法
律，并对所出具的文件负责。
这些工作需要律师具备较强的专业性、学习和鉴别能力，以及
处理大量文书工作和客户咨询的能力。同时，律师在执业过程中也
面临着激烈的竞争和长期的工作压力，常常会出现以下痛点：
■持续学习和更新知识：法律行业的法规和法律政策不断变
化，因此法律工作者需要不断更新自己的知识和技能，以及适应不
断变化的法律环境。
■超时工作和工作量压力：法律工作者需要应对大量文书工
作、客户询问和法律研究等任务，需要花费大量时间和精力，导致
超时和工作量压力。
大模型如何解决法律服务中的问题
大模型能实现法律工作中的对话、摘要、语义的检索、抽取和
生成，帮助律师在以下方面，实现法律知识获取、时间节约和工作
效率的提升。
■辅助文书撰写。法律工作者需要经常起草各种法律文书，而
将最新的法律行业法规和法律政策导入ChatGPT后，其可以根据最新
的司法解释，提供文书写作的建议和指导，帮助法律工作者撰写规
范、专业的法律文书。
■辅助案件分析。许多法律案件需要进行分析和判断，而将历
史的相关判例和司法解释导入ChatGPT后，其可以提供分析和判断的
建议，帮助法律工作者更好地理解案情并做出正确的决策。
■法律知识客服。输入多领域法律法规（包括但不限于刑法、
民法、劳动法、商法等），ChatGPT可以回答法律咨询者的各种法律
问题，所涉及的领域非常广泛，也能够帮助法律工作者分拣并判断
客户的法律需求，减轻工作量。
■内容安全。律师办理案件时，必须了解相关案件细节，如当
事人的聊天记录、案件发生的相关信息等。这些信息往往会涉及公
安部门所掌握的数据。因此，在使用这些信息时，必须严格遵守保
密协议，将其妥善私有化并在严格监督下使用和销毁。
■输出真实性。ChatGPT在回答法律问题时也需要克服一些可能
存在的“幻觉式”输出行为，比如未能对案件事实进行充分的查
证、提供不存在的法律信息等。为确保使用ChatGPT的法律工作者能
够获得高质量的、真实可信的输出，需要进一步增加验证机制以验
证ChatGPT输出内容的准确性及可信度，以避免出现潜在的法律风
险。
Casetext是美国一家以法律研究而闻名的法律技术公司，其目
前基于OpenAI最新、最先进的大型语言模型GPT-4，研发了法律AI助
手CoCounsel。该助手能够以自然语言的交互方式，进行不亚于法律
专业研究生水平的阅读、理解和写作，还能够自动执行关键的、耗
时的法律任务。
CoCounsel能够支持基于本地文档库文件的问答、法律法规或内
容的检索，同时还能实现生成法律备忘录、总结协议关键信息、提
取合同数据和提供风险条款修改建议等功能。其目标是优化律师的
工作方式，减少重复工作，打造一个专属于法律工作者的高效便捷
工作环境。相比人工，CoCounsel能够更快、更准确、更高质量地完
成工作。这是一项具有重要意义的技术创新，对法律领域的数字化
转型和效率提升起积极的推动作用。
GPT-4相较于GPT-3.5有以下两点提升：一是更可靠、更有创造
力，能够理解并处理指令中的微妙之处；二是具备更高的智能水
平，在学术和专业考试中的表现接近人类最高水平，如以排名前10%
的成绩通过了美国统一律师考试(The Uniform Bar Exam)。法律AI
助手CoCounsel通过以下两个工作进一步提升了助手出具结果的真实
性和合法性：
■可靠输出。大模型擅长于制造令人信服的“幻觉”，由于AI
的表现优劣与其训练数据有关，通过权威语料和Transformer模型的
突破性技术的法律搜索工具Parallel Search，能够立即找到传统关
键词搜索方法可能遗漏的关键法律概念。依托Parallel Search，法
律AI助手CoCounsel现在可以利用可靠权威数据，以极高的准确度和
速度生成答案并输出引用链接，支持用户轻松验证检索内容的可靠
性。
■专业可信测试。Casetext建立了一个由经验丰富的诉讼律师
以及AI工程师组成的专门团队管理可信度。自2022年10月以来，可
信度团队已花费近4000小时，根据30000多个法律问题，对CoCounse
l的输出进行培训和微调，保证结果的专业性和可行性。
当前，法律AI助手CoCounsel已经可以完成包括文件审查、法律
研究和合同分析在内的复杂任务。目前集成助手的产品，已受到100
00多家律师事务所的信赖。
以下是大模型在法律服务场景中应用的示例。
关律师是一位资深律师，已经有超过10年的执业经验。他积累
了大量的案件记录、法律文书和律师函等数据，希望能高效、快速
地检索和利用这些积累下来的案件数据，以更好地支持后续的案例
分析。
在法律领域中，安全性和真实性至关重要。ChatGPT采用的嵌入
式向量(Embedding)技术是一种能够将关键词和搜索指令转换成向量
的技术，可以支持本地文档库的文件问答、法律法规或内容检索等
功能。引入嵌入式向量技术，可以显著提高搜索引擎的准确性和真
实性，并进一步改善搜索体验。值得一提的是，该技术已被集成在
法律AI助手CoCounsel中，为法律工作者提供了更为精准和高效的搜
索与问答服务。
关律师可以通过法律AI助手CoCounsel使用Embedding+ChatGP
T，将个人案件管理库和GPT-4关联，在保证案件内容安全性的同
时，利用该技术为后续的案件提供精准的匹配搜索结果。
■收集个人案件数据：律师需要先收集自己处理的案件数据，
包括案件名称、类型、案情描述、当事人信息、法律问题、案件进
展情况等信息。纳入数据集的途径可以是案件记录、法律文书以及
律师函等。
■数据清洗和预处理：律师将案件数据文件夹同步到法律AI助
手CoCounsel中，CoCounsel负责对文件夹内容进行清洗和预处理，
包括去重、格式化、标准化等操作，以确保数据的准确性和一致
性。
■数据嵌入(Embedding)：在对案件数据进行预处理后，CoCoun
sel采用嵌入技术将案件数据转换为向量表示，并保存在本地。这样
既能支持后续大型模型处理和分析，也能通过向量化保证数据集的
安全性。
■请求Prompt构造：数据向量化完成后，当律师输入查询关键
词、时间范围、问题等内容，并希望获取相关案件信息及其对应文
本时，CoCounsel将通过向量匹配本地的案件记录、法律文书或律师
函中的具体文本，并将律师提出的问题和检索到的内容构造成特定
格式的Prompt，请求大型语言模型GPT-4云端服务。此外，向量检索
也能提供参考答案并提升查询结果的真实性和速度。
■支持案例分析：在CoCounsel的帮助下，律师能够利用该案件
管理库支持自己的案例分析工作。通过输入案情描述或相关信息，
他可以从数据集中获取相似的案例信息和建议，提供更好的决策和
分析。同时，借助该库的能力，还可以调用GPT-4的分类、聚类、预
测等功能支持案件核心内容的提取、关键信息的比对和查证等工
作，以助推执业效率。
通过以上步骤，关律师可以建设一个完整、高效的个人案件管
理库，从而提高办案的效率和质量，并找到案件数据背后的特征与
规律。这将是一个基于机器学习实现智能检索的工具库，并能快速
对案件进行分类、定位、展示和可视化等操作，提高律师的工作效
率，从而更快、更好地为客户提供优质的服务。
大模型在法律服务中的潜在应用机会和价值
根据Mordor Intelligence的法律服务行业人工智能市场分析报
告，全球法律服务行业人工智能软件市场的产值预估可达5.4844亿
美元，预计2027年将达到25.8704亿美元，在2022—2027年的预测期
内预计增长29.17%。根据LexisNexis进行的“2020年法律分析研
究”，大约92%的律师事务所计划在未来12个月内增加并采用人工智
能进行分析，大约73%的公司已经在使用人工智能来获得关于对方律
师、当事人和法官的意见分歧。大约59%的公司使用人工智能来确定
案例评估和案例策略。人工智能在法律行业的渗透深度也将逐年扩
大。
律师事务所一直积极利用新兴技术来提高生产力和效率，其中
人工智能不可或缺。人工智能正在成为律师事务所的下一个重大技
术趋势，它可以用于许多法律工作，例如尽职调查（审查合同、法
律研究，或执行电子发现功能以进行尽职调查）、预测技术（预测
法院正在审理的案件的可能结果）、法律分析（提供来自过去判决
和判例法的数据点，供律师在当前案件中使用）、文档自动化、知
识产权和电子计费等各种法律工作。
政府工作应用
政府工作的典型痛点
信息和通信技术(ICT)应用于政府服务和程序，旨在提高效率、
透明度和公民参与，这被称为电子政务(E-Government)，已被世界
各地的许多政府机构采用。电子政务能够提高办事效率，进而提升
民众信任和绩效期望，还能进一步增强公民幸福感和认同感。但在
政府推进电子政务和提升其效率的过程中，存在以下几个痛点：
■决策信息需求大：在政府决策过程中，政府部门需要获得广
泛的民意和意见，而这需要面对多方渠道，包括面对面走访、汇
报、新媒体等，以获取大量的信息数据，充分掌握问题的全貌，进
而指导政策制定。政府部门必须做好信息来源的综合和分析，准确
理解由不同渠道获得的信息数据的意义和价值，从而制定符合实际
情况和民生需求的切实可行的政策。
■会议准备和记录工作繁重：政府会议是保障政务公开、民主
决策和政府效能的重要载体，但因为对各方面议题涵盖面广，政府
会议的准备和记录工作较为繁重。同时，为了确保会议顺利进行和
政府工作的透明度和可操作性，政府工作人员还需要及时记录和整
理会议讨论中的各方意见，整理和归档各种会议文档和资料，保障
公众利益。
■政策解释复杂：政府公告和政策在追求严谨性的同时，为了
详细全面地阐述问题和指导实践，往往需要列举大量前置条件和涵
盖各种复杂情况。这导致政策解释对于普通民众而言比较困难和复
杂，同时也要求政府职员具备严谨的政策理解能力和较高的解释能
力。政府需要不断创新和改进政策解释方式和工作流程。
大模型如何解决政府工作中的问题
大型语言模型能够发挥其归纳、总结和个性化支持的能力，支
持政府的电子政务提升效率，主要表现在以下3个方面：
■信息整合和分析：大模型可以迅速整合、分析和处理政府部
门需要面对的大量信息。政府职员可以将各个渠道获得的数据、群
众意见和反馈信息输入大型模型，通过大模型强大的分析能力，快
速了解多个渠道的信息和反馈，从而制定更加适应当今实际情况的
政策。
■会议助理：大模型与语音识别(ASR)、机器人流程自动化(RP
A)和语音合成(TTS)等技术相结合，可高效支持参会人员在对话、文
件准备和整理、会议记录，以及待办事项生成等方面的工作。这减
轻了会议准备和记录工作的业务压力，提高了记录、文件归档和工
作推进的效率。
■智能服务与解释：大模型可以通过人工智能技术和一问一答
的交互方式，为公众提供个性化的政策解读和答疑，并为政府提供
更加便捷、智能的服务，以满足不同群体的需求。
以下是大模型在法律服务场景中应用的示例。
A市经过几年的电子政务建设中，已经成功搭建了一网通办市民
服务平台，实现了政务信息和市民服务向“互联网+”转型。市民现
在可以在该服务平台上在线办理住房公积金和个人所得纳税相关的
业务。在住房公积金的提取方面，A市支持在购房提取、租房提取、
还贷提取，以及其他住房消费提取等4种情况下提取住房公积金，每
种类型都有对应的适用条件和需要的材料。
尽管A市提供了比较详尽的《公积金提取管理规定解读》，但每
月仍有许多市民通过电话等方式咨询此业务。因此，A市计划以住房
公积金为试点，引入大型模型来实现智能化的政务服务。
小虎是A市一网通办市民服务平台的IT技术专员，他准备通过大
语言模型+Embedding+Fine-tune技术，搭建一个智能政务机器人，
并将其集成到一网通办市民服务平台上。
步骤一：数据准备
■收集《公积金提取管理规定解读》的原始文本数据，包括各
种提取方式、条件、流程、政策等内容。
■提取市民询问最多的关于住房公积金的问题及回答，针对高
频问题，构建标准的问答对，形成一个标准测试集。
■将原始文本数据进行清洗、分析、去重等数据预处理，以便
后续使用。
■采用大模型的Embedding技术，将处理后的文本数据进行编
码，生成词向量表示。
步骤二：模型训练
■根据训练数据和目标，选择合适的大模型和超参数，将构建
好的机器人模型在公积金提取领域的相关数据在大模型进行训练。
■通过多轮训练，逐步优化模型的性能，提高其准确率和可用
性。
步骤三：系统集成
■用构造的高频问题问答对测试集，测试训练好的智能公积金
提取对话机器人模型，评估模型上线后的满足程度。
■设计并实现用户界面，使用户能够通过平台与机器人进行交
互。
■将机器人集成到一网通办市民服务平台上，测试机器人在平
台上的表现，优化其交互逻辑和用户体验。
■发布上线后，不断观察市民反馈，构造数据迭代模型，提高
机器人的智能化程度和功能覆盖范围。
通过以上步骤，小虎就可以利用大模型的Embedding和Fine-tun
e技术，将《公积金提取管理规定解读》转换为智能公积金提取对话
机器人，进而把普通用户的申请引导到线上，并协助他们完成整个
流程。
王伯长期在深圳居住和工作，他的户口在佛山市，但最近在惠
州市购买了一套房子。在购房过程中，好友提醒他可以使用深圳市
的公积金来提取一部分购房款项。然而，他之前从未办理过相关手
续，不知道该如何申请公积金提取。
幸运的是，小虎开发的基于ChatGPT的智能公积金提取对话机器
人已经上线，它可以帮助王伯了解公积金提取政策，并在办理过程
中为他提供辅助。王伯在一网通办市民服务平台上找到智能机器人
后，开始与机器人对话：
王伯：你好，我是在A市工作的B市人，刚在C市买房，能提取在
A市缴纳的公积金吗？
智能公积金提取机器人：您好，根据A市住房公积金管理中心的
规定，只要您在A市缴纳过住房公积金，就可以在A市提取公积金，
与您的户籍所在地或现居住地无关。
因此，即使您是B市人，在A市工作并缴纳了住房公积金，也可
以在A市提取公积金用于在C市购买房屋。您可以通过A市住房公积金
管理中心的官方网站或手机App申请提取。如有任何疑问，请咨询当
地住房公积金管理中心的相关人员，他们将为您提供详细的指导和
帮助。
王伯：好的，那怎么提取公积金呢？
机器人：您可以通过以下步骤来提取深圳市的住房公积金：
1.登录深圳市住房公积金管理中心的官方网站或微信小程序。
2.准备好相关证明材料，如身份证、购房合同、房屋产权证明
等。
3.根据要求在线上传证明材料，选择你需要的提取方式（一次
性提取或按月提取），并填写相关银行卡信息。
4.后台将根据证明材料进行资格审核。如审核通过，将受理您
的提取申请，您的住房公积金会被划拨至您提供的银行账户中。
需要注意的是，不同提取方式的具体操作步骤、提供材料可能
会有所不同，您需要仔细阅读住房公积金管理中心官方网站或微信
小程序提供的操作指南，以确保顺利完成提取过程。如果您有任何
疑问或需要帮助，请及时联系当地住房公积金管理中心的人工客
服，他们将为您提供详细的指导和帮助。
王伯根据智能机器人的指引，点开了线上申请入口，按照小程
序的指引，开始上传购房合同、身份证等，但过了一周，发现提取
要求被拒绝了，他再次打开智能公积金提取机器人，希望询问具体
原因。
王伯：我上周申请了公积金提取，为什么会审核不通过呢？
机器人：您好，您最近一次公积金提取审核不通过的原因是购
房合同不完整，请您检查上传购房合同的完整性。
王伯根据智能机器人的指引，立刻下载了之前上传的购房合同
扫描件，发现确实遗漏了最后的签字盖章页。于是王伯重新扫描购
房合同，再次在线上申请了公积金提取。最终，王伯按照机器人的
提示，成功申请A市公积金提取，得到了购房款项的支持。
同时，小虎在一网通办市民服务平台上，发现基于大模型的智
能公积金提取对话机器人上线后，可以帮助市民解决办理和申请过
程中的实际问题，公积金提取的人工工单量也下降不少。小虎准备
持续搜集线上反馈和迭代模型，为市民提供更加便捷、快速的智能
政务服务。
大模型在政府工作中的潜在应用机会和价值
据智研咨询发布的《2023—2029年中国电子政务行业市场发展
现状及投资策略研究报告》，2008年国内电子政务市场规模为740亿
元，而到2021年则已增长至3900亿元。在2008-2021年期间，中国电
子政务市场规模年复合增长率约为13.64%。电子政务市场所包括的
软件、硬件、网络设备及服务市场。2021年我国电子政务市场规模
为3900亿元中，其中软件占比为24%（928.6亿元），服务占比为3
0%（1186.4亿元），二者占比之和已超过50%。
大语言模型的出现将极大地提升电子政务的智能程度。通过智
能对话、数据分析、内容摘要等技术，政府机构可以构建智能化的
在线客服、智能问答系统，深度挖掘和分析公众反馈信息、舆情
等，提高政府服务效率和服务质量，为公众提供更好的在线服务体
验。此外，大语言模型还可以为政府机构提供更加个性化的服务，
让公众获得更加贴心的服务，同时帮助政府机构更加高效地解决问
题、提高工作效率等。大语言模型的出现将进一步促进电子政务市
场的发展，为政府机构提供更加高效的工作手段，提高政府服务效
率和服务质量，同时也提升公众对政府的信任感。
数字游民及个人IP工作应用
数字游民通常是指那些通过互联网和移动设备追寻自由、独立
和灵活的新型职业人群，他们可以在任何地点和时间进行自己的工
作。而个人IP则是指个人在社交媒体等平台上，通过内容输出和品
牌塑造来建立自己的个人品牌。
数字游民可以通过自己的工作和生活方式，成为个人IP的代
表。他们可以在社交媒体上分享自己的工作经验、旅行经历、生活
感悟等，吸引更多的粉丝和关注者，进而建立起自己的个人品牌。
同时，个人IP也可以通过数字游民的工作经验和生活方式来提升自
己的影响力和关注度，进而带动自己的商业价值。
想要成为追寻自由、独立和灵活的新型职业人群中的一员，需
要很强的自我管理能力、大量的时间和心力来输出有价值的内容，
还要不断提高自己的创新能力和竞争力，解决税务和版权等方面的
问题，实现持续稳定的商业价值和成功塑造个人品牌。
大模型如何解决数字游民及个人工作中遇到的问题
ChatGPT可以为数字游民和个人IP提供全方位的指导和帮助，协
助他们在自我提升、创作输出和团队组建的过程中，快速且稳健地
成长，同时培养稳固的粉丝群体和逐渐扩大影响力，以实现个人目
标和商业价值。ChatGPT能够提供的帮助，具体如下：
■ChatGPT可以为个人IP提供创作灵感和内容方向的建议。对于
个人IP的创作领域和主题，ChatGPT能够提供有价值的内容输出的思
路。此外，大模型可以帮助个人IP进行市场分析和评估，通过数据
剖析和趋势分析，快速把握市场热点、趋势变化和受众需求，协助
个人IP做出相应的调整和创作，以提高内容的质量和受众的认可
度。
■ChatGPT可以统计观众留言数据和爆款文章，为数字游民提供
当下热点的主题和话题，帮助数字游民及时调整自己的内容和营销
策略，从而抓住营销风口，增加视频的曝光和观看量，获得更多的
观众和粉丝。
■ChatGPT可以协助数字游民和个人IP建立自己的品牌形象。它
可以提供策略和技巧，帮助数字游民和个人IP更有效地利用网络资
源和社交媒体，建立起自己的个人品牌与独特化的个人形象。在此
过程中，ChatGPT能够提供一系列的工具和指导，例如品牌设计、推
广渠道、社群管理等，以提高数字游民和个人IP的曝光度，发掘潜
在客户，为其发展壮大打下基础。
当数字游民接到需要团队开展的工作时，ChatGPT还可以通过分
析工作类型和要求，提供人力资源相关的工作描述生成、简历匹配
筛选和面试总结评估，协助他们根据工作需求快速招募和组建团
队，在最短时间内找到最适合的人才。
以下是大模型在数字游民及个人工作场景中应用的示例。
35岁的阿雯刚从某互联网大厂离职，转变为一个数字游民。她
准备在小红书、视频号、B站上同步开始打造自己的个人IP。首先，
她需要准备一个拍摄脚本，讲述自己想要转变为数字游民的心路历
程。
阿雯：请为我生成一个小红书风格的文案，核心是介绍自己转
换成数字游民的心路历程，关键词包括“35岁”“大厂辞职”。
ChatGPT：【告别大厂，我35岁成为数字游民的自由之旅
】
今天想和大家分享我的心路历程——一个35岁辞去大厂工作，
投身数字游民生活的勇敢尝试。
之前，我拥有稳定的工作、高薪水，以及人们羡慕的社会地
位。可是，每天朝九晚五的生活让我感到窒息。我越来越觉得生活
失去了激情和向往。
就在我满怀困惑的时候，我无意间了解到了“数字游民”这个
概念。它让我看到了另一种生活可能。于是，我在35岁这个人生的
关键时期，毅然决然地辞去了大厂的工作，成为一名勇敢的数字游
民。
如今，我的办公室可以是咖啡馆、海边或者遥远的他乡。我可
以在任何地方通过网络完成工作，自由支配时间，过上真正的自由
生活。
回首过去，我不禁感慨万分。这个改变让我重新找到了生活的
激情和对未来的期待。虽然这条路并不容易，但我知道这正是我内
心所渴望的。
我想告诉大家，不要害怕改变，不要担心年龄。当你勇敢地迈
出脚步，你会发现自己的人生可以有无数种可能。35岁成为数字游
民，我找到了心中的自由天堂！
#大厂辞职# # 35岁# #数字游民# #自由生活# #人生改变#
阿雯看了一遍文案，感觉它虽然包含了一些小红书上常见的表
情包，讲述也比较符合自己的心路历程，但需要调整一点行文的内
容风格，于是她输入修改要求。
阿雯：根据以下特点，调整上一段生成的文案：小红书上，喜
欢称呼别人为刘亦菲、姐妹，喜欢称呼自己先生为队友。
ChatGPT：【告别大厂，刘亦菲们来听我35岁成为数字游民的自
由之旅】
姐妹们，今天想和大家分享我的心路历程——一个35岁辞去大
厂工作，投身数字游民生活的勇敢尝试。
之前，我拥有稳定的工作、高薪水，以及人们羡慕的社会地
位。可是，每天朝九晚五的生活让我感到窒息。我越来越觉得生活
失去了激情和向往。
就在我满怀困惑的时候，我无意间了解到了“数字游民”这个
概念。它让我看到了另一种生活可能。于是，在队友的支持下，我
在35岁这个人生的关键时期，毅然决然地辞去了大厂的工作，成为
一名勇敢的数字游民。
如今，我的办公室可以是网红咖啡馆、清澈海边或者遥远的他
乡。我可以在任何地方通过网络完成工作，自由支配时间，享受阿
姨带娃做饭的贴心服务，过上真正的自由生活。
回首过去，我不禁感慨万分。这个改变让我重新找到了生活的
激情和对未来的期待。虽然这条路并不容易，但我知道这正是我内
心所渴望的。
姐妹们，我想告诉大家，不要害怕改变，不要担心年龄。当你
勇敢地迈出脚步，你会发现自己的人生可以有无数种可能。35岁成
为数字游民，我找到了心中的自由天堂！
#大厂辞职# # 35岁# #数字游民# #自由生活# #人生改变#
阿雯获得文案之后，还希望拍一个视频，表达自己刚成为数字
游民的喜悦。
阿雯：帮我根据这个文案，写一个转换成数字游民身份的视频
脚本。
ChatGPT：
标题：【告别大厂，35岁成为数字游民的自由之旅】
时长：3：20
镜头1(00: 00-00: 10)
镜头从空中俯瞰一栋摩天大楼，配上旁白：“这里是我曾经拼
命打拼的地方——一家知名大厂。”
镜头2(00: 11-00: 20)
镜头切换至主人公在办公室的样子，一边忙碌着工作，一边看
着窗外。旁白：“每天朝九晚五的生活让我感到窒息，我渴望寻找
更多的可能。”
镜头3(00: 21-00: 30)
主人公在家中浏览关于数字游民的资料，眼中闪过光芒。旁
白：“在我最困惑的时候，我发现了数字游民这个概念，它为我的
生活带来了全新的视角。”
镜头4(00: 31-00: 40)
主人公与队友（先生）在家中交流，互相鼓励。旁白：“在队
友的支持下，我鼓足勇气，毅然辞去了大厂的工作。”
镜头5(00: 41-01: 20)
展示主人公在不同场景下工作的画面：咖啡馆、海边、山间
等。旁白：“如今，我的办公室可以是网红咖啡馆、清澈海边或者
遥远的他乡。我可以在任何地方通过网络完成工作，自由支配时
间，过上真正的自由生活。”
镜头6(01: 21-01: 40)
主人公在生活中享受阿姨带娃做饭的贴心服务。旁白：“这种
生活让我感受到前所未有的轻松和快乐。”
镜头7(01: 41-02: 20)
主人公与队友一起旅行、度过美好时光。旁白：“回首过去，
这个改变让我重新找到了生活的激情和对未来的期待。虽然这条路
并不容易，但我知道这正是我内心所渴望的。”
镜头8(02: 21-02: 50)
主人公面对镜头，分享自己的心得。旁白：“姐妹们，我想告
诉大家，不要害怕改变，不要担心年龄。当你勇敢地迈出脚步，你
会发现自己的人生可以有无数种可能。”
镜头9(02: 51-03: 00)
镜头拉远，主人公与队友在阳光下微笑拥抱。旁白：“请相信
自己，勇敢地去追求你内心的自由与梦想。或许有一天，我们会在
某个角落相遇，一起分享数字游民的自由生活。”
镜头10(3: 01-3: 10)
画面展示一段文字：“感谢一路支持的刘亦菲们，也感谢我的
队友。愿我们都能找到属于自己的自由与幸福。”
镜头11(3: 11-3: 20)
画面渐暗，主题曲响起，视频结尾。
这个视频脚本以主人公的视角讲述了从大厂辞职，成为数字游
民的心路历程，希望能够激发观众勇敢地追求自己的梦想，过上真
正自由的生活。
阿雯在拍摄了视频之后，ChatGPT还能根据不同平台的营销特
点，根据视频号、B站、YouTube上的内容调整，支持后续的文本改
写、翻译和热点主题推荐等工作。
大模型对数字游民及个人工作的潜在应用机会和价值
据统计，全球大约有3500万名数字游民，数字游民的平均年龄
为40岁，30多岁的人占全球所有数字游牧民47%左右。许多国家已经
加入并创建了专门的数字游民签证，数字游民在当地消费和服务上
消费，为当地经济做出贡献，并增加该国的GDP。据估计，数字游民
每年消费达7870亿美元，这是各国可以利用的巨大经济机会。生成
式AI就是一种非常有用的工具，它能够生成自然语言、图像、音频
等多种形式的内容，并且已经被广泛应用于广告、电影、音乐、小
说等领域。以文章撰写为例，生成式AI可以利用先进的NLP技术和深
度学习算法，生成类似于ChatGPT的自动回答或者提供灵感，使作者
不再手忙脚乱。而在个人IP打造和内容生产方面，生成式AI也能够
分析用户数据、识别客户需求、洞察市场趋势等，辅助进行精准的
内容营销和推广活动，提升IP曝光和影响力。这将为我们的数字生
活带来更多的惊喜和乐趣，提升数字游民内容创作、资讯获取和IP
打造的效率。
知识工作型应用总结
知识工作者是指那些从事知识密集型工作的人，包括教师、人
力资源专员、律师、科学研究人员、政企管理人员、程序员、工程
师、医生、数字游民，等等。随着信息技术的发展和知识经济的兴
起，知识工作者将在现代社会扮演越来越重要的角色。
拥有广泛知识和技能的大模型智能应用，首先能够成为知识工
作者的个人辅助工具。例如，根据知识工作者的领域和主题，提供
创作灵感、内容方向的建议和输出更有价值的内容；可以快速生成
文章大纲、段落和关键词等信息，为他们提供语言翻译、语法检查
和拼写检查等文章辅助创作功能等。
其次，当大型语言模型在特定领域的应用实践成熟，可以进一
步与私有数据库进行整合，嵌入企业或组织的知识工作流程中。基
于高度可信的专业信息和领域知识，这样做可以实现支持高安全性
的文档库文件问答和内容检索功能，以及招聘面试前的脑机协作流
程等，从而提高工作效率。大型语言模型的应用还可以在某些环节
调整岗位的职责分工，使得企业和组织高效利用大模型提供的生产
力，并进一步推动行业和社会的发展。
最后，当大模型的多模态能力充分释放，并通过算法、数据、
人类辅助等方式将错误信息掌握在可控范围内时，可能对更多知识
工作型行业可能产生颠覆性的创新。例如，教育行业的一对一个性
化教学，法律行业的个人律师顾问，或者领导力一对一职场教练
等。
11 企业业务型应用
企业通过各种生产和经营活动来创造物质财富，提供满足社会公
众物质和文化生活需求的产品和服务。大模型在企业生产经营活动中
的应用，可提升企业在市场营销、售前、售后、产品设计、采购、生
产、商业分析和企业管理等各个环节的生产效率，这不仅帮助企业在
市场竞争中获取更多的优势，还对社会生产力和社会经济发展起到重
要的推动作用。
接下来，我们以一家快速发展的跨境电商公司为例，介绍大模型
在企业中的典型应用。这家电商公司计划在今年不断扩大业务范围，
提高市场份额，并对市场营销、售后服务、产品设计以及商业分析等
环节进行优化。预计在接下来的几个月中，该公司将展开以下工作：
■加强市场营销，改进和升级产品文案，使其更符合市场和人群
需求。
■加强售前、售后、辅助下单等环节对客户的服务和沟通效率，
提高客户转化率。
■对产品进行改进和升级，包括但不限于产品设计、性能、易用
性等方面。
■利用先进的商业分析和效率工具，深入挖掘数据以提升业务决
策水平。
市场营销
市场营销的典型痛点
市场营销可帮助企业创造竞争优势，通过以客户/用户需求为中
心，形成自己的经营特色，企业由此可以保障自身的市场地位。小胡
是最近从普通销售转岗成为公司的市场营销和产品运营经理，他当前
的工作面临以下痛点：
■市场同质化。市场竞争日益激烈，产品同质化现象比较严重，
如何通过营销手段在激烈的竞争中脱颖而出，成为企业需要面对的一
个问题。
■受众分散。消费者的喜好和需求日益多样化，不同年龄、性
别、地域、文化背景的消费者都有不同的需求和心理，如何有效地将
营销活动针对不同受众进行定制，是企业需要解决的问题。
■跨文化沟通。企业如果要开展跨国营销，需要考虑如何在跨文
化背景下有效传达信息，保证翻译的准确性和质量，避免因表述不清
产生不必要的误解。
■品牌影响不足。跨境电商出海过程中，品牌传播范围和影响不
足，那么广大潜在用户很有可能不知道公司的存在，也不知道公司提
供的产品和服务。这样一来，很难吸引并满足不同地区的用户偏好，
也难以留住老客户的忠诚度。
大模型如何解决市场营销中的问题
(1)文案生成。大模型可以支持跨境电商产品的运营，促进产品
在国际市场的推广。大模型可以撰写个性化的产品文案，充分考虑不
同文化和市场的特点，以确保信息传达的准确性和有效性。同时，大
模型还可以支持对多种语言进行翻译，方便企业多种渠道拓展市场，
提高在国际市场的品牌知名度和商品销售额。
■产品文案撰写：撰写具有吸引力的广告和促销语言，并根据不
同市场的文化偏好进行个性化的调整。
■跨文化沟通：帮助市场营销人员熟悉不同国家和地区的商业礼
仪和文化，从而更好地与国际客户和供应商进行跨文化沟通，生成符
合邮件、即时通讯(IM)、对话等形式的内容，建立良好的商业关系。
■外语翻译和润色：帮助翻译商品信息、产品文案，并根据不同
的文化偏好进行个性化的调整。
小胡在把商品推向国际市场的过程中，不仅要掌握基本的外语沟
通技巧，还需要广泛阅读相关信息，了解不同国家的市场特点和文化
偏好，将不同国家和地区的习俗与传统融入到产品营销文案中。
以下是大模型在市场营销场景中文案生成应用的示例。
在ChatGPT bot的界面，小胡可以以聊天交互的方式，使用ChatG
PT提供的服务，以产品文案生成为例。
首先，我们向ChatGPT阐述当前的角色定义(Role)。点明当前的
业务范围及业务目标，然后进一步描述当前业务的细节，框定ChatGP
T大致的任务范围。最后，增加一个问句确认ChatGPT是否已经进入到
设定的背景和角色当中。
小胡：我们公司是一个跨境大码女装品牌，希望延伸人们对色
彩、自然、情感共通的热爱与表达，分享内心生活的感动和喜悦。当
前我们准备研发新一季的秋装，产品包含T恤、外套、裤子和裙子
等，当前品牌主要客群是北美40岁以上的女性。我将提供产品运营日
常工作中遇到的一些实际需求，可能涉及编写具体的产品宣传文案、
进行数据分析、分析客户具体的意图并提供有效的回复等。你能够扮
演这样的一个产品运营和我对话吗？
ChatGPT：当然可以，我很乐意帮助你。请问你有具体的问题或
需求吗？我可以为你提供一些有用的建议和解决方案。
Tips：可以将公司基本信息、愿景等内容放到角色定义中，帮助
ChatGPT更好理解这个角色。
在角色定义完成后我们就要开始干活了。在ChatGPT在进入角色
定义后，我们可以为其提供了更细致的“任务背景”，再定义“任务
目标”，同时试着让它为我们提供一个产品宣传文案的框架。
小胡：现在，作为一个产品运营，你需要去编写我司新款秋装的
宣传文案，用敏锐的目光去发现改进点，并提供建议。请为我提供一
个产品宣传文案的框架模板，模版要涵盖产品的不同方面，使用逻辑
严密且清晰的语言，有优雅、清晰、易于理解的结构。这是一件新款
的秋装外套，请为我生成这款外套的宣传文案，本季度的重点是强调
自然和情感的共通。
ChatGPT：当然可以，以下是一个基本的宣传文案模板，包括五
个部分：
引言：吸引读者的注意力并简要介绍产品的亮点。
描述产品特点：介绍产品的各种特点和优势。
描述适用场景：描述产品适用的场景和人群。
呈现品牌文化：描述品牌文化和愿景，与产品特点联系起来，创
造品牌形象。
结语：鼓励读者购买。
接下来是本季度秋装外套的宣传文案模板：
引言：这件外套既经典又新颖，是秋季必备的单品。我们的设计
团队将自然美学与优秀品质结合在一起，致力于为您提供优雅、高品
质的时尚选择。
描述产品特点：这款外套的面料采用高质量纯羊毛材料，舒适、
柔软、保暖，同时呈现自然的色彩和纹理。颜色、材质和线条的完美
结合使这款外套成为一种即使在最冷的天气里也能保持温暖，时尚感
和舒适的选择。
描述适用场景：外套设计保暖性强，适合在寒冷的季节穿着，能
够搭配各种配件轻松打造出典雅女性的造型，适合多种场合，如商务
聚会，晚宴，这件外套让您成为人群中的亮点。
呈现品牌文化：我们始终坚信，最好的设计来自自然，这是整个
品牌的核心价值观。每一件产品都在设计、生产和销售环节的质量管
理体系中，以产品结构的稳定性驱动和符合健康和环保标准的生产过
程为基础。通过我们的外套，您可以感受到品牌背后的美学和创新精
神。
结语：这个外套将成为您在秋季的新伙伴，让您在任何场合都变
得时尚而自信，尤其是在寒冷的季节里，让您的时尚之路更加美好。
我们希望能够在您的衣柜中留下美好瞬间的印记，期待您的购买。
接着，根据ChatGPT提供的段落框架，填充商品的详细信息、具
体产品受众和营销渠道等细节，最终生成一篇营销文案。
小胡：这件新款的秋装外套，成分是95%的羊毛和5%的锦纶，高
羊毛的天然材料，展现出面料低调内敛的哑光质感。外套颜色是米
色、驼色、白色、灰色，全部为低饱和度的淡色，整体简洁清爽又不
失质感。目标客群北美40岁以上的女性，同时也关注大教堂和福音歌
手。请在外套的宣传文案中为我强调这些产品细节。
ChatGPT：当然可以。以下是针对这样一件新款秋装外套的宣传
文案，包括五个部分：
引言：我们献上一款兼具优雅与舒适的外套，采用高质量的95%
羊毛和5%锦纶，呈现出低调且内敛的哑光质感。本款外套色彩简约清
爽，是秋季必备的单品。
描述产品特点：这款秋装外套的面料采用精选高含量纯羊毛，以
及最新的制作工艺和设计型号，为您提供优质的暖度和适宜的保温
性。同时，由于使用低饱和度的淡色系调色板，外套具有高品质的质
感，整体风格简洁清爽。
描述适用场景：本款外套适合北美地区40岁以上女性穿着，契合
大教堂和福音歌手等特别人群的关注度，也非常适合商务、聚会、晚
宴等各种场合的穿着，让您在舒适中展现优雅风范。
呈现品牌文化：我们相信，美好设计来自自然的材料与灵感，这
是品牌核心价值观所在。在设计和生产本款外套时，我们完美结合了
这一价值体系和现代科技制作工艺，并承诺在质量管理和环保制度方
面达到业内最高标准，致力于打造更加优质、可持续、绿色的时尚品
牌。
结语：这款外套将成为您的秋季必备单品，让您在任何场合下都
能展现出自己的优雅气质。我们期待这款产品能够为您带来无数个美
好瞬间。赶紧购买吧，卓越品质与温暖陪伴您度过这个秋季！
Tips：此处给予商品的基本参数、受众及最大的亮点，方便Chat
GPT融合整体框架和基本信息。
最后，若本次生成的产品宣传文案不满意，还可以进行多次尝试
——或融合多版文案中的细节或修改点，或要求ChatGPT根据不同地
区的文化习惯，生产多版本的终稿文案。
小胡：我们还准备开辟欧洲作为此女装的第二市场，为我再生成
一份针对欧洲女性的营销文案。
ChatGPT：欧洲女性引领时尚潮流，我们的新款秋装外套既符合
她们的品位，又强调了细节的质感。这款外套由95%的天然羊毛和5%
的锦纶混合而成，其羊毛材料的天然柔软、柔和的哑光面料和低饱和
度淡色，都将为佩戴者带来欧式时尚感和深厚的文化底蕴。
我们的新款秋装外套颜色包括米色、驼色、白色和灰色，适合各
种场合，无论是正式的晚装还是随意的休闲外套都很合适。无论你是
聚会、外出散步还是商务洽谈，都能让你从容自信、大气优雅，并且
得到别人的注目和赞美。
不仅如此，对于在欧洲关注大教堂和福音歌手的女性，这款外套
更可作为自信心的象征。欢迎你们享受这款高品质时尚外套的奢华，
轻松展现出你们无可比拟的时尚风格。
(2)插件辅助品牌建设。ChatGPT当前的用户数量已经超越1亿，
他们在页面上每天提出数以亿计的问题。
如果在ChatGPT开发并上架一个垂类电商购物咨询的插件，可以
有效支持海外潜在用户在ChatGPT聊天的过程中，通过插件进一步了
解这一类商品的各种细节，同时也有机会介绍某些品牌的品牌故事、
产品介绍、宣传理念等，提高品牌传播范围和影响力。
用户在使用前，必须在ChatGPT UI中手动激活开发的插件。当用
户提出跨境电商产品相关问题时，如果模型判断其与插件主题相关，
可能会选择从公司的插件请求调用API。
垂类电商插件能根据用户的问题和描述，提供商品信息，推荐最
适合的商品，综合商品其他客户的历史评价给出质量评分和摘要，同
时结合客户所在的地点预估物流时长。
大模型会将电商插件API输出的结果合并到对用户的响应中。
用户在获得插件API内容后，可继续通过对话与插件进一步交
互。比如直接将推荐的商品加入他的购物车中，或者跳转到插件推送
的具体商品网址以进一步浏览的商品和描述详情。这将是一个新型的
跨境电商品牌渠道。
售前沟通
售前沟通的典型痛点
跨境电商公司需要从不同的渠道获得大量的订单，这些渠道包括
亚马逊、eBay、Shopify等平台，以及搜索引擎、社交媒体、新闻媒
体等。然而，由于每个渠道的语言类型、用户表达、购买偏好等方面
都有所不同，需要对这些文本内容进行分析和处理，以便为公司提供
更准确的商机信息。
在这种情况下，售前沟通场景中存在以下几个主要痛点：
■邮件内容质量参差不齐、规范化程度低、个性化不足。不同渠
道的数据质量、数据格式、结构等方面可能存在差异，需要人工对这
些邮件和数据进行整合和处理，这可能会导致数据缺失或错误的情
况。在无法获取准确数据的情况下，许多销售人员使用模板话术来回
复客户询问，但这种做法难以满足客户的个性化需求，容易让客户认
为销售人员没有花费足够的精力去了解他们的具体情况和需求，导致
销售机会流失。
■在线客服成本高、耗时长。面向国际市场的跨境电商公司，若
使用传统的客户呼叫中心模式，需要招聘大量的多语种客服员工，不
仅耗时费力，而且成本较高。同时因时区分布，难以为客户提供7*24
小时无间断服务，使得部分客户等待时间过长。
大模型如何解决售前沟通的问题
(1)邮件生成。大模型通常可通过归纳翻译客户邮件信息、编写
机器人流程自动化(RPA)代码和生成个性化回复来完成场景需求：
■归纳翻译客户的邮件信息：ChatGPT可以帮助销售人员轻松地
收集和整理客户的邮件信息，并提供相应的翻译服务，以确保不会错
过任何邮件信息。特别是在处理国际客户或多语种邮件时，ChatGPT
可以帮助销售人员消除语言障碍，快速地理解和回复客户邮件，从而
提高贸易的效率和质量。
■编写RPA代码自动化工作流程：ChatGPT还可以为销售人员生成
RPA代码，以便自动化一些常规或烦琐的工作流程。例如，自动化数
据处理、报告生成和文档分类等，这些方面的工作自动化将使销售的
工作更加高效和精确，减少工作压力和错误率。
■生成个性化回复邮件：ChatGPT可以根据销售的需求和客户的
邮件内容生成个性化的回复邮件。同时，ChatGPT还能为您提供相关
的邮件编写建议，以帮助您更好地应对客户的问题和需求。这种个性
化的服务将帮助企业建立与客户之间的良好关系，从而增加客户的忠
诚度，提高订单转化率。
下面重点介绍大模型在售前沟通场景中邮件生成应用的方法。
阿明是跨境电商的销售人员，今天他收到了一封英文客户来信。
阿明打开Outlook上的copilot工具，希望能为他总结一下邮件内
容，以便更好地理解客户的意图。
阿明：请用中文总结以下邮件的客户意图。
Dear Sir，
……（此处邮件内容省略）
Best regards
ChatGPT：这封邮件的客户意图在于询问跨境电商公司的夏季T恤
款式。客户对该公司的夏季T恤款式产生兴趣，并期望公司给出详细
信息和反馈，以便他们做出购买决策。客户希望通过此邮件向公司表
达她们的关注和意图，并期望通过公司回复更详细地了解公司的产品
和服务。
这个季度T恤的销量比较好，阿明希望筛选一批库存超过100的T
恤给到客户，公司当前已经接入了UIPath的RPA系统，但他不会写UIP
ath的RPA代码，于是他打开ChatGPT，打算生成一份。
阿明：你能为我写一段UIPath的RPA代码，用于查询商品数据库
中库存超过100件的夏日T恤吗？
ChatGPT：当然可以，以下是示例UIPath的RPA代码，用于查询商
品数据库中库存超过100件的夏日T恤：
·打开数据库连接：
Open Connection Activity：
ProviderName：Microsoft.ACE.OLEDB.12.0
DatabasePath：“C：\\Inventory\\Database.accdb”
·执行查询：
Execute Query Activity：
SQL：“SELECT FROM Products WHERE Product Name=’夏日T
恤’ AND Quantity>100”
·循环遍历结果，输出库存数量：
For Each Row Activity：
DataTable：OutputDataTable
RowIndex：row
Write Line Activity：
Text：“夏日T恤的库存量为“+row(“Quantity”).ToString
()
此代码可以打开名为Database.accdb的数据库连接，查询夏日T
恤的库存量是否超过10，如果超过10件，就在控制台输出库存量。
请注意，此代码仅供参考，实际使用需要根据具体的数据库结构
和需求进行调整。
阿明将代码粘贴到RPA机器人中，机器人为阿明查询到了公司还
有3个符合要求的本季T恤款式。阿明注意到这是一个第一次询价和接
触的中东客户，他希望将客户的文化习惯、交流特点与查询结果融合
在一起，生成一封个性化的回信。
阿明：当前查询到了3款T恤，请针对这位中东客户的文化习惯和
交流特点，为我生成一份回复邮件。
ChatGPT：
Dear Sir，
We hope this message finds you well. We are excited to h
ear that you are interested in our T-Shirt styles for the s
ummer season. In response to your inquiry，we offer a wide
range of T-Shirt styles that are both comfortable and styli
sh.
Please find below a list of our top 3 T-Shirt styles for
the summer season：
1.Classic Graphic T-Shirt in White and Black
2.Minimalist Design T-Shirt in Light Pink and Baby Blue
3.Sporty Style T-Shirt in Lime Green and Charcoal Grey
At AA company，we understand that cultural differences
may impact the design and style preferences of our customer
s. As such，we have designed our collection to offer a vari
ety of options to suit different cultural and personal pref
erences. We have incorporated a range of colors，designs，a
nd sizes to ensure that we can provide a perfect fit for ev
eryone’s unique body type and style preference.
We take pride in providing our customers with high-qual
ity T-Shirts that last beyond the season. Our T-Shirts are
made from premium materials to ensure durability and longev
ity，so you can enjoy them for a long time.
We invite you to visit our website www.aacompany.com to
view our full collection. If you have any specific styles o
r questions，please do not hesitate to contact us. Our cust
omer service team is here to help address your concerns and
provide you with more information.
Thank you for considering AA company for your summer T-
Shirt needs. We look forward to hearing from you soon.
Best regards，ChatGPT for AA Company
(2)智能语音。随着技术的不断发展，ChatGPT利用NLP技术可以
实现更加智能的语音应答。这意味着，用户可以直接通过语音或者文
字传达所需，让ChatGPT自动处理客户需求、投诉等问题，无需人工
介入便可向客户提供更快、更准确的答案，不必像过去那样按照多层
级导航菜单进行复杂的输入选择才能获得信息，大大提高了客户的满
意度和服务效率。
此外，ChatGPT还可以同时兼顾多语种理解、语境分析和情感分
析，越过语言障碍，从客户的上下文、表达方式、表达用语中获取更
多信息，识别客户的情感状态，从而更好地加速服务，或给客户提供
情感支持，缓解客户的不良情绪。
最后，ChatGPT可以支持7*24小时无间断的用户意图理解服务，
并提供智能、快速、高效的解决方案。ChatGPT可以实现24小时全球
全自动服务，不受时间、地点限制，可以理解客户所需的服务或问
题，给出具体的解决方案或提供相关信息，大大缩短客户等待时间，
提升客户满意度。
◎图3.3 智能语音引擎的运行机制
跨境电商公司的智能语音客服系统，通常由ASR识别模块将语音
转为文字，由多语言意图识别模块、多方向的客服模块和答案融合模
块组成智能语音引擎，最后由TTS语音合成模块将回答转为语音支持
客户应答。
ChatGPT可以在意图识别、知识问答、任务执行及闲聊这几个模
块发挥作用，下面重点介绍利用大模型实现意图识别和知识问答的方
法。
客户在浏览商品或选购前后，都会提出一些问题，此时需要研发
一个分类模型，判断客户提出的问题属于哪一种意图，给予客户哪些
引导和回复更加合适，部分示例如图3.4所示。
◎图3.4 多语言意图识别模块分析示例
由于电商领域的意图识别存在许多专业特点，ChatGPT作为一个
通用大模型，不一定能在专业领域做到精确的识别，因此，企业可以
使用私有数据进行监督微调训练（即大模型预训练之后的第二阶段训
练，详见技术篇），使模型能够更准确地识别和理解电商领域的多语
言短语和语音，定向提升高频头部意图的分发效果，也方便后期跟随
市场的拓展，拓展智能语音新增支持的语种、产品和服务等。
以下是大模型在售前沟通场景意图识别和知识问答应用的方法。
在旧客服系统中，因上游ASR错误、分发模块技术局限、意图识
别模块效果一般，会产生10%的分发错误case（例如用户说“收到货
发现不能贴身穿，怎么办”，应该属于“退货询问”，结果被系统误
识别为“商品询问”），从而给用户返回错误的沟通内容，引发用户
投诉。软件工程师康康在考虑到意图识别模块的精确性和可拓展性
后，他准备通过ChatGPT-3.5-turbo的微调功能来优化意图识别的分
类效果。
微调工作分为4个阶段：
第一阶段：环境配置和数据准备。准备微调训练相关的语料，训
练数据主要由“用户提问+意图分发”的标签构成，例如：
{“prompt”：“收到货发现不能贴身穿，怎么办？”，“compl
etion”：“售后-退货询问-消极”}
{“prompt”：“¿Podría ayudarme a recomendar algunos pr
oductos populares？«，«completion»：«售前-商品询问-积极”}
每类标签组合最好超过20条数据，准备的训练数据量最好超过20
0条以上。
第二阶段：数据加载和微调模型阶段。将准备好的训练数据交给
IT算法同学，由算法同学选择不同价格、大小的基础模型进行训练。
第三阶段：数据加载和微调模型阶段。计算各个分类的精确率(P
recision)、召回率(Recall)和F1值（具体计算公式见详细操作流
程），验证模型微调前后的效果收益（微调带来了多大的指标增
长），并回归测试新模型是否解决旧系统中的痛点case。
第四阶段：上线应用阶段。微调模型服务有收益，且上线后，持
续观察智能语音系统的意图分发模块收益。当分类指标下降时，及时
分析痛点case，判断是否需要启动新一轮微调。
康康在微调了意图分发模型后，还需要进一步建设智能问答系统
的知识问答模块。为了支持多语言文本的快速匹配计算，ChatGPT还
可以提供一个嵌入(Embedding)服务，将文本转化为一个向量，快速
支持文本检索、查找和匹配相关功能。在售前场景中，康康在用意图
分发模型判断了用户提出跨境发货政策、退货要求等的意图分类后，
还可以继续使用嵌入功能，从电商企业私域知识库中获取最符合用户
意图的专业知识回复，完成“用户提问-意图识别-在知识库中搜索最
相似的答案-用户回复”的闭环。
以下是一个知识问答应用例子。
客户问题：I’m sorry to say that I’ve received the good
s but I’m quite disappointed with them. I would like to kn
ow about your darn return policy！
通过意图识别模型获得客户问题的类别，跳转到知识问答模块：
环节-售后；意图-退货询问；情绪-消极
康康将客户问题输入到嵌入(embedding)模块，获得文本向量作
为输入，检索企业知识库：
检索到了以下6条跟客户问题相关度较高的内容。
将客户原始问题、检索到的相关知识库内容拼接成新的Prompt输
入给ChatGPT：
prompt= """Answer the question as truthfully as possibl
e using the provided text，and if the answer is not contain
ed within the text below，say “I’m sorry，I don’t know.
You can click here to contact our customer service represen
tatives for assistance.”
Context：
1.We have a 7-day free return policy，which means you h
ave 7 days to apply for a return after receiving the goods.
2.To be eligible for a return，your product must be in t
he same condition as when you received it，without any wear
or use，with tags attached and in the original packaging. Y
ou also need a receipt or proof of purchase.
3.If you receive a defective or unsatisfactory produc
t，please take a photo and contact our customer service sta
ff first. We will tell you the next steps of the return pro
cess and ensure that your refund and return are properly ar
ranged.
4.If your return is accepted，we will send you a shippi
ng label for the return，as well as instructions on how and
where to send the package.
5.Sorry，we do not accept items shipped back to us with
out prior request for returns.
6.We will notify you once we receive and inspect your r
eturn，and let you know if the refund is approved. If appro
ved，you will receive the refund automatically via the orig
inal payment method. Please note that your bank or credit c
ard company may require some time to process and mail the r
efund.
Q：I’m sorry to say that I’ve received the goods but
I’m quite disappointed with them. I would like to know abo
ut your darn return policy！
A："""
基于ChatGPT接口请求后，最终回复：
If you receive a defective or unsatisfactory product，p
lease take a photo and contact our customer service staff f
irst. We will tell you the next steps of the return process
and ensure that your refund and return are properly arrange
d.
售后服务
售后服务的典型痛点
当买家需要选择一件衣服时，他们需要考虑许多方面的问题，例
如风格、材质、尺码、颜色、品牌等各种因素。同时消费者对售后的
物流、反馈也影响着跨境电商公司的口碑和复购率。售后服务中常见
的痛点包括：
■不及时的响应。当消费者遇到售后问题时，如果不能及时得到
响应，会增加他们的不满意度，可能会让消费者放弃维权，甚至失去
忠诚度。
■商品质量担忧。当面对复杂信息时，很难做出最终的决定。尤
其是在没有切身经验和真实用户的反馈之前，买家往往感到非常困惑
和不安。
大模型如何解决售后服务中的问题
作为一个帮助助手，ChatGPT可以解决以下关于售后服务、用户
评论摘要和关键词提取的问题：
■售后服务——ChatGPT可以帮助解决客户的问题并提供售后支
持。例如，通过问答功能提供有关产品的解释和解决方案，以及在必
要时安排退货和换货等。
■用户评论摘要——ChatGPT可以分析和摘要大量的客户评论和
反馈信息，以便立体地、全面地了解用户对产品的观感。这些评论汇
总可以用于迭代产品，改善产品和提高客户满意度。
■关键词提取——ChatGPT可以帮助将大量文本提取并分类到更
有意义的信息。在处理产品或服务评论中，可以利用关键词提取功能
找出重要的意见，然后将这些意见集结到一个汇总摘要中。
跨境电商公司需要通过真实用户反馈和评论，提炼出易于阅读和
理解的亮点内容，涉及服装的尺码、面料、版型、风格等方面，为购
买者提供有用的参考信息。同时，面向多款服装，生成面料舒适、版
型合适、颜色鲜艳等商品亮点，支持客户根据自己的关注点进行过
滤，更快地找到符合自己需求的产品。
下面重点介绍大模型在售后服务场景中用户评论摘要应用的方
法。
晓晓是跨境电商公司的售后专员，她负责每季度新产品上市后售
后数据统计、商品评价反馈、统计和输出客退质量报告。在春季产品
上新之后，客户在短时间之内产生了大量的评论，晓晓需要从海量真
实用户评论中提取出最易于阅读和理解的亮点摘要，生成商品评价报
告。
晓晓当前从各个渠道，搜集到了一份多语言混杂的客户评论反馈
信息。
晓晓准备用ChatGPT分析一下，客户们对这次春装西装的评价。
晓晓：当前你是跨境电商的一个高级售后专员，以上是获得的新
季度西装抽样客户评论反馈信息，请总结以上客户评论中，对西装最
满意的点和不满的点。
ChatGPT：
满意的点：
·质量好、细节做得好
·价格适中、质量豪华
·喜欢颜色和款式
·适合春季穿着、舒适、轻便
·良好的设计、适合不同风格和场合
·优秀的面料、柔软、透气、不易皱
·大部分人都赞美这个西装
不满的点：
·尺码偏小或偏大
·物流时间过长
·个别人感觉太紧或太松
晓晓：参考以上回复，下一季秋装设计时应该延续的优点和避免
的缺点是什么？
ChatGPT：延续的优点：
·细节做得好、面料质量好
·合适的价格、奢华感
·设计简单而优雅、适合多种场合
·舒适、轻便的穿着体验
避免的缺点：
·尺码不精准、过大或过小的问题
·物流时间过长的问题
·面料过于松软或过于硬挺的问题
·风格过于紧贴某一类型群体的问题，应注意扩大目标用户群体
·个别人感觉太紧或太松的问题，需要更好的尺码套装设计来解
决这一问题。
买家从真实用户评论中，可通过摘要快速发现每款大码女装的亮
点——细节做得好、奢华感、设计简单而优雅，等等。这些亮点摘要
帮助买家告别了信息壁垒，获得了更多选择空间，也就让卖家从消费
者那里获得更多信任。晓晓完成报告编写的时间，也从3天降至0.5
天，大大提升了她的工作效率。
产品设计
产品设计的典型痛点
电子商务市场的变化迅速，产品迭代周期较短，竞争相当激烈。
电子商务产品设计团队需求设计师在市场需求、用户体验以及趋势变
化中迅速且高效地推出创新的设计和产品，以满足客户需求并应对市
场竞争。产品设计过程中常遇到的挑战包括：
■高昂的个性化定制成本。若设计师团队希望根据不同市场和客
户需求来设计和定制个性化产品，他们需要适应各种不同的观点，手
动调整和反馈设计草稿。这不仅可能限制设计的个性化，还会增加定
制成本。
■创新思维的困难。在大数据时代之前，设计团队需要依靠自身
经验和想象力来产生新的设计思路和概念。这可能会受到个人经验和
主观偏好的影响，导致难以产生独特和创新的设计思路。
■低生产效率。设计中的每一个改动都需要设计师手动制作和处
理大量的设计原型和概念，消耗大量的时间和精力，从而降低生产效
率
大模型如何解决产品设计中的问题
芝芝是一家电商公司的产品设计师，她的目标是为客户提供最好
的产品体验。热爱时尚和创意设计的她最近策划了一个用户设计个性
化图案的T恤产品。这个想法的核心在于为客户提供全新的创意方
式，赋予他们更多的设计自由度，打造真正独一无二的T恤。
ChatGPT可以用于生成设计草图或提供有关设计决策的关键词，
以便客户调整想要放到T恤中的元素。此外，ChatGPT还可以和AI图像
生成软件（如Midjourney、Stable-Diffusion等）结合起来，生成T
恤的设计图，让不会专业设计软件的普通客户，也可以亲自设计一件
属于自己的T恤，展现出创意和个性。
芝芝将通过最新的AI技术——ChatGPT和Midjourney，为客户提
供强大的辅助设计支持。客户提交他们自由输入关键词和想法，随后
设计师使用ChatGPT和Midjourney辅助生成T恤具体图案返回给客户确
认。这样一来，客户可以通过设计师快速的反馈，挑选获得一件个性
化T恤，更快更好地表达自己的创意。
下面重点介绍大模型在产品设计场景中个性化设计应用的方法。
(1)个性化设计。首先，芝芝获得了客户提供的关键词：“我想
要一件自然有活力的T恤。”在开始传递客户想法之前，芝芝先向Cha
tGPT阐述当前的角色定义。点明当前用户想要设计的业务范围及业务
目标，然后进一步告知当前ChatGPT业务的细节和大致的任务范围，
便于输出对T恤图案的描述。
芝芝：现在你是跨境大码女装品牌公司一个优秀的视觉设计师，
当前需要设计一款小众新颖的T恤，希望它看起来延伸着人们对色
彩、自然、情感共通的热爱与表达，分享内心生活的感动和喜悦。我
该如何描述T恤的细节需求。
ChatGPT：
您需要描述T恤的细节需求，以确保视觉设计师可以为您创造出
符合您需求的服装。以下是一些提示：
1.主题：首先，您需要确定T恤的主题是什么。你可以考虑使用
自然元素，例如花朵、树木、动物或者其他具有自然特征的元素。此
外，您还可以考虑使用抽象或图形图案等非自然元素，但是需要确保
它们能够吸引人们的注意力并传达出您希望传达的情感和信息。
2.颜色：您还需要确定T恤的颜色。颜色对服装的整体视觉效果
有着至关重要的影响。你可以选择颜色鲜艳的鲜艳色调，或者是柔和
的暗色调，以便于传达出所选的主题和情感。一般为了更好地吸引眼
球，建议选用鲜艳的、对比强烈的颜色。
3.款式：您可以考虑使用各种款式的T恤来呈现您希望传达的主
题和情感。如圆领、V领等。其中V领较为适合女性。建议您要选种适
合自己小众品牌风格的款式。
4.字体和文字：如果您希望在T恤上表达些什么话，文字也是一
个重要的元素。您需要确定文字和字体的风格、大小和布局。选择字
体清晰且特殊的字体可以帮助确保信息能够清晰地传达到观众。
总之，您需要在视觉设计师中表达出您对于小众品牌服装风格的
期许，同时注重那种不常见的创意。不仅需要真实感，还需要独特
性。
在完成了角色设定后，可以根据ChatGPT给出的框架，挑选一些
符合客户想法描述，同时让ChatGPT在已有关键词的基础上，给出一
些联想出的描述和意向。
芝芝：T恤的主题是活力且自然，核心是抽象的花朵与树叶，颜
色是柔和的莫兰迪色，T恤的款式是圆领，不包含文字。能在关键词
的基础上，增加更多的联想和描述吗？
ChatGPT：
当然，我很乐意再提供几个联想和描述，以帮助您更好地描述您
所需要的T恤细节：
1.真实感：您可以在花朵和树叶图案中体现出真实感，加入细节
元素，如花蕾、叶子脉络等等。这可以帮助确保T恤看起来更加自然
而真实。
2.色彩搭配：因为您选择了柔和的莫兰迪色系，您可以考虑在色
彩上进行更多的搭配。例如，您可以将捕捉到的花朵颜色用作T恤的
主色调，并在图案中加入绿色和深紫色等颜色以增强深度和层次感。
3.纹理：您还可以在T恤上创造出纹理效果，以增加视觉上的趣
味性和质感。您可以添加自然元素，如木纹或石纹效果，并在花朵和
叶子上添加褶皱或纹理细节，以使设计更具层次感。
4.轮廓：您可以使用更有趣的图案和线条来定义T恤的轮廓或形
状。例如，您可以使用流线型或波浪形线条来突出花朵和叶子，以引
导观众的视觉焦点，使设计更有趣，并增强T恤的美感与气质。
5.合适性：最后别忘了衣服整体的合适性，花朵和叶子图案也需
要考虑在T恤上的合适位置与大小，不仅能完美展示设计的思路，也
能让人们穿着更加自在。
根据之前的描述，缩短成关键词和短语
芝芝：总结一下当前T恤的设计，给出一些关键词和意向。
ChatGPT：根据您的描述，我总结了当前T恤的设计如下。
1.主题：自然元素，主要包括抽象花朵和树叶
2.风格：富有气质、柔和自然，给人一种深度、层次和宁静的感
觉
3.颜色：柔和的莫兰迪色系
4.款式：圆领款式，简单而经典
5.元素：真实感、色彩搭配、纹理、轮廓、合适性
综上所述，当前T恤的设计意向包括：
1.通过自然元素表达富有气质的感觉，深度和宁静。
2.使用柔和的莫兰迪色系，使设计更加柔和自然。
3.使用圆领款式，简单而经典。
4.使用真实感、色彩搭配、纹理、轮廓、合适性等元素来丰富服
装的细节和质感，使设计更具深度和层次感。
5.强调整体合适性，让人们在穿着过程中能够更加自在舒适。
因此，一些关键词和意向可以包括：“自然元素”“富有气质”
“柔和自然”“莫兰迪色系”“简单而经典”“纹理和质感”和“整
体合适性”。
修改关键词，并让ChatGPT将关键词翻译成英文。
芝芝：翻译以下内容至英文“主题自然元素富有气质的T恤设
计，主要包括抽象花朵和树叶，流线型的花朵，淡绿的叶子上包含深
绿的纹理，柔和自然，给人一种深度、层次和宁静的感觉，主色为柔
和的莫兰迪色系，圆领款式，简单而经典，实感、色彩搭配、纹理、
轮廓、合适性”。
ChatGPT：The theme of the poster is the Water Festiva
l，including bright colors，happiness，joy，freedom，youthf
ulness，liveliness，natural elements such as flowers，tree
s，green plants，water drops，petals，butterflies，and rain
bow. It depicts scenes of children playing，intimate friend
s sharing，laughter，happy music，summer，water's coolnes
s，music，and dance，social gatherings and celebrations，co
lorful images，peace，and friendship. It features bold typo
graphy，expressive fonts，impactful message delivery，bold
style，it radiates energy and has a contemporary feel.
Tips：需要将重要的主题或关键词写在前面或者重复多次，这样
能更好地激发模型
将ChatGPT写的prompt粘贴到Midjourney中，不到一分钟就有了
以下结果。芝芝帮助客户通过ChatGPT+Midjourney的组合，快速找到
了T恤的灵感和风格。
◎图3.5 通过ChatGPT+Midjourney生成的T恤设计方案
Tips：在ChatGPT和Midjourney的配合中，ChatGPT可以基于客户
想法自动化生成独特、创新的设计方案和描述细节，Midjourney则可
以将这些设计方案可视化呈现，为客户高效快速地生成个性化定制的
设计效果图，大大减少个性化定制成本，激发客户的创新思维。
有时候生成的T恤的图案和样式不能让客户完全满意，此时芝芝
还同时提供给客户一些针对MidJourney绘图场景有Prompt优化的网站
或插件，比如MidJourney Prompt Helper、ChatGPT插件AIPRM等，
其可以提供更多的Prompt模版，或在原先的基础上进一步增加艺术风
格、光线、镜头、质感等，提升Midjourney生成图片的质量和效果。
◎图3.6 MidJourney Prompt Helper用户界面

图片来源：https://master--midjourney-prompt-helper.netl
ify.app。
Prompt优化了之后，T恤的设计也变得更丰富，客户的选择也增
加起来。
◎图3.7 经过Prompt优化后的T恤设计方案
最后，芝芝将设计原型图反馈给客户，并基于客户选定的款式微
调了T恤设计，最终确认了一款T恤样式，进入个性化T恤的生产发货
环节。
(2)海报设计。芝芝最近还需要为即将推出到东南亚的活动设计
制作一张海报。海报上不仅需要强调活动的主题，还需要考虑到东南
亚地区的文化和景观多样性，并将这些元素融入到海报中，使之更具
有吸引力和本土特色。在这个过程中，芝芝需要不断尝试不同的设计
风格和颜色搭配来体现活动的主题，以确保海报能够吸引目标受众，
同时也需要保证海报的整体风格与公司形象相符，让公司在东南亚市
场获得更多的关注和认可。
ChatGPT可以帮助产品设计师更好地理解东南亚客户的文化背
景，它可以赋予特定角色后用于联想细节，测试不同的海报描述。Ch
atGPT还可以用于自动生成设计草图或提供有关设计决策的关键词，
以便设计师可以根据客户的反馈进行调整。此外，ChatGPT还可以和A
I图像生成软件（如Midjourney、Stable-Diffusion等）结合起来，
生成海报的设计图。
下面重点介绍大模型在产品设计场景中海报设计应用的方法。
在ChatGPT bot的界面，芝芝可以以聊天交互的方式，使用ChatG
PT提供的服务，以泼水节海报设计为例。
我们向ChatGPT阐述当前的角色定义。点明当前的业务范围及业
务目标，然后进一步告知当前ChatGPT业务的细节和大致的任务范
围，便于输出对海报的描述。
芝芝：现在你是跨境大码女装品牌公司一个优秀的视觉设计师，
当前需要设计一款泼水节主题的海报，希望它看起来延伸着人们对色
彩、自然、情感共通的热爱与表达，分享内心生活的感动和喜悦。我
该如何描述海报的细节需求。
ChatGPT：常感谢您的提问。根据您的需求描述，这是一个泼水
节主题的海报设计，让人们能够通过视觉感受到色彩、自然、情感和
喜悦等等。
当设计这款泼水节主题的海报时，以下是您可能想要考虑的细节
需求：
1.色彩鲜艳而富有活力——海报应该使用明亮的颜色和鲜艳的色
彩以传达泼水节的快乐、欢乐和放松的气氛。建议使用明亮的粉色、
黄色或橙色等颜色。
2.自然元素的加入——使用大量的植物、花卉和树木来传达泼水
节所代表的季节和大自然的美丽。可以将花瓣和水珠放在任何地方，
以创造更加真实的氛围。
3.欢乐和表达情感的场景——将人们的快乐和嬉戏表现出来，例
如孩子们在玩泼水节的场景，朋友们互相泼水游戏的场面等等，从而
激发人们的欢乐和自由情感。
4.表达出泼水节的主题——海报需要准确传达出泼水节的主题，
例如水的清凉、欢乐的分享、人们忘却束缚、开心的音乐、色彩等
等，则该海报将更具吸引力。
5.字体和文本——此类海报中常常使用很大的字体衬托主题。建
议使用明亮、鲜艳的颜色和富有表现力的字体来增强主题。
以上是一些需要您考虑的细节需求，希望对您的设计带来帮助。
其次，让ChatGPT根据给出当前的描述，缩短成关键词和短语。
芝芝：能用简单的关键词或短语概括一下吗？
ChatGPT：
1.鲜艳的色彩。
2.自然元素。
3.欢乐和情感表达的场景。
4.主题表达。
5.富有表现力的字体和文本。
如果关键词过于简单，还可以让ChatGPT在已有关键词的基础
上，再次根据之前的描述，联想出部分意向和名词。
芝芝：在关键词中，增加更多的联想和细节。
ChatGPT：
1.鲜艳的色彩——象征快乐，喜悦，自由，无拘无束，青春活
力，活泼，充满活力。
2.自然元素——花朵，树木，绿色植物，水滴，花瓣，蝴蝶，彩
虹。
3.欢乐和情感表达的场景——孩子们玩耍，亲密友人分享，笑
容，开心的音乐，五彩斑斓的照片。
4.主题表达——季节，水的清凉，音乐和舞蹈，社交聚会和庆祝
活动，色彩斑斓，和平和友谊。
5.富有表现力的字体和文本——大号文字，有表现力的字体，有
力的信息传达，黑体，斜体，粗体，活力十足，有时代感。
修改关键词，并让ChatGPT将关键词翻译成英文。
芝芝：翻译以下内容至英文“海报的主题是泼水节，鲜艳的色
彩，快乐，喜悦，自由，无拘无束，青春活力，活泼，充满活力，自
然元素，花朵，树木，绿色植物，水滴，花瓣，蝴蝶，彩虹，孩子们
玩耍，亲密友人分享，笑容，开心的音乐，夏季，水的清凉，音乐和
舞蹈，社交聚会和庆祝活动，色彩斑斓，和平和友谊，大号文字，富
有表现力的字体，有力的信息传达，黑体，斜体，粗体，活力十足，
有时代感”。
ChatGPT：The theme of the poster is the Water Festiva
l，including bright colors，happiness，joy，freedom，youthf
ulness，liveliness，natural elements such as flowers，tree
s，green plants，water drops，petals，butterflies，and rain
bow. It depicts scenes of children playing，intimate friend
s sharing，laughter，happy music，summer，water's coolnes
s，music，and dance，social gatherings and celebrations，co
lorful images，peace，and friendship. It features bold typo
graphy，expressive fonts，impactful message delivery，bold
style，it radiates energy and has a contemporary feel.
Tips：需要将重要的主题或关键词写在前面或者重复多次，这样
能更好地提醒模型。
最后，将ChatGPT写的Prompt粘贴到Midjourney中，不到一分钟
就有了结果。芝芝通过ChatGPT+Midjourney的组合，快速找到了海报
图的灵感和风格。
商业分析
商业分析的典型痛点
商业分析对跨境电商企业至关重要，因为它能协助企业在激烈竞
争中洞察市场需求与趋势，优化供应链及物流管理，从而提高效率与
竞争力，辅助企业作出更精确的决策。在商业分析场景中，通常存在
以下痛点：
■数据处理效率不足。在传统商业分析中，数据收集和准备通常
是一个既耗时又费力的过程。需要从多个数据源中提取和整合数据，
接着进行数据清理和转换。这些工作需投入大量人力和时间，影响分
析团队的效率与工作质量。
■数据可视化的困难。商业分析的一个关键目标是将数据转化为
有意义的信息，以支持业务决策。然而，传统的数据可视化工具往往
需要大量时间和精力投入，且生成的结果未必能满足团队多维度分析
的需求。
■对市场动态信息的快速响应。企业需时刻关注市场需求和趋
势，以便分析市场趋势、行业竞争、产品定位、客户需求等关键信
息，制定相应的商业决策和行动计划。
大模型如何解决商业分析中的问题
大模型能显著解决商业分析的数据获取、处理和可视化分析能
力，收集并整理市场数据，提升决策效率和质量。
■ChatGPT可以生成SQL语句或VBA语句，或通过Chatexcel等工
具，快捷方便地提取和处理企业经营数据的一部分，从而快速获取所
需数据信息。
■ChatGPT可以帮助团队生成数据可视化结果，让成员更好地理
解数据，帮助开展数据分析的见解和预测，从而增强共享数据的能
力。
■ChatGPT还能爬取互联网信息，帮助团队针对整个市场进行分
析，从而了解整体趋势和市场变化、竞争对手产品的优缺点、消费者
需求的转变，最终找出最受欢迎的产品类型或特点。
下面重点介绍大模型在商业分场景应用的方法。
跨境电商公司在ChatGPT的基础上，开发了一个商业分析BI(Busi
ness Intelligence)工具，向公司管理层展示数据，辅助判断。常总
作为跨境电商公司的负责人，需要快速分析上半年的销售情况，以便
了解最大增长亮点产品品类和地区，决策是否需要临时调整库存和运
输计划。
常总在商业分析BI工具上，选择销售数据是过去一年，输入他最
关注的是“最大增长亮点产品品类和地区”，并勾选了市场的整体需
求和趋势信息。
然后，BI工具根据常总输入的关键词，请求ChatGPT接口获得相
关代码。
商业分析BI工具请求：现在你是跨境大码女装品牌公司一个优秀
的数据分析师，当前帮我生成一段sql语句，可以从数据库中生成一
个过去一年的公司销售表中产品名称、地区、累计销量3个字段的
结果。
ChatGPT：公司销售表sales_data，包含以下字段：产品名称、
地区、销售日期、销量。生成以下SQL语句可以创建一个过去一年的
产品名称、地区、累计销量的表：
CREATE TABLE last_year_sales (
产品名称VARCHAR(50)，
地区VARCHAR(50)，
累计销量INT
）；
INSERT INTO last_year_sales
SELECT产品名称，地区，SUM（销量）as累计销量
FROM sales_data
WHERE销售日期BETWEEN DATEADD（year，-1，GETDATE()）AND
GETDATE()
GROUP BY产品名称，地区；
这些语句将从sales_data表中选择符合日期范围的记录，将它们
按产品名称和地区分组，并计算每组累计销量。然后将这些结果插入
到一个新的last_year_sales表中，该表包含产品名称、地区和累计
销量列。
销量趋势分析BI工具通过这段代码获得了last_year_sales的营
销数据，再次向ChatGPT请求。
商业分析BI工具请求：展示商品销售数据中最大增长亮点产品品
类和地区，最适合的可视化图是哪种？
ChatGPT：未来展示商品销售数据中最大增长亮点产品品类和地
区，最适合的可视化图是热力图或地图。这是因为热力图或地图可以
直观地展示销售数据中地域分布和数量变化的信息，可以清晰地展示
产品品类和地区的增长趋势。热力图可以通过色彩变化来展示数据的
密度和强度，地图可以直观地展示不同地区之间的差异。
商业分析BI工具请求：
以下为过去一年产品销售数据，编写一个html代码，以热力图和
地图展示以下数据：产品销售表
北美西欧非洲中东中欧&东欧东南亚澳洲外套20
7 30 81 11 20 18连衣裙37 6 5 13 26 35 13 T恤48 32 10 29 81 1
1 25牛仔裤7 11 26 89 74 7 70
ChatGPT：抱歉，作为AI语言模型，我无法直接为您提供生成HTM
L代码的服务。但是，以下是一种可能的做法，您可以自行编写HTML
代码并使用JavaScript和可视化库来生成热力图和地图。（以下HTML
代码省略）
销量趋势分析BI工具将html代码渲染到网页前端，常总即可看到
绘制的图。
获得了历史数据之后，常总还想再询问一下当前最新的市场和产
品动态，销量趋势分析BI工具请求了当前联网的New Bing(ChatGP
T)。
销量趋势分析BI工具请求：现在你是跨境大码女装品牌公司的一
名优秀市场分析人员，公司去年销售最好的牛仔裤单品是中东、中欧
&东欧、澳洲，帮忙分析这3个市场牛仔裤的整体销售趋势和市场变
化、竞争对手产品的优点和缺点、消费者需求的变化，并预测下季度
销售和可能最受欢迎的产品特点。
New Bing(ChatGPT)：您好，我可以帮您分析这三个市场的牛仔
裤销售趋势和市场变化，但是我不能预测下季度的销售和最受欢迎的
产品特点，因为这需要更多的数据和专业知识。以下是我根据网络搜
索得到的一些信息：
中东市场：中东的牛仔裤市场在2022年达到了约30亿美元，预计
到2029年将增长到约50亿美元，年均增长率为6.5%。中东的牛仔裤消
费者主要是年轻人，他们喜欢时尚和舒适的牛仔裤，而不是传统的服
装。中东的牛仔裤市场也受到了社会和文化的影响，例如妇女的社会
地位和着装规范。中东的牛仔裤市场的主要竞争者包括Levi Straus
s、Diesel、Gap、H&M、Zara等。
中欧&东欧市场：中欧和东欧的牛仔裤市场在2022年达到了约80
亿美元，预计到2029年将增长到约120亿美元，年均增长率为5.2%。
中欧和东欧的牛仔裤消费者主要是中产阶级，他们追求高品质和环保
的牛仔裤，而不是廉价和快速的牛仔裤。中欧和东欧的牛仔裤市场也
受到了经济和政治的影响，例如欧盟的贸易政策和俄罗斯的制裁。中
欧和东欧的牛仔裤市场的主要竞争者包括Levi Strauss、Wrangler、
Lee、Pepe Jeans、Tommy Hilfiger等。
澳洲市场：澳洲的牛仔裤市场在2022年达到了约10亿美元，预计
到2029年将增长到约15亿美元，年均增长率为5.8%。澳洲的牛仔裤消
费者主要是年轻人和女性，他们喜欢休闲和个性的牛仔裤，而不是正
式和保守的牛仔裤。澳洲的牛仔裤市场也受到了气候和地理的影响，
例如炎热的天气和海滨的生活方式。澳洲的牛仔裤市场的主要竞争者
包括Levi Strauss、Calvin Klein、Guess、Uniqlo、Topshop等。
经过销量趋势分析，常总通过BI工具提取的数据、图表和市场信
息，得出结论：中东和澳洲市场的牛仔裤是长期稳定增长的需求，而
中欧和东欧的牛仔裤市场受到政治因素的影响较大。因此，建议重点
拓展中东和澳洲牛仔裤市场，以辅助后续分仓、物流及其他供应链业
务。
此外，未来还可以将上述分析软件集成到其他系统中，例如CR
M、ERP等，实现更高效的分析和更加科学的决策，以更好地推动企业
的发展和战略。
会议助理
会议助理的典型痛点
会议助理对于跨境电商公司至关重要。它可以提高会议效率、优
化资源利用、支持全球业务和改善企业形象。会议助理当前存在以下
痛点：
■参会人员沟通困难。线上会议可能会面临网络问题、语言障
碍、文化差异等因素，导致参会者之间沟通困难。
■文件准备和整理不便。线上会议需要提前准备相关文件和资
料，并对文件进行整理和共享，这个过程需要耗费大量时间和精力，
容易出现遗漏和错误。
■会议记录不全面。线上会议需要记录会议内容和决策结果，并
及时分享给参会者，会议记录可能不全面或不准确，导致参会者或关
注者无法获得完整信息。
■待办事项难以跟进。线上会议需要记录和跟进待办事项，以确
保会议结果能够得到落实。参会者需要手动记录和跟进待办事项，容
易出现遗漏或误解。
大模型如何解决会议助理的问题
ChatGPT能够帮助会议助理解决参会人员沟通、文件准备和整
理、会议记录和待办事项生成等方面的问题，减轻会议助理日常工作
压力，提高工作效率和满意度。
■参会人员沟通：ChatGPT可以协助会议助理发送相关信息、查
询参会人员共同空闲时段、发送各个参会人员到场和准备工作的提醒
信息，以确保会议顺利地召开和进行。
■文件准备和整理：ChatGPT可以协助会议助理准备文件并沟通
文件更新，帮助行政和助理集中整理会议信息和需决策事项，以便与
会者查看交流。
■会议记录：ChatGPT可以协助会议助理进行文字或语音形式的
记录，记录与会者讨论的主要观点和决策，并输入即时整理会议记录
反馈，生成会议纪要。
■待办事项生成：ChatGPT可以协助会议助理收集并整理会议讨
论中确定的任务，生成待办事项清单和跟进的责任人和时间表，方便
助理管理学习和推进进程。
以下是大模型在会议助理中应用的示例。
阿美是跨境电商公司的公关人员，她每天都要组织大大小小的会
议，随着线上会议的不断增加。上周，阿美刚开完一次线上视频会
议，讨论了关于下个季度的公司市场部规划的问题。市场部详细讨论
了自主平台和国外知名跨境电商平台的市场推广渠道和方案。
会议音频转出后内容：
首先，市场部应继续协助产品部门开发和推广自有品牌的商品，
并加强自有渠道建设。自有渠道包括官方网站、公众号和独立站，市
场部可以提升网站和独立站的用户体验，提高商业设计和代码优化，
提高自有渠道的收益和销量。这个由小A来负责。
其次，对于国外知名跨境电商平台，我们将制定并执行营销计
划，增加商品的曝光度和销售量。市场部将加强关键词的管理、促销
的策划、广告的调整以及评价的管理等工作，来提高商品的曝光度和
客户的购买意愿。同时，我们将讨论以折扣促销为主的活动，针对不
同的市场和用户群体，设计出有针对性的促销方案，并对促销活动进
行评估和反馈，以获得最佳营销效果。
在独立站的促销和折扣方面，我们将完善并强化宣传和客户回馈
活动，以吸引新用户，同时增加老用户的回购率和忠诚度。
促销活动比较大，这部分小B和小C一起来做。市场部将持续关注
自有渠道与国外知名跨境电商平台和独立站的销售情况，不断优化和
改进各个渠道的优势和限制，加强长期营销策略。
小美：请你根据以上内容，帮我整理出一份会议纪要，包含“议
题”“讨论”“结论”“会后任务”这四部分。
ChatGPT：
议题：市场部门的自有品牌和跨境电商平台营销计划以及独立站
方面的促销和折扣。
讨论：
1.市场部门将协助产品部门开发和推广自有品牌的商品，并加强
自有渠道建设。此外，市场部门将提高网站和独立站的用户体验和商
业设计，以提高自有渠道的收益和销量。
2.国外知名跨境电商平台的营销计划将制定和执行以增加商品的
曝光度和销售量。市场部门将加强关键词的管理、促销的策划、广告
的调整以及评价的管理等方面的工作，以提高商品曝光度和客户购买
意愿。同时，不同市场和用户群体将设计有针对性的促销方案，并对
促销活动进行评估和反馈，以获得最佳营销效果。
3.独立站方面的促销和折扣方案将完善并强化宣传和客户回馈活
动，以吸引新用户，增加老用户的回购率和忠诚度。促销和折扣方案
将由小B和小C共同制定。
结论：
1.市场部门将继续协助产品部门推广自有品牌商品，并加强自有
渠道建设。同时，他们将制定并执行营销计划，增加商品的曝光度和
销售量。
2.市场部将加强关键词的管理、促销策划、广告调整和评价管
理，以提高商品曝光度和客户购买意愿。
3.针对不同市场和用户群体，设计有针对性的促销方案，并对促
销活动进行评估和反馈，以获得最佳营销效果，同时小B和小C共同制
定独立站方面的促销和折扣方案。
会后任务：
1.小A负责市场部门自有品牌商品和渠道建设的实施和优化。
2.市场部门将持续关注自有渠道、国外知名跨境电商平台和独立
站的销售情况，并不断优化和改进各个渠道的优势和限制，以加强长
期营销策略。
3.小B和小C共同制定独立站方面的促销和折扣方案。
4.安排对数据的分析和复盘，检验营销活动方案的有效性。
小美在获得了会议纪要之后，可以直接导出和生成各个部门、员
工的待办事项，方便会后各项任务的持续推进。
企业业务型应用总结
电商行业面临着产品竞争激烈、服务要求高、跨越语言和文化障
碍以及合规性相关的问题，是一个资本和知识密集型行业。
跨境电商市场中有着内容生成和客户服务需求的平台卖家、独立
站运营者和渠道商在国内数量达到2.54万家。这些工作的完成，不仅
需要借助翻译软件，更需要借助各种信息来源，以最终推动一个交易
规模高达14.2万亿元的巨大市场的发展。
跨境电商公司的智能客服同时服务于售前和售后场景。麦肯锡曾
对30个行业进行分析，表明售后服务（含维修、备件和保养）的平均
息税前利润率(EBIT)为25%。经过ChatGPT的智能化改造，智能客服预
估指标可提升15%-20%，最终提升1.5%-2%的客户满意度，从而让客户
享受到更热情周到的服务体验。
电商行业拥有大量专业性强且素质高的市场、产品、研发人员，
大模型首先可作为电商从业者的个人辅助工具（副驾模式），为客户
提供更智能、实时的意图理解、语言翻译、文化背景融入和特定角色
的答案生成服务，担任初级助理，为企业提供更好的服务和更高效的
营销支持。
从ChatGPT在跨境电商典型企业的潜力中，我们可以观察到其对
于企业生产运营全流程的影响。为了评估ChatGPT在企业生产运营各
个环节的价值，我们可以从效率(Efficiency)和替代率(Replacement
Ratio)两个维度进行分析。
效率：是否能提升此环节效率或缩短这个环节整体时长，包括但
不限于提供24小时不间断服务、可支持数据检索、排单精准性等。
替代率：是否足以解决此环节的问题，包括但不限于线上问题解
决程度、ChatGPT和环节的匹配程度、ChatGPT在整个环节问题中所占
的比例等。
◎图3.8 以跨境电商企业为例，大模型在生产运营各环节的价值
当大模型在垂直领域上的数据训练和实践应用成熟后，在市场营
销、售前沟通以及售后服务等需要更高AI替代率的环节，大模型可以
独立承担职责（代驾模式）。这也将引起业务流程和人类员工职能的
变化，如人工翻译转换为大模型译后人工润色，人工文案创作转变为
大模型创作后人工审校。通过AI技术的发展，企业可以实现更高效、
更准确地操作，以此改变旧有的业务流程、决策以及人员结构等。
尽管技术的进步使得更多的旧工作、流程可以被大模型所改变，
但是企业不能把大模型当做员工的简单替代品。相反，企业应该把大
模型看作员工工作中客户体验价值和个人生产率的推进力量，把员工
从烦琐的重复性工作中解脱出来，扩展和释放员工的个人能力，使他
们能在新的、快速变化的环境中探索和设计以人机协作为中心的新业
务流程，避免与大模型的对抗。通过让大模型接管重复性任务，员工
将有时间专注于创意，与其他人建立更紧密的联系和互动。这样一
来，企业将实现大模型替代下的有效运营，大模型与人类劳动的融合
将为企业带来更高的生产效率和创新性，在保证员工价值的前提下使
企业更加成功。
最终，在企业、员工与大模型的融合协作形成默契之后，有可能
产生颠覆性创新，发展出新的业务和岗位，例如UGC个性化设计、C2M
弹性供应的商品生产，以及相关的Prompt工程师、虚拟人格设计师
等，从而扩大整体的市场规模，在效率提升的同时进一步做大产业蛋
糕，容纳更多就业。那时，无论是客户、员工公司或者社会整体，都
将从这种人机协作中受益。
12 创意娱乐型应用
创作助手
个人创意的典型痛点
在没有创作助手的情况下，个人在许多重要情境中，如通过情
书表达爱意、道歉、起名字时，经常会面临各种痛点，包括但不限
于遭遇创意瓶颈、知识匮乏和语言障碍等。
■创意瓶颈：在诗歌、对联等特殊文体的创作中，需要各种新
的、有创意的想法来支持写作，但在写作过程中，往往会遇到创意
不足、灵感和想法缺乏等瓶颈。
■知识匮乏：在写作过程中，时不时会需要阅读或撰写文言
文，但是大部分人掌握的文言文和对联知识，可能不足以支持此类
创作。
■语言障碍：如果我们需要与其他人或团队成员进行交流，但
是我们不会说对方的语言，我们需要将自己需要表达的内容翻译成
其他语言，这可能会成为我们的一个痛点。
大模型如何解决个人创意的问题
作为一个人工智能语言模型，ChatGPT可以通过理解和生成自然
语言，与用户对话并支持他们与创意相关的任务。
■创意启发：创作者可以与ChatGPT进行对话，提出当前的困惑
或表达主要想法，ChatGPT将根据问题或想法生成内容，拓展思路和
启发创意。
■知识补齐：当创作者的写作遇到类似文言文等知识盲区时，C
hatGPT可以通过领域知识补齐的方式来增强其对文言文的理解和应
用能力，与创作者的提供的关键词，主题或段落一起生成相关的文
本内容。
■语言翻译：如果创作者需要将创作的内容翻译成其他语言，
可以向ChatGPT提出翻译请求，即可获得通俗地道的翻译结果。
下面重点介绍大模型在个人创意场景应用的方法。
强强和小美准备筹划一场婚礼，在婚礼上强强需要写一封婚礼
誓言，向小美表达自己的心迹。强强一向不善言辞，抓耳挠腮了一
周后，他除了找到一份觉得还不错的现代诗，没有丝毫灵感。最
终，他决定使用ChatGPT来帮助自己创作。
强强：请参考以下内容，帮我写一篇300字左右的结婚誓言。
我如果爱你——绝不像攀援的凌霄花，借你的高枝炫耀自己；
我如果爱你——绝不学痴情的鸟儿，为绿荫重复单调的歌曲；也不
止像泉源，常年送来清凉的慰藉；也不止像险峰，增加你的高度，
衬托你的威仪。甚至日光。甚至春雨。不，这些都还不够！我必须
是你近旁的一株木棉，作为树的形象和你站在一起。根，紧握在地
下，叶，相触在云里。每一阵风过，我们都互相致意，但没有人，
听懂我们的言语。你有你的铜枝铁干，像刀，像剑，也像戟；我有
我红硕的花朵，像沉重的叹息，又像英勇的火炬。我们分担寒潮、
风雷、霹雳；我们共享雾霭、流岚、虹霓。仿佛永远分离，却又终
身相依。这才是伟大的爱情，坚贞就在这里：爱——不仅爱你伟岸
的身躯，也爱你坚持的位置，足下的土地。
ChatGPT：
亲爱的小美，
今天，我在这里郑重地向你说出我的誓言。如果我爱你，我会
像一株木棉一样，始终陪伴在你的身边。我不会像凌霄花一样，在
高枝上炫耀自己，也不会像鸟儿一样重复单调的歌曲，我的存在是
为了与你相互支持，共同成长。
我愿意像一个坚实的树根，与你牢牢地紧握在一起，在每一阵
风过后，相互致意。我的爱会像春雨和日光一样，让你在疲惫时得
到清凉和慰藉，同时也像险峰一样，为你增添高度和威仪。
我们一起分担寒潮，风雷和霹雳，共享雾霭，流岚和虹霓。虽
然有时我们会分离，但我们会终身相依。在这里我向你保证，我的
爱不仅仅是爱你伟岸的身躯，也是爱你坚守的位置和足下的土地。
我的坚贞就在这里，直到永远！
我爱你，坚定不移！
爱你的强强
ChatGPT虽然改写了诗中的内容，但誓言里没有包含强强和小美
的细节，强强需要增加一些关于他和小美共同度过的时光的内容。
强强：誓言当中还需要增加我们两人在新疆通过旅游结识，并
有外出游玩的共同爱好的内容，要使用更多的排比句。
ChatGPT：
亲爱的小美，
今天我在这里向你庄严承诺，如果我爱你，我会像丝绸之路的
风，温柔地抚过你的脸庞，如同草原的花海，用我深沉的爱包容
你，直到永久。
当我们在新疆旅游认识的那一刻起，我知道我找到了我的爱。
像天山山脉一样，我们的爱是高不可攀的，但我们的思念却像燕子
一样不断地飞越这些高峰。我们共同喜爱外出游玩，每一个下车走
到山顶、攀过沙丘的瞬间都是那么的美好，像牧民抬头仰望天空看
到流星划过的瞬间一样美好。
我承诺，我不会像一片枯叶，随风飘荡，而是像新疆的柯坪大
佛一样，永远屹立在你身边。我会像星空中亮丽的流星，为你闪
耀、为你点燃，把你宝贵的人生照亮。
所以，我向你宣誓：我的爱不是瞬间的昙花一现，而是像远处
群山长存的石林一样，永远稳定地存在。我爱你，现在，将来，永
远。
爱你的强强
数字人角色扮演
角色扮演的典型痛点
随着市场的发展，语言cosplay（通过模仿角色的语言特点来扮
演角色）与虚拟偶像（基于数字技术制作的非真实存在的偶像）成
为一种新兴的娱乐方式，同时，它们也在发展数字技术、促进文化
传播等领域发挥着重要的作用，作为文化符号向全球传递文化信
息。
在语言cosplay和虚拟偶像等角色扮演场景中，打造人设非常重
要。人设能够帮助玩家更好地理解对话内容，从而使得玩家更好地
理解自己与角色之间的动态和交互，并更容易关注和记住对话内
容，进而提高角色对话的说服力和给玩家带来的参与感和满意度。
当前打造一个优秀的角色扮演应用，还存在以下痛点：
■角色塑造困难：塑造角色是一项艰巨的任务，因为角色需要
故事背景、情节、独特个性等内核予以支持，并且在扮演过程中，
始终如一地呈现其特定的形象和风格。
■缺乏多样性：某些角色因为台词较少和背景交代不够，可能
会表现出缺乏个性和应对不同对话的多样性的问题。这会使玩家容
易预测角色的决策和行动，缺乏足够的变化和惊喜。
■互动角色不足：游戏中的角色扮演需要根据情节，与多个角
色进行互动，若全部依赖人工，可能会令组队等待时间过长，从而
影响玩家的游戏体验。
大模型如何解决角色扮演的问题
ChatGPT可以在对话中实现角色扮演，并通过角色塑造、脚本对
话等方式帮助用户更好地体验和享受不同的对话体验。
■角色塑造：ChatGPT可以根据作者提供的故事情节、性格、目
标和弱点来塑造角色，还可以学习角色的历史对话，进一步模仿角
色的行为与个性。
■多样性建议：ChatGPT可以在现有信息的基础上，跟随游戏场
景、任务和情节的变化，做出符合常理的补充对话，拓展玩家与角
色的交互干和多样体验。
■互动角色创造：ChatGPT可以通过应用人工智能和NLP技术来
模拟人类互动，为玩家提供更多的队友角色选择，增加游戏的趣味
性。
下面重点介绍大模型在角色扮演场景应用的方法。
在过去，虚拟角色必须在确认角色的基本特点（角色的性别、
年龄、体型、外貌、世界观等）、个性和特质、故事背景和命运之
后，由编剧或策划完成与角色相关的文案创作。这一构建过程几乎
完全依赖“人工”来转换场景，难以支持角色独立向个人输出。
ChatGPT是目前可以进行网页和API文字方式互动的人工智能助
手，它可以通过类似人类的自然对话方式进行交互，并且支持执行
相对复杂的语言任务，包括自动生成文本、自动问答、智能续写等
任务。最新的开放大型语言模型GPT-3.5-turbo可以通过嵌入(Embed
ding) 注【参考资料：https://platform.openai.com/docs/api-reference/Embedding
s。】的方式支持文档转换为语义向量，从文档中找到匹配问题的答
案，为角色扮演相关任务提供更多的可能性。ChatGPT的使用，包括
数据准备、生成特征向量、请求问题Embedding、Prompt构成和接口
返回等环节。
(1)数据准备。首先，需要设定角色的基本特点（角色的性别、
年龄、体型、外貌、世界观、描述等）、个性和特质、故事背景和
命运，以此组成角色的人设。同时，还要准备角色相关的描写文本
和与他人的对话内容。例如，当我们需要模仿江湖大侠的角色时，
准备的数据如下所示：
基本情况：秦川，男，33岁。
身形特点：身高1.9米，体型健壮，有一双锐利的眼睛和一头短
发，手腕上镶嵌着精致的刻字刀，脸上有一道明显的刀疤。
出身背景：秦川曾是大名鼎鼎的侠客宓家四公子，家境殷实，
但他却因不满父母的束缚而离家出走，开始在江湖上行走。
人物性格：秦川为人正直豪爽，性格开朗。他讲义气，乐于助
人，但绝不服输，尤其讨厌邪恶势力欺压百姓，经常在江湖上与恶
势力斗争。他待人真诚，性格刚烈，但同时也因为过去的故事而显
得分外孤独。
武艺水平：秦川精通多种武学，擅长使用刀的他在江湖上有
“刀客秦川”之称。他的刀术精妙非凡，威力惊人，轻功绝佳，行
踪飞快，并掌握了一种独特的内功。
(2)生成特征向量。将角色与他人的对话内容单独保存，请求将
嵌入(Embedding)模型转化为特征向量后，用向量数据库进行本地存
储。
(3)请求问题Embedding。当用户提出一个问题时，也将问题请
求嵌入模型转化为特征向量，检索本地向量数据库，找寻角色相关
描述中与问题最靠近的内容。
(4)Prompt构成和接口返回。将用户的问题和检索到的最相似回
答构成Prompt，请求GPT-3.5-turbo模型，获得角色扮演的回答。
以下是详细操作流程（非技术人员可直接跳过）。
1.数据准备
准备角色的基本特点（角色的性别、年龄、体型、外貌、世界
观等）、个性和特质、故事背景和命运，组成角色的人设。
GPT-3.5-turbo模型的请求消息是一个对象数组，其中每个对象
都有一个角色，一共有三种请求对象。
·系统：用来指导模型在整个对话过程中的行为。在角色扮演
的场景中，系统经常用于放置角色人设。
·用户：用于存储用户问题，就是用户说的话，向角色提的问
题。
·助手：用于存储先前的对话内容。这是为了能持续进行角色
对话，提供会话的上下文。
以下是一个请求示例：
import openai
openai.ChatCompletion.create(
model=”gpt-3.5-turbo”，
messages=[
{“role”：“system”，“content”：“你是中年侠客秦
川，侠骨柔肠，刀法精湛，正义无私，行侠仗义，孤独而坚韧”}，
{“role”：“user”，“content”：“川大侠，你要去哪
里？”}，
{“role”：“assistant”，“content”：“我居无定所，遍
访天下行走江湖。”}，
{“role” ： “user” ， “content” ： “ 我能和你一起去
吗？”}
]
）
2.生成特征向量
将准备的角色与他人的对话内容，统一请求嵌入（Embeddings
模型），用本地向量数据库存储下来，并通过语义向量相似度匹配
来实现一个问答系统，大致的构建过程如下：
(1)将角色与他人对话的大量内容（标准问答集），清洗成CSV
或者Json格式，并且分成小块(chunks)。
(2)使用OpenAI的Embedding模型将这些问题和回答转化为特征
向量，需要将转换后的结果保存到本地数据库。
(3)可以把原始的文本和请求到的数字向量一起存储在向量数据
库中，这样可以根据数字向量反向获得原始文本。参考全文索引中
给数据建索引，将这些问答的ID和其对应的答案存储在关系数据库
中。
3.请求问题Embedding
当用户提出问题时：
(1)通过OpenAI的Embedding模型将之转化为特征向量。
(2)在本地向量数据库中对特征向量做相似度检索，得到与该问
题最相似的标准问题的ID，拿到这个数字向量后，再去自己的数据
库进行检索，那么就可以得到一个结果集。
(3)可以使用余弦距离来表示两个句子间的相似度，结果集会根
据匹配的相似度打分，分数越高说明匹配度越高，这样就可以按照
匹配度返回一个相关结果。
(4)在PostgreSQL（阿里云的数据库）得出对应的结果集，然后
以拿到的结果集为根据。
比如说用户提出以下问题：“如果我忽然想去淄博吃烧烤，怎
么办？”，从数据库中检索到原文秦川超过0.9相似度的回答有2
段，分别是：“那你肯定是疯了！”和“这于我毫无价值可言。”
4.Prompt构成和接口返回
将结果集加入请求ChatGPT的prompt中。根据以上例子中的内
容，向OpenAI Chat completion API发起请求的prompt应该是：
messages=[
{role：“system”，content：“你是中年侠客秦川，侠骨柔
肠，刀法精湛，正义无私，行侠仗义，孤独而坚韧”}，
{role：“user”，content：`Use the following passages t
o provide an answer to the query：“如果我忽然想要去淄博吃
烧烤，怎么办？”
那你肯定是疯了！
这于我毫无价值可言
}
]
这样ChatGPT在返回结果的时候，就会加上你本地的回答数据或
内容，根据角色的人设和相似的回答内容，完成角色扮演。根据Cha
tGPT返回的结果，可以进一步进行无害化处理后返回给用户。
Tips：除了角色扮演问答，此方法也常用于搭建本地检索、推
荐、分类系统。
旅行计划助手
旅行计划的典型痛点
每当我们想要前往一个旅游城市旅行，都希望能够根据自己的
旅行偏好和目标，比如感兴趣的景点、游玩时间和预算等，规划出
符合需求的行程，但当前仍存在以下痛点：
■不了解当地公共交通的情况、景点信息等，难以规划行程。
■在旅游旺季时，旅游景点、酒店、机票价格波动大，无法有
效预估旅行花销。
■规划和安排个性化行程需要花费大量时间，不够便捷。
■缺乏可信赖的旅行计划工具。
大模型如何解决旅行计划的问题
ChatGPT技术作为智能助手，可以为用户提供便捷的旅游定制服
务，让用户在旅游中更快、更舒适地玩转目的地，从而增加用户对
旅游计划助手的用户黏性和忠诚度。
■路线规划：基于您的地点、时间和利益，ChatGPT可以帮助您
制定旅行路线，从而确保您能最大程度地利用旅行时间，参观您最
感兴趣的景点。
■预订行程：ChatGPT可以帮助您预订机票、旅馆、门票，租赁
汽车和规划旅行活动，使您的旅行更加顺利，减轻压力。
■提供当地有关信息：ChatGPT可以为您提供当地的餐饮、文化
和娱乐活动建议，令您的旅行体验更加丰富和难忘。
■推荐当地旅游景点：ChatGPT可以基于您的旅行偏好和当地的
知识，向您推荐最受欢迎的旅游景点和活动，让您的旅行更加舒
适。
■交通及旅游规划服务：ChatGPT可以为用户提供公共交通及旅
游信息、帮助您规划行程、预订机票和酒店等服务，方便用户出行
和旅游。
下面重点介绍大模型在旅行计划助手场景应用的方法。
芝芝最近想要去新西兰玩耍，她希望制定一个为期9天的新西兰
自驾游行程，她打开ChatGPT的插件，输入地点、希望能获得一些帮
助。
芝芝：帮我做一个新西兰9天的行程，从奥克兰开始，途径皇后
镇、基督城，最后回到奥克兰。
ChatGPT：好的，以下是一个新西兰9天的行程。
第1天：奥克兰
抵达奥克兰，可以预订市内观光游览，可参观天空塔、海港大
桥，并在市中心逛逛。
第2天：从奥克兰到皇后镇
早上搭乘飞机前往皇后镇。到达后可以游览镇中心，前往萨斯
爱德，骑自行车或徒步穿越莱克菲尔德峡谷。
第3天：皇后镇的冰川
从皇后镇开始的冰川深度一日游，可以看到冰川落入影湖的壮
观景象。
第4天：步行通过皇后镇
在皇后镇度过一整天，可以登上Tiki Trail步行上山，跳伞、
滑翔伞或骑壁虎车，品尝当地的烤肉等美食。
第5天：从皇后镇到基督城
搭乘早晨前往基督城的班车。到达基督城后，可以乘坐热气
球、参观博物馆、教堂和当地的市场。
第6天：从基督城到卡波迪斯特里亚
从基督城乘车前往卡波迪斯特里亚，这里有许多滑翔伞和翼风
动力飞行供你选择。下午前往卡布利蒂峡谷漂流，晚上在当地酒吧
度过一个愉快的夜晚。
第7天：从卡波迪斯特里亚到皇后镇
早上前往皇后镇，到达后可以游览镇中心，博彩，射箭，品尝
餐厅提供的美食。
第8天：从皇后镇到富士湾
早上从皇后镇出发前往富士湾，这里可以进行观赏鲸鱼、划皮
划艇和在自然散步等活动，学习马达卡语，了解新西兰文化。
第9天：从富士湾到奥克兰
返回奥克兰，途径托皮罗和怀托摩拉，结束旅程。
用户还可以继续追问租车和住宿方案，以及相应的预算。
芝芝：我们打算租车自驾游，麻烦增加租车的地点和每天住的
酒店。
芝芝：这次旅行，租车、住宿、吃饭大概会花费多少纽币，等
同于多少人民币呢？
Tips：利用ChatGPT插件库(Plugins)，用户还可以在对话过程
中直接预订ChatGPT推荐的酒店和租赁汽车。
创意娱乐型应用总结
个人的创意娱乐通常更注重个性化和自我表达。大模型作为一
款拥有广泛知识和多种技能的智能机器人，首先，大模型能够为个
人提供丰富的服务，它可以为自由职业者和远程工作者提供有用的
建议和指导，包括如何找到远程工作、如何管理财务等。大模型还
可以帮助艺术家和创作者探索他们的创造性能力，提供写作、绘
画、建模和音乐制作的方法和素材，为旅行者提供目的地、预算计
划和行程规划等建议和指导，帮助他们规划自己的旅行。
当大模型的多模态能力得到充分释放之后，可能在创意娱乐领
域产生颠覆性的创新。例如，将大模型角色扮演应用在网络游戏或
元宇宙中，并将不同模态的数据和表现形式进行组合，有可能创造
出集游戏、社交、UGC、线上线下交互于一体的全新娱乐体验和全新
的商业模式与业务。
13 大模型应用的三重境界
由于大模型具备一定的跨行业通用性，并通过自然语言对话、AP
I系统对接等交互手段，支持多样化的使用方式。因此，在各行各业
令大模型的应用落地，由于大模型适应场景的能力、成熟度、企业应
用时间经验、企业业务性质等因素的不同，可能会经历以下三重境
界。
第一重境界：工欲善其事，必先利其器。
企业鼓励并组织管理者和员工个人在工作中使用大模型，提高个
人的工作效率。此时属于人类和AI 1：1的副驾模式，大模型的产出
归属于员工个人，同时，员工也需要为大模型的产出质量负全责。
通过个人的使用，为企业探索出大模型在特定业务场景下的应用
成熟度、效率提升、模型缺陷、负面影响等，用于评估在本企业应用
大模型的价值，为下一步应用的决策提供真实的参考信息。
提高员工个人工作效率，反映在企业效益上，可能是员工工作质
量、工作满意度的提升，也可能是在同等人力资源的条件下产出更大
的工作量。
在这个阶段，企业应注意内部核心数据的保密。除了制定大模型
使用的数据管理规范之外，还可以选用大模型服务商提供的私域专有
模型，将模型部署在企业专用服务器上，从而确保内部数据不会进入
公域大模型的训练数据集之中。
第二重境界：同舟共济扬帆起。
企业将大模型嵌入业务流程中，让大模型独立承担某些环节的工
作职责，为企业贡献更为全局性的效益。此时大模型从附属于某个人
类的副驾转变为某些工作环节的代驾，直接跟人类形成协作关系，同
时也接受人类的指导和监督。
此时往往伴随着企业业务流程的调整，以及各环节职能重心的变
化。例如，翻译文章的业务流程从“译员初翻-高级译员审核修改”
变成了“大模型初翻-译员改错润色-高级译员审核修改”。再如，企
业客服的业务流程从“人工客服服务客户-后台督导抽查”变成了
“大模型服务客户-人工客服实时监控-后台督导抽查”。
此时大模型的产出归属于企业，企业需要在业务流程中确定其他
环节的人类员工，对大模型的产出进行全量或抽查的质量审核，由人
类员工对其审核范围内的质量负责。当大模型在该行业达到一定的成
熟度之后，还可以跟大模型技术供应商约定模型产出质量的服务等级
协议(SLA)，由供应商负责其模型和系统这一段的产出质量，并与供
应商的服务费用挂钩，进行激励或惩罚。
在第二重境界，企业围绕大模型的特点调整和优化自身流程，更
充分地利用大模型的能力，应获得远超第一重境界的企业效益提升。
此时需要关注大模型应用对员工的影响，从组织机制设计上避免潜在
的冲突。
为了进一步提高大模型的效果和产出，还可以借助模型插件库的
能力进行本地化二次开发，读取和查询本地数据；或者根据本行业和
本企业的特点，进行模型微调训练、提示语上下文学习等定制化的工
作。此时需要企业的业务部门和IT数据部门共同介入完成。
在第二重境界，企业要调整业务流程和员工岗位，因为投入IT数
据资源进行本地化开发和训练，需要付出较大的组织成本和人力成
本。站在整体效益最大化的立场，应该评估业务各环节的大模型应用
成熟度和优先级，选择最适合的应用点切入。其中一个重要的评估角
度是业务环节的信息量和容错率。
◎图3.9 不同应用的信息量和容错率对大模型应用效果的影响
其中，信息量指的是在该业务环节中，需要阅读消化多少信息，
信息量越高，大模型辅助人类的效果就越显著。容错率指的是在该业
务环节中，允许错误出现的概率，容错率越高，错误造成的损失就越
小，大模型的应用效果就越可控。
信息量和容错率的4种组合，对大模型应用效果有着不同的影
响，企业可以根据自身情况来选择应用的短期切入点和长期目标。
第三重境界：欲穷千里目，更上一层楼。
企业基于大模型在本行业应用中的潜在优势，需要重新设计业
务，从根本上改变业务运作方式，或进入一个全新的、在大模型之前
无法进入的市场。例如面向中低端用户提供一对一服务，UGC个性化
设计、C2M弹性供应的商品生产，基于AIGC内容的社交娱乐体验，等
等。
此时，企业需要从技术、产品到市场、商业进行全盘策划，创建
新的商业模式，挑战现有的行业规则，并承担较高的风险，此类策划
方式更适合初创企业或者大企业中的独立团队。（相比之下，前两重
境界更多属于渐进式创新，企业专注于将大模型技术整合到现有的体
系中，关注存量业务的投资回报率，相对更稳妥，更适合行业中已有
的企业。）
有能力尝试并最终成功走到第三重境界的企业很少，然而，这重
境界却是大模型产业应当追求的方向。当大模型的多模态能力得到充
分释放后，人类与大模型的协作达成默契，大模型在某个领域的成熟
度被打磨到极致，只有结合企业家的全新业务模式设计产生颠覆式创
新，才有机会做出市场增量，把社会经济的蛋糕做大，催生新的人类
就业机会。对此，值得我们寄予无限的遐想。
【GPT-4花絮】
为向王国维《人间词话》中的三重境界致敬，作者请GPT-4引用
中国古典诗词，为大模型应用的三重境界起标题。以下是GPT-4的原
版回答：
■第一重境界：此境界中，大模型与人类员工进行1：1的协作，
提高个人工作效率。可以用“工欲善其事，必先利其器”（《论语·
卫灵公》）来概括这一境界的特点。在这个阶段，大模型就像一把锋
利的工具，帮助员工提高工作效率和工作质量。
■第二重境界注【其中第二重境界的诗句过于消极，已人工替换为更合适
的“同舟共济扬帆起”，这也算是“大模型生产内容、人类审核修正”的一个真实
案例。此外，经试用现阶段请勿相信GPT给出的诗句出处。】：可以用辛弃疾
的《青玉案·元夕》中的一句词来概括这一境界：“红颜未老恩先
断，斜倚薰笼坐到明。”这句词描绘了在美好时光中突然面临变故的
情景，与企业在第二重境界中，面临业务流程调整和组织变革的挑战
相呼应。
■第三重境界：企业基于大模型在本行业应用中的潜在优势，从
头设计全新的业务，从根本上改变业务运作方式，或进入一个全新的
市场。可以用苏轼的《江城子·密州出猎》中的一句诗来概括这一境
界：“欲穷千里目，更上一层楼。”这句诗意味着为了追求更高的目
标，需要站在更高的层次去审视。与企业在第三重境界中，勇攀高
峰，创新业务模式，开拓新的市场和机会。
产业篇
2022年12月上旬，在谷歌公司的一次全员沟通会上，多名员工
向高管们提出疑问：ChatGPT上线未满一周就收获百万用户，这是否
证明谷歌错失了一次重大机会？谷歌技术大神、谷歌大脑(Google B
rain)团队的负责人，也是大数据编程模型MapReduce的设计者杰夫
·迪恩(Jeff Dean)给出了自己的判断——目前这种大模型仍然存在
一些问题，谷歌有能力提供同样的产品，但如果在产品尚不成熟时
就公之于众，产品可能在提供信息时出错，就会因此招致更大的
“声誉风险”。因此，谷歌需要“比小型初创公司（指推出ChatGPT
的OpenAI公司）更保守”。谷歌的首席执行官桑达尔·皮查伊(Sund
ar Pichai)则表示，谷歌也在开发同类产品，他认为在这个新的领
域谷歌需要兼顾勇气和责任，必须维持好平衡。
此次会议相关消息被披露后，业界认为，谷歌正在遭遇创新者
窘境，即成功的公司往往会被自己现有的市场和客户束缚，而忽视
新兴的技术和市场的需求，从而导致被更具创新力和灵活性的新进
入者所颠覆。大模型应用是谷歌搜索引擎的潜在替代产品，大模型
应用的商业模式尚不明晰，一旦替代发生，新的收入能否弥补谷歌
搜索引擎收入的损失，这是皮查伊作为首席执行官需要考虑的。
仅仅十余天后，皮查伊在谷歌公司内部发出了“红色代码”警
报，推动谷歌的多个团队快速集结，集中力量应对ChatGPT给谷歌公
司带来的威胁。他甚至还把谷歌公司的两位创始人劳伦斯·爱德华
·佩奇(Lawrence Edward Page)，和谢尔盖·布林(Sergey Brin)拉
进这些会议中，而二人自2019年后就已淡出谷歌的公司运营。
两周之内，谷歌高层对ChatGPT的态度从“需要更保守、做好平
衡”迅速反转，到拉响“红色代码”警报，是谷歌公司反应过度了
吗？
接下来发生的事情证明，谷歌是对的。
2023年2月初，急于做出回应的谷歌公司在发布会上展示了谷歌
公司研发的与ChatGPT同类的大模型应用Bard。Bard在短短的演示中
暴露了一个事实错误——它误认为世界上首张太阳系外行星照片是
由詹姆斯·韦伯太空望远镜拍摄到的。在该错误被公众发现后，谷
歌公司的股价暴跌9%，市值损失千亿美元，完美印证了杰夫·迪恩
的神预言——大模型目前都存在问题。虽然ChatGPT也会犯错，但谷
歌作为全球最大的搜索引擎公司，其产品一旦出错，就被公众舆论
放大，其承担的风险将远大于创业公司。
似乎为了证明谷歌拉响警报的合理性，2023年2月初，微软公司
发布了集成ChatGPT大模型的搜索引擎New Bing（新必应），一个月
内New Bing的应用下载量增长了8倍之多。进入3月之后，为ChatGPT
提供外部环境交互能力的插件库紧锣密鼓地陆续发布，OpenAI公司
推出新一代大模型GPT-4；微软公司的Microsoft 365 Copilot将GPT
集成至Office；百度、阿里、亚马逊陆续发布文心、通义和Titan大
模型；英伟达公司也推出了针对大模型推理的H100 NVL GPU和DGX C
LOUD计算集群，而围绕大模型的各种新型应用以及提出技术新进展
的论文更是频繁亮相，大模型技术和产业的更新迭代几乎是以
“天”为单位。
尽管发展迅速，但毕竟技术出现的时间太短，大模型产业还只
是初具雏形。其产业目前的构成情况如何？在未来，大模型产业又
将如何发展呢？
尽管谷歌公司已经全力加速，但让桑达尔·皮查伊和杰夫·迪
恩当初持保守态度的隐忧并未消除，大模型的事实错误和替代搜索
引擎之后的新商业模式，是否能打破困局？这都是人工智能浪潮再
度来临之际，产业界需要思考的问题。
14 大模型产业拆解
我们将大模型产业划分为4层：硬件基础设施层、软件基础设施
层、模型MaaS层和应用层（参见图4.1）。
◎图4.1 大模型产业的分层结构
硬件基础设施
针对大模型优化的GPU和云服务
（大模型相关的）一切数据处理都要经过基础设施厂商之手，他
们收割了产业回报……（算力的）每秒浮点运算次数成了生成式AI的
命脉。
——美国硅谷投资公司a16z
GPU在深度学习中扮演了非常重要的角色。相较于CPU，GPU具有
大量的并行处理能力，特别适合处理深度学习中的大规模矩阵运算，
能令模型的训练和推理过程获得显著加速。
除了常规的深度学习需求之外，大模型的训练和推理对GPU提出
了更高的要求：
更高的计算能力：与以往的深度学习模型相比，大模型具有更多
的参数和更大的模型结构，随着模型规模的扩大，计算复杂度也呈指
数级增长。例如，人脸识别的主流算法DeepFace、FaceNet和ArcFace
的参数规模在几百万到一亿之间，而大模型的参数规模则高达数十亿
到千亿。
更大的显存容量：大模型需要在GPU上存储和处理海量的参数和
梯度，批次数据和相应的中间计算结果也需要在GPU显存中存储。较
大的显存有助于在GPU上容纳整个模型，从而避免频繁地从其他存储
器中调用参数，降低训练和推理效率。
更快的显存带宽：由于大模型训练涉及大量的矩阵运算和数据处
理，需要在GPU显存和计算单元（如Tensor Core：张量计算核心）之
间快速传输数据。因此，高带宽可以提高计算效率，缩短训练时间。
更高效的集群通信能力：对于超大模型，参数无法完全装入单个
GPU显存，需要使用模型并行技术分散到多个GPU上，将模型参数和计
算任务在多个GPU之间进行划分。这种分布式训练需要在多个GPU之间
进行高效的通信，以便在各个节点间同步梯度和参数。在多GPU或多
节点的集群中，使用高速互联技术（包括英伟达的NVLink，即单节点
8卡之间的通信机制，以及RDMA远程直接地址访问，即多节点之间的
通信机制），可以比传统高速串行通信互联标准PCIe提供更高的通信
带宽并降低延迟。
低延迟和低成本的推理：在生成式大模型最常见的交互聊天场景
中，需要通过低延迟的推理来快速响应用户。在大模型进行商业化之
后，模型推理成本将成为业务边际成本的重要组成部分，需要对推理
任务在GPU上进行加速优化，从而降低成本。
目前，符合大模型训练推理要求的GPU代表产品是英伟达Ampere
系列和Hopper系列中的高端卡A100、H100。
例如，Hopper系列的H100-SXM，计算能力达到1979万亿次16位浮
点计算每秒（作为对比，索尼PlayStation5游戏机的GPU计算能力是1
0.28万亿次，A100是312万亿次），GPU显存大小为80GB，显存带宽为
3.35T字节每秒(TB/s)。借助NVLink交换机系统，最多可连接256个H1
00 GPU来完成训练，跨GPU的通信速率可达900G字节每秒(GB/s)。H10
0还实现了Transformer引擎，对大模型的底层Transformer组件进行
硬件加速。
通过计算能力、显存、带宽、跨GPU通信、Transformer硬件加速
的综合能力，H100-NVL可大幅提升大模型的训练和推理效率。以1750
亿参数的GPT-3为例，可将训练速度最高提升12倍（与上一代的A100
相比）。而在5300亿参数规模的Megatron 530B自然语言模型上，H10
0-NVL每GPU推理吞吐量比A100高30倍，响应延迟可控制在1秒之内。
除了GPU单卡性能的不断提升，英伟达还在2023年3月GTC大会（G
PU Technology Conference，即GPU科技大会）上推出了DGX CLOUD计
算集群。该计算集群将依托于Oracle Cloud、微软Azure、Google Cl
oud等云服务商提供大模型算力托管服务。每个DGX节点包括8个H100
或A100 GPU，单节点显存共计640GB，节点内通过NVLink进行通信。
单个计算节点（8卡GPU高性能计算服务器）往往无法满足大模型
的训练需求，需要连接多个节点进行分布式训练，这就要求数据中心
具备更高的核心网带宽，为训练数据传输提供更高的吞吐量和更低的
时延，这也是大模型对于云服务基础设施的重点需求。目前云服务厂
商可以提供数百G比特每秒(Gbps)的核心网带宽，未来可以达到T比特
每秒(Tbps)的级别。
在核心网带宽升级的过程中，RDMA远程直接内存访问(Remote Di
rect Memory Access)技术或将是重要的一环。跟传统以太网和TCP/I
P协议相比，RDMA技术将数据直接从一个GPU节点的内存快速转移到另
一个节点的内存中，绕开双方操作系统内核和CPU的处理，因而能达
到高吞吐、低时延和低资源占用率的效果。
◎图4.2 RDMA两种典型方案与传统方案架构对比
RDMA阵营中有两种典型的技术方案：无限宽带技术(IB)、基于融
合以太网的RDMA(RoCE)。其中IB方案的链路层流控技术可以获得更高
的带宽利用率，因此能支撑更大规模的训练集群。但IB方案无法兼容
现有以太网，需要更换IB网卡和交换机，对于部署和运维都是一笔不
菲的成本。相对而言，RoCE则被认为是IB的“低成本解决方案”，将
IB的报文封装成以太网包进行收发，但相比IB在性能上有一些损失。
云服务商需要权衡大模型的训练需求、训练效率和服务成本，并做出
方案的选择。
在大模型的基础设施支持上，国内芯片厂商也在积极地追赶。例
如昆仑芯的R480-X8加速器组，搭载8颗基于昆仑芯2代的R300 OAM模
组之后，整体计算能力可达到1000万亿次16位浮点计算每秒，整体显
存达到256GB，基于芯片间互联技术可提供200GB/s的跨GPU通信聚合
带宽。此外，通过昆仑芯2代芯片对GDDR6（图形双倍数据速率）的支
持，其可提供更高的带宽、容量、能效和并行性，GPU显存大小达到3
2GB，显存带宽512GB/s，从而提高了在大模型推理场景下的能效比和
性价比。
在大模型产业中，硬件基础设施To B（面向企业用户）的商业模
式是最清晰的，对GPU厂商来说尤其如此，他们是大模型发展早期的
商业中最大的赢家。
大模型提供商进行预训练和微调时，需要GPU；大模型行业客户
或应用提供商利用私域数据进行模型微调时，需要GPU；最终用户使
用大模型应用时，还需要GPU进行推理。GPU及相应的云服务，在大模
型产业的每一个环节都能创造To B的收入，付款企业包括大模型提供
商、大模型行业客户或大模型应用提供商。
思考：
如果GPU算力供应存在约束，是否会影响大模型产业的发展？
GPU推理成本是否会影响大模型应用的普及？
软件基础设施
适合大模型的分布式深度学习框架
2023年将是分布式AI框架的一年……摩尔定律正在放缓，机器学
习工作负载需求与单个节点或单个处理器能力之间的差距越来越大，
最终支持这些工作负载的唯一方法就是分布式处理这些工作负载。
——艾恩·斯托伊卡(Ion Stoica)，分布式AI框架Anyscale的联
合创始人
算力对大模型的重要性毋庸置疑。在本章的上一小节中，我们谈
到提高算力主要通过GPU和计算集群的硬件优化，但在大模型训练算
力需求远超GPU单节点能力的情况下，还需要通过软件基础设施来满
足大模型的需求，实现硬件的横向扩展，充分释放底层硬件的潜力。
深度学习框架是一种用于设计、训练和实现深度学习模型的软件
库，为开发者提供一系列工具和函数。较常使用的框架有谷歌大脑开
发的TensorFlow、Meta开发的PyTorch、百度开发的飞桨(PaddlePad
dle)、阿里开发的PAI TensorFlow等。
有人将深度学习框架比作深度学习的操作系统，因为这类框架为
模型开发者提供了一个抽象层，使他们能够更容易地构建、训练和优
化神经网络模型。
抽象层：深度学习框架提供了一系列预定义的层、损失函数和优
化器等组件，使开发者可以方便地搭建复杂的神经网络结构，而无需
关心底层的数学和计算细节。这与操作系统提供的文件系统、进程管
理等抽象层类似。
资源管理：深度学习框架负责管理计算资源（如CPU、GPU、内存
等），以实现高效的计算和内存利用，这与操作系统管理硬件资源的
角色相似。操作系统负责基本的硬件资源管理，为框架提供抽象接
口；框架则针对深度学习任务进行优化，充分利用硬件资源，提高计
算效率。
设备兼容性：深度学习框架通常针对各种硬件（如GPU、TPU等）
进行优化，使用户可以在不同的设备上高效地运行深度学习模型，这
与操作系统支持不同硬件设备的特性类似。
在大模型时代，模型的参数规模比起以往的深度学习模型要大得
多，在训练和推理的过程中需要消耗巨大的计算资源和时间。因此，
分布式的深度学习框架便成为大模型最重要的软件基础设施，需要重
点解决以下问题：
大规模计算：大型语言模型通常包含数十亿甚至数百亿的参数，
这需要大量的计算资源才能进行训练和推理。分布式深度学习框架可
以在多个计算节点和多个GPU或其他加速器上并行执行任务，从而实
现大规模计算。
数据、模型和流水线并行：数据并行将允许多个计算设备同时处
理不同的数据分片，提高训练速度。模型并行将模型分布在不同的计
算设备上，使得训练更大的模型成为可能。流水线并行将模型的计算
过程划分为多个阶段，在不同的计算设备上并行执行，减少通信开
销，提高计算设备的利用率。以上几种并行策略对于加速大型语言模
型的训练过程至关重要。
高效的资源利用：通过任务调度、负载均衡和资源管理等机制，
确保计算资源得到高效利用。这有助于降低大型语言模型训练和推理
的时间和成本。
容错和恢复：大型语言模型的训练时间较长，在训练过程中出现
计算节点和设备故障，无须从头开始，只需要容错和恢复机制，就可
以确保训练可以继续进行。
当大模型加入图像、视频等多模态数据之后，模型规模、算力要
求、训练时长都会进一步提升，作为软件基础设施，分布式深度学习
框架的重要性在未来的多模态条件下将愈加凸显。
分布式深度学习框架能力的实现方式有两种。
1.叠加式：在已有的深度学习框架之上提供分布式能力，例如Op
enAI公司在ChatGPT项目中使用的Ray on PyTorch。Ray主要解决分布
式计算、任务调度和资源管理等方面，而PyTorch则侧重于模型的构
建、训练和优化。
■模型设计和开发：使用PyTorch构建神经网络模型，定义损失
函数、优化器等训练所需组件。这个阶段主要依赖于PyTorch的功
能。
■分布式训练：使用Ray提供的分布式API，将PyTorch模型在多
个节点和多个GPU上进行训练。Ray负责任务调度、资源管理和容错，
而PyTorch则负责模型参数的更新和优化。
■数据和模型并行：结合Ray的分布式特性，在PyTorch上实现数
据并行（多个设备同时处理不同数据分片）和模型并行（将模型分散
到不同的计算设备上）。
■部署和推理：使用Ray Serve部署PyTorch模型，并提供高性能
的在线推理服务。Ray Serve负责模型的扩展和负载均衡，确保推理
过程的高效和稳定。
通过叠加式方案解决大模型分布式训练的产品还有英伟达的Nemo
Framework、微软的DeepSpeed等，其提供了模型并行、数据并行和流
水线并行等技术。
2.全栈式：专为大模型解决横向扩展问题的、原生支持分布式并
行训练的深度学习框架，例如国内的开源框架OneFlow。
■OneFlow以软硬协同设计为指导思想，从芯片设计领域借鉴了
大量思路，在纯软件层面解决大模型训练的横向扩展难题。
■将自动编排并行模式、静态调度、流式执行等技术相融合，构
建了一套原生支持数据并行、模型并行及流水并行等多种模式的分布
式深度学习框架，无需定制化开发，兼容多种底层GPU硬件，降低大
模型分布式训练门槛。
■降低计算集群内部的通信和调度消耗，提高硬件使用率，缩减
训练成本和时间。
分布式深度学习框架在大模型产业的技术栈中占据了重要的位
置。在商业模式方面，除了开源软件领域常见的高级功能订阅费、技
术咨询费、定制开发费之外，分布式框架企业也在积极地探索新的可
能。
以开发Ray并为OpenAI公司提供框架支持的创业公司Anyscale为
例，他们提供了SkyPilot，基于多个云服务商的模型训练推理计算资
源的代理。“给定一项计算任务及资源需求（CPU、GPU或TPU），Sky
Pilot会自动找出哪些位置（区域和云服务商）具有合适的计算能
力，然后将其发送到成本最低的位置执行。”
基于分布式框架，吸引大模型开发者和提供商（参见图4.3），
再进行云服务的集成和代理销售，是一种可行的商业模式。这也充分
发挥出分布式框架的优势，不依赖最新、最强的硬件，可兼容多种底
层硬件，从而降低大模型的训练和推理门槛和成本。
◎图4.3 Anyscale SkyPilot云服务代理架构
图片来源：加州大学伯克利分校网站。
思考：
假设大模型未来算力需求继续攀升，分布式框架是否是解决这一
需求的重要手段？
分布式框架技术团队作为基础设施提供商，在商业上存在哪些机
会？
大模型的数据工具
在“算力、数据、算法”的人工智能三要素当中，大模型产业通
过硬件基础设施层加上分布式框架，重点解决算力要素的问题。而数
据的数量和质量则是对大模型训练性能影响重大的另一个要素。
大模型的训练包括三个阶段：自监督预训练(Self-supervised p
re-training)、监督微调(Supervised fine tuning)、人类反馈强
化学习(RLHF)。
在大模型预训练阶段，需要的数据量极大但无需人类标注。数据
可以通过购买、合作、抓取等方式获得，并进行数据清洗。此类工作
通常由大模型提供商自行完成。
其后的两个阶段，即监督微调和强化学习阶段，都需要提供带人
类标注的样本数据。
大模型标注样本数据的获取主要有以下4种手段：
1.通过专业人员进行数据标注。
参与标注的专业人员有两种：数据标注专业人员，经过标注工作
的培训即可上岗；垂直行业专业人员，对学历和行业经验有较高要
求。在ChatGPT训练阶段，OpenAI公司曾有几十位博士参与数据标
注，编写对话的答案，或者对模型输出的答案进行评分，确保ChatGP
T回答的逻辑尤其是垂直行业的专业性满足内容质量的要求。
数据标注是大模型数据相关产业中最重要的模块，可以由大模型
提供商内部团队自行完成，也可以采购专业数据标注公司的服务或云
计算厂商的数据标注服务。
总部位于美国硅谷的Scale AI公司是OpenAI公司的专业数据标注
服务商，该服务商支持标注的数据类型包括文本、图像、音频、视
频、3D传感、地图等。标注业务的商业模式有两种：按条数收费和按
项目收费。在大模型产业中，目前有数据标注需求的客户的项目规模
都比较大，通常按照项目制单谈价格，并且伴以项目定制需求，但项
目制在商业中存在的问题就是利润率比较低。
为了提高利润，Scale AI公司的主要手段就是降低人力成本。首
先，他们尽量对任务进行分解，在某些任务环节上降低对人员学历和
专业素质的要求，将更多的人力工作外包给东南亚、非洲、南美等
地。其次，在人工标注过程中，在某类任务积累到一定的标注数据量
之后，开发标注算法，先通过机器进行标注，再由人工审核，以此降
低人工花费的时间。
2.搜集用户使用过程中的反馈。
真实用户的提问、用户对大模型回答的评价或选择，都会成为大
模型标注数据的一部分。
例如，ChatGPT在用户重新生成回答之后，会提示用户对比前后
两次回答的优劣（参见图4.4）。
◎图4.4 ChatGPT对用户反馈信息的收集
思考：
如果企业要使用大模型底座，有哪几种选择，根据什么来判断？
根据用户的需求，AI绘画工具Midjourney每次可以生成4张不同
的图供用户挑选（参见图4.5）。用户的选择也会作为一种人类反
馈，成为Midjourney的训练数据。
◎图4.5 Midjourney生成4张图片供用户挑选
图片来源：来自Midjourrney官网，http://www.Midjourrney.c
om/。
在数据标注工具中，收集用户反馈是数据数量最大、性价比最高
的。当ChatGPT早于竞争对手发布产品时，他们就提前获得了更多的
数据。他们把这些数据加入训练，大模型的性能和使用体验得到了提
高，进一步吸引更多用户，收集到更多用户的数据，由此启动了数据
飞轮——一种自我强化的循环过程（参见图4.6和图4.7）。
◎图4.6 大模型的数据飞轮
◎图4.7 推特用户对大模型收集用户反馈行为的评价
图片来源：推特官网，https://twitter.com。
3.获取公域或三方数据。
公开的互联网数据，或者其他产品的数据，均有可能作为数据标
注的来源。需要注意的是，采用这类数据必须符合法律规定。
例如，ShareGPT是一个浏览器插件产品，用户可以通过ShareGPT
保存并分享自己跟ChatGPT的对话记录。因此，在ShareGPT的公开页
面上，可以收集到部分用户的对话数据（参见图4.8）。
◎图4.8 ShareGPT公开页面上部分用户的对话数据
图片来源：ShareGPT官网。
从技术上看，这些数据符合大模型监督微调阶段的标注需求。但
从数据使用的合规性上看，需要考虑产品的用户协议和相关法规。
4.接入企业私域数据。
作为大模型的企业客户或应用开发者，可能有自己的私域数据。
这类私域数据的接入工具，我们会在模型层的模型企业服务模块进行
介绍。
模型库社区
“创业公司可以通过某种方式为机器学习社区来赋能，这样创造
的价值可以比一个专有工具高出1000倍……你也不必从中获取100%的
收益，只需要将其中1%的价值变现。”
——克莱门特·德朗格(Clément Delangue)，AI社区Hugging Fa
ce首席执行官
在软件行业，GitHub是最大的软件代码托管平台和社区。在这个
平台上，开发者可以进行代码的版本控制、协作开发，以及分享和复
用开源软件。GitHub对于开源社区尤为重要，因为许多知名的开源项
目都托管在这个平台上。
而在AI模型尤其是大模型领域，Hugging Face则是最有影响力的
在线模型库和社区。Hugging Face的平台用户分为两大类，即模型托
管者和模型使用者。大模型的托管者通常是模型的研究开发方，可以
在平台上托管并共享预训练模型和数据集：模型使用者可以通过平台
选择合适的模型，在社区中进行协作和模型评价，然后将选定的模型
投入生产应用，而训练和推理均可在平台上完成。
从2019年一个Transformer模型的分享起步，Hugging Face社区
培育了一个庞大的开源社区，上万家公司包括谷歌、微软、Meta、英
特尔都在使用他们的服务。接受该社区托管的模型超过10万个，其中
半数以上是开源模型（参见图4.9）。
◎图4.9 与LLaMA相关的开源大模型
图片来源：Hugging Face，https://huggingface.co。
Hugging Face作为一个双边平台，为模型研发者（科学界）和模
型使用者（产业界）搭建桥梁，弥补了科学与生产之间的鸿沟，可以
理解为，Hugging Face是人工智能领域的GitHub。国内类似的模型库
社区有阿里的ModelScope魔搭社区。
作为大模型产业中的一类基础设施，模型库社区的商业模式完全
是To B的。与其他开源项目的商业化相似，模型库社区主要通过高级
功能付费、定制服务项目费赢利，也可以扩展到大模型所需的云计算
代理领域，例如Hugging Face就提供模型训练和推理部署的付费服
务。
模型即服务层
模型即服务(MaaS)层是大模型产业的核心。我们使用的大模型应
用（例如ChatGPT）必须通过这一层的模型（例如GPT-4）提供的能力
来实现对话、写作、分析、写代码等各种用户级功能。通过企业服务
模块的应用程序编程接口(API)形式，大模型向企业客户或应用开发
者提供多种能力调用，包括模型推理、微调训练、强化学习训练、插
件库、私域模型托管等。
根据模型是否开源，可将大模型分为两大类：闭源大模型和开源
大模型。
闭源大模型
闭源模型的源代码、模型数据和训练过程方法是私有的，这些模
型通常由专业组织或公司开发和维护。闭源模型的商业化程度较高，
产品完善度和模型性能有更好的保障，通常需要付费才能使用。
闭源大模型的典型例子是OpenAI公司的GPT-4、百度的文心千
帆、阿里的通义等。
GPT-4的特点和能力，我们在技术篇有所涉及，此处不再赘述。
聚焦生成式预训练大模型领域，主要需要关注大模型在以下几个
方面的表现：
■生成文本的质量：模型生成的文本是否流畅、连贯，是否与输
入强相关、符合人类的预期，是否存在偏见或错误信息，可以通过人
工评估来衡量。
■零次迁移的学习能力：模型在没有接受特定任务训练的情况下
处理相关问题的能力。这反映了模型的泛化能力和灵活性。
■生成样本的多样性：模型生成的文本是否具有多样性，能否在
相同输入的情况下给出多种合理的回应。这可以通过检查生成样本的
不同程度来评估。
■输入的容错性和鲁棒性：一个好的模型应当能够处理输入中的
错误（如拼写错误、语法错误等），并且在面对攻击或敌对样本时保
持稳定表现。
■计算资源需求：模型在训练和推理阶段对计算资源（如GPU、
内存等）的需求。较小的计算资源需求意味着更高的可扩展性和商业
可行性。
■可解释性和可审计性：这些特性有助于理解模型的工作原理，
以及如何改进模型以减少偏见和错误。
以OpenAI公司的GPT-4和GPT-3.5为例，GPT-4在生成文本质量、
任务性能、零次迁移学习能力等方面优于GPT-3.5。然而，GPT-4可能
也需要更多的计算资源，导致在部署和推理时的成本增加。
闭源大模型可以从零开始开发和训练，例如OpenAI公司，也可以
站在巨人的肩膀上，利用开源模型作为基础，训练和定制自己的闭源
模型。
开源大模型
开源模型指模型的源代码、模型数据和模型训练过程等内容是公
开可用的，这些模型可以供使用者免费下载、使用、修改、分享和重
构。不同的开源模型，可能规定不同的内容开放范围和使用场景，不
一定100%开放。
相对闭源，开源模型可以降低模型的二次开发门槛，有助于各个
领域的广泛应用和普及。更重要的是，开源模型可以获得开发者社区
驱动的创新和改进，利用集体智慧的力量，可能获得更快的发展。
Meta的LLaMA以及开源业界从LLaMA扩展出来的诸多模型是生成式
预训练大模型的典型例子。
2023年2月，Meta发布了Meta AI大语言模型(LLaMA)，这是一种
基于开放数据集进行自监督预训练的大模型。
LLaMA主打两个特色：一是开放，即可以在非商业许可下提供给
政府、开发社区和学术界的研究人员，让更多机构和个人能参与大模
型的研究和探索，实现大模型的民主化；二是性价比，可以在大数据
集的基础上缩小模型规模，找到模型性能和推理部署成本的最佳平
衡。
LLaMA基于1万亿~1.4万亿token数据集，训练出4种规模大小的模
型（70亿、130亿、330亿和650亿参数，而GPT-3是1750亿参数）。
LLaMA使用的预训练数据集均来自公共领域（参见图4.10），包
括：
◎图4.10 LLaMA使用的预训练数据集
图片来源：Touvron H，Lavril T，Izacard G，et al. Llama：
Open and efficient foundation language models[J]. arXiv pre
print arXiv：2302.13971，2023。
1.Common Crawl，互联网网页爬取数据集。
2.C4，另一个公共网页数据集，包括各种文章、博客、新闻、论
坛等。
3.GitHub程序代码，为保证数据合规性，只使用了基于Apache、
BSD和MIT licenses的代码库。
4.维基百科，以说明性文字形式写成，并且覆盖多种语言和领
域。
5.图书数据集，包括以经典著作为主的古登堡计划(Project Gut
enberg)，和ThePile数据集中的Books3数据。
6.ArXiv论文库，为数据集提供了坚实而严谨的基础，因为学术
写作通常展示了有方法论的、理性的和一丝不苟的输出。
7.Stack Exchange，一个高质量的问答网站，涵盖了从计算机科
学到化学等各种领域的问题和答案。
除了以上第2点和第7点，这些数据与GPT-3数据集有一定的重合
度，都在GPT-3数据集中出现过。
Meta公司在其发布的论文《LLaMA：开源高效的基础语言模型》
中披露了大模型训练和推理的算力消耗（参见图4.11）。以性价比较
高的LLaMA-13B为例，预训练基于A100-80GB显存的GPU，花了13.5万G
PU小时，推理则用V100 GPU（A100的上一代）单卡完成，有利于大模
型规模化推广后解决推理成本即业务边际成本问题。
◎图4.11 LLaMA各版本的算力需求
图片来源：Touvron H，Lavril T，Izacard G，et al. Llama：
Open and efficient foundation language models[J]. arXiv pre
print arXiv：2302.13971，2023。
LLaMA的出现，让开源社区尤其是诸多高校和初创企业看到了参
与大模型核心研发的希望。在LLaMA发布的一个多月内，就涌现了许
多扩展版本，影响较大的有斯坦福大学开发的Alpaca，以及来自加州
大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥
分校的团队（以中国籍学生为主）开发的Vicuna。
其中，Vicuna-13B以LLaMA 130亿参数的预训练模型，叠加监督
微调(Supervised fine tuning)训练而成（参见图4.12）。
由于LLaMA只做了大模型的预训练，所以即使它具备了浑厚的内
力，但还没学会和人类交互方面的具体招式。因此，Vicuna监督微调
所用的数据非常关键，该团队从ShareGPT（参见大模型数据工具的第
3类）获得了7万个ChatGPT用户对话数据，作为标记样本进行微调训
练。
◎图4.12 Vicuna-13B的训练、评估和推理
图片来源：来自Vicuna官网，https://vicuna.lmsys.org/。
在训练过程中，Vicuna使用了Alpaca项目的训练脚本，并在多轮
对话和长序列的处理方面做了优化。微调训练使用了8个A100 GPU，
花了一天时间。从LLaMA的论文结合Vicuna的实践来看，无论是预训
练还是微调训练，所需计算资源与模型大小基本成正比递增关系。
在模型性能评价时，Vicuna团队创建了8大类问题（复杂写作、
角色场景处理、常识解释、数量级估计、反事实假设、代码和数学、
领域知识、一般性问题），共计80个问题，分别测试了LLaMA、Alpac
a、ChatGPT-3.5、Bard和Vicuna。然后，让GPT-4作为裁判，将问答
文本输入到ChatGPT-GPT4中，请它来评估这5个模型的输出质量，评
判维度包括回答的有用性、相关性、准确性和细节程度。
请GPT-4当裁判时，对ChatGPT-GPT4的提示语（翻译）如下：
“我们希望你针对上述用户问题的两个AI助手表现提供反馈。
请评估他们回答的有帮助程度、相关性、准确性和详细程度。每
个助手的总评分为1到10，分数越高表示整体表现越好。
首先，请输出一行仅包含两个值的文本，分别表示助手1和助手2
的得分，两个分数之间用空格隔开。
在接下来的一行中，请提供对您评价的全面解释，避免任何潜在
偏见，并确保回答呈现的顺序不会影响您的判断。”
从GPT-4的评价来看（参见图4.13），Vicuna完胜两个开源前辈L
LaMA和Alpaca，略优于谷歌的Bard，相比ChatGPT-3.5略有不足。
◎图4.13 Vicuna跟4家大模型的对比
图片来源：来自Vicuna官网，https://vicuna.lmsys.org/。
利用水平高一级的大模型(GPT-4)给其他的大模型做评价，是一
种简便高效的方法。在Vicuna的实践中，团队成员对GPT-4的评价结
果进行人肉审核(human in the loop)，确保评价的合理性和有效
性。
开源大模型的使用者有不同的场景和目的。
■许多学校和科研机构都基于开源大模型开发训练自己的模型，
进行实验性的应用探索，生成的新模型通常也会继续开源，例如基于
LLaMA开发的Vicuna。
■企业应用开发者基于开源大模型定制训练自己的模型，并基于
这个模型开发自己的应用，例如彭博社基于开源大模型Bloom开发的B
loombergGPT。
■大模型提供商基于开源大模型定制训练自己的模型，并基于这
个模型向企业客户和应用开发者提供大模型MaaS服务。
无论是哪种场景，使用开源大模型的好处是，可以充分利用AI大
厂在预训练阶段的巨大投入，不需要自己建立巨大的预训练计算集
群，不需要进行庞杂的数据收集和清洗，也规避了预训练阶段算法调
优的复杂工作。总之，可以大大降低拥有自己的大模型的门槛。但同
时也要注意不同的开源项目对于使用者的不同约束，做到合规使用。
思考：
如果企业要使用大模型底座，有哪几种选择，根据什么来判断？
模型企业服务
MaaS，就是要把大模型封装成服务的形式。上文提及闭源和开源
两类大模型的特点和能力，要想把这些能力在实际场景中发挥出来，
还需要在大模型的产品化和商业化阶段向企业客户或应用开发者提供
API能力调用，包括模型推理、微调训练、强化学习训练、插件库、
私域模型托管等。
典型的大模型企业服务案例有OpenAI公司的GPT-4 API、百度的
文心千帆开发服务平台。
1.模型推理
大模型向企业客户或应用开发者提供的最基础的能力就是模型推
理，属于服务必选项。
在表现形式上，模型推理是通过最终用户跟大模型之间的对话来
实现的。开发者先通过API入参提供用户的输入（即Prompt提示
语），随后由API返回大模型推理结果，即针对用户提示语的回答。
大模型推理的成本和时延的影响因素，包括客户选择的模型规
模、推理硬件环境、输入输出的数据大小等。
2.二次微调训练
大模型提供商在已经进行过微调的前提下，仍然向企业客户或应
用开发者提供二次微调(Fine-tuning)的能力，旨在将通用大模型调
整为适应特定任务或领域的模型。其使用场景包括：
■领域特定任务：当开发者需要针对特定领域问题（如医学、法
律或金融等）进行处理时，微调可以帮助模型更好地理解该领域的术
语和语境。
■定制化应用：为了满足特定业务需求，可以训练一个定制化的
AI助手，回答特定问题或执行特定操作。微调可以帮助模型适应这些
定制化场景。
■数据敏感任务：如果任务涉及机密数据或特定数据集，二次微
调可以确保训练数据不会进入通用大模型。
二次微调的使用方法：
■准备数据：收集与特定任务或领域相关的标注数据（问题和答
案的匹配对）。
■微调训练：使用预处理后的数据对大模型进行微调，模型的权
重会根据新数据进行调整，以适应特定任务。
■验证与测试：在微调训练完成后，使用验证集评估模型性能。
如果性能满足要求，可以使用测试集进一步测试模型在实际应用中的
表现。注意，微调后的模型在特定任务上的泛化能力会有所提高，但
在其他任务上的表现可能略有下降。
3.强化学习训练
与二次微调类似，企业客户或应用开发者也可以基于通用大模型
进行二次人类反馈强化学习，使得大模型在特定任务或领域中表现得
更好。
4.私域模型托管
当企业客户或应用开发者非常看重数据敏感性、模型可控性时，
需要将私有的大模型部署到企业私域中，并提供专有托管服务。
5.模型裁剪
针对企业客户或应用开发者的特点需求，对模型进行压缩和轻量
化处理，对大模型中不重要的网络连接进行裁剪，减少模型冗余。裁
剪有可能导致部分场景的表现变差，但可以明显降低推理成本，有助
于特定场景下的规模化部署。
6.插件库
大模型虽然能完成许多任务，但能力仍然有限。大模型只能从训
练数据中学习，无法实时更新知识。大模型也只能回答问题，不能执
行操作，或者与外界环境进行交互。
大模型插件是用来弥补以上缺陷的工具。插件可以成为大模型的
“眼”和“手”，帮助大模型获得最新的、私密的、无法包含在训练
数据中的信息。为了响应用户的具体任务请求，插件还可以代表大模
型来执行指定的操作，帮助大模型扩展更多的实际用途。
根据插件的功能，分类如下：
(1)数据获取型插件，例如：
■网络浏览：在需要的时候，搜索并浏览互联网信息，获取信
息。
■数据检索：对个人或组织的私域文档进行语义检索，获取信
息。
(2)操作执行型插件，例如：
■代码解释器：嵌入Python解释器，直接运行大模型生成的代
码。
■旅行助手：基于大模型生成的旅行计划，帮助用户订票、订酒
店。
■餐饮助手：基于大模型的消费推荐，帮助用户在餐厅预约订
座。
■购物助手：在关于商品的对话过程中，帮助用户进行商品比价
和订购。
■数学计算：使用专业的能提供计算服务的工具，如Wolfram进
行数学计算。
(3)内容审核型插件，例如：
■输入审核：根据企业或开发者特定的要求，对用户输入的提示
语内容进行审核和过滤，再送到大模型进行推理。
■输出审核：根据企业或开发者特定的要求，对大模型生成的内
容进行审核和过滤，再予以输出。
目前典型的插件开发运行框架有OpenAI公司的ChatGPT Plugins
和第三方工具Langchain。
以ChatGPT Plugins为例，插件开发者可以在自己的网站上公开
插件API，并提供描述API的标准化清单文件。ChatGPT会使用这些文
件，并允许大模型调用开发者定义的API。
大模型产业中，模型层的商业模式主要有以下几种：
(1)按模型使用付费
■推理调用量，可根据用户输入和模型回答的token数量计费。
■根据微调训练量、强化学习训练量计费。
(2)项目定制服务
■闭源大模型的私域托管、模型裁剪定制等服务，单独收费。
■开源大模型团队为客户定制开发和维护特定的模型，单独收
费。
(3)大模型提供商同时开发运营自己的应用，在应用层获得用户
和收益
应用层
大模型要创造大价值。再强的算力、数据和算法造出来的大模
型，如果应用层无法实现足够大的客户价值和商业价值，整个大模型
产业就会失去持续发展的动能。
在大模型发展的早期，应用层也是最有创新空间的一层，大模型
提供的新能力，在各行各业的场景里都创造了新的可能性。在前面的
应用篇，我们已经介绍了许多场景的应用潜力，在这里从产业角度对
3个典型应用进行分析，了解他们的商业模式、市场价值和竞争壁
垒。
ChatGPT
“从此刻开始，搜索的毛利率将永远、不可逆地进入下降轨
道。”
——萨提亚·纳德拉(Satya Nadella)，微软公司首席执行官
作为一个应用，ChatGPT获得了巨大的成功。在未大力宣传推广
的情况下，产品发布5天后，用户激增上百万，创下互联网用户增长
的纪录。2023年1月份的日活用户数高达1300万，日活用户的日均增
长比例为3.4%。
只需要看用户增长数据，就知道ChatGPT带来的用户体验是超前
且震撼的（参见图4.14）。
◎图4.14 十大热门应用收获百万用户的时间统计图
图片来源：tooltester.com/en/blog/chatgpt-statistics。
当2023年3月，将GPT-4模型和插件库集成到ChatGPT应用之后，
用户体验得到进一步提升，GPT-4付费用户专享使用的政策，为ChatG
PT吸引了大批的订阅付费用户。
1.商业模式
ChatGPT短期内的收入有3种可能：
(1)当前，ChatGPT Plus按月订阅付费，20美元/月。
(2)插件库上线后，有机会通过软件商店的苹果税模式（苹果公
司对开发者收入抽成30%），在插件库中的三方插件（例如订票、订
酒店、订餐、购物、虚拟消费等）抽取提成。
(3)同时，可以在对话中插入个性化的广告，获得后向收入。目
前New Bing已经在试水投放此类广告。
作为对比，苹果手机(iPhone)的模式是“1+2”，大头收入来自
用户付费购买，然后通过三方增值服务抽税。
谷歌（搜索广告&安卓）模式是“3+2”，大头收入来自搜索广
告，此外安卓系统提供的谷歌商店应用(Google Play)也对三方服务
抽税。
许多人把ChatGPT比作iPhone，而谷歌也把ChatGPT当作搜索的最
大威胁。那么，ChatGPT的商业模式究竟更像苹果还是像谷歌呢？
我们将ChatGPT用户一分为二，即使用GPT-4的付费用户和使用GP
T-3.5的免费用户。
从OpenAI公司模型的企业服务API的推理调用定价可以得知GPT-4
的推理单价是GPT-3.5的30~60倍（选择30倍或60倍取决于上下文关联
的文本长度需要8K还是32K）。虽然OpenAI公司采取定价策略，是要
在高端客户上获得高利润，但这也说明GPT-4和GPT-3.5的推理成本差
别是很大的。这个推理成本，就是ChatGPT服务里面最大的边际成
本。
当GPT-4模型巨大，GPU很贵的时候，ChatGPT的边际成本也非常
高，广告或抽税的每用户平均收入(ARPU)值无法弥补，这种情况下，
必须采用苹果模式，即通过付费才能使用GPT-4。
相对而言，GPT-3.5模型的推理成本较低，如果需要对使用量加
以限制，可以将边际成本控制在可接受范围内，采用谷歌模式，让部
分用户免费使用GPT-3.5，通过广告和插件库抽税的方式，在短期内
部分弥补边际成本，还可以通过软硬件优化来降低推理成本，扩展插
件和广告主生态提高收入来谋求长期发展。
综合来看，苹果模式的商业回报率相对稳健，但规模受限。谷歌
模式的用户规模天花板更高，但商业化较为不确定，这也是为什么谷
歌之前不积极发展大模型应用、担心其冲击主营搜索业务的主要原
因，即新的应用形态替代了搜索，但商业化回报率不足，将极大影响
谷歌市值。
2.市场价值
目前ChatGPT用户量已经破亿，长期潜在规模达十亿量级，与谷
歌搜索、Facebook是同等量级。
OpenAI公司对ChatGPT的短期收入进行了预测，预计2023年将通
过ChatGPT获得2亿美元收入，2024年获得10亿美元。
ChatGPT的长期收入取决于以下两点：
作为一个通用智能助手，ChatGPT对于知识工作的辅助或替代价
值有多大，付费的人数和ARPPU就有多大。（麻省理工学院对444名知
识工作者使用ChatGPT-3.5的调研数据显示，知识工作者愿意支付工
资的0.5%付费订阅ChatGPT。）
作为一个新的互联网入口，ChatGPT能否开发出知识工作之外的
离商业更近的场景，将决定流量变现效率有多高，插件库和广告商业
价值有多大（例如知乎、B站、小红书、百度搜索的流量变现效率差
别极大）。
3.竞争壁垒
作为一个应用，ChatGPT目前的竞争壁垒主要来自GPT-4大模型。
GPT-4在模型层明显取得了技术领先，并且依靠ChatGPT发布后获
取的海量用户数据反馈，提前启动了数据飞轮。
如果OpenAI公司将发展重心放在ChatGPT应用上，可以通过GPT-4
的服务接入控制，排除应用层的通用型竞品接入，只接受垂直领域的
行业型应用，从而保证ChatGPT的技术领先性。
未来，ChatGPT在应用层还可以长期保留用户数据，为付费用户
提供个性化的模型服务，以此让高端用户牢牢黏在自己的平台上。
CoCounsel
CoCounsel是基于GPT-4大模型能力开发的AI法律助手（参见图4.
15），由美国法律科技公司Casetext研发并运营。CoCounsel以自然
语言的交互方式，依靠相当于法律专业研究生的阅读、理解和写作水
平，协助律师快速完成原本复杂而耗时的任务。
◎图4.15 CoCounsel AI法律助手
图片来源：https://casetext.com/。
CoCounsel能够支持基于客户本地文档库的文件问答、法律法规
或内容检索，同时还具备生成法律备忘录、协议关键信息总结、合同
数据提取和提供风险条款修改建议等功能。
1.商业模式
根据客户使用的技能数量和委托给AI的工作量，提供按次付费和
订阅付费服务，并且为独立律师、小型律所、大型律所和公司内部律
师提供不同的计划。
由于法律行业的人力成本较高，单用户订阅付费区间设定为100~
500美元/月。
以订阅付费模式为主的商业模式，能产生持续的收入流，通过优
质体验保证续费率，并持续扩大业务规模。
2.市场价值
根据德国著名数据统计机构Statista在2022年提供的数据，2021
年全球法律科技市场收入达到276亿美元，从2021到2027年的复合年
增长率(CAGR)将超过4%，预计2027年该市场规模将达到356亿美元。
市场的驱动因素包括对法律服务的需求增加，以及法律流程中对自动
化和效率的需求增长。
在CoCounsel发布之后，Fisher Phillips律所的首席知识与创新
官伊万·申克曼(Evan Shenkman)说：“由于CoCounsel接受了Casete
xt公司庞大的、最新的案例法和法规的训练，并且引用了其来源，因
此它生成的AI输出具有难以置信的可靠性，并且可以高效验证。由此
以往，法律执业再也不会跟过去一样了。”(The practice of law w
ill never be the same.)
在GPT-4和类似CoCounsel的更多应用出现之后，法律科技的市场
增长率有可能大大超过之前的预测。
3.竞争壁垒
CoCounsel是第一个由GPT-4大模型技术驱动的AI法律助手，但不
会是最后一个。最领先的大模型技术使CoCounsel获得了暂时的优
势，更重要的是，大模型技术能让CoCounsel从其现有的上万家客户
当中快速积累用户和数据，在法律垂直领域抢先转动数据飞轮，竖立
竞争壁垒。
为了获得OpenAI公司的优先支持，Casetext公司为CoCounsel建
立了一个完善的、增强大模型信任度和可靠性的计划，以克服大模型
可能出现的“幻觉”问题。
首先，专业的AI工程师和律师团队花费近4000小时，基于3万多
个法律问题，对模型进行训练和微调。然后，Casetext公司组织了庞
大的Beta测试小组，测试人员由来自全球律师事务所、企业内部法律
部门和法律援助组织的400多名律师组成。Casetext公司要求测试小
组在日常工作中使用CoCounsel至少50000次，并提供详细的反馈，以
此作为模型和应用优化的依据。
因此，在法律行业的深厚积累，也是CoCounsel的竞争壁垒之
一。
Character.ai
“我愿意用我所有的科技来换取跟苏格拉底相处的一个下午。”
——史蒂夫·乔布斯(Steve Jobs)，苹果公司前首席执行官
Character.ai是一款端到端自建大模型的个性化人机聊天应用
（参见图4.16），其愿景是让“每个人都能拥有自己深度个性化的超
级智能，帮助人们过上美好生活”。
◎图4.16 Character.ai人机聊天应用
图片来源：Character.ai网站，https://beta.character.ai。
个性化有两重含义：其一，用户可以选择不同的角色来聊天，历
史上或现实中的名人（如苏格拉底）、小说电影动漫游戏里的人物
（如游戏《马力欧系列》中的角色马力欧）、带有专业属性的角色
（如心理学家），等等。
其二，用户可以自建角色，而且用户跟角色聊天的历史会一直记
录下来，并用于后续的沟通，产生“你的聊天对象认识你”的效果。
1.商业模式
未来有机会实现“前向用户付费+后向广告”的双重模式，支持
付费用户和免费用户共存。
形成用户黏性之后，通过特定角色订阅、会员增值服务等模式向
用户收费。
在聊天过程中，进行个性化、软性植入的广告营销，向广告客户
收费。
但需要注意，互联网内容类应用的“二八现象”（少量付费用
户，大部分免费用户），需要两种前提作为支撑：要么免费用户成本
低，用广告收入来弥补，常见于视频应用；要么付费用户ARPPU（每
个付费用户身上的收入）很高，靠付费用户养免费用户，常见于MMO
大型多人在线游戏(Massively Multiplayer Online)。
Character.ai可以通过流行人物角色的粉丝营销、用户生产内容
(UGC)的分享传播等手段来降低获客成本。因此，服务过程中的大模
型推理成本CPQ（英文全称Cost per Query，即每次问答成本）将是
免费用户的主要成本，这个成本将影响其商业模式的发展路线，如果
CPQ成本明显高于每次问答的广告收入，就无法持续维持大量的免费
用户。
2.市场价值
Character.ai的市场价值取决于其定位的人群规模。其投资方a1
6z公司的合伙人马克·安德森(Mark Andreessen)认为这属于个人化A
I伴侣（英文全称Personalised AI Companion）的市场，未来的每个
孩子都会在AI的陪伴中成长，AI将成为他们生命旅程中密不可分的伴
侣。
潜在市场的大小取决于Character.ai的大模型技术和产品设计是
否能实现这个愿景，更重要的是，Character.ai有什么竞争手段，能
从ChatGPT这个强大的对手手中抢到市场。
3.竞争壁垒
如果想在OpenAI公司、谷歌、Meta之外自建大模型，而且既不调
用强大的GPT-4，也不采用开源的LLaMA进行定制，必然要有充分的理
由。首先，Character.ai团队有这个技术实力，创始人诺阿姆·萨泽
尔(Noam Shazeer)是谷歌前首席软件工程师，大模型基石级论文《注
意力就是你所需的一切》的第二作者；Character.ai团队的联合创始
人丹尼尔·德弗雷塔斯(Daniel de Freitas)也曾在谷歌负责大模型L
aMDA的开发。
其次，自建大模型的架构和训练方法，要充分照顾到个性化聊天
的场景。相比GPT-4，Character.ai能够加强角色扮演的特色，实现
对话的超长期记忆，同时降低垂直场景下的推理成本，从而实现个人
生命旅程伴侣的愿景，以及大规模服务的商业可行性。
除了自建大模型的技术特色之外，另一个竞争力的重要因素在于
特色运营。如何利用应用本身的特色，抓住名人和流行文化角色的粉
丝红利，结合趣味性、社交化甚至游戏化的玩法，产生传播性的内
容，就有机会降低获客成本，快速形成规模，加快转动这一垂类的数
据飞轮，从而形成竞争壁垒。
思考：
大模型给企业或消费者App带来了什么新的特质，如何放大这些
特质以获得优势？
15 关于大模型产业的对话：第1集
北京：咖啡馆的小聚
人物：
·老A：技术出身的IT互联网连续创业者
·V姐：芯片行业专家，老A的大学同学
·小柯：在美国加州留学的AI博士生，老A的朋友，回国探亲中
主题：
·GPT-4已处于风口浪尖，做大模型究竟难不难？有多难？有哪
些做法？
·有人说ChatGPT是人工智能的iPhone时刻，大模型应用和生态
跟移动互联网有什么异同？
时间地点：
·2023年3月的一个下午
·中国，北京，望京SOHO
太阳在云里穿行，漏下来些许阳光。正是乍暖还寒时候，咖啡馆
已没了暖气。三人坐下寒暄一阵，老A看着窗外空荡荡的广场，有些
感慨：“当年这里排队扫码可热闹了。”
◎图4.17 望京SOHO：曾经的扫码一条街，创业公司员工薅隔壁
创业公司羊毛的地方
图片来源：知乎专栏，https://zhuanlan.zhihu.com/p/947150
27。
V姐：“App可能马上又会热闹起来？不少大厂和资本都在找我打
听大模型了。”
老A：“要想挣钱，还没轮到做应用的。大模型第一波的钱都花
在你们GPU身上了，你们给产业设了很高的门槛啊。”
V姐（低调状）：“GPU是基础设施，先得做好基建嘛。我们也在
努力降成本。”
小柯：“嗯，我们学校用LLaMA开源模型做的微调训练，成本可
以降到几百美元了。”
老A：“微调成本只是相对小的一部分吧，大模型的高门槛在微
调的一前一后。从一开始的大模型预训练，算力就是很高的进入门
槛；大模型做好之后，应用要想规模推广，推理成本是另一个门
槛。”
小柯：“那倒是。我们用的LLaMA-13B版本，算性价比很好的
了，按Meta论文中的数据，预训练用A100（80GB显存），跑13.5万GP
U小时。假设1000张卡，跑135小时，相当于5天半左右。据说光买这1
000张显卡就差不多1个亿人民币。”
V姐：“那你这个规模算小的了。GPT-4用的显卡数量远比这个
多，10倍往上吧。”
老A：“这还只算了GPU呢，再加上其他硬件服务器、数据中心、
电费、研发人员的成本，大模型预训练的资金门槛就在几个亿到几十
亿之间（对应百亿级到千亿级参数的模型）。所以啊，想要获得在预
训练阶段就完全自主掌控的大模型，没有多少企业能玩得起。”
小柯：“基于开源来搭自己的大模型吧，门槛低很多。并不是所
有企业都需要从零训练一个大模型。”
老A：“那要从企业自身诉求来说了。如果是做应用、做垂直市
场业务的，并且明确自己的应用需求，那大多数企业首先不是去看开
源大模型，而是先看商业化的闭源模型能不能用，例如GPT-4、文
心、通义。如果能用，优先选择成熟的闭源模型，因为这样做快速、
轻松，只要闭源模型的费用算得过来就好了。”
小柯：“嗯，目前的闭源大模型通常由技术领先的企业提供，例
如GPT-4，它们代表了当前大模型性能效果和能力边界的天花板，功
能生态也相对完善。就像买手机先看最新款iPhone，如果你没什么特
殊的要求，又买得起，选它大概率不会出错。只不过，闭源大模型的
企业服务一般都比较标准化，有许多企业的诉求是它满足不了的
吧。”
老A：“对，例如企业认为：我的数据放你那，不安全；我要定
制某个功能，你没有；我要用的量很大，你的成本不划算；甚至，我
就要在模型预训练这层做出应用的差异化竞争力，我不能跟竞争对手
用同一个大模型底座，通常是比较大的企业或应用会这么想。”
小柯：“嗯，这些情况下，都可以来试试开源模型。先看看企业
的诉求是否通过模型私有化、监督微调和强化学习训练就能满足，如
果可以满足，那就直接拿别人预训练好的模型来搞。这种做法的额外
算力成本是比较低的，大多数企业都承受得起，这也是开源大模型最
常见的用法。
但如果必须重新做预训练才能满足诉求，例如要在预训练阶段加
入一些数据，或删除一些数据，再或者要修改预训练的算法来获得特
殊的功能和性能，那就需要进行其他类型的准备工作。首先，要看这
个开源模型是否开放到预训练代码、数据和参数这一级；其次，企业
自己还是要准备比较大的算力资源，之前说的算力门槛就躲不开
了。”（参见图4.18）
V姐：“要想重做预训练，准备大算力是免不了的，或许这正是
云服务商的产业机会。预训练是阶段性集中使用算力，如果不同企业
错开训练排期，一个大模型企业的闲时完全可以给另一个企业用的。
通过资源复用，能降低不少成本，也能缓解GPU供应链紧张的问题
呢。”
◎图4.18 企业如何选择大模型的不同方案
老A：“说到GPU供应链，尤其是高端产品的供应不足，确实是大
模型产业发展的一个瓶颈呢。”
V姐：“如果按照小柯刚才说的开源模型LLaMA-13B这个算力需
求，GPU产品供应还是有机会解决的。”
小柯：“也不对，这样说就有点刻舟求剑了。我刚才说的只是文
本大模型，等多模态的图片、未来的视频跟文本结合起来，我们的模
型参数也压不到百亿这个数量级了。”
老A：“我赞同小柯的观点。即便短期内解决了问题，但大模型
产业到下一步还要面临一个主要矛盾，那就是大模型多模态日益增长
的算力需要和不平衡、不充分的算力供应之间的矛盾。”
V姐：“那要看多模态会提出多高的算力需求了。如果需求超过
了‘GPU每年性能提升一倍’的黄氏定律，那只能靠更大的分布式计
算集群来实现了。要实现更大更快的分布式集群，目前有两个瓶颈或
突破口：一是云服务商数据中心的核心网带宽，要从老的以太网升级
到新的标准；二是软件方面，深度学习框架要配合。”
小柯：“软件这个我了解，我们就在用分布式的框架，无论是并
行计算的程度，还是通信调度的开销，未来的提升空间还是很大
的。”
老A：“我也听说了，分布式深度学习框架无论在我国还是美
国，都有专业团队在做，但我国的商业模式尚未成熟。如果分布式对
大模型这么重要，而且能缓解高端算力供应短缺的问题，那么就存在
另一种商业模式的可能性了，即分布式框架开发团队将基础设施技术
投入某一家大模型提供商，并提供定制的技术能力，帮助大模型获得
市场优势，框架团队就从大模型运营的商业收入中分到收益。换句话
说，如果做框架本身不好挣钱，但客户能挣钱，那么就加入你的客
户，你们一起挣钱。毕竟，做产业是要有商业回报的嘛。”
小柯：“我知道我国在分布式框架领域有不错的软件团队，那GP
U硬件是否也能搭上这一轮大模型发展的快车呢？”
V姐：“当然了，软件硬件两手抓，两手都要硬嘛。我国的GPU，
虽然在高端产品性能上与国际领先产品仍有差距，但大模型有很多场
景，要用到不同性能规格的GPU，一定可以找到合适的定位。比如
说，大模型的推理场景强调低延迟、性价比、能效比，国内就有一些
产品非常适合。而且，别看推理GPU规格要求不高，但未来应用普及
之后，推理的需求量会非常大，会远远超过训练量，所以推理芯片的
市场潜力很大。
场景的另一端，用到最高端GPU的，是百亿级千亿级参数大模型
的预训练。这种预训练要求超高的每秒浮点运算次数(FLOPs)的算
力、超大的跨GPU通信带宽。因此，高端产品的需求用量也不小，虽
然客户数不会太多，但一个客户就要几千上万张卡。国内GPU产品在
这类场景还需要努力（参见图4.19）。
◎图4.19 GPU的不同定位和国产机会
介于模型推理和大模型预训练这两端之间的，主要是模型微调场
景，需求用量规模取决于大模型产业发展出来多少需要做微调的行业
客户。这个场景对GPU的要求也介于前面所说的两端之间，国内GPU也
有机会逐步覆盖。”
老A：“看起来，推理用的GPU是咱们国内产品最佳突破点了。V
姐刚才说，未来大模型应用普及之后，推理GPU的需求量会非常大。
那它就是我们做大模型应用的边际服务成本啊！这让我想起当年互联
网视频刚出现的时候，服务器带宽成本超级贵，占了企业收入的四成
以上，这样业务运营就很难体现互联网的边际效应，带宽成本是在后
来才慢慢降下来的。”
V姐：“推理成本也会不断下降的。未来某些场景的推理或许能
放到用户终端的GPU甚至CPU上面去，彻底消灭边际服务成本。”
老A：“希望有那么一天吧。不过，你的技术在推动成本下降，
但大模型随着多模态发展又在不断长大，此消彼长，这个成本始终绕
不过去。”
小柯：“大模型强调的规模定律(Scaling Law)，就是要指数级
地加大模型来获得性能突增和能力涌现。我们学术界也知道，这个规
模定律从理论验证到大范围落地，还要进一步优化算力效率，降低落
地成本。你看，我们在LLaMA-13B开源大模型的推理，可以用V100 GP
U单卡实现，成本降到A100的一半左右了，还嫌太高吗？”
老A：“如果你给定了一个模型推理成本，同时也标定了这个模
型的能力基线，我们就要在这个前提下来设计用户产品及其商业模
式。这个商业模式就应该要挣到推理成本以上的服务收入才对。
打个比方，GPT-4大模型推理比较贵，但它能力强，可靠性也提
升了，首选用在专业性、可靠性要求比较高，同时也更有钱的市场，
例如金融和法律的客户。假设每次Query（查询）能节约15分钟的人
时，金融法律助理岗1个人时100元（高于普通劳动力），那就是25元
的服务价值。不过企业实际不会付25元，可能他只付5元，但相比不
到1元的CPQ推理成本，这个毛利就足以运营起来了。”
V姐：“所以，如果模型推理很贵，它所替代的人时应该更贵才
划算？”
老A：“对！不管你采用了贵还是便宜的模型，在推理成本上横
着画一条线（参见图4.20），选横线之上的应用场景，才有可能赚
钱。
小柯你的LLaMA-13B追求性价比，推理成本是降了很多，但功能
性能跟GPT-4有差距，就可以找一个客户要求低一些，但付费能力也
弱一些的市场。例如个人助手市场，普通人对时间价值的认知以及付
费习惯差别很大。ChatGPT目前的方法是，愿意付费的用户用贵的模
型GPT-4，不付费的用户用便宜的GPT-3.5，估计也会针对免费用户增
加广告的商业模式。这些方法在移动互联网行业很成熟了。”
◎图4.20 大模型推理成本与服务场景、商业模式的关系
V姐：“对于广告模式，图片里还区分了垂直领域和通用的。”
老A：“对，同样是To C（面向个人用户服务）免费的广告模
式，如果在高价值的垂直领域，例如金融、法律，就比通用型服务有
更高的单次服务收入，也就用得起更好、更贵的模型。这种垂类的广
告价值，很可能比用户付费还更高。”
小柯：“模型的选择，不一定更好就是更贵，要看具体使用场景
需要怎样的模型。例如，有些垂直领域场景，或许不需要靠更大的模
型来变得更好，所以他的推理成本也不贵，但需要花精力在领域数据
和训练校正上，或者增加某个特性，例如更长的上下文记忆窗口。”
老A：“是的，实际情况会有很多变量。当推理成本是边际服务
成本的主要部分时，要针对自己应用场景的特点，选择高性价比的大
模型，这能省不少钱。能跟着场景变化和成本变化来迭代模型方案、
少走弯路，那就是应用团队很重要的竞争力了。”
V姐：“这么说，小柯他们在大学里搞模型算法、模型训练的经
验，对你们做大模型应用也很有价值呢。”
老A：“当然了。大模型时代跟移动互联网时代不同的地方，就
是做应用也得懂大模型是怎么回事，这样才能选对路线。深度定制的
模型和数据积累将是大模型应用的重要竞争壁垒。模型定制的方法，
简单的可以用闭源大模型的微调、数据插件等服务，但毕竟定制能力
有限，要想搞更深的，我也得看看小柯说的开源模型了。”
小柯：“你早该来看看了。在AI产业界，开源生态非常重要，Ch
atGPT也都是站在Transformer等开源技术的肩膀上做起来的。况且，
文本类的大语言模型正处于Stable Diffusion时刻，正是开源模型的
爆发前夕。”
V姐：“哦？什么叫Stable Diffusion时刻？”
小柯：“在文本到图像(text-to-image)类的生成式AI大模型
中，也分为闭源和开源两种，其中DALL-E2、Midjourney闭源，自己
做To C商业化。但是在2022年8月，总部位于美国硅谷的人工智能公
司Stability.ai开放了Stable Diffusion模型，你可以把模型下载到
自己的计算机上运行，也可以修改脚本、包装自己的用户界面并进行
商用，条件是要遵循他们的许可证条款。从那以后，Stable Diffusi
on一下子吸引了很多研究机构和开发者，在业内的影响力和关注度一
下子超越了另外两个闭源模型，开源社区也出现了很多基于它的新模
型、新应用，还有各种新的交互方式。所以，Stable Diffusion时刻
就是指在某个人工智能领域出现了高质量的开源模型，引爆开源社区
热情，利用全球的研究人员和开发者，激发出许多创新的时刻。2023
年2月，LLaMA的发布，意味着文本类的大语言开源模型也到了这个重
要时刻。”
老A：“确实最近一下子出来了好多新的模型，都是基于LLaMA
的。不但硅谷在搞，咱们中国也有许多高校和公司在做呢。大模型的
民主化和普及化，在模型通用能力上可能不如闭源模型的天花板高，
但有机会在垂直行业里百花齐放、激发创新，值得期待。”（参见图
4.21）
V姐：“最近各种时刻的类比都出来了，除了LLaMA是大语言模型
的Stable Diffusion时刻，还有人说ChatGPT是人工智能的iPhone时
刻呢。”
老A：“这不是英伟达老黄说的吗？意思是两者分别开启了一个
新的时代，都能长出新的生态吧。ChatGPT和iPhone，一个是AI模
型，一个是硬件终端，如果真要比，应用生态的发展思路倒是可以借
鉴的。”
◎图4.21 基于LLaMA的各种驼类动物项目
图片来源：https://www.salkantaytrekmachu.com/en/travel-
blog/llama-vs-alpaca-vs-vicuna-and-guanaco。
V姐：“你是说App的发展思路？”
老A：“对。早在2007年，iPhone1就发布了，可类比2022年11月
ChatGPT发布。2008年苹果应用商店发布，对应于2023年3月ChatGPT
插件库发布。但2008年应用商店里的App和游戏，基本上都是从PC网
页上、游戏主机上移植过来的，并没有充分利用iPhone的特性。到20
09年，应用商店才出现了第一个移动互联网时代的爆款游戏《愤怒的
小鸟》。
iPhone这款产品相对之前的智能机有两个划时代的优势：第一个
是超大的多点触控电容屏，把诺基亚、黑莓都习惯的键盘给取消了；
第二个是iPhone有很强的终端算力，到2009年iPhone 3GS的时候，CP
U和GPU图形处理器的综合能力都要超过同时期的诺基亚N97和黑莓Bol
d 9700。
而《愤怒的小鸟》很好地利用了这两点优势。整个游戏里，玩家
只有一个动作，就是手指划屏幕拉开弹弓，把小鸟弹出去，玩家需要
在触屏上面细微地调整角度和力量，才能打中小猪，这些特性很好地
结合了触屏手机的体验。打到小猪之后呢？会有很多东西撞来撞去，
从架子上倒塌下来，给玩家一种爽快感，这里面产生的物理碰撞效
果，也对计算能力提出了很高的要求，是以往的其他手机做不到的
（参见图4.22）。所以说，《愤怒的小鸟》是第一款把iPhone引以为
荣的触屏和算力完美结合的游戏，是真正为iPhone智能机而生的游
戏，也成为一个爆款。这款游戏的成功，后来也把很多大型游戏的开
发者带到了移动互联网行业。我们可以把这类游戏或App称为移动原
生应用，Mobile Native APP。”
◎图4.22 游戏《愤怒的小鸟》
图片来源：经典游戏《愤怒的小鸟》游戏截图。
小柯：“我知道云原生应用(Cloud Native Application)。这种
应用，从一开始就是为了充分利用云计算的特性，比如弹性伸缩、按
需分配资源、自动恢复等特性而设计的。相比之下，传统应用在设计
和开发时还是沿用单一、固定的服务器的前提，只是把它部署到云上
而已。”
老A：“嗯，所谓的某某某原生应用，无论是移动原生应用、云
原生应用还是大模型原生应用，都在说一个规律——当某一项新技术
出来之后，传统应用往往只把新技术嵌入进来作为补充，无法100%发
挥新技术的优势，需要有一个或几个应用，从头开始就围绕新技术而
设计，带来突破性的价值，然后引发更多的开发者追随，这就是原生
应用了。”
V姐：“那大模型的原生应用是怎样的呢？”
老A：“这是个好问题啊。你们觉得大模型的能力带来了哪些本
质区别呢？ChatGPT，尤其是GPT-4之后给我的感觉，真的像是一个人
在跟你互动，虽然有时候废话很多、有时候故意造假，但从它的回答
来看，它能听懂你要什么，你能让它办一件复杂的事，就像请另一个
人类帮你办事一样。而且，你跟它的语言交流，也可以把它当人类来
嘱咐和讨论。这是以前的AI从来没有过的。
所以我觉得大模型原生应用的一个重要特征，视模型为人，在应
用中设计‘类人’的交互和任务。”
小柯：“嗯，我赞同。OpenAI公司的安德烈·卡帕斯(Andrej Ka
rpathy)也说过，人类设计跟ChatGPT对话的提示语，就是在研究大模
型的心理。那怎么才算‘类人’的交互和任务呢？”
老A：“跟它说人话，期待它办人事。不说人话的例子，就是在
已有的系统应用里嵌入大模型功能，预先配置好固定的对话提示语，
用户不用参与对话，点点鼠标或手指就能完成。
微软Office嵌入的Copilot就有一些这样的例子（参见图4.2
3）。在已经固化的工作流程里，用这样的设计是合理的，对用户体
验是好事，在应用推广时用户容易接受。同时也说明，这是拿大模型
的能力去填补原有系统的能力空缺，打补丁、做加法，但它不属于大
模型原生的应用场景，也没有充分利用大模型最强大的语言交互能
力。”
◎图4.23 在微软Office中嵌入Copilot的示意图
“语言是一个强大的用户交互界面，让GPT-4能够执行那些需要
理解并适应环境、任务、行动和反馈的任务。”注【出自论文《通用人
工智能的火花：GPT-4早期实验》(Sparks of Artificial General Intelligence: Early experi
ments with GPT-4)。】
——塞巴斯蒂安·布贝克(Sébastien Bubeck)，微软公司机器学
习研究经理
小柯：“那办人事呢？干普通人类干的事？”
老A：“办人事，要再加上个水平限定。因为GPT-4相当于已经考
过GRE和律师考试并达到人类水平了，应该找到它擅长的领域，把它
当作一个具有本科学历，且经过某种专业训练，某些地方比普通人类
厉害的人，对标至少薪水上万的人类。请它办合适的事情，这才算充
分发挥大模型的优势。也要注意避开它目前的弱项，例如做数学题、
做规划等。”
V姐：“嗯，如果让我招聘一个月薪上万的助理，或者请一个专
业教练，我不会让他打杂，至少得帮我解决一些有难度的问题，做我
自己一个人做不到的事。”
小柯：“现在的ChatGPT，是一个啥都能干、啥都不精的机器
人，还是搜索应用或者语音助手的升级版思路。有哪些应用，算是大
模型原生呢？”
老A：“Character.ai在线AI聊天机器人算一个雏形，该平台塑
造了深度个性化的虚拟人物，尤其是心理学家、苏格拉底这两个角
色，未来可以提供私人心理咨询和学习教练的服务。”
小柯：“几年前我看过一部电影《黑镜：白色圣诞节》，有个人
戴着类似谷歌眼镜的设备去陌生人派对，有个约会教练远程指导他如
何跟妹子搭讪（参见图4.24），这个场景就很适合大模型原生应用。
比如开发一个‘耳语教练’，在开会、约会、谈判等场景下，利用骨
传导耳机，将语音转文本作为大模型的输入，获得大模型的指导意
见。如果能把大模型在某些专业教练方向训练得很优秀，那就跟开挂
了一样。”
◎图4.24 《黑镜：白色圣诞节》剧照：男主角戴植入眼镜，约
会教练远程指导
图片来源：www.imdb.com。
V姐：“如果加上AR眼镜和大模型多模态能力，大模型可以接收
到图像视频等更多‘类人’的输入，会更强。”
老A：“嗯嗯，这就很‘大模型原生’了。不过在目前的技术
上，要做到足够‘类人’的体验，还要把长期记忆加上。你的私人教
练会了解你，知道你过往很长时间的事情，把这些历史都记在脑子
里，在服务你的时候会表现出来，日积月累，用户就离不开这个教练
了。大模型在这方面还需要加强，做好了能成为很高的竞争壁垒。”
小柯：“我玩Character.ai时还使用过一个定制角色的功能，我
做了个孔夫子跟大家对话。如果定制能力做得再深一些，这个角色就
是一个被用户微调过的模型了。用户定制的模型，可以开放给其他用
户来使用，这也是个新的玩法。”
老A：“这个很有意思，也可以作为大模型原生应用的特征之
一。模型即内容，模型本身会成为应用里面的重要内容。从移动互联
网时代的PUGC（英文全称Professional Generated Content+User G
enerated Content，即专业用户生产内容）到大模型时代的PUGM（英
文全称Professional User Generated Model，即专业用户生成模
型），可能会成为大模型原生应用实现社区化、提高用户黏性的新竞
争壁垒。”
V姐：“我昨天用GPT-4写邮件的时候有个幻觉。以后看我邮件
的，会不会也变成大模型了呢？”
老A：“脑洞很赞！一定会的。我们用大模型写邮件，往往加了
很多礼仪上的废话，都是给对方的人看的。对方可能也嫌烦，会找大
模型来脱水提炼干货，甚至预处理一遍，垃圾直接删掉，不重要的搁
置，简单的自动回复。”
V姐：“所以，我在想，当邮件的双方都是大模型在操作，甚至
大模型写PPT给大模型讲的时候，邮件和PPT还应当像现在这样吗？”
小柯：“有意思啊。当谈判的双方都由耳语教练来指导的时候，
就让两边的大模型直接谈判得了。”
老A：“你俩的未来感越来越强了，那时候一定会诞生新的大模
型原生应用，大模型原生的特征也会不断进化呢。”
小结
·GPT-4已成为行业焦点，做大模型究竟难不难？有多难？有哪
些做法？
■预训练的算力门槛很高。
■企业做大模型有几种方案选择。
■解决高端算力供应问题的方向。
■国内大模型基础设施软硬件方向的机会。
·有人说ChatGPT是人工智能的iPhone时刻，大模型应用和生态
跟移动互联网相比有哪些异同？
■特殊之处1：推理带来的边际服务成本是大模型应用的重要影
响因素。需要根据成本条件和业务场景，选对模型路线和商业模式。
■相通之处1：通过Freemium免费模式获取用户，再转化到Premi
um付费模式。
■特殊之处2：模型和数据是大模型应用的重要竞争壁垒。模型
开源生态很重要，大语言模型正处于Stable Diffusion时刻。社区化
和用户黏性手段，从移动互联网的PUGC过渡到大模型的PUGM。
■相通之处2：ChatGPT类比iPhone时刻，从移动原生应用的发展
史，讨论大模型原生应用有可能是什么。
最后，以GPT-4根据笔者指令创作的这篇散文总结本小节产业对
话的大意：
乍暖还寒的时节，人们已不再依赖那消散的暖气，而是将短暂的
光明与温暖珍藏在心底。每一缕阳光，就如同一丝丝希望，伴随着喧
嚣与寂静的日子，悄然绽放。那些来往于咖啡馆的人们，或许有的颓
废，有的奔波，有的沉思，有的欢笑。他们在这乍暖还寒的季节里，
都在寻找属于自己的那一份坚持与力量。而那若隐若现的阳光，就像
生活中的无数启示，总是在不经意间闯入我们的视线，激发着人们内
心深处的渴望与希冀。
16 寒来暑往几度：AI泡沫与机遇
抛开近来围绕着AI的许多商业上的纷繁扰攘，在研究AI超过4年
的人群中，出现了一种深深的不安情绪，我想在座的你们也了解这种
感觉吧。这种不安是一种担心，担心对AI的期望过高了，担心这种期
望最终会把事情搞砸……重要的是，我们应该采取措施来阻止AI冬天
的到来，这些措施包括对我们自己的约束，也包括对大众的教育。
——德鲁·麦狄蒙(Drew McDermott)，在1984年AI大会上的发言
完美的资本叙事
2016年3月，谷歌公司的AI围棋程序AlphaGo在与韩国棋手李世石
的五番棋对决中，以4∶1的大比分获胜；2017年5月，AlphaGo又来到
中国乌镇，以3∶0的比分完胜柯洁。自1997年深蓝战胜国际围棋人类
冠军之后，许多围棋界人士和媒体认为，围棋变化多过宇宙原子，计
算机要想在围棋上战胜人类还要再等100年，但这一天还是提前到来
了。
不仅如此，在战胜柯洁五个月之后，DeepMind公司又发布了Alph
aGo Zero，不采用任何人类棋谱作为训练数据，仅通过自我对弈完成
强化学习，且比之前的所有版本都要强大。在DeepMind公司联合创始
人兼首席执行官戴密斯·哈萨比斯(Demis Hassabis)看来，AlphaGo
Zero“不再受限于人类认知”，由于专家数据“经常很贵、不可靠或
是无法取得”，不借助人类专家的数据集训练人工智能，对于人工智
能开发超人技能具有重大意义，因为这样的AI不是学习人，而是通过
对自我的反思和独有的创造力直接超越人类。
◎图4.25 2016年4月，《医疗未来学家》杂志文章认为：AlphaG
o能重塑医疗行业
图片来源：https://medicalfuturist.com/alphago-artificia
l-intelligence-in-healthcare/。
DeepMind公司认为，AlphaGo用来战胜围棋冠军的技术可以获得
更广泛的应用。哈萨比斯将深蓝这样的狭义人工智能(Narrow AI)和
通用人工智能(AGI)区分开来，认为后者具备更强的灵活性和适应
性，DeepMind公司的智能算法也将在机器人和医疗领域发挥更多的作
用。2016年，DeepMind公司宣布与英国国家卫生服务局，以及Moorfi
elds眼科医院、伦敦大学医院等机构展开AI医疗诊断算法的合作。
提前80年攻克围棋这座人类智慧的最后一道堡垒。
快速实现深度强化学习的自我升级，不再受限于人类认知和专家
数据。
再一年后，击败星际争霸职业选手，攻克不完全信息博弈的竞技
场。
快速横向扩展到医疗、能源等高端产业，尤其是医疗AI，不光De
epMind，连IBM超级计算机Watson Health也趁着这股势头加快了拓展
的脚步，在中国与21家医院开展了合作。
这一系列猛如虎的组合操作，加上有意无意、点到即止的AGI概
念，构成了产业和资本市场的叙事逻辑——技术有门槛，业务可复
制。
让人听不懂的技术概念和豪华的科学家阵容，造就了极高的门
槛，但一旦将其突破，就能筑起壁垒。而“不受限于人类认知和专家
数据”的横向产业复制机会——AGI的G（General，通用性），则会
妥妥地带来超高潜力回报。这是多么完美的产业布局和投资标的。
当产业和资本都这么想时，媒体和大众就更容易上头。
在2016年后的一两年内，受AlphaGo横空出世的影响，全社会对A
I颠覆世界的期望迅速提高。看到AI下棋赢了，就担心机器人很快会
抢走大部分人类的工作；看到一个demo跑得不错，就想把它用在企业
实际生产中；看到一个客户案例，就以为能将其快速复制到整个行
业。于是，想象的价值空间变得无限大，因为全行业、全人类的市值
都可以算成AI产业的基数。而这样美丽的“误会”，不仅发生在大
众、媒体、资本和各行业的AI客户身上，也让“身在此山中”的AI从
业者产生了激情与梦想——没准儿真的可以呢？
历史总是惊人的相似。2016年之后的一两年，“Dot-com”互联
网泡沫年代发生过的各种现象又重演了。各行各业的公司都在想办法
给自己贴上AI标签，期望“挂个羊头”就能拿到更高的估值或补贴；
发个AI合作的公关通稿就能看到明天股票的红盘；生产GPU服务器的
硬件公司市值水涨船高，产量加速扩张；看到企业为AI科学家和工程
师开出的薪水，不少程序员和大学生竞相转型人工智能专业。
然而两年之后，产业和资本发现梦想中的叙事逻辑只实现了一
半。技术门槛确实不低，毕竟AI科学家和工程师都更贵了，但业务的
横向复制却没有那么简单。
2018年7月，IBM公司的沃森健康(Watson Health)被曝出内部文
件，显示沃森健康的肿瘤诊断算法经常给出不准确的、与美国国家治
疗指南相悖的建议。例如，沃森健康建议一名新诊断出肺癌并出现严
重出血症状的65岁患者接受化疗和一种名为贝伐珠单抗(Bevacizuma
b)的药物，而这种药物的黑框警告提示该药可能导致“严重或致命的
出血”，不应让严重出血的患者使用。
文件显示，诊断算法的有效性主要受训练样本数据的影响。但IB
M公司这一算法的训练数据不足，且数据是由医生和工程师自行编写
合成的，并非真实的历史病例，因为“护理标准经常变化，历史病例
不一定能反映最新的护理标准”。
文件还引述了佛罗里达州朱庇特医院一位医生对IBM公司的高管
说的话：“这个产品就是垃圾。我们购买它是为了公关营销，期待你
们能实现所说的愿景。但我们大部分情况下无法使用它。”
沃森健康和它的医院客户遇到的正是这一轮AI浪潮中的典型问题
——业务难以复制，模型不可“泛化”(Generalization)。
首先，当时的AI算法模型的跨行业复制几乎是妄想。
每个行业的业务场景、目标、约束和数据都不一样，需要全新的
行业AI方法论和长期跨学科合作的实践积累。例如AI医疗行业，要借
助医院的帮助来解决医疗数据复杂和多样化的问题，需要跟医生临床
实践相结合。更重要的是，医疗是对错误高度敏感的业务，需要针对
这项约束条件来制定AI与人类医生协作的策略和流程。
而DeepMind公司所说的“不再受限于人类认知”，可以不借助人
类专家的数据集训练人工智能，则仅限于AI围棋程序AlphaGo Zero。
围棋、星际争霸等领域实现AI碾压人类的方法，并不能简单复制到医
疗、能源等行业场景。
其次，AI算法模型的同行业跨客户复制成本也很高。
在AlphaGo这种决策型的AI应用场景中，每一个行业客户不仅需
要按照AI的要求，花很大精力和成本，准备自家的训练数据，而且还
要面对生产环境下非常不确定的AI模型效果。这就导致，甲客户的AI
模型运行效果好，并不意味着同行业的乙客户也能做好，甚至甲客户
项目这个月的成功，也不意味着他下个月还会成功。而且，AI模型在
行业应用中担任大型系统中的一个环节，它的不确定会造成整个系统
的不确定。
Facebook公司的人工智能研究专家莱昂·博托(Léon Bottou)曾
在2015年国际机器学习会议(ICML)上发表演讲——《机器学习的两大
挑战》。在他看来，AI给软件工程带来了新的混乱，因为生产环境下
数据必然会发生变化，会使AI模型或算法无法按预期输出稳定的结
果。如果把训练好的模型作为软件模块来集成，模块的输出会受输入
数据分布的变化影响，不能按模块之间的合约(Contract)“办事”，
从而造成其他模块无法正常工作。并且，AI模型什么时候、什么情况
下会“违约”，无法被预先界定。传统软件工程中靠抽象封装解耦来
解决大规模系统复杂度的问题，而这其中最关键的模块合约，被AI这
个“捣乱”分子破坏了。模块之间的弱合约会带来“抽象泄露”(Abs
traction Leak)，不可依赖的子系统会让整个系统崩溃。
因为数据必然会发生变化，所以模型无法按预期输出稳定结果。
数据为什么会变化？发生变化之后又该怎么办呢？在真实的AI行业项
目中，数据在不同客户项目和同一客户项目的不同阶段，都会呈现出
不同的面貌，从而影响算法网络结构设计和模型参数设定。
“做AI项目，客户第一次会提供一小撮数据样本让你理解业务数
据；等你入场做POC测试时，会拿到批量的真实历史数据；等项目上
生产环境后，你会碰到更实时的数据；等运行一段时间后又必然会遇
到各种新的情况，例如调整客户业务的人群定位、外部行业政策有变
导致业务环境也发生变化，等等。在这四个不同阶段，你所认知的客
户数据特点和分布都会发生变化，而这个变化就意味着超参数要重新
调整、网络结构可能要重新设计甚至对算法进行重新取舍……没办
法，这就是做AI行业项目的命，很麻烦，也很折腾。”
——某大厂AI算法工程师
“很折腾”——更要命的是“折腾”的时间、地点、人物：是长
期的折腾而不是一次性折腾；要在客户现场折腾而不是远程的云折
腾；得让有AI炼金经验的算法工程师而不是普通工程师去折腾。关键
是，折腾完了能不能成，怎么折腾才能成，即便是AI业界最顶尖的科
学家也没法判断，因为没人知道其中的运作原理。
2017年底，在AI界顶级的神经信息处理系统大会(NIPS)上，“时
间检验奖”(Test of Time Award)的获得者阿里·拉希米(Ali Rahim
i)在一片掌声中登台讲演，在讲完他的获奖论文之后，拉希米在大屏
幕上出人意料地放出了一页：炼金术(Alchemy)。
◎图4.26 拉希米NIPS大会演讲稿的一页：炼金术
图片来源：http://cloud.tencent.com/developer/article/11
18674。
拉希米将当时快速发展的机器学习（主要指深度学习）比作炼金
术，即方法虽然有不错的效果，但缺乏严谨完备可验证的理论知识，
业内人士根本不理解自己做的东西是怎么运作的。
例如，不小心修改一个参数就会带来模型效果天翻地覆的变化。
或者，极简两层线性网络中遇到的问题，在增加网络复杂度之后就奇
怪的消失了，没人能说清为啥会这样。深度学习社区对问题的解决方
案，往往是在原本很神秘的技术栈上再叠加一层神秘的技巧。就像业
界都知道，批量归一化可以降低内部协变量偏移(ICS)，从而加快模
型训练速度。但是，似乎没人知道为什么降低ICS就能加速训练，也
没有证据证明批量归一化就一定能降低ICS，甚至整个业界都缺乏对I
CS的严格定义！拉希米说，自己虽然不懂飞机的飞行原理，但他不怕
坐飞机，因为他知道有一大批飞机专家掌握了原理。深度学习界最让
人担心的是，他自己不知道原理，而且他知道其他人也不知道（参见
图4.27）。
◎图4.27 如何对付AI系统的错误
图片来源：Randall Munroe，XKCD。
拉希米把这次大会变成了AI界的吐槽大会，在AI社群中引起了不
少共鸣，以至于惊动了深度学习界的大佬，包括后来获得了图灵奖的
杨立坤(Yann LeCun)。杨立坤对此回应道：神经网络确实没法在理论
上证明自己一定收敛，但我们在实践中效果很好，千万别因为深度学
习的理论跟不上实践就对AI大肆批判，这就像把孩子跟洗澡水一起倒
掉，是不可取的。
杨立坤的回应虽然在为AI辩护，但实际上承认了拉希米指出的问
题——深度学习的理论不完备，算法模型的运行机制也不可知。因
此，在AI行业项目中，不同客户环境下针对模型的调试优化能不能成
功，靠的是经验加运气，调对了不知道为啥对，错了也搞不清为啥
错，这样的经验自然也就不容易被传承和复制，只能依赖做过多个项
目、遇到过多种情况、调试成功和失败的经验都积累了很多的AI“老
中医”，这些老中医很稀缺，自然也很贵。而初级医师（有知识没经
验的AI博士）要想成长起来，除了有老中医手把手指点，同样要走一
遍师傅之前的路，靠项目和悟性不断积累“望闻问切”的经验。
◎图4.28 AI系统问题诊断调试就像老中医看病开药
图片来源：https://www.163.com/dy/article/ED5C4T9F05347D
NA.html。
因此，想要将AlphaGo的成功转变成其他行业的成功并不容易。
想要从一个项目当前的成功迈向另一个项目的成功，也需要面对高额
的成本和巨大的风险。这一轮深度学习完美叙事中“业务可复制”的
理想，被现实残酷地打破了。
在AlphaGo兴起的那个年代，著名AI科学家吴恩达(Andrew Ng)曾
经给出这样的期许：“如果普通人能在不到一秒的时间内完成某一项
脑力工作，那么我们很可能在现在或不远的将来用AI将其自动化。”
考虑到当时的实践经验，现在或许可以将其改为：如果普通人能
在不到一秒的时间内完成某一项脑力工作，那么我们很可能在现在或
不远的将来用AI将其自动化，至少可以找到一个符合条件的客户，把
我们最贵的算法“老中医”砸进去，做一个能发公关宣传的样稿出
来。
思考：
AlphaGo年代对于业务可复制、模型可泛化的过度乐观，在大模
型这波技术浪潮中会重演吗？大模型比AlphaGo更接近通用人工智能
吗？
别想比安全员先下车
“如果不拿掉安全员，所有Robotaxi商业模式都是伪命题。”
——某自动驾驶企业首席运营官，2020年6月
◎图4.29 洛杉矶圣莫尼卡的Waymo捷豹I-Pace自动驾驶电动汽车
图片来源：《洛杉矶时报》，2023年2月23日。
Waymo，这家总部位于美国加州山景城、隶属于谷歌母公司Alpha
bet的公司，于2022年10月开始，在洛杉矶圣莫尼卡进行无人驾驶的L
4级别商业化测试（参见图4.29）。Waymo公司的首席安全官毛里西奥
·佩尼亚(Mauricio Peña)声称，这将是真正的无人驾驶，在过往测
试中坐在车里的安全员将离开汽车，这个测试“从人口稠密的市区开
始，将在进行初步测试后扩大规模”。
在凤凰城，Waymo公司也开始将安全员撤下汽车。凤凰城的市长
亲自体验了市中心到机场的“‘真’无人驾驶”搭乘体验，连声赞叹
“这就是未来”。不过，无人车并没有直接把她送到航站楼，而是送
到离机场非常近的铁路站点。之所以设置这样的商业运营路线，是因
为到航站楼就得应对复杂的人类司机驾驶的车辆和无人车之间的交
互，触发很多驾驶的长尾场景。
这是Waymo公司在凤凰城迈出的一小步，或许也是美国自动驾驶
产业的一大步。但即便是这样，自动驾驶的商业化进程明显比六年前
想象的要慢。估值一度达到1750亿美元的Waymo公司，如今已下跌到
了300亿美元。2023年2月，Waymo公司还执行了近期的第二轮裁员，
两轮共裁掉200多人，占员工总数的8%，并称裁员是为了让公司“聚
焦在商业化上”。有媒体对此评论道：“商业化正是Waymo公司所缺
乏的。”
早在2022年10月，福特和大众就关闭了他们合资的自动驾驶技术
公司Argo AI，这家成立于2017年的自动驾驶出租车(Robotaxi)明星
创业公司也走到了终点。福特公司首席执行官吉姆·法利(Jim Farle
y)认为，“大规模盈利的全自动驾驶汽车还有很长的路要走，我们不
一定必须通过自己投入来创造这项技术。”
2017年从谷歌独立并获得数十亿美元投资的Waymo公司，以及同
年获得福特10亿美元投资的Argo AI公司，他们的商业化进程为什么
大大落后于产业和资本的预期？
因为安全员成为自动驾驶商业化的瓶颈。
◎图4.30 坐在自动驾驶出租车副驾的安全员
图片来源：https://www.ap.org/cn/。
自动驾驶安全员（参见图4.30），有时候也叫测试驾驶员，是在
自动驾驶技术测试和验证过程中的重要角色。安全员要在车辆行驶
时，时刻关注自动驾驶系统的运行情况，密切观察车辆的行驶路线、
速度等信息，在自动驾驶系统遇到无法处理或可能导致事故的情况
时，其需要立即干预并接管车辆控制。除此之外，安全员还会收集自
动驾驶系统性能数据，帮助研发团队发现问题并进行改进。
安全员在自动驾驶的测试验证阶段很重要，但同时也带来了巨大
的成本。企业要想规模化商业化运营，就要加大无人车的投放，车辆
制造成本随之逐年降低，但安全员作为边际成本却没有任何下降的趋
势。如此一来，安全员在整体成本尤其是单车边际成本结构中的占比
越来越高。无人车制造成本比普通出租车高，安全员成本至少不低于
司机成本，两项加起来明显高于普通出租车的运营成本，商业化劣势
明显，无法扩大运营。
◎图4.31 Robotaxi与出租车成本对比
图片来源：2022年中信证券研报。
国内一家自动驾驶企业的高管曾在2020年说：“观察未来2—3年
的发展，就看谁能真正走到取掉安全员的无人载客运营。如果不拿掉
安全员，所有这些商业模式都是伪命题。滴滴公司70%的收入都付给
了司机，在单价不变的情况下，原本要付给司机的70%收入，现在我
能通过无人驾驶技术把这部分支出变成毛利。哪家企业能有70%毛
利？所以把安全员拿掉后的无人驾驶，这个命题的成立才真正开
始。”
然而，直到2023年初，全球各国的Robotaxi商业化运营，尤其是
允许安全员下车的方案，仍然局限在较小的地域范围、较少的车辆数
量中，仍然属于测试性质，远未到达可支持规模商业化的状态。
那么，从2017年到现在，都路测五六年了，为什么还需要安全员
呢？
首先，长尾场景永远测不完，尤其在深度学习的黑箱里，面对复
杂情况的输入，模型始终会存在不确定的输出。这些年来，硬件、数
据、算法都取得了显著的进展，但在处理复杂的道路和交通情况时仍
面临挑战，如罕见的恶劣天气、复杂的城市路况、非标准的道路标
志、不可预测的路人行为等。
然后，在自动驾驶技术和模型算法无法给出确定性的答案时，考
虑到人的生命财产安全，以及社会群众的接受度，政府法规和政策会
比较谨慎，倾向于逐步测试、逐步放开。不时出现的对自动驾驶事故
的媒体报道，也会影响到产业相关的各方。企业也会把握节奏，稳健
推进，因为一旦出事，有可能前功尽弃。
因此，开放场景的长尾测试无穷无尽，AI算法从概率上说一定会
出错，一旦出错，代价极大，而且出错的风险尚未有达成共识的管理
框架，这意味着自动驾驶的无人化必然是一个长期的过程。
在这样的前提下，自动驾驶企业开始调整策略。2022年，国内外
多家自动驾驶公司都在切入车企的前装量产市场，从辅助驾驶(L2/L2
+)层面创造商业化现金流，为Robotaxi进行更长远的储备。例如，文
远知行与德国博世达成战略合作，联合开发博世中国高阶智能驾驶解
决方案，服务于中国主机厂客户。
Waymo在2023年3月发布了白皮书——《构建可靠的安全案例：Wa
ymo在消除不合理风险判断中的方法》，提出了消除不合理风险(AUR)
概念，从定义上承认生活中任何活动都无法完全避免风险，在此基础
上寻求建立社会共识，以确定自动驾驶中可以接受的风险水平。Waym
o公司也是期望通过与公众、科学界和技术界的对话，培养社会各界
对自动驾驶汽车技术的信任和理解。
自2022年底到2023年初，国内多家自动驾驶企业分别在北京、广
州、上海、深圳等地获得了“主驾无人”或“整车无人”模式的上路
测试许可，并摸索出远程云代驾的方式，以此在无人化的过渡期替代
车上的安全员。
先挣钱活下来，同时做好社会沟通和风险教育，最终熬到真正实
现无人化的美好未来。大浪淘沙之后的企业管理者或已调整好了心态
和策略。不过，在这波自动驾驶浪潮中，无论是资本还是产业，想要
下车的，请跟在安全员后面。
思考：
自动驾驶对于无人化的过度乐观，在大模型这波技术浪潮中会重
演吗？大模型的可靠性也有问题，会需要安全员吗？
谁是最好的AI商业公司
“这款产品在诞生初期备受冷落。当他们熬过黯淡岁月，把大众
内容燃料投喂给机器，算法网络运转起来。到后来，它长成吞噬运营
者、创作者和用户巨量时间的熔炉。”
——张珺，《抖音内幕：时间熔炉的诞生》
2016年——AlphaGo元年。看到快手短视频的成功，字节跳动公
司内部孵化了一款短视频产品A.me，三个月后改名为“抖音”。
2017年——Waymo元年。抖音从亚文化开始走向大众，数据暴增
到数千万日活跃用户数(DAU)，公司看到抖音高留存率之后开始发力
宣推，并以10亿美元收购在北美地区火爆的Musical.ly，将其与抖音
海外版TikTok合并。
2023年——ChatGPT元年。TikTok全球DAU超10亿，首席执行官周
受资出席美国国会听证会接受质询。
抖音刚出来的时候，快手是中国规模最大的短视频应用，在该领
域遥遥领先。
而抖音跟快手做的区隔，除了内容调性的差异化之外，最重要的
就是主页界面设计，以及主页设计背后算法逻辑的差异。
早期的短视频应用典型如快手，采用内容货架式的主页，一屏之
内会放好几条视频，并以瀑布流形式供用户上下划动翻阅，看中某一
条之后再点击选择播放。这样做的好处是给用户充分的自由度，用户
自己喜欢什么就看什么。
抖音（包括收购的Musical.ly）则采用了全屏沉浸式内容的主
页，上来就一条视频直接播放，用户要么看这条，要么往上划动看下
一条视频。这样做的坏处是不让用户选择，这样做的好处也是不让用
户选择。
在快手的货架式界面上，用户可以主动选择看什么视频。在主动
选择的情况下，用户如果要看新的视频，需要先退出当前视频，浏览
货架，再点击自己想看的视频，要操作三步。而在抖音的沉浸式界面
上，用户获得被动地看视频的环境，用户的一步上划转化为非常高的
交互效率，结合全屏沉浸的内容，抖音为用户制造了一种顺滑的爽快
感。
◎图4.32 快手与抖音不同的主页界面设计
图片来源：快手和抖音界面截图。
我们才发现全屏的优势——强烈的沉浸感。我们在电视机上看到
的视频是全屏的，在DV上看到的视频是全屏的，在电影院看到的视频
也是全屏的，但手机拍出来的视频却不是全屏的。……全屏会带来一
个更大的作用——隐藏下一个视频。在这之前，我们看到的所有产品
都不是全屏，你可以翻阅、选择，但是全屏以后无法选择视频，只能
看平台推荐的视频。……有一部分用户非常享受这个过程。一是因为
全屏的视觉冲击力非常强，无需操作无需点击，打开就是全屏视频的
震撼；其二，前面的视频好看，那么用户会期待下一个未知视频，它
不断为用户带来惊喜，我们称之为“一见钟情，再见倾心”，这就是
全屏视频的魅力。
——Musical.ly（TikTok原版本）创始人阳陆育
不过，追求交互效率和爽快感有个巨大的问题。当用户无法主动
选择时，如果系统硬塞过来的视频让用户不感兴趣，刷几条之后用户
就会退出，不再回来。如果视频推荐效果不及预期，全屏沉浸式设计
在用户体验可控性方面将面临超高风险，仅此一项，就已经劝退其他
公司，转而采用更稳妥的双列货架式设计了。
但字节跳动不是其他公司。
从2012年的今日头条开始，字节跳动就在打造自己的内容推荐算
法，系统对信息进行高效分发的同时自我演化和成长。在2014年，张
一鸣曾这样解释今日头条的推荐系统：“自我演化的系统应该是这样
一个系统，其在开放部署完成之后，并不能一下子提供很好的服务。
这个系统必须在用户的使用过程中，不断地去理解用户的输入，用户
的每次使用，不仅是使用这个信息服务，还是教育这个系统，让这个
系统越来越有智慧，系统会随着这个过程自发地成长。”
在今日头条获得成功之后，字节跳动将内容推荐算法放到了公司
的中台，让所有内部孵化的新应用都第一时间可以接入和使用推荐算
法，并对重点应用进行中台资源倾斜，进行深度的算法定制。
《抖音内幕：时间熔炉的诞生》一文的作者，对多名早期抖音团
队成员进行了访谈。“抖音取胜的关键在于，是‘字节在做它’。有
高效的推荐算法做人和信息匹配。……抖音推荐和Feeds流过于强
大，产品很难再做个体验与之媲美。基于这个强势运转的机器，（抖
音）初创员工把他们的工作形容成‘一批合适的人给它搞了一批合适
的原料’。”
抖音前端产品运营团队搞产品设计和内容调性，字节中台搞推荐
算法模型和用户增长，实现了产品、运营和技术的完美匹配。全屏沉
浸体验+拇指轻划交互+丰富多样且直击用户兴趣点的内容=用户刷得
停不下来。
在商业世界，除了用户体验之外，还有更多值得注意的方面，例
如内容生态。
抖音的全屏沉浸式加内容强推荐的设计，背后也体现了平台对内
容创作生态的态度：让用户选择余地最小，平台控制力就最大。
抖音通过AI算法来决定把什么样的视频推给用户，平台通过AI模
型的目标设定和训练，牢牢把握内容生产的导向性，强调视频的完播
率和点赞率，尽可能拉长用户在抖音的停留时间，产生更多商业化的
空间，由此最大化平台的利益。内容创作者必须琢磨AI算法的规律，
研究“怎么拍出一个让抖音算法认为好的内容”，才能获得更多流
量。
相比更“温情”、鼓励创作者与用户建立直接关系的快手，抖音
基本上全靠算法进行流量的分配，这就造成了抖音创作者的焦虑心
理，有多少粉丝并不意味着下一条视频会有多少人看，每一条新内容
都必须全力以赴，绞尽脑汁创造让用户点赞、让算法满意的爆款。抖
音成功地利用这一点，让创作者一刻不停地卷，卷出了源源不断的新
创意，以及更多帮助抖音持续放大用户时长的爆款内容。
用户规模有了，停留时长有了，把用户时长变现，才是商业公司
的本质目标。而商业化也是字节中台和算法的强项。在全屏沉浸式加
内容强推荐的情况下，广告获得了最原生的效果，广告的内容形态和
呈现场景都跟正常的短视频融为一体，没有内容货架那种内容和广告
之间的割裂感，因此用户心智对广告的接受度更高。同时，广告也是
由AI算法强推荐插入的，用户不可选择，广告曝光流量也比内容货架
式要更高。字节的AI算法更是广告转化率优化的一把好手。当广告的
用户接受度、转化率和广告曝光流量都有提升，广告订单和收入自然
也会更大。自2018年之后，抖音超越今日头条，成为字节跳动的头号
“印钞机”。
“高效的用户增长引入用户，用高效的推荐算法去匹配，留存
做好后商业化也高效，挣到钱又去投用户增长。……很多人觉得字
节是一家内容公司，这是错误的，字节就是AI算法公司。”曾在201
6年担任抖音中层的一名成员说。
思考：
什么是AI公司？什么是大模型公司？大模型产业中，最好的商
业会在哪里？
17 关于大模型产业的对话：第2集
山景城：计算机历史博物馆的重逢
人物：
·老A：技术出身的IT互联网连续创业者
·D总：高科技行业投资人，跟老A同行到美国访问
·小柯：在美国加州留学的AI博士生，老A的朋友
主题：
·AlphaGo年代出现的对于业务可复制、模型可泛化的过度乐观
的现象，会在大模型这波技术浪潮中重演吗？大模型比AlphaGo更接
近通用人工智能吗？
·自动驾驶对于无人化的过度乐观，在大模型这波技术浪潮中会
重演吗？大模型的可靠性也有问题，会需要安全员吗？
·什么是AI公司？什么是大模型公司？大模型产业中最好的商机
会在哪里？
时间地点：
2023年4月的一个上午
美国，加利福尼亚州山景城，计算机历史博物馆
◎图4.33 加州山景城计算机历史博物馆
图片来源：Atlas Obscura，https://www.atlasobscura.com/p
laces/computer-history-museum。
太阳升上来了。山景城的早晨还有点微凉。老A拢了拢领口，招
呼着后边的D总，大步跟上走在前面的“地陪导游”小柯，迈进了计
算机历史博物馆。
小柯领着两位国内来客在馆里穿梭，熟练地打卡了几个知名的展
品，包括可读取纸带1/0数据的图灵机概念机、1946年第一台大型通
用电子计算机ENIAC、20世纪70年代发明图形用户界面和鼠标的个人
计算机Xerox Alto，等等。
“接下来是我为你们定制的AI之路。”他们在一组高大的黑色机
柜前停了下来，“这是当年击败国际象棋冠军的深蓝，Deep Blue二
代。”小柯介绍道。
深蓝
◎图4.34 1997年击败卡斯帕罗夫的IBM深蓝计算机
图片来源：Computer History Museum，https://www.computer
history.org/chess/art-43305f13ef377/。
老A：“比AlphaGo早了19年呢。”
小柯：“当时有人说，计算机要想在围棋上赢人类冠军，至少要
再过100年。”
老A：“所以啊，AlphaGo提前80年，震撼了世界。也让许多人以
为，AI要提前统治世界了。我还记得，DeepMind公司当时信心满满地
说，深度学习、强化学习绝不只是用在游戏里的玩具，在医疗、能源
等行业也很快能看到效果。”
D总：“跨行业、跨应用场景的复制，甚至在行业内的复制都很
难，这都快成了AI商业化的宿命了。这次的大模型，据说泛化能力很
强，接近AGI了，不知道能不能逆天改命呢？”
小柯：“首先明确一下定义，泛化(Generalization)是指AI能在
新情况下正确理解环境并执行适当的动作。泛化能力越强，就越能适
应新的条件，解决更多问题。假设有两个学生，Alice擅长应试，把
时间都花在做考试真题和模拟练习上，Bob则苦练内功，阅读了大量
相关书籍、论文和网页。他俩都能顺利通过考试，当他们工作后要将
学校学的知识应用到实际场景时，Bob的表现会优于Alice，这就是泛
化能力。
跟AlphaGo和以往的深度学习模型相比，这次的大模型在泛化能
力上有了新的突破。OpenAI公司的首席科学家伊利亚当年也曾参与Al
phaGo的研发，他说，GPT通过学习文本的统计相关性，将关于世界的
知识压缩到模型中，大模型‘学习从更多的角度来观察这个世界，观
察人类和社会，理解人们的希望、梦想、动机、互动和情境’，这是
以往的AI都没有做到过的。
AGI跟泛化有关，但它也有好几种定义呢。有人认为AGI是“上
帝”级别的超级智能，而OpenAI公司的伊利亚认为泛化能力达到“大
学本科生”水平的就是AGI。微软在2023年3月发表的论文《通用人工
智能的火花》里也说AGI还没有公认的定义，但AI的通用性就意味着
像人类一样具备推理、抽象、规划等能力，能解决多种问题，能持续
从经验中学习，而不是像以前的狭义人工智能专做某一类任务。”
老A：“这篇论文我上个月也读了。微软有个阶段性结论：GPT-4
可以看作是早期不完善的AGI版本，因为它能够理解和连接任何主
题，除了语言能力，还能做数学、编程、视觉、医学、法律、心理学
等任务。关键是，它在掌握新任务之前，不需要任何特殊的模型训
练，这就是泛化的证据了。”
D总：“如何得出的结论呢？有标准化测试吗？”
小柯：“针对大模型这么新的东西，目前还没有标准化测试。他
们创造了一些新的、有难度的实验，来探索GPT-4的能力边界。我记
得有一个测试AI常识的实验，说有一本书、9个鸡蛋、一台笔记本电
脑、一个瓶子和一颗钉子，需要把这些东西一层层地摞起来，问AI怎
么操作。
还有一个测试，让AI用柏拉图对话式的调性和方法来批判自回归
模型的使用，由此可以判断AI跨学科组合技能，以及对复杂思想的理
解力。这两个测试都完成得出乎意料的好。而且，在并未进行针对性
训练的前提下，GPT-4在各类考试（包括法律、医疗等专业考试）中
也取得了比肩甚至超越人类的成绩。”
D总：“那相比大学本科生，它在哪些地方还有缺陷呢？”
老A：“之所以说它是早期不完善的AGI，还是有不少缺点的。例
如，它会出现幻觉、规划能力差、无法持续学习、缺乏长期记忆等问
题，这些都是不如人类的地方。如果我们把大模型的泛化要求定位到
人类的水平，那目前还存在一定距离。”
D总：“从业务可复制的角度来看，也许可以对大模型的泛化能
力分级？如果它关键的几项能力强，那就允许其某些地方不如人类。
就当作是特长生，招聘还有个三六九等呢。”
老A：“那要就事论事地看业务场景能否接受大模型的这些缺
陷，或者在这些缺陷的前提下，大模型能否发挥出足够大的生产力价
值或商业价值。”
小柯：“针对目前的这些缺陷，这篇论文以及产业界都提出了优
化方向，会对其逐步完善的。一方面靠引入图片视频的多模态，补充
新的领域数据，加大模型规模；另一方面，在自回归预测方法的基础
上进行扩展，补充新的能力组件，相互配合来达到AGI的水平。”
老A：“也不好过度乐观。补充新组件这事，杨立坤早在2018年
就提出了他的世界模型，他认为自回归预测适合离散文本，但不适合
连续高维的视频，所以多模态到最后一定要用他的组件。但两种方法
能否融合在一起，仍然存在很大的不确定性。
再如，GPT-4在测试中表现出一定的心智能力，可以根据人类对
话语言来推理他人心理状态，并在社交场合做出恰如其分的行为。但
由于多模态尤其是视频还不成熟，大模型还无法理解语言之外的社交
暗示，比如表情、手势或语调。对这种社交暗示的理解，在小柯上次
于北京提的‘耳语教练’应用场景中就属于关键能力了。是否可以认
为，多模态之后，大模型能力就会泛化到这类数据和场景？或许不会
那么自然而然地发生。”
小柯：“嗯，一切都需要实践来证明。此外，从泛化的角度说，
大模型还是擅长自然语言相关的认知智能；但人工智能的许多其他领
域，例如图像识别、推荐广告、驾驶行为决策等，大模型则未必适
合。所以，不能简单认为大模型是全面覆盖的通用智能。”
D总：“据说，大模型许多新技能的泛化被解释为涌现，而涌现
又是不可预测、不可控制的，那也就很难蓄意产出新技能的涌现了。
某种程度上，大模型还是继承了深度学习炼金的特点啊。”
老A：“说到炼金啊，这次大模型还是比以往的深度学习有一点
优势，它把最复杂的调参工作、最难的工程都放在了预训练阶段，集
中许多高手解决一个大模型的问题。到不同行业或客户那里，需要做
的模型微调相对就容易很多了，不需要针对不同客户来投入高端人力
成本。这对业务可复制也是一个利好。”
D总：“省了炼金的调参成本是小利好，业务可复制、模型可泛
化的大利好还得靠大模型持续的涌现。或许干这行的，以后见面不再
是问候‘您吃了吗’，而是‘今天你涌现了吗’”
老A：“这个涌现啊，就像凯文·凯利《失控》写过的，群集智
能系统因为独立、不可控，才产生了智能的突破，所以要想有突破，
就要放弃以往所习惯的中心控制，要接受不可预测、不可控制的这种
失控。但是，如果社会还是不习惯这种失控，大众预期就会跟着舆论
情绪走，要是因此高估了短期表现，就有可能因为暂时受挫看衰长
期，这种震荡对产业发展其实是不利的。”
小柯：“现在确实有一些声音，对大模型泛化的边界和程度有比
较乐观的预期。前段时间，斯坦福和哈佛有人在《自然》(Nature)杂
志上发了关于大模型通才式医疗AI范式的文章，他们认为不需要人工
标签，就能让医疗AI从医学文本扩展到影像和视频了。但实际上，要
达到这样的程度，大模型还要有技术突破，学到新的技能才行，而这
都是不可预测、不可控的。”
无人车
“这里是自动驾驶展区。其实从20世纪50年代开始，通用汽车就
开始自动驾驶的路测了。”小柯指着一幅图说，“这是50年代的报纸
广告，畅想驾驶无人化之后的美好生活。”
◎图4.35 20世纪50年代美国的无人车广告
图片来源：Computer History Museum，https://computerhist
ory.org/blog/where-to-a-history-of-autonomous-vehicles/。
老A：“结果过了70年，安全员还在车上呢。”
D总：“大模型在各行各业的应用，估计也得需要一段时间，以
安全员作为过渡吧。”
老A：“那就看大模型出现幻觉的毛病什么时候能被治愈了。大
模型可靠性目前还是个风险。”
小柯：“巧了，我前两天看OpenAI公司的首席科学家在一个访谈
里说到这个事，我搜一下，放给你们看。”
很多致力于AGI的乐观人士往往低估了实现AGI所需的时间。我会
从自动驾驶的角度去类比和思考。如果你看特斯拉的自动驾驶，它似
乎什么都能做，但是，它在可靠性方面还有很长的路要走。我们可能
也会遇到类似情况，看起来大模型可以做任何事，但同时我们还需要
做更多的工作，直到我们真正解决了所有问题，让它变得更好、更可
靠、更健壮、更正直。
（问：假如2030年大模型还没有创造太多经济价值，最有可能的
解释是什么？）我不认为这个假设会成立，但如果一定要回答为什么
实际效果令人失望的话，我的答案是可靠性。如果某种情况下，你希
望它们可靠，但它们没有做到，或者可靠性比我们预期要更困难，这
都会造成失望的结果。不可靠就意味着技术不成熟。
D总：“看来这是他们的头等大事了。”
老A：“除了祈祷大模型快点涌现，我们从业务侧也得做多手准
备。通过特别的提示或者样本微调，要求大模型更谨慎地回答，或者
给出置信度指标，让人类作为参考。还有，让大模型调用搜索或者企
业私域数据，获得更丰富的信息源，避免它闭门造车。再不行，最后
的大招就是靠人类安全员审核了。”
小柯：“也有用大模型审核大模型的，先让它们窝里斗，斗完了
人类再出场收拾。可以省点人类的工作量。”
D总：“但从伊利亚的访谈中也能感觉到，可靠性并不是那么容
易解决的。大模型整个产业很可能要跟这个幻觉病毒长期共存。”
小柯：“嗯，杨立坤表达过此观点，你的手始终不能离开键盘或
方向盘。从深度学习的规律来看，模型可靠性永远都达不到100%，模
型出错是一个必定发生的概率事件。”
◎图4.36 杨立坤对时下大模型可靠性的看法
图片来源：推特，http://twitter.com/。
老A：“针对大模型的安全措施一定存在，但不一定是跟AI一比
一配置的人类安全员啊。还是要考虑行业应用场景本身对模型出错的
容忍度如何，例如医疗诊断的容忍度一定是最低的，但医疗常识咨询
就可以高一些。
到具体行业里，就需要测试不同场景下大模型的错误率，算出实
测错误率和可容忍错误率之间的差距，找到一个安全措施来降低错误
率，以弥补这个差距。就算针对同一个场景，安全措施也是多样的。
自动驾驶从主驾安全员到主驾无人（安全员坐副驾），再到前排无人
（安全员坐后排），人类一点点往幕后退，但业务安全配比始终是1
∶1，使得成本过高。现在有些地方可以到全车无人（5G云代驾），
这个阶段的业务安全配比就可以达到3∶1或4∶1，甚至更高。每人同
时代驾的车辆数越来越多，就能逐步降低安全成本。”
D总：“企业最后还是算投资回报率(ROI)。你这个业务安全配
比，其实就在计算大模型带来的价值贡献跟大模型带来的安全成本相
比，能否接受。如果配比很高，说明业务价值远远高于安全成本，企
业才有动力推广大模型应用。”
老A：“对。无论是大模型创业还是投资，做业务指标预测时别
低估了安全成本，别依赖于大模型涌现来解决问题。这笔成本对业务
可能是举足轻重的，未来在大模型能胜任的知识工作中，边际成本主
要就是推理算力加安全成本了。”
小柯：“这两项成本看起来都会随技术发展而降低。OpenAI公司
首席执行官山姆·阿尔特曼也认为，未来十年的发展变化应该基于这
样一个假设——智力的边际成本趋向于零。”
D总：“嗯，如果到了边际成本为零的那一天，会引发什么样的
产业结构变化呢？这是一个有趣的思考题。”
ELIZA
◎图4.37 ELIZA的用户界面
图片来源：https://t.cj.sina.com.cn/articles/view/217270
9100/8180e8ec00/00x/1n？from=tech。
“ELIZA是20世纪60年代在麻省理工学院开发的聊天机器人，支
持好几种对话脚本，其中一个可以模拟人本主义的心理治疗师，跟用
户文本交流。尽管智能有限，但ELIZA为后来的人工智能对话系统奠
定了基础。”小柯带着大家来到ELIZA模拟器的屏幕面前。
D总：“心理治疗师？这不跟Character.ai一样吗？”
◎图4.38 与大模型应用Character.ai的心理学家角色聊天
小柯：“嗯，世上没有新鲜事。这就是60年前的Character.AI，
只不过智能程度低，聊不了几轮就露馅了。”
D总：“Character.AI的角色扮演，聊天体验还不错，算是目前
为止比较有特色的大模型To C应用了。”
老A：“但还没开始付费呢，不知道这个模式的商业化能力怎么
样。”
小柯：“我感觉大模型整个商业模式都还比较早期。现在只有卖
算力的在挣钱吧。”
D总：“卖算力的商业模式虽然最清晰，来钱也快；可上面的模
型层、应用层也得尽快找到商业模式，当成一门生意来做。现在的钱
袋子可比当年保守多了。”
小柯：“那模型层是一门好生意吗？”
D总：“研发和训练大模型，包装成服务卖出去，MaaS本质还是
一个云计算面向企业(To B)服务。不过，作为一门生意，‘模型即服
务’(MaaS)跟云计算的‘基础设施即服务’(IaaS)相比还是有一个好
处——飞轮效应。”
小柯：“数据飞轮？”
D总：“对。飞轮效应最早说的可不是数据飞轮。传说亚马逊的
贝佐斯曾经画过一个飞轮图：亚马逊的买家越多，卖家就越主动到亚
马逊上面来卖货；货品的选择越多，买家体验就越好，就有更多用户
过来买。这是电商平台双边市场带来的飞轮效应，正向循环一旦形
成，只要积累一定的动能，飞轮不需要企业发力就会自动转起来，越
转越快。通常飞轮转到一定程度，在新入局的竞争企业面前，还能形
成壁垒。”
小柯：“哦，原来飞轮不仅仅是数据飞轮。这应该是所有企业都
梦寐以求的模式吧。”
D总：“嗯，飞轮可不是所有行业都有的。在云计算IaaS领域就
没有发现飞轮，因为IaaS主营业务的双边市场属性不明显，客户买云
主机、内容分发网络(CDN)，并不是冲着云厂商的三方生态来的。都
说云计算是数字时代的水电煤，但水电煤其实并没有飞轮效应，只有
规模效应。”
◎图4.39 传说中贝佐斯在餐巾纸上画的亚马逊双边市场飞轮
小柯：“但有了大模型这种MaaS服务，就可以在云计算领域建立
新的飞轮和竞争壁垒。客户越多，训练数据就越多，模型就越好用，
然后客户就更多。”
老A：“你俩说的道理是对的。但MaaS的客户也分两种，有些企
业客户或应用开发者对数据敏感，他们可以把私有大模型部署到专有
的空间里，这种客户的数据就不能用来驱动数据飞轮了。”
小柯：“理解。但只要有部分数据可用，就能形成飞轮效应。如
果各家大模型在算力、算法方面没法分出高下，就得靠数据的差异化
了。只要客户数量和多样性上来，大模型获得的数据喂养就多样化
了，说不定哪个垂直领域的数据集就触发了新的涌现能力呢。例如有
人分析说，ChatGPT的CoT推理能力就跟GitHub代码数据集的训练有
关。”
D总：“所以，MaaS的生意有想象空间，因为它有机会捆绑着算
力层的IaaS一起成为具备飞轮效应的水电煤。这是不多见的。”
小柯：“那应用层呢？应用层最好的生意是什么？”
D总：“如果当生意来看，最基本的一条，便是要清楚，能否从
用户价值里挣到钱。OpenAI公司的投资人里德·霍夫曼(Reid Hoffma
n)提过一个应用层的创意——利用大模型，让每一篇文章或每一本书
都能代表作者跟读者对话，彻底改变媒体和图书行业的用户体验。这
个想法非常有意思，也有很好的用户价值，但是能不能挣到钱、用户
会不会为此付费、通过互动式广告能否收回来推理成本等问题仍然没
有确定的答案，其商业回报还没有那么清晰。”
老A：“有太多创意都属于‘有价值、难变现’的类型。Charact
er.ai里的大多数虚拟对话角色可能都属于这种情况，有噱头但无法
变现，只能当引流获客的手段。”
D总：“好生意的第二条，也是进阶要求：创造一个以前不存在
或者做不到的新市场。最理想的目标，就是能像第二次工业革命将马
车升级到汽车那样，既开辟了巨大的新市场，同时还带来了增量的就
业。”
老A：“是啊，增量就业也很重要。虽然它看起来属于社会价
值，但其对工业革命的社会接受度和可持续发展很重要，如果技术变
革只能导致裁员，没办法创造新的就业机会，是不能长期立足的。”
D总：“赞同。但首先还是要商业价值能够站稳脚跟，创造新市
场的前提是要能挣钱。”
小柯：“以前不存在或者做不到的新市场？如果大模型带来的变
化是知识工作边际成本趋向于零，那么，过去因为知识工作边际成本
太高而无法实现的市场有哪些？”
老A：“一对一的专业服务，教育、法律、医疗、心理咨询等，
这些领域的一对一服务，老百姓有需求，但高质量专业资源很稀缺，
价格昂贵，只有极少数人能负担得起。如果大模型把这块的成本价格
降下来，会是一个新的市场。”
小柯：“甚至可以跳出专业服务领域。如果我小时候就有大模型
技术，我会希望有一个AI陪伴机器人，比我大两三岁的心智，跟我一
同长大，弥补我没有哥哥的缺憾。”
D总：“嗯，你们说的都有可能，符合‘创造新市场’要求的应
用一定还有更多。只要能创造新的市场，就能带来新的人类就业岗
位。如果是一对一专业服务和陪伴服务，那就需要更多人类来做安全
员，做数据标注和管理，做模型训练和支持，做技术开发和维护，等
等。”
小柯：“这些新的就业岗位要求人类掌握新的技能，现有的劳动
者可能需要重新接受培训。”
老A：“其实这也是大模型一对一教育服务可以起作用的地方。
而且，它不但能帮助现有的劳动者学习新的职业技能，还可以面向边
远贫困地区的青少年提供更好的教育。这些地区本来教师资源不足，
如果能让每一个孩子都有一位高水平的全科随身老师，就能实现更高
层次的教育公平。说得更长远一些，这样的教育有机会缩小地区之间
发展的差距，形成新的增量消费市场，这就不仅是最好的商业了，更
是最好的社会事业。”
D总：“是啊，阿里前一阵发布通义大模型的时候，就跟联合国
教科文组织‘人工智能与教育教席’项目合作，要共同探索未来AI学
习空间，在欠发达地区推动AI教学均衡发展。大模型的社会意义，已
经不仅仅是概念了。”
◎图4.40 2023年4月11日阿里云北京峰会，通义大模型发布现场
图片来源：ApsaraLive。
第五代
“这是美国的专家系统之父米切尔·费根鲍姆(Mitchell Feigen
baum)在1984年写的书。当时的日本通产省制订了关于第五代计算机
系统的十年计划，拨款8.5亿美元，并请了费根鲍姆作指导，希望能
在计算机产业上击败美国。可费根鲍姆拿着日本的计划回美国，以
“日本威胁论”为名游说美国政府投资，他自己也从中拿了不少项
目。但三年之后，美国国防部国防先进研究计划局(DARPA)认为这个
方向失败，砍掉了大部分预算。”小柯介绍道，“今天的博物馆AI之
路，我就带大家看到这里。再往后的大故事，就到了十年前的深度学
习崛起，你们自己都已经经历过了。”
◎图4.41 《第五代：人工智能与日本计算机对世界的挑战》
图片来源：米切尔·费根鲍姆，1984年。
这几段历史，老A和D总此前或多或少知道一点，但在计算机历史
博物馆亲身经历AI这几个里程碑之后，对技术、对历史、对时代的敬
畏感油然而生。
D总：“计算机、互联网、人工智能，一代又一代的技术发展，
出现过许多泡沫周期。现在，大模型来了，我们在周期里的什么位置
呢？”
老A（掏出纸笔画起来）：“那要看以谁为主语。如果以大模型
为主语，那就处在这个小周期的第一个上升波段，会出现过度乐观情
绪，未来还会回调，然后再上升。我们能做的，就是尽量想到各种可
能发生的问题，让发生在自己身上的回调少一些。”
◎图4.42 大模型所处的周期阶段
老A（继续画着）：“如果把近十年的AI算到这个周期里，以AI
为主语，那现在便处于第二个上升波段，已经过了曾经的泡沫巅峰，
也过了破灭的谷底，开始落地爬坡。后面会有波折，但不影响大的趋
势。干就完了！”
◎图4.43 AI所处的周期阶段
小柯：“看来你俩都是经历过周期的人啊，也别跟三体人一样，
太沉重了啊。我们每人一句话，拍个视频，结束今天的计算机历史博
物馆之旅吧，我都饿了。我先来——Dance till the music stop
s！”
老A：“偶遇红利时不以物喜，穿越周期时不以己悲。”
D总：“不负时代。”
小结
·AlphaGo年代对于业务可复制、模型可泛化的过度乐观，在大
模型这波技术浪潮中会重演吗？大模型比AlphaGo更接近通用人工智
能AGI吗？
泛化能力：在从未碰到过的新情况下，AI能够正确理解并执行适
当动作的能力。在同样的数据集训练基础上，泛化能力越强，就越能
适应新的条件和场景，从而解决更多种类的问题。
从技术和商业来看，泛化有两个层次：
1.针对某个功能，在A数据集上进行的训练，在数据特点和分布
不同的B数据集上表现也不错。这意味着，将模型和对应产品复制到
新客户环境的边际成本很低，可加强业务在同一行业、同一场景下的
可复制性。
2.并未针对某个功能进行数据准备和训练，却学会了该功能（例
如英汉翻译）。通过监督微调，甚至上下文学习就能掌握新技能。这
意味着，同一个模型提供新的功能、产生新的业务价值的边际成本很
低，可提高新产品新业务扩展的可行性和效率。
跟AlphaGo和以往的深度学习模型相比，大模型在泛化能力上有
了新的突破，因为大模型通过大量数据的预训练、更深的层次和更多
的参数，学习并内置了关于世界的知识，从而在一定程度上支持了以
上两个层次的泛化。用伊利亚的话说，当GPT训练自己预测下一个字
的时候，其是在学习“世界的模型”，是通过学习语言文本的统计相
关性来将文本中关于世界的知识压缩到模型中。
基于这样的规模效应，大模型确实涌现出了许多泛化能力，体现
了一定程度的通用性，但离真正的AGI（按伊利亚的标准，其泛化能
力应达到人类大学本科生的水平）还有距离。
■纯文本信息还不足以建立完整的世界模型。目前的大模型在文
本学习上有突破，图片学习效果还有待验证，而视频学习则可能要引
入Transformer模型之外的新技术。
■大模型的泛化能力是有边界的。当前大模型从文本中学到的能
力主要集中在自然语言相关的认知智能领域，而在以图像识别为代表
的感知智能和以用户行为预测为代表的决策智能领域，大模型则未必
适合。即便在认知智能领域，其也存在规划能力不足等一系列缺陷。
■在自然语言相关的认知智能边界内，泛化的产生是被动的。从
涌现机制的角度看，只能通过事后观察来分析浅层的规律，无法做到
新技能涌现的可知、可预测、可控，也就很难提升新技能涌现的效
率。
在AI新技术产生突破的早期阶段，学界、产业和资本可能有意无
意地对模型泛化和业务可复制、可扩展产生乐观预期。例如2023年4
月斯坦福和哈佛学者在《自然》杂志发表的文章中，基于大模型提出
通才式的医疗人工智能范式，认为无需特定的人工标签训练，即可从
文本扩展到医学影像和视频的理解和辅助诊断。然而，文章中并未提
到的是，要真正达到这样的范式转变的水平，实际上还有很长的路要
走；而且，所需要的技术突破或涌现仍然是不可预测、不可控的。
就像凯文·凯利在《失控》一书中讲述的群集系统智能那样，失
控（不可知、不可预测、不可控）既是智能获得突破的重要原因，又
是智能突破所不可避免的伴生结果。然而，这种失控并非社会所习惯
的模式。如果没有合理地控制预期，大众往往在短期过度乐观，一旦
受挫，便会低估长期发展趋势，造成产业的大起大落。
从产业的角度，对大模型在各行业场景下的泛化和复制能力，建
议“小马过河”，谨慎乐观（参见图4.44）。单纯地期待涌现不可
靠，产业界需要找到配套的方法，让大模型落地的结果更可控。
◎图4.44 大模型面对落地行业的选择
1.选好做什么，不做什么。
在一些场景中，大模型现有的一些缺陷对商用的影响没那么大，
甚至可能是助益，如强调个性化和趣味性的聊天应用的character.ai
的创始人说：“我并不认为幻觉是需要解决的问题，我甚至很喜欢
它，这是模型有趣的特点。”
在character.ai做的“角色扮演”聊天场景中，幻觉是想象力的
源泉。但对另一些容错很低的行业，如医疗诊断、自动驾驶、工业自
动化，幻觉却危害显著。
2.通过人工或机器手段来给大模型的缺陷打补丁。
在适合使用GPT大模型能力的领域，针对幻觉、规划能力不足、
缺乏长期记忆等缺陷，现在都有部分解决方案。
机器手段包括通过本地数据库查询的方式，在对话中带入历史记
忆，增加模型的记忆能力，通过两个模型间左右互搏的方式识别幻
觉。人工手段包括通过提示工程指引大模型进行复杂规划，采用人工
审核的方式来发现并纠正模型幻觉。
以上手段在不同行业场景、不同数据环境下的效果与成本，需要
用实践验证，其综合结果会影响GPT大模型在这个行业或场景的商业
价值。
3.针对目标行业进行深入定制化，对快速颠覆怀有谨慎期待，对
额外的成本有预期。
由于大模型仍无法通吃所有行业，越来越多人意识到，在通用大
模型之上，还可以针对垂直领域精细化训练和定制大模型，这类模型
仅在指定行业场景下执行有限种类任务，规模可适当缩小。
从轻到重，做定制化的方式有：
■基于已有闭源大模型的API接口，通过应用级的微调和打补丁
做定制应用。
■选择开源的、已经完成预训练工作的基础模型，做更多定制。
■从头自己训练垂直模型：从预训练数据选择、模型结构设计切
入，定制全新大模型，以解决特定行业场景的问题。如彭博推出了50
0亿参数的金融垂直大模型BloombergGPT，预训练使用的金融数据集
和通用数据集各占一半，在金融特有任务，如在新闻情感分析领域领
先于通用大模型。
越重的做法，成本越大，壁垒也越高。不同行业，怎么做最有竞
争优势，没有标准答案，但可以有一个大致的决策模型：
更稳的选择是先做最轻的打补丁，在掌握问题和数据、验证业务
价值后，再决定是否走彻底定制路线。然而，这种做法可能错过时间
窗口，导致追不上行业里更早做出垂直模型的公司，后者可能更快形
成数据反馈到模型能力迭代的“数据飞轮”，与其他人拉开差距。
更大胆的方式是跳进选好的方向，直接从头一边炼大模型一边找
业务价值，这需要持续的资源，也是目前一批融资能力最强的创业者
的共同选择。
·自动驾驶对于无人化的过度乐观，在大模型这波技术浪潮中会
重演吗？大模型的可靠性也有问题，会需要安全员吗？
大模型的幻觉造成的可靠性问题，仍然是其投入实际应用的最大
障碍之一。
学界和产业界对此非常重视，OpenAI公司更是将其作为头等问题
来解决，但并没有明确的路线和时间预估。
按照深度学习的规律，模型的可靠性不可能达到100%，出错是一
个必定发生的概率事件，需要结合不同行业场景中大模型的价值贡
献、对错误的容忍度，通过流程设计和过渡方案来解决（例如无人驾
驶的5G云代驾）。
在大模型胜任的知识工作中，边际成本主要由推理成本和安全成
本构成。当智力的边际成本趋向于零时，对应的生产和消费关系会发
生什么变化，美国经济学家杰里米·里夫金(Jeremy Rifkin)有一本
著作曾经对此进行思考，即《零边际成本社会：物联网、协作共享和
资本主义的消逝》。
·什么是AI公司？什么是大模型公司？大模型产业中最好的商业
会在哪里？
利用AI技术能力创造差异化价值的公司即可视为AI公司，大模型
公司同理。
1.卖算力，是大模型产业短期内最赚钱的商业。
2.MaaS卖大模型，并且通过客户积累形成数据飞轮壁垒，做有飞
轮效应的水电煤，是最有想象空间的商业。
3.将大模型能力与行业结合，提高现有业务的生产力，是最现实
的商业。
4.将大模型能力与行业结合，在某个应用场景中形成颠覆性创
新，面向最终消费者创造新的价值，引领行业甚至创造一个新的行业
及相关就业机会，这是最好的商业。
5.利用大模型赋能给原本智力资源缺乏的地区，提高社会基础服
务（教育、医疗）的质量，实现更高层次的教育公平、医疗公平，长
期可缩小地区间发展差距，形成新的消费市场，这是最好的社会事
业。
企业从2到4，或从3到4，也是一种现实可能的发展路线。
·我们处于技术成熟度周期中的什么位置？
要看是以大模型还是AI为主语，周期和位置有所不同，解释空间
就会很大。
对待产业资本周期，也有3种有趣的态度：
1.Dance till the music stops.（音乐不停，跳舞不止。）
2.偶遇红利时不以物喜，穿越周期时不以己悲。
3.不负时代。
后记
大模型时代，说来就来了。这一切都发生在短短不到半年的时
间里，而且，就在本书定稿之后的半个月里，仍不断曝出新的动
向。
谷歌I/O大会轰轰烈烈地发布了全新的大模型PaLM 2，在逻辑推
理、数学、编程方面有了很大的进步，并将大模型能力集成到谷歌
搜索、谷歌文档、Gmail邮箱等云端应用中。
深度学习奠基人、OpenAI首席科学家伊利亚的老师杰弗里·辛
顿却辞去了谷歌副总裁的职位，他担心OpenAI和谷歌的大模型会把
人类推向未知的风险。
巨大的变化也伴随着各种不同的声音。
国内一家新能源工业软件公司董事长认为ChatGPT在工业领域真
正要产生业务价值还需很长时间，但产业却需要这样的概念，“没
有概念，你就没有投资，没有投资这事就没有任何机会”。
沃顿商学院教授伊桑·莫里克(Ethan Mollick)参加一个国际性
的教育科技大会时，发现教育界的许多领导者，包括美国知名大学
的校长和教育科技公司的首席执行官，都认为技术奇点已经到来，
但都不知道未来的教育应该怎么办，应该培养学生向什么方向发
展。
在这样的纷繁扰攘之中，我也曾焦虑过——经济社会将发生多
大、多快的变化；作为职业人，我要做什么改变，来应对大模型的
挑战；作为父亲，我的孩子要怎么适应未来更大的变化。
直到我检查书稿时，再次看到伊利亚的那句话——在讲述GPT从
无人问津到大获成功的艰辛道路时，他说：“在你拥有大规模的高
质量数据和算力之后，你还需要相信。”
相信，以及相信背后的勇气和担当，正是AI大模型学不到、夺
不走的人类品质啊！巨大、频繁、不可知的变化之下，我们要做
的，或许就是回归不变的东西。
面对零成本但同质化的智能时，找到自己的好奇和兴趣、个性
和真情。
面对变化和不确定时，利用批判性思维、试错和迭代来解决问
题。
未来的教育，或许就是要帮助人们找回这些不变的东西，以不
变应万变。而AI大模型，既是这些变化的始作俑者，也可以成为帮
助人们适应变化的手段。自古以来，技术与教育就在同一条道路上
竞赛并互相促进，大模型也不例外。在这条注定漫长而坎坷的道路
上，我会跟国内外的教育者和学习者一同探索，无论你是校长、老
师、家长、学生，还是大模型的从业者，都欢迎来到“老莫实验
室”（公众号二维码见本书第72页），继续阅读情景剧、贡献自己
的想法、参加后续的活动。
最后，我想要感谢我的家庭，魏薇和小朗。你们在我痛苦煎熬
的写书过程中提供了很大的帮助和许多的宽容。
我要感谢黄雯和李贺。黄雯在AI如火如荼、大厂天天加班的情
况下，熬夜写下了《应用篇》里除教育行业之外的所有行业应用内
容。李贺则利用新媒体出身的创作天分和AI绘图工具，为本书画出
了许多有趣的插图。
我要感谢我的两位师兄谢源和谢涛，你们的鼓励对我很重要。
我要感谢AI业界和教育界的朋友们，袁进辉、刘川、夏珂、黄
颂、郑建华、程曼祺、Laurent Kneip、Miao Jin、Ivy Zhang。你
们提供的意见和鼓励都在这本书里。
我还想感谢中译出版社的团队，乔卫兵社长、朱小兰主任、编
辑苏畅、朱涵、王海宽、任格、刘炜丽、王希雅。在你们身上同时
体现了图书出版界的规范严谨、互联网行业的开拓精神和工作效
率，这让我印象深刻。
让我们一同走进大模型时代。
龙志勇
2023年5月11日

大模型时代：ChatGPT开启通用人工智能浪潮

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

大模型时代：ChatGPT开启通用人工智能浪潮

Uploaded by

Copyright:

Available Formats

版权信息

◎图1.3 ChatGPT Model连续预测下一个字的运行机制

◎图3.6 MidJourney Prompt Helper用户界面

You might also like