ChatGPT能力分析与未来展望武俊宏

DOI：10.16262/j.cnki.1000-8217.20230922.
003 网络首发时间：2023-09-26 13:29:40

网络首发地址：https://link.cnki.net/urlid/11.1730.N.20230922.1623.006
中国科学基金 1
·专题:
Cha
tGPT 与人工智能技术应用·
Cha
tGPT 能力分析与未来展望
武俊宏1† 赵阳2† 宗成庆2*

1.中国科学院大学人工智能学院,北京 100049
2.中国科学院自动化研究所,北京 100190
[摘要] 近年来,大语言模型的自然语言处理能力不断提升,尤其近期,聊天生成式预训练模型
( tGPT)所掌握的“渊博知识”和表现出来的强大对话能力成为举世瞩目的热点话题。Cha
Cha tGPT
语言理解能力的真实水平如何? 与专用模型相比,其性能表现谁居上风? 它是否能够成为整个自
然语言处理领域的通用模型而取代其它模型,甚至使所有自然语言处理问题得到彻底解决呢? 为
了回答上述问题,本文对 Cha
tGPT 在多个自然语言处理任务上的性能表现进行了评估和分析。在
此基础上,我们讨论了 Cha
tGPT 对自然语言处理领域的影响,并对未来的发展进行了展望。
Cha
[关键词] 自然语言处理;大语言模型;预训练语言模型; tGPT
自然语言处理(
Nat
ura
lLanguagePr
oce
ssng,
i 宗成庆中国科学院自动化所研究员,博
IEEE Felow、
l ACL Fe
llow、AAIA
NLP)是研究如何利用计算机技术对语言文本进行
士生导师,
Fel
l 、
ow CAAIFe l
low 以及 CCF Fel
low。主
处理、加工和转换的一门学科 [1]。由于该学科在理要从事自然语言处理、机器翻译和语言认
论上面临巨大的挑战,而其技术应用前景极其广泛, 知计算等研究,发表学术论文 200 余篇,出
版专著3 部、译著2 部。目前担任中国中文
因此被誉为人工智能皇冠上的明珠。
信息学会副理事长、国际计算语言学学会
自然语言处理技术自 20 世纪 40 年代末期诞生 (ACL)候任副主席。曾获国家科技进步奖
以来经历了 70 多年的曲折历程,先后经历了以符号二等奖、北京市科学技术奖一等奖等奖项。荣获北京市优秀
教师、中国科学院优秀导师和李佩教学名师等荣誉。
逻辑方法为主导的理性主义时期、以统计学习理论
武俊宏中国科学院大学人工智能学院
为基础的经验主义时期和以深度学习方法为驱动的
博士研究生。主要研究方向为自然语言
连结主义时期。随着自然语言处理技术的进步,语
处理、机器翻译和终身学习等。
言建模 ( l,
Language Mode LM )技术已经经历了从
最初的统计语言模型 (
Sta
tis
tic
a l,
lLanguage Mode
SLM)发展至神经网络语言模型 (
Neur
alLanguage
l,
Mode NLM ),再到预训练语言模型 (Pr
e-t
rai
ned
l,PLM)的演进过程。近年来,通
[
2]
Language Mode 赵阳博士,中国科学院自动化研究所副
研究员。主要研究方向为自然语言处理、
过扩展预训练语言模型得到的大模型将语言建模技机器翻译和文本数据挖掘等。作为项目负
术推向了一个新的发展高度,其发展速度之快、模型责人和技术骨干承担多个国家自然科学基
金项目、国家重点研发计划项目和特定领
能力之强和通用程度之高,都远远超越任何一个历域的应用项目。在领域著名期刊和会议上
史时期的任何一种方法,令人瞠目。发表论文 30 余篇,出版译著 1 部。目前担
任国际学术期刊 ACM T r
a n
sacti
ons on
La
大语言模型( r l,LLM)通
geLanguage Mode
As
iana
nd Low
-Re
sou
rce La
ngu
ageInf
orma
tion Proc
essi
ng 副
常指参数量为百亿级甚至更大规模的神经网络组成主编。
收稿日期:2023
-07
-03;修回日期: 2023-07-
31
† 共同第一作者。
* 通信作者, Emal:
i c
qzong@n
lpr.
ia.ac.cn
本文受到国家自然科学基金项目( 62006224)的资助。
2 中国科学基金 2023 年
的语言模型,它采用自监督学习方式利用大量未标
1 Cha
tGPT 在自然语言处理任务上的性能
注数据训练而成。尽管在扩展预训练语言模型时主
要是增大模型参数量 (模型架构和训练方法基本不自 Cha tGPT 发布以来,已有工作评估了
变),但这些大规模的预训练语言模型表现出与较小 Cha
tGPT 在自然语言处理任务上的性能。其中部
规模的预训练语言模型 (例如,330 M 参数的分工作 [11,12]主要关注 Cha
tGPT 的通用性能,针对
2 )不同的行为,并大量任务做了简单测试。另一些工作 [1318]则聚焦于
[
3] [
4]
BERT 和 1.5B 参数的 GPT-
且在解决一系列复杂任务时展现出令人惊讶的能某一具体任务。
力 [
,这种能力被业界称为涌现能力 (
2]
Eme
rgen
t 为了评估 Cha
tGPT 在自然语言处理任务上的
s) 。例如,少样本 ( t)和零样本实际表现,本文选择了 4 种常见的也是典型的自然
[
5]
Abi
lit
ie Few-sho
(Ze
ro- t)学习能力,即在给定下游任务时可不依
sho 语言处理任务:机器翻译、信息抽取、文本摘要和情
赖任何特定领域的训练数据,而只是通过适当的提感分析。这 4 项任务既涵盖了语言生成、序列表示
t)调节模型的行为。随着模型规模的
[
6]
Pr
示( omp 和文本分类三项自然语言处理的基础任务,也涉及
进一步增大,大语言模型在各个任务上的性能也逐到不同语言之间的转换。下面依次介绍 Cha
tGPT
渐提高,这一现象被称为规模效应 (Scal
ing 在这些任务上的性能表现。
Law) 。目前的研究表明,大语言模型有望成为 1.
1 机器翻译
[
7,8]
解决各种任务的通用基础模型,是实现通用人工智机器翻译 (Ma

chi
ne Tr
ans
lat
ion,MT)是将一
能一条可行的希望之路。种语言(源语言)自动翻译成另外一种语言 (目标语
2022 年 11 月底美国 OpenAI 公司发布的聊天言)的技术,是自然语言处理中最具挑战性的研究课
生成型预训练模型 Cha tGPT① 在世界范围内引发题,其性能表现体现着模型处理跨语言理解、转换和
了轰动。该模型是在生成型预训练模型( Gener
ative 生成的综合能力 [1]。Br [
9] [
10]
own 等和 Ouyang 等对
Pr
e-t
rai
ningTr
ans
forme ,
r GPT)[
9]
系列模型的基比了 Cha
tGPT 模型和商业翻译模型的性能差异。
础之上,通过指令微调 (
Ins
truc
tion Tun
ing)并从调 Cha
他们的实验结果表明, tGPT 在高资源场景下的
试人员的反馈中强化学习( Re
inf
or cemen
tLe
arn
ing 翻译性能可与最优秀的商业翻译模型相媲美,但在
ck,RLHF) 训练建立起来
[
10]
f
rom Human Fe
edba 低资源场景下的性能则显著落后。在具体语言上,
的。Cha
tGPT 一经发布,立刻成为史上用户增长速 Cha
tGPT 更擅长处理目标语言为英语的翻译任务。
度最快的消费应用。同其他大模型相比,由于其采为了研究 Cha
tGPT 多语言翻译的能力,尤其是
用了指令微调和 RLHF 等技术,
Cha
tGPT 具有更加在中低资源语言翻译方面的能力,本文选取了
[
19]
强大的理解人类用户意图和偏好的能力,既可以根 Flo
res-
200 的测试集进行评估。该测试集包含
据指令生成高质量的回复,也可以针对不恰当的输 1012 个句子在 204 种语言上的翻译。为了对
入拒绝回答,甚至更正对话中的错误。其超乎寻常 ChatGPT 在不同资源语言上的翻译性能进行分析,
Cha
的理解和会话能力让部分人认为, tGPT 的出现本文根据 GPT-
3训练使用的数据集中不同语言所
标志着通用人工智能的“奇点”时刻已经到来。 1% )、中等资
占比例将语言划分为高资源(占比 >0.
tGPT,与专用模型
然而,作为通用模型的 Cha 源(0.1% > 占比 >0. 001% )和低资源 (占比 <
的性能对比,其表现如何? 以 Cha
tGPT 为代表的大 .001% )三类,并从每个类别中选择了两种语言测
0
模型能否成为一个通用模型同时完成所有不同的下 tGPT 将其翻译成英语 (
试 Cha X- >En)的能力。
游任务? 换句话说,通用大模型能否成为 NLP 学科这 6 种语言是:(
1) 高资源语言:中文 (
Zh)、德语
方向的终结者? 为回答上述问题,本文评估了 (
Ge);(2)中等资源语言:爱沙尼亚语 ( Et)、立陶宛
Cha
tGPT 在机器翻译、文本摘要、情感分析和信息语(Lt);(3)低资源语言:僧伽罗语 (
Si)、尼泊尔语
抽取等多个自然语言处理任务上的性能表现,分析 (
Ne)。
了 Cha 对比测试选用国际上公认的基于词序列 (
n-
tGPT 与专用模型相比的优势和不足,并对未
am)对比的评价指标 BLEU 和基于句子表示相
[
20]
来 NLP 学科方向的发展进行了展望。 r
g
① h
ttps:
//cha
t.opena
i.c
om
武俊宏等:Cha
tGPT 能力分析与未来展望 3
似度计算的评价指标 COMET[21]作为评价准则,以 ChatGPT 在实体关系三元组抽取任务上的 F1 值仅

谷歌翻译 (
Goog
le Tr
ans
lae)为比较对象。对比结
t 有 24.8% ,与最优模型 REBEL 的性能 (
[
24]
F1 值为
果如表 1 所示。 .7% )仍有较大差距。人工分析结果表明,
76
观察表 1 所展示的结果可以得到如下两个结论: ChatGPT 倾向于生成比人工标注更长的文本片段,
(
1)总体而言, ChatGPT 的翻译性能逊色于谷以更接近人类的语言习惯。同时, ChatGPT 也表现
歌翻译。在高资源 (如中—英、德—英)和中等资源出了引入世界知识的特性,例如对地理位置或组织
情况下(如爱沙尼亚语—英语和立陶宛语—英语)的机构名称缩写进行扩写。为了测试 Cha
tGPT 所学
Cha
翻译性能, tGPT 与谷歌翻译模型相差不大。随习到的世界知识对其执行信息抽取任务的影响,我
着资源量逐渐减少, Cha
tGPT 与谷歌翻译的性能差们遵循 Bang 等 [11]中的实验设置,通过调换一对关
距逐渐增大,这与已有的对比结论相吻合。系中两个实体的位置构建了一组反事实测试样例。
(2)ChatGPT 在低资源语言的翻译中出现了严测试结果表明, ChatGPT 在调换实体位置后仍能生
重的“幻觉翻译 (Ha
lluc
ina
tor
y Tr
ans
lat
ion)”问题, 成正确的关系三元组。这表明 ChatGPT 所包含的
即译文表述流畅,但语义与原文并不一致,属于无中世界知识使其在执行信息抽取时更具鲁棒性。
生有的臆想。为进一步探究 Cha
tGPT 与谷歌翻译 1.
3 自动文本摘要
的性能差异,我们对僧伽罗语—英语和尼泊尔语— 自动文本摘要 (
Aut
oma
ticT
ext Summa
riz
aton)
i
英语这两个低资源语言对的翻译结果进行了样例分是利用计算机自动将文本(或文本集合)转换成简短
析。分析结果发现, ChatGPT 不仅在低资源语言的摘要的一种信息压缩技术 [1]。文本摘要技术在信息
翻译中出现了幻觉现象,在其它各项自然语言处理爆炸时代具有重要的应用价值。已有的测试表明,
任务中均存在不同程度的幻觉。整体而言, ChatGPT 已经能够完成多种文摘任务,
1.
2 信息抽取但在多数情况下仍然低于现有最好的摘要模型。
信息抽取 (
Inf
orma
tion Ex
tra
cton,
i IE)是指从 Kap
l
[7]
an 等和 Bahr
[
8]
i等对 Cha tGPT 的通用型摘
非结构化或半结构化的文本中自动识别抽取出实要(Gener
icSummar
iza
tion)能力的测试结果表明,
体、实体属性、实体之间关系以及事件等事实信 ChatGPT 生成的摘要明显不如经过微调后的
息 ,并形成结构化表示的一种文本挖掘技术 [
。
22]
BART 模型 (以 ROUGE- 1 指标值衡量 )。 Qi
[25]
n
[
11]
Bang 等对 Cha
tGPT 在信息抽取任务中的性能
[
12]
等进一步研究了 Cha tGPT 在查询式文本摘要
做了全面评估,其中包括命名实体识别 (Named (
Que
ry-ba
sed TextSummari
zat
ion)和要素级文本
En
tit
y Re c
ogn
iton, NER)、关系抽取 (Re
i la
tion 摘要(Aspect
-based Tex
tSummari
zat
ion)等更多样
Ex
tract
ion,RE)和事件抽取 (Even
t Ex
tra
ction, 化任务上的性能。结果表明,在除社交媒体领域以
EE)三项任务。实验结果表明在这三项任务上, 外的三个基准数据集上, ChatGPT 的 ROUGE 分数
Cha
tGPT 的性能最高只能达到专门训练出来的最接近于微调模型,只是在新闻数据集上超过了微调
5% 、
优模型性能的 63. 43. 3% 。
0% 和 35.
[
13]
J
模型。而对于抽取式文本摘要,iao 等的测试表
[
23]
我们选取国际公开的 CoNLL04 数据集分析明 Cha
tGPT 的摘要性能同样低于目前最好的抽取
Cha
tGPT 在关系抽取任务上的表现。结果表明, 式摘要模型。
表 1 Cha
tGPT 的多语言翻译性能
COMET BLEU
语言对
Cha
tGPT 谷歌翻译性能比 *
Cha
tGPT 谷歌翻译性能比
中→英 88.
7 89.
4 99.
3 29.
6 38.
6 76.
7
德→英 90.
7 91.
0 99.
7 43.
0 47.
3 90.
9
爱→英 90.
1 91.
7 98.
3 36.
9 45.
5 81.
1
立→英 86.
1 89.
2 96.
6 32.
6 41.
3 78.
9
尼→英 87.
4 93.
2 93.
8 24.
5 51.
3 47.
7
僧→英 61.
3 90.
5 67.
7 3.
5 45.
5 7.
7
* 表中的“性能比”表示根据相应的计算指标 Cha
tGPT 的性能与 Goog
leTr
ans
lat
e的性能之间的比值。
[
29]
考虑到上述对比测试主要集中在英文摘要任务务上的表现,我们使用 SemEva
l-2014 数据集测试
上,本文在中文对话摘要数据集 CSDS[26] 上对了其在要素级情感分析三元组抽取 (Aspe
ct-
leve
l
Cha
tGPT 的摘要能力进行了测试,并与该数据集上 Sen
timentTr
ipl
etExtr
acton)任务上的性能。结果
i
Cha
tGPT 的性能约为该数据集上最优模型
[
27]
目前最好的模型 Fa
st-RL 进行了对比。采用基于表明,
8% 。我们进一步随机选取了 100 个
[
30]
词序列的评价指标 ROUGE 和基于文本表示的评价 BDTS 的 64.
Cha
tGPT 的预测准
[
28]
指标 BERTSco
re 对生成摘要的质量进行评价,实样本进行人工评价。结果表明,
验结果如表 2 所示。从表中的数据可以看出, 确率为 42% ,与 BDTS 所得到的 68% 准确率仍有一
Cha
tGPT 在中文对话摘要上的性能同样不如目前定差距。
最优的自动文摘模型,这与英文数据集上的测试结 1.
5 Cha
tGPT 能力分析
Cha
果基本一致。另外,我们还分析发现, tGPT 生根据已有专家的测试和本文上述分析不难看
成的摘要平均长度为 189
.7 词,远长于人工给出的 Cha
出, tGPT 作为通用模型在几乎所有的自然语言
结果( .9 词)。尽管我们曾尝试在提示词中加入
120 处理任务上都展示了较好的性能和优势,以至于让
对摘要长度的限制,但 Cha
tGPT 并不能遵循给定长很多人感觉到以 Cha
tGPT 为代表的大模型会很快
度的约束,而且添加的长度限制影响 (降低)了生成实现通用人工智能。但是 ,具体到任何一个专项任
Cha
摘要的质量。在我们的实验中, tGPT 更偏向于务上 ,如机器翻译、文本摘要和情感分析以及信息
生成流利度高、叙述详细的文本,这与人们希望的摘抽取等,
Cha
tGPT 的性能表现距离人类理想的通
要应尽量简洁的要求存在一定的冲突。用人工智能技术依然有较大的差距。我们认为,
1.
4 情感分析 Cha
tGPT 的主要优势体现在如下两个方面:
情感分析 (
Sen
timen
t Ana
lys
is)是对文本中蕴 (
1)强大的通用处理能力。以 Cha
tGPT 为代
含的情感、态度、情绪等主观信息进行自动提取、分表的大模型能够通过人类指令执行任何用户希望完
析、归纳和推理的处理过程 [
,如分析归纳客户评
18] 成的自然语言处理任务,而且性能表现都在上乘,尽
论、社交媒体帖子和新闻文章中的观点、情感和情绪管大部分情况下都不及目前最优的专用模型,但其
等。Hendy 等 [14]从 4 个方面对 Cha
tGPT 的情感分通用的人工智能能力足以让人们刮目相看。无论其
析能力进行了具体评估,包括标准评估、极性转换评宽广的知识面和“渊博”的知识储备,还是规范、流畅
估和开放领域评估以及情感推断评估。他们利用自的语言表达能力,均已超出人们的想象,甚至超越一
动评价指标得到的对比结果表明,在传统的情感分般人的表现。其处理 (翻译)语言的种类之多、并行
Cha
类任务上, tGPT 的性能与微调后的 BERT 模型回复用户和问题类型的数量之大,更是让专用模型
相当,但仍落后于在特定领域内专门训练出来的有和人类所望尘莫及。
(
2)准确的用户意图理解能力和“随机应变”的
Cha
监督模型。而在情绪信息抽取任务上, tGPT 的
交互能力。Cha
tGPT 几乎能够准确理解和把握人
Cha
准确度相对较低。但是在人工评估中, tGPT 在
这些任务上的表现并不是太差。在引入极性转换类用户的意图,且能够根据人类的指令和上下文进
(例如否定或推测后),
Cha
tGPT 通常能够正确的理
行自然流畅的人机交互,可随时根据用户的问题和
解情感极性变化并做出正确预测,而微调的 BERT 反馈修改模型自身的输出,其看似缜密的推理过程
模型则不能,这说明 Cha 和滴水不漏的应答能力都是已有模型所未能做到

tGPT 具有更强的鲁棒性。
在开放领域测试中,传统方法在特定领域训练出来的。尽管有时候它也会胡说八道,但其表现仍然一
的模型通常难以泛化到其它领域,而 Cha 本正经。

tGPT 反而
展现出了较强的泛化能力。 Cha
正如上面所述, tGPT 等大模型的研究和使
为了进一步分析 Cha 用所面临的问题和挑战也是显而易见的:
tGPT 在情绪信息抽取任
(
1) 技不如人:在垂直领域和专项任务上
表 2 Cha
tGPT 的文本摘要性能
Cha
tGPT 的性能不如目前最优的专用模型。
Mod
el ROUGE
-2 ROUGE
-L BERTS
cor
e (
2)无中生有:Cha
tGPT 容易引发的“幻觉”影
Cha
tGPT 17.
5 39.
1 70.
4 响了其输出的忠实度和简洁性,由此产生的臆想结
Fa
st-RL 41.
4 47.
1 79.
8 论和事实性错误极易以假乱真,混淆视听。
(
3)厚多薄寡:由于在训练 Cha
tGPT 时不同语
武俊宏等:Cha
言的样本比例严重不平衡,导致 Cha
tGPT 在完成多 (
1)模型通用性和专用性的均衡方法以及通用
语言处理(翻译)任务时,存在明显的语言敏感的性领域和垂直领域的权衡问题。问题描述如前文
能差异。所述。
(
4)价值趋同:由于 Cha tGPT 在训练时需要借 (
2)大模型的轻量化方法。Cha
tGPT 等大语言
助于调试人员的反馈强化学习,实现模型学到的知模型在实际应用中存在计算和存储资源消耗过高的
识与调试人员的标准和要求之间的对齐,因此模型问题。为了解决这一问题,模型的轻量化方法,如模
建立的价值观、意识形态和社会伦理观极易受调试型压缩和推理加速,成为了研究的重要方向。模型
人员的影响,而不同国家、不同民族和不同文化的价压缩旨在减少大语言模型的参数量和模型规模,以
值趋向是不同的,因此,模型很难很好地处理多元价降低模型在部署和推理阶段的计算、存储开销,从而
值观问题。提高模型的推理效率,使大语言模型更广泛地应用
(
5)隐私泄露:在训练大模型时需要大规模的于边缘设备、移动终端和实时应用场景。
多样化训练样本,而这些样本中难免存在涉及个人 (
3)大模型的终身学习与高效微调。语言是一
隐私的信息,这些信息一旦被模型使用,极有可能产个动态的领域,新词汇、新概念和新语言现象不断出
生隐私泄露问题,对相关人员造成伤害。现。为使 Cha
tGPT 等大语言模型能够适应不断变
除了上述问题之外,如何判断被大模型使用的化的数据和任务,探索持续学习和高效微调方法至
知识和数据是否被侵权,有效保护知识和数据持有关重要。通过持续学习,大语言模型可以从新数据
者的合法权益;如何界定 Cha
tGPT 等大模型生成内中学习,并更新自身的知识库,以更好地理解和生成
容的知识产权,建立合情、合理的知识产权保护法新的语言内容。高效微调则能够将大语言模型的通
规;如何制定大模型使用的明确规定,既充分发挥大用知识与特定任务的要求相结合,提高模型在特定
模型的强大能力,而又不破坏应有的学术诚信体系任务上的性能。对于持续学习和高效微调的探索,
等等,都是大模型研究和使用无法回避的问题。将使大语言模型更好地适应变化的语言数据和任务
另外,大模型建立和维护的昂贵成本是制约技术要求,以提高模型的性能和适应性,满足人们对于新
落地的重要因素。据半导体研究公司 S
emiAn
als
yis 的语言内容的需求。
估计,训练一次有 1750 亿参数的 GPT-
3基础模型 (
4)大模型的可解释性与可控性。Cha
tGPT 的
所需要的最低费用约为 84 万美元 ①。而
Cha
tGPT 发展也引发了对模型可解释性和可控性的关注。由
是在 GPT-
3 模型的基础上经过反复的试错迭代得于 Cha
tGPT 的训练基于大规模数据,其生成结果可
到的,其开发成本据估约为 500 万美元 ② 。OpenAI 能受到不当或有害内容的影响。因此,如何确保模
CEO Sam Al
tman 也曾在社交媒体上表示, 型生成的内容符合伦理和准则成为了研究和探讨的
tGPT 每与用户互动一次约需数美分 ③ 。对于拥
Cha 重点。研究模型的可解释性旨在把控模型的决策过
有亿级月活跃用户规模的情况而言,资金投入量将程和内部机制,以帮助研究者和用户更好地把握模
是一个极为庞大的数字。设想一下,一个特定的用型生成结果的原因和逻辑。可控性研究则是为了实
户,尤其是某个特定领域或行业的用户,是需要一个现对模型生成内容和风格的有效控制,限制模型生
知识面宽泛却在解决本领域问题时表现并非最优的成含有不当偏见、敏感甚至虚假信息的内容或冒犯
系统,还是更愿意有一个针对性强、性能优越的专用性言论等,从而确保模型生成的内容更加合乎伦理
系统呢? 准则,也更加真实可靠。
(
5)与其他学科领域的交叉融合。Cha tGPT 作
2 NLP 技术未来展望
为一种强大的自然语言处理模型,不仅局限于解决
正如前文所述,尽管大模型并不完美,但看起来自然语言处理领域内的问题,而且可以为其他学科
前景光明,于是针对大模型的研究正如火如荼。以领域的交叉研究提供有力支撑。由于模型学习到的
下问题是当前研究人员关注的热点,或将是未来很知识来自巨大的样本空间,先验知识之丰富、各种要
长时期 NLP 领域研究的问题: 素组合关系之复杂、因果关系推断之千奇百怪,远远
① h
ttps:
//www. semianalys
is.com/p/the-a
i-br
ick
-wall
-a-pr
act
ica
l-l
imi
t
② h
ttps:
//lambdal
abs.com/b og/demys
l t
ifi
yng- t
gp-3
③ h
ttps:
//twit
ter.
com/s ama/stat /1599671496636780546
us
超出人的想象,这种超乎寻常的能力完全可以为特
定学科领域(如生物医学、制药、化学等)提供重要帮 3 结语
助,包括提出问题、预测结论和找到重要发现等,真
Cha
tGPT 作为一种具有强大能力的预训练模
正让 AI为科学研究建立功勋。
型,对于自然语言处理领域的发展带来了深远影响,
(
6)大模型的产业化应用。在自然语言处理的
引领了新的研究范式,创造了新的发展机遇。同时,
理论方法研究中,研究者主要利用实验室收集标注
Cha
tGPT 的缺陷也为 NLP 研究留下了极大的探索
的数据进行模型训练和测试,而这些数据和方法往
空间。
往与产业化实际应用中的情况有一定的隔离和差
值得说明的是, tGPT 之所以被如此关注 ,
Cha
tGPT、 2 、
① ②
距。Cha DALLE- St
able Di
ffus
ion 等一
是因为其强大的通用性和与之前同类技术相比超
系列人工智能生成内容 (Art
if
icia
lI nte
lligenc
e
乎寻常的性能表现 ,而与人的实际要求相比 ,尤其
Gene
rat
edCon
t t,
en AIGC)产品所取得的空前成功
是针对具体任务的高标准要求 ,它还有相当大的差
表明,聚焦真实世界的实际问题比在学术界建立的
距。而且我们也必须清楚地认识到 ,目前我们所掌
简单数据集上比拼性能更为重要。因此,未来工作
握的对于 Cha
tGPT 的了解大多来自 OpenAI的博
应该更加聚焦于弥补大语言模型与实际应用场景之
客 ,究竟还有多少更深层、更具体的技术细节我
③
间的差距,包括探索多模态的人机交互模式,研发工
们不曾了解 ? 自 Cha
tGPT 发布以来 ,国内有数十
具学习 [31](
Too
lLe
arn
ing)技术,建立模型即服务
个“大模型 ”相继发布 ,这些模型既有发布团队独
(Mode
la saSe
rvie,Ma
c aS)生态等。
立研发的 ,也有在 LLaMA[32]、Vi
c
[
33]
una 等开源大
ChatGPT 为探索通用 AI 蹚出了一条希望之
路,但笔者认为,它未必是唯一之路,甚至未必是一模型基座上改造而成的 ;既有为垂直领域构建的 ,
条最佳道路。一方面,在理论上大模型本身并没有也有面向通用领域搭建的 ;既有参数量为几十亿的
稠密模型 ,也有万亿参数量的混合专家系统
n-
太大的创新,只是神经网络对传统 n 元文法模型(
(Mi
xtureofExpert,MoE)。发布者自然各抱初衷 ,
r
g l)的再现和扩展,成功的原因更多地来
am Mode
自于大数据、大算力和大量人工的工程投入,而如何 “蹭热度 ”也情有可原 ,但重要的是 ,如何沉下心
建立具有更强泛化和推理能力,规模更小、人工投入来 ,明确目标 ,坚持开展有理想、有情怀的创新研
更少的中小规模的智能 NLP 模型,仍然是学界研究究 ,做出超越 Cha
tGPT 及其更高版本的中国的大
和探索的目标,当然这种研究可以借鉴大模型成功语言模型 ! 这是我们的使命。少一点炒作 ,少一点
的经验。忽悠 ,扎扎实实地做好中国的事情 ,是我们应有的
另一方面 ,在应用上 ,正如前文所述 ,传统态度和品格。
NLP 方法和针对特定领域、特定任务研发的专用
参考文献
模型无论在建造成本和性能表现方面 ,还是系统的
安全性、可靠性、可扩展性等方面 ,都有其独特的 [
1] 宗成庆 .统计自然语言处理 .第2 版 .北京:清华大学出版
优势 ,而且系统部署简单 ,尤其对于特殊应用领社,2013.
域 ,例如涉及公共安全和国防安全的领域 ,不便于 [
2] Zhao WX,Zhou K, L
i JY,e
tal. A sur
vey o
fla
rge
上网的应用场景等 ,具有广阔的应用前景。由此可 l
anguage mode
ls. (
2023
-03
-31)
/[2023
-06
-21].h
ttps:
//
见,
NLP 学科方向决不会因为 Cha
tGPT 的出现而 a
rxi
v.o
rg/pd
f/2303.
18223.
pdf.
销声匿迹 ,学术界也不会因为研发的大模型而砸掉 [
3] De
vlnJ,Ch
i ang MW,Le
eK,e
tal.Be
rt:p
re-
tra
ini
ngo
fde
ep
自己的饭碗。而且作者根据 NLP 过去 70 多年的 b
idi
rec
tio
nalt
ran
sfo
rme
rsf
orl
angu
ageund
ers
tand
ing.(
201
9-0
5-
发展经验坚定地认为 ,随着技术的进步 ,未来一定 4)
2 /[
202
3-0
6-1].h
2 tts:
p //a
rxi
v.o
rg/p
df/1
810.
048
05.
pdf.
会出现比大模型性能更优、规模更小、成本更低的 [
4] Rad
fod A,WuJ,Ch
r ild R,e
tal.Language mode
lsa
re
NLP 新模型 ,新模型突破甚至抛弃大模型的范式 unsupe
rvi
sed mu
lti
taskl
ear
ner
s.OpenAI b
log,2019,1
并非没有可能。 (
8):9.
① h
ttps:
//openai.om/da
c ll
-e-
2
② h
tt :
//
ps s tab
ili
ty.a/s
i t
abled
iff
usi
on
③ h
ttps:
//openai.om/b
c log
武俊宏等:Cha
[
5] iJ,Tay Y,Bomma
We s iR,e
an tal.Eme
rgen
tab
ili
tie
sof [
17] Zhang HP,L
iu X,ZhangJW.Ex
tra
cti
vesumma
riz
ati
on
l
arge l
anguage mode
ls. (2022
-06
-15 )
/[2023
-06
-21 ]. v
iaCha
tGPTf
orf
ait
hfu
lsumma
ry gene
rat
ion.(
2023
-04
-
h
ttps:
//a
rxi
v.o
rg/pd
f/2206.
07682.
pdf. 09)
/[2023
-06
-21].h
ttps:
//a
rxi
v.o
rg/pd
f/2304.04193.
[
6] iJ,Bo
We sma M,Zhao VY,e
tal.F
ine
tunedl
anguage pd
f.
mode
lsa
rez
ero
-sho
tle
arne
rs. (
2022
-02
-08)
/[2023
-06
- [
18] WangZZ,Xi
e QM,Di
ng ZX,e
tal.I
s Cha
tGPT agood
21].h
ttps:
//a
rxi
v.o
rg/pd
f/2109.
01652.
pdf. s
ent
imen
tana
lyz
er? A p
rel
imi
nar
ysudy.(
t 2023
-04
-10)
/
[
7] Kap
lanJ,McCand
lishS,Hen
ighan T,e
tal.Sc
ali
ngl
aws [
2023
-06
-21].h
ttps:
//a
rxi
v.o
rg/pd
f/2304.
04339.
pdf.
f
orneur
all
anguage mode
ls.(
2020
-01
-23)
/[2023
-06
-21]. [
19] Co
sta
-jus
sà MR,Cr
ossJ,Çe
l iO,e
eb tal.Nol
anguagel
eft
h
ttps:
//a
rxi
v.o
rg/pd
f/2001.
08361.
pdf. beh
ind: s
cal
ing human
-cen
ter
ed ma
chi
ne t
rans
lat
ion.
[
8] i Y, Dye
Bahr r E, Kap
lan J,e
tal. Exp
lai
ning neur
al (2022
-07
-11 )
/[2023
-06
-21 ]. h
ttps:
//a
rxi
v.o
rg/pd
f/
s
cal
i aws.(
ngl 2021
-02
-12)
/[2023
-06
-21].h
ttps:
//a
rxi
v. 2207.
04672.
pdf.
o
rg/pd
f/2102.
06701.
pdf. [
20] Pap
i iK,Rouko
nen sS,Wa
rdT,e
tal.B
leu:ame
thodf
or
[
9] own T,MannB,Ryde
Br rN,e
tal.Language mode
lsa
re au
toma
ticeva
lua
tiono
f ma
chi
net
rans
lat
ion// Pr
oce
edi
ngs
f
ew-
sho
tle
arne
rs. Advanc
es i
n Neur
al I
nfo
rma
tion o
fthe 40
th Annua
l Me
eti
ng o
fthe As
soc
iat
ion f
or
Pr
oce
ssi
ngSys
tems.2020:1877—1901. Compu
tat
iona
lLi
ngu
ist
ics.Ph
ilade
lph
ia: As
soc
iat
ion f
or
[
10] Ouyang L, Wu J,J
iang X,e
tal. Tr
ain
ing l
anguage Compu
tat
iona
lLi
ngu
ist
ics,2002:311—318.
mode
lst
ofo
llow i
nst
ruc
tions wi
th human f
eedba
ck. [
21] Re
i R, De Souz
a JGC, Al
ves D,e
ta 22:
l. COMET-
Advanc
esi
n Neur
alI
nfo
rma
tion Pr
oce
ssi
ng Sys
tems. Unbabe
l-I
ST 2022 submi
ssi
on f
ort
he me
tri
cs sha
red
2022:27730—27744. t
ask//Pr
oce
edi
ngso
ftheSeven
th Con
fer
enc
eon Ma
chi
ne
[
11] Bang YJ,Cahyawi
jaya S,Le
e N,e
tal. A mu
lti
task, Tr
ans
lat
i i: As
on.Abu Dhab soc
iat
ion f
or Compu
tat
iona
l
mu
lti
li l, mu
ngua ltimoda
l eva
lua
tion o
f Cha
tGPT on L
ingu
ist
ics,2022:578—585.
r
eas
onng,ha
i lluc
ina
tion,andi
nte
rac
tiv
ity.(
2023
-02
-08)
/ [
22] 宗成庆,夏睿,张家俊 .文本数据挖掘 .第2 版 .北京:清华
[
2023
-06
-21].h
ttps:
//a
rxi
v.o
rg/pd
f/2302.
04023.
pdf. 大学出版社,2022.
[
12] Qi
nC,Zhang A,ZhangZ.e
tal.I
sCha
tGPT agene
ral
- [
23] Ro
th D,Yi
h W.A l
ine
arp
rog
rammi
ngf
ormu
lat
ionf
or
pur
pos
ena
tur
all
anguagep
roc
ess
ingt
asks
ol r? .(
ve 2023
- l
goba
lin
fer
enc
einna
tur
all
anguaget
a //Pr
sks oce
edi
ngso
f
02
-08 )
/[2023
-06
-21 ]. h
ttps:
//a
rxi
v. o
rg/pd
f/2302. t
heE
igh
thCon
fer
enc
eonCompu
tat
iona
lNa
tur
alLanguage
06476.
pdf. Le
arn
ing. Bo
ston: As
soc
iat
ion f
or Compu
tat
iona
l
[
13] J
iao WX,Wang WX,HuangJT,e
tal.I
sCha
tGPTagood L
ingu
ist
ics,2004:1—8.
t
rans
lat
or? A p
rel
imi
nar
ysudy.(
t 2023
-01
-20)
/[2023
-06
- [
24] Cabo
tPLH,Nav
igi R.REBEL:Re
l lat
ion ex
tra
cti
on by
21].h
ttps:
//a
rxi
v.o
rg/pd
f/2301.
08745.
pdf. end
-to
-end l
anguage gene
rat
ion// F
ind
ings o
f t
he
[
14] Hendy A,Abde
lr im M,Sha
eh rafA,e
tal.How gooda
re As
soc
iat
ionf
orCompu
tat
iona
lLi
ngu
ist
ics:EMNLP2021.
GPT mode
lsa
t ma
chi
ne t
rans
lat
ion? a c
omp
rehens
ive Pun
ta Cana: As
soc
iat
ion f
or Compu
tat
iona
lLi
ngu
ist
ics,
eva
lua
tion. (
2023
-02
-18)
/[2023
-06
-21].h
ttps:
//a
rxi
v. 2021:2370—2381.
o
rg/pd
f/2302.
09210.
pdf. [
25] L
in CY.Rouge:A pa
ckagef
or au
toma
tic eva
lua
tion o
f
[
15] Han RD, Peng T, Yang CH, e
tal.I
sin
forma
tion summa
rie
s// Pr
oce
edi
ngs o
fthe Wo
rkshop on Tex
t
ex
tra
cti
on s
ol tGPT?
ved by Cha An ana
lys
is o
f Summa
riz
ati
on Br
anche
s Ou
t.Ba
rce
lona:As
soc
iat
ionf
or
pe
rfo e,eva
rmanc lua
tion c
rit
era,r
i obus
tne
ss and e
rro
rs. Compu
tat
iona
lLi
ngu
ist
ics,2004:74—81.
(2023
-05
-23 )
/[2023
-06
-21 ]. h
ttps:
//a
rxi
v.o
rg/pd
f/ [
26] L
in HT,Ma LQ,ZhuJN,e
tal.CSDS:A f
ine
-gr
ained
2305.
14450.
pdf. ch
ine
se da
tas
et f
or cus
tome
r s
erv
ice d
ial
ogue
[
16] YangXJ,L
iY,Zhang XL,e
tal.Exp
lor
ingt
hel
imi
tso
f summa
riz
aton// Pr
i oce
edi
ngs o
fthe 2021 Con
fer
enc
e on
Cha
tGPT f
or que
ryo
raspe
ct-
bas
ed t
extsumma
riz
ati
on. Emp
iri
calMe
thodsi
n Na
tur
alLanguagePr
oce
ssi
ng.Pun
ta
(2023
-02
-16 )
/[2023
-06
-21 ]. h
ttps:
//a
rxi
v.o
rg/pd
f/ Cana:As
soc
iat
ion f
or Compu
tat
iona
lLi
ngu
ist
ics,2021:
2302.
08081.
pdf. 4436—4451.
[
27] Chen YC,Bans
al M.Fa
stabs
tra
cti
vesumma
riz
ati
on wi
th f
il
lingf
ora
spe
cts
ent
imen
ttr
ipl
etex
tra
cton//Pr
i oce
edi
ngs
r
ein
for
ce-
sel
ect
eds
ent
enc
erewr
itng// Pr
i oce
edi
ngso
fthe o
fthe2022 Con
fer
enc
eon Emp
iri
cal Me
thodsi
n Na
tur
al
56
th Annua
lMe
eti
ngo
ftheAs
soc
iat
ionf
orCompu
tat
iona
l Language Pr
oce
ssi i: As
ng. Abu Dhab soc
iat
ion f
or
L
ingu
ist
ics. Me
l ne: As
bour soc
iat
ion f
or Compu
tat
iona
l Compu
tat
iona
lLi
ngu
ist
ics,2022:6485—6498.
L
ingu
ist
ics,2018:675—686. [
31] Qi
n YJ, Hu SD, L
in YK,e
tal. Too
lle
arn
ing wi
th
[
28] ZhangT,Ki
sho
reV,WuF,e
tal.BERTSc
ore:eva
lua
ting f
ounda
tion mode
ls.(
2023
-04
-17)
/[2023
-06
-21].h
ttps:
//
t
extgene
rat
ion wi
th BERT.(
2020
-02
-24)
/[2023
-06
-21]. a
rxi
v.o
rg/pd
f/2304.
08354.
pdf.
h
ttps:
//a
rxi
v.o
rg/pd
f/1904.
09675.
pdf. [
32] Touv
ron H,Lav
rilT,I
zac
ardG,e
tal.LLaMA:openand
[
29] Pon
tiiM,Ga
k lan
is D,Papageo
rgou H,e
i tal.Semeva
l- e
ffi
cien
tfounda
tionl
anguagemode
ls.(
2023
-02
-27)
/[2023
-
2015 t
ask 12: a
spe
ct ba
sed s
ent
imen
t ana
lys
is// 06
-21].h
ttps:
//a
rxi
v.o
rg/pd
f/2302.
13971.
pdf.
Pr
oce
edi
ngso
fthe9
thI
nte
rna
tiona
lWo
rkshoponSeman
tic [
33] Ch
iang WL,L
iZ,L
in Z,e
ta cuna:anopen
l.Vi -sour
ce
Eva
lua
ti r: As
on. Denve soc
iat
ion f
or Compu
tat
iona
l cha
tbo
timp
res
sing gp
t-4 wi
th 90% * cha
t t qua
gp li
ty.
L
ingu
ist
ics,2015:19—30. (
2023- 14)
04- /[2023- 21]. h
06- ttps:
//v
icuna.lms
ys.
[
30] Zhang YC,Yang YF,L
iYH,e
tal.Bound
ar-
ydr
ive
nta
ble
- o
rg.
Ana
lys
iso
fCha
tGPT
􀆳sCapab
ili
tie
sandFu
tur
ePr
ose
pct
s
Junhong Wu YangZhao Chengq

ingZong
1† 2† 2*
1.Scho
olof Ar
tii
fci
alIn
tel
l e,Un
igenc ive
rsi
tyofCh
ine
seAcademyofSc
ienc
es,Be
ijng 100049
i
2.In
sti
tut
eof Au
toma
tion,Ch
ine
seAcademyofSc
ienc
es,Be
ijng 100190
i
Abst
ract Inrecen
tye a
rs,thenatur
all
anguageproc
ess
ingcapabil
it
iesoflargelanguage model
shavebe en
con
tinuous
ly improv
ing. Par
ticu
lar
l ,
y the pro
found knowledge and powerf
u l conve
rsat
ional ab
ili
tie
s
exh
ibi
tedbyt
heCha
tGPT havebe
comeag
loba
llypr
omi
nen
ttop
ico
fin
ter
est.Que
sti
onsa
ris
erega
rdi
ng
t
het
ruel
eve
lofl
anguageunde
rst
and
ingc
apa
cit
ypo
sse
ssedbyCha
tGPTandhowi
tspe
rfo
rmanc
ecompa
res
t
ospec
ial
ized mode
ls.Canitbecomeaun i
ver
sal mode
lint
heent
irefi
eldofnat
u r
allanguageproc
essi
ng
(NLP),r ep
laci
ng ot
her mode
ls,and even compl
ete
lyso
lvi
ng a
ll NLP pr
oblems? To addre
sst hese
que
stions,t
h i
spaperconduc
tsa met
icu
l ouseva
luat
ionandanal
ysi
softhepe
rfo
rmanceofChatGPTacros
s
mult
iplenaturall
anguageproc
ess
ingtasks.Furthe
rmore,theimpac
tofChatGPT ont
hefie
l dofna
tural
l
anguagepr
oce
ssi
ngi
sdi
scus
sed,andf
utur
edeve
lopmen
tsa
rean
tic
ipa
ted.
Ke
ywo
rds na
tur
all
anguagep
roc
ess
ing;l
argel l;p
anguage mode r
e-t
rai
nedl l;Cha
anguage mode tGPT
(责任编辑崔国增姜钧译)
† Cont
ributedequal
lya sc
o-f
irs
tauthor
s.
* Cor
responding Aut r,Ema
ho l:
i c
qzong@nl
pr.
ia.
ac.
cn

ChatGPT能力分析与未来展望武俊宏

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ChatGPT能力分析与未来展望武俊宏

Uploaded by

Copyright:

Available Formats

DOI：10.16262/j.cnki.1000-8217.20230922.

003 网络首发时间：2023-09-26 13:29:40

武俊宏1† 赵阳2† 宗成庆2*

解决各种任务的通用基础模型,是实现通用人工智机器翻译 (Ma

似度计算的评价指标 COMET[21]作为评价准则,以 ChatGPT 在实体关系三元组抽取任务上的 F1 值仅

解情感极性变化并做出正确预测,而微调的 BERT 反馈修改模型自身的输出,其看似缜密的推理过程

模型则不能,这说明 Cha 和滴水不漏的应答能力都是已有模型所未能做到

的模型通常难以泛化到其它领域,而 Cha 本正经。

Junhong Wu YangZhao Chengq

(责任编辑崔国增姜钧译)

You might also like

ChatGPT能力分析与未来展望 武俊宏

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ChatGPT能力分析与未来展望 武俊宏

Uploaded by

Copyright:

Available Formats

DOI：10.16262/j.cnki.1000-8217.20230922.

003 网络首发时间：2023-09-26 13:29:40

武俊宏1† 赵 阳2† 宗成庆2*

解决各种任务 的 通 用 基 础 模 型,是 实 现 通 用 人 工 智 机器 翻 译 (Ma

似度计算的评价指 标 COMET[21]作 为 评 价 准 则,以 ChatGPT 在实体关系三元组抽取任务上的 F1 值 仅

解情 感 极 性 变 化 并 做 出 正 确 预 测,而 微 调 的 BERT 反馈修改模型 自 身 的 输 出,其 看 似 缜 密 的 推 理 过 程

模型则不能,这 说 明 Cha 和滴水不 漏 的 应 答 能 力 都 是 已 有 模 型 所 未 能 做 到

的模型通常难以泛化到其它领域,而 Cha 本正经。

Junhong Wu YangZhao Chengq

(责任编辑 崔国增 姜钧译)

You might also like

ChatGPT能力分析与未来展望武俊宏

ChatGPT能力分析与未来展望武俊宏

武俊宏1† 赵阳2† 宗成庆2*

解决各种任务的通用基础模型,是实现通用人工智机器翻译 (Ma

似度计算的评价指标 COMET[21]作为评价准则,以 ChatGPT 在实体关系三元组抽取任务上的 F1 值仅

解情感极性变化并做出正确预测,而微调的 BERT 反馈修改模型自身的输出,其看似缜密的推理过程

模型则不能,这说明 Cha 和滴水不漏的应答能力都是已有模型所未能做到

(责任编辑崔国增姜钧译)