You are on page 1of 8

DOI:10.16262/j.cnki.1000-8217.20230922.

003 网络首发时间:2023-09-26 13:29:40


网络首发地址:https://link.cnki.net/urlid/11.1730.N.20230922.1623.006
中 国 科 学 基 金 1

·专题:
Cha
tGPT 与人工智能技术应用·

Cha
tGPT 能力分析与未来展望

武俊宏1† 赵 阳2† 宗成庆2*


1.中国科学院大学 人工智能学院,北京 100049
2.中国科学院 自动化研究所,北京 100190

[摘 要] 近年来,大语言模型的自然语言处理能力不断提升,尤其近期,聊天生成式预训练模 型
( tGPT)所掌握的“渊博知识”和表现出来的强大对话能力成为举世瞩目的热点话题。Cha
Cha tGPT
语言理解能力的真实水平如何? 与 专 用 模 型 相 比,其 性 能 表 现 谁 居 上 风? 它 是 否 能 够 成 为 整 个 自
然语言处理领域的通用模型而取 代 其 它 模 型,甚 至 使 所 有 自 然 语 言 处 理 问 题 得 到 彻 底 解 决 呢? 为
了回答上述问题,本文对 Cha
tGPT 在多个自然语言处理任务上的性能表现进行了评估和分析。在
此基础上,我们讨论了 Cha
tGPT 对自然语言处理领域的影响,并对未来的发展进行了展望。

Cha
[关键词] 自然语言处理;大语言模型;预训练语言模型; tGPT

自然语言处理(
Nat
ura
lLanguagePr
oce
ssng,
i 宗成庆 中 国 科 学 院 自 动 化 所 研 究 员,博
IEEE Felow、
l ACL Fe
llow、AAIA
NLP)是研究如 何 利 用 计 算 机 技 术 对 语 言 文 本 进 行
士生导师,
Fel
l 、
ow CAAIFe l
low 以 及 CCF Fel
low。 主
处理、加工和 转 换 的 一 门 学 科 [1]。 由 于 该 学 科 在 理 要从事自 然 语 言 处 理、机 器 翻 译 和 语 言 认
论上面临巨大的挑战,而其技术应用前景极其广泛, 知计算等研究,发 表 学 术 论 文 200 余 篇,出
版专著3 部、译著2 部。目前担任中国中文
因此被誉为人工智能皇冠上的明珠。
信息学会 副 理 事 长、国 际 计 算 语 言 学 学 会
自然语言处理技术自 20 世纪 40 年代末期诞生 (ACL)候任副 主 席。曾 获 国 家 科 技 进 步 奖
以来经历了 70 多年的曲折历程,先后经历了以符号 二等奖、北京市 科 学 技 术 奖 一 等 奖 等 奖 项。荣 获 北 京 市 优 秀
教师、中国科学院优秀导师和李佩教学名师等荣誉。
逻辑方法为主 导 的 理 性 主 义 时 期、以 统 计 学 习 理 论
武俊宏 中国科学院大学人工智能学院
为基础的经验主义时期和以深度学习方法为驱动的
博士研究 生。 主 要 研 究 方 向 为 自 然 语 言
连结主义时期。 随 着 自 然 语 言 处 理 技 术 的 进 步,语
处理、机器翻译和终身学习等。
言建模 ( l,
Language Mode LM )技 术 已 经 经 历 了 从
最初的统 计 语 言 模 型 (
Sta
tis
tic
a l,
lLanguage Mode
SLM)发展 至 神 经 网 络 语 言 模 型 (
Neur
alLanguage
l,
Mode NLM ),再 到 预 训 练 语 言 模 型 (Pr
e-t
rai
ned
l,PLM)的 演 进 过 程 。近 年 来,通
[
2]
Language Mode 赵阳 博 士,中 国 科 学 院 自 动 化 研 究 所 副
研究员。主 要 研 究 方 向 为 自 然 语 言 处 理、
过扩展预训练语言模型得到的大模型将语言建模技 机器翻译和文 本 数 据 挖 掘 等。作 为 项 目 负
术推向了一个新的发展高度,其发展速度之快、模型 责人和技术骨干承 担 多 个 国 家 自 然 科 学 基
金项目、国 家 重 点 研 发 计 划 项 目 和 特 定 领
能力之强和通 用 程 度 之 高,都 远 远 超 越 任 何 一 个 历 域的应用项目。在 领 域 著 名 期 刊 和 会 议 上
史时期的任何一种方法,令人瞠目。 发表论文 30 余 篇,出 版 译 著 1 部。目 前 担
任 国 际 学 术 期 刊 ACM T r
a n
sacti
ons on
La
大语言模型( r l,LLM)通
geLanguage Mode
As
iana
nd Low
-Re
sou
rce La
ngu
ageInf
orma
tion Proc
essi
ng 副
常指参数量为百亿级甚至更大规模的神经网络组成 主编。

收稿日期:2023
-07
-03;修回日期: 2023-07-
31
† 共同第一作者。
* 通信作者, Emal:
i c
qzong@n
lpr.
ia.ac.cn
本文受到国家自然科学基金项目( 62006224)的资助。
2 中 国 科 学 基 金 2023 年

的语言模型,它 采 用 自 监 督 学 习 方 式 利 用 大 量 未 标
1 Cha
tGPT 在自然语言处理任务上的性能
注数据训练而成。尽管在扩展预训练语言模型时主
要是增大模型 参 数 量 (模 型 架 构 和 训 练 方 法 基 本 不 自 Cha tGPT 发 布 以 来,已 有 工 作 评 估 了
变),但这些大规模的预训练语言模型表现出与较小 Cha
tGPT 在自 然 语 言 处 理 任 务 上 的 性 能。 其 中 部
规模 的 预 训 练 语 言 模 型 (例 如,330 M 参 数 的 分工 作 [11,12]主 要 关 注 Cha
tGPT 的 通 用 性 能,针 对
2 )不 同 的 行 为,并 大量任务做了简单测试。另一些工作 [1318]则聚焦于
[
3] [
4]
BERT 和 1.5B 参 数 的 GPT-
且在解决 一 系 列 复 杂 任 务 时 展 现 出 令 人 惊 讶 的 能 某一具体任务。
力 [
,这 种 能 力 被 业 界 称 为 涌 现 能 力 (
2]
Eme
rgen
t 为了 评 估 Cha
tGPT 在 自 然 语 言 处 理 任 务 上 的
s) 。例 如,少 样 本 ( t)和 零 样 本 实际表现,本文选 择 了 4 种 常 见 的 也 是 典 型 的 自 然
[
5]
Abi
lit
ie Few-sho
(Ze
ro- t)学习能 力,即 在 给 定 下 游 任 务 时 可 不 依
sho 语言处理任务:机 器 翻 译、信 息 抽 取、文 本 摘 要 和 情
赖任何特定领 域 的 训 练 数 据,而 只 是 通 过 适 当 的 提 感分析。这 4 项 任 务 既 涵 盖 了 语 言 生 成、序 列 表 示
t)调 节 模 型 的 行 为 。 随 着 模 型 规 模 的
[
6]
Pr
示( omp 和文本分类三 项 自 然 语 言 处 理 的 基 础 任 务,也 涉 及
进一步增大,大 语 言 模 型 在 各 个 任 务 上 的 性 能 也 逐 到不同语 言 之 间 的 转 换。 下 面 依 次 介 绍 Cha
tGPT
渐 提 高,这 一 现 象 被 称 为 规 模 效 应 (Scal
ing 在这些任务上的性能表现。
Law) 。目前的 研 究 表 明,大 语 言 模 型 有 望 成 为 1.
1 机器翻译
[
7,8]

解决各种任务 的 通 用 基 础 模 型,是 实 现 通 用 人 工 智 机器 翻 译 (Ma


chi
ne Tr
ans
lat
ion,MT)是 将 一
能一条可行的希望之路。 种语言(源语 言)自 动 翻 译 成 另 外 一 种 语 言 (目 标 语
2022 年 11 月底 美 国 OpenAI 公 司 发 布 的 聊 天 言)的技术,是自然语言处理中最具挑战性的研究课
生成型预 训 练 模 型 Cha tGPT① 在 世 界 范 围 内 引 发 题,其性能表现体现着模型处理跨语言理解、转换和
了轰动。该模型是在生成型预训练模型( Gener
ative 生成的综合能力 [1]。Br [
9] [
10]
own 等 和 Ouyang 等 对
Pr
e-t
rai
ningTr
ans
forme ,
r GPT)[
9]
系 列 模 型 的 基 比 了 Cha
tGPT 模 型 和 商 业 翻 译 模 型 的 性 能 差 异。
础之上,通过 指 令 微 调 (
Ins
truc
tion Tun
ing)并 从 调 Cha
他们的实验结果表 明, tGPT 在 高 资 源 场 景 下 的
试人员的反馈中强化学习( Re
inf
or cemen
tLe
arn
ing 翻译性能可与 最 优 秀 的 商 业 翻 译 模 型 相 媲 美,但 在
ck,RLHF) 训 练 建 立 起 来
[
10]
f
rom Human Fe
edba 低资源场景下 的 性 能 则 显 著 落 后。 在 具 体 语 言 上,
的。Cha
tGPT 一经发布,立刻成为史上用户增长速 Cha
tGPT 更擅长处理目标语言为英语的翻译任务。
度最快的消费 应 用。 同 其 他 大 模 型 相 比,由 于 其 采 为了研究 Cha
tGPT 多语言翻译的能力,尤其是
用了指令微调和 RLHF 等技术,
Cha
tGPT 具有更加 在中 低 资 源 语 言 翻 译 方 面 的 能 力,本 文 选 取 了
[
19]
强大的理解人 类 用 户 意 图 和 偏 好 的 能 力,既 可 以 根 Flo
res-
200 的 测 试 集 进 行 评 估。 该 测 试 集 包 含
据指令生成高 质 量 的 回 复,也 可 以 针 对 不 恰 当 的 输 1012 个 句 子 在 204 种 语 言 上 的 翻 译。 为 了 对
入拒绝回答,甚 至 更 正 对 话 中 的 错 误。 其 超 乎 寻 常 ChatGPT 在不同资源语 言 上 的 翻 译 性 能 进 行 分 析,
Cha
的理解和会话能力 让 部 分 人 认 为, tGPT 的 出 现 本文根据 GPT-
3训练使用的数据集中不同语言所
标志着通用人工智能的“奇点”时刻已经到来。 1% )、中等资
占比例将语言划分为高资源(占比 >0.

tGPT,与 专 用 模 型
然而,作 为 通 用 模 型 的 Cha 源(0.1% > 占 比 >0. 001% )和 低 资 源 (占 比 <
的性能对比,其表现如何? 以 Cha
tGPT 为代表的大 .001% )三 类,并 从 每 个 类 别 中 选 择 了 两 种 语 言 测
0
模型能否成为一个通用模型同时完成所有不同的下 tGPT 将 其 翻 译 成 英 语 (
试 Cha X- >En)的 能 力。
游任务? 换句话说,通用大模型能否成为 NLP 学科 这 6 种 语 言 是:(
1) 高 资 源 语 言:中 文 (
Zh)、德 语
方向 的 终 结 者? 为 回 答 上 述 问 题,本 文 评 估 了 (
Ge);(2)中等资源 语 言:爱 沙 尼 亚 语 ( Et)、立 陶 宛
Cha
tGPT 在机器 翻 译、文 本 摘 要、情 感 分 析 和 信 息 语(Lt);(3)低 资 源 语 言:僧 伽 罗 语 (
Si)、尼 泊 尔 语
抽取等多个自 然 语 言 处 理 任 务 上 的 性 能 表 现,分 析 (
Ne)。
了 Cha 对比 测 试 选 用 国 际 上 公 认 的 基 于 词 序 列 (
n-
tGPT 与专用模型相比的优势和不足,并对未
am)对比的评价指标 BLEU 和 基 于 句 子 表 示 相
[
20]
来 NLP 学科方向的发展进行了展望。 r
g

① h
ttps:
//cha
t.opena
i.c
om
武俊宏等:Cha
tGPT 能力分析与未来展望 3

似度计算的评价指 标 COMET[21]作 为 评 价 准 则,以 ChatGPT 在实体关系三元组抽取任务上的 F1 值 仅


谷歌翻 译 (
Goog
le Tr
ans
lae)为 比 较 对 象。 对 比 结
t 有 24.8% ,与 最 优 模 型 REBEL 的 性 能 (
[
24]
F1 值 为
果如表 1 所示。 .7% )仍 有 较 大 差 距。 人 工 分 析 结 果 表 明,
76
观察表 1 所展示的结果可以得到如下两个结论: ChatGPT 倾向于生成比 人 工 标 注 更 长 的 文 本 片 段,
(
1)总体而言, ChatGPT 的 翻 译 性 能 逊 色 于 谷 以更接近人类的语言习惯。同时, ChatGPT 也表现
歌翻译。在 高 资 源 (如 中—英、德—英)和 中 等 资 源 出了引入世界 知 识 的 特 性,例 如 对 地 理 位 置 或 组 织
情况下(如爱沙尼亚语—英语和立陶宛语—英语)的 机构名称缩 写 进 行 扩 写。 为 了 测 试 Cha
tGPT 所 学
Cha
翻译性能, tGPT 与谷歌翻译模型相差不大。随 习到的世界知 识 对 其 执 行 信 息 抽 取 任 务 的 影 响,我
着资源量逐渐减少, Cha
tGPT 与 谷 歌 翻 译 的 性 能 差 们遵循 Bang 等 [11]中 的 实 验 设 置,通 过 调 换 一 对 关
距逐渐增大,这与已有的对比结论相吻合。 系中两个实体 的 位 置 构 建 了 一 组 反 事 实 测 试 样 例。
(2)ChatGPT 在低资源语言的翻译中出现了严 测试结果表明, ChatGPT 在 调 换 实 体 位 置 后 仍 能 生
重的“幻 觉 翻 译 (Ha
lluc
ina
tor
y Tr
ans
lat
ion)”问 题, 成正确的关 系 三 元 组。 这 表 明 ChatGPT 所 包 含 的
即译文表述流畅,但语义与原文并不一致,属于无中 世界知识使其在执行信息抽取时更具鲁棒性。
生有的臆想。为 进 一 步 探 究 Cha
tGPT 与 谷 歌 翻 译 1.
3 自动文本摘要
的性能差异,我 们 对 僧 伽 罗 语—英 语 和 尼 泊 尔 语— 自动 文 本 摘 要 (
Aut
oma
ticT
ext Summa
riz
aton)
i
英语这两个低资源语言对的翻译结果进行了样例分 是利用计算机自动将文本(或文本集合)转换 成 简 短
析。分析结果发现, ChatGPT 不仅在低资源语言的 摘要的一种信息压缩技术 [1]。文本摘要技术在信息
翻译中出现了 幻 觉 现 象,在 其 它 各 项 自 然 语 言 处 理 爆炸时代具有 重 要 的 应 用 价 值。 已 有 的 测 试 表 明,
任务中均存在不同程度的幻觉。 整体而言, ChatGPT 已 经 能 够 完 成 多 种 文 摘 任 务,
1.
2 信息抽取 但在多 数 情 况 下 仍 然 低 于 现 有 最 好 的 摘 要 模 型。
信息抽 取 (
Inf
orma
tion Ex
tra
cton,
i IE)是 指 从 Kap
l
[7]
an 等 和 Bahr
[
8]
i等 对 Cha tGPT 的 通 用 型 摘
非结构化或半结 构 化 的 文 本 中 自 动 识 别 抽 取 出 实 要(Gener
icSummar
iza
tion)能 力 的 测 试 结 果 表 明,
体 、实 体 属 性 、实 体 之 间 关 系 以 及 事 件 等 事 实 信 ChatGPT 生 成 的 摘 要 明 显 不 如 经 过 微 调 后 的
息 ,并 形 成 结 构 化 表 示 的 一 种 文 本 挖 掘 技 术 [

22]
BART 模 型 (以 ROUGE- 1 指 标 值 衡 量 )。 Qi
[25]
n
[
11]
Bang 等 对 Cha
tGPT 在 信 息 抽 取 任 务 中 的 性 能
[
12]
等 进 一 步 研 究 了 Cha tGPT 在 查 询 式 文 本 摘 要
做了 全 面 评 估,其 中 包 括 命 名 实 体 识 别 (Named (
Que
ry-ba
sed TextSummari
zat
ion)和 要 素 级 文 本
En
tit
y Re c
ogn
iton, NER)、关 系 抽 取 (Re
i la
tion 摘要(Aspect
-based Tex
tSummari
zat
ion)等 更 多 样
Ex
tract
ion,RE)和 事 件 抽 取 (Even
t Ex
tra
ction, 化任务上的性 能。 结 果 表 明,在 除 社 交 媒 体 领 域 以
EE)三 项 任 务。 实 验 结 果 表 明 在 这 三 项 任 务 上, 外的三个基准数据集上, ChatGPT 的 ROUGE 分数
Cha
tGPT 的 性 能 最 高 只 能 达 到 专 门 训 练 出 来 的 最 接近于微调模 型,只 是 在 新 闻 数 据 集 上 超 过 了 微 调
5% 、
优模型性能的 63. 43. 3% 。
0% 和 35.
[
13]
J
模型。而 对 于 抽 取 式 文 本 摘 要,iao 等 的 测 试 表
[
23]
我们 选 取 国 际 公 开 的 CoNLL04 数据集分析 明 Cha
tGPT 的摘要 性 能 同 样 低 于 目 前 最 好 的 抽 取
Cha
tGPT 在 关 系 抽 取 任 务 上 的 表 现。 结 果 表 明, 式摘要模型。

表 1 Cha
tGPT 的多语言翻译性能

COMET BLEU
语言对
Cha
tGPT 谷歌翻译 性能比 *
Cha
tGPT 谷歌翻译 性能比

中→英 88.
7 89.
4 99.
3 29.
6 38.
6 76.
7
德→英 90.
7 91.
0 99.
7 43.
0 47.
3 90.
9
爱→英 90.
1 91.
7 98.
3 36.
9 45.
5 81.
1
立→英 86.
1 89.
2 96.
6 32.
6 41.
3 78.
9
尼→英 87.
4 93.
2 93.
8 24.
5 51.
3 47.
7
僧→英 61.
3 90.
5 67.
7 3.
5 45.
5 7.
7
* 表中的“性能比”表示根据相应的计算指标 Cha
tGPT 的性能与 Goog
leTr
ans
lat
e的性能之间的比值。
4 中 国 科 学 基 金 2023 年

[
29]
考虑到上述对比测试主要集中在英文摘要任务 务上的表现,我们使用 SemEva
l-2014 数据集测试
上,本 文 在 中 文 对 话 摘 要 数 据 集 CSDS[26] 上 对 了其 在 要 素 级 情 感 分 析 三 元 组 抽 取 (Aspe
ct-
leve
l
Cha
tGPT 的摘要能力进行 了 测 试,并 与 该 数 据 集 上 Sen
timentTr
ipl
etExtr
acton)任务上的性能。结果
i
Cha
tGPT 的 性 能 约 为 该 数 据 集 上 最 优 模 型
[
27]
目前最好的模型 Fa
st-RL 进行了对比。采用基于 表明,
8% 。我们进一步随机选取了 100 个
[
30]
词序列的评价指标 ROUGE 和基于文本表示的评价 BDTS 的 64.
Cha
tGPT 的 预 测 准
[
28]
指标 BERTSco
re 对生成摘要的质量进行评价,实 样本进行人工 评 价。结 果 表 明,
验结 果 如 表 2 所 示。 从 表 中 的 数 据 可 以 看 出, 确率为 42% ,与 BDTS 所得到的 68% 准确率仍有一
Cha
tGPT 在 中 文 对 话 摘 要 上 的 性 能 同 样 不 如 目 前 定差距。
最优的自动文 摘 模 型,这 与 英 文 数 据 集 上 的 测 试 结 1.
5 Cha
tGPT 能力分析
Cha
果基本一 致。 另 外,我 们 还 分 析 发 现, tGPT 生 根据已 有 专 家 的 测 试 和 本 文 上 述 分 析 不 难 看
成的摘要平均 长 度 为 189
.7 词,远 长 于 人 工 给 出 的 Cha
出, tGPT 作为通用模 型 在 几 乎 所 有 的 自 然 语 言
结果( .9 词)。尽管 我 们 曾 尝 试 在 提 示 词 中 加 入
120 处理任务上都 展 示 了 较 好 的 性 能 和 优 势,以 至 于 让
对摘要长度的限制,但 Cha
tGPT 并不能遵循给定长 很多人感觉到 以 Cha
tGPT 为 代 表 的 大 模 型 会 很 快
度的约束,而且 添 加 的 长 度 限 制 影 响 (降 低)了 生 成 实现通用人工智能。但 是 ,具 体 到 任 何 一 个 专 项 任
Cha
摘要的质量。在我们的实验中, tGPT 更偏向于 务 上 ,如 机 器 翻 译 、文 本 摘 要 和 情 感 分 析 以 及 信 息
生成流利度高、叙述详细的文本,这与人们希望的摘 抽取等,
Cha
tGPT 的 性 能 表 现 距 离 人 类 理 想 的 通
要应尽量简洁的要求存在一定的冲突。 用人工 智 能 技 术 依 然 有 较 大 的 差 距。 我 们 认 为,
1.
4 情感分析 Cha
tGPT 的主要优势体现在如下两个方面:
情感分 析 (
Sen
timen
t Ana
lys
is)是 对 文 本 中 蕴 (
1)强 大 的 通 用 处 理 能 力。 以 Cha
tGPT 为 代
含的情感、态度、情 绪 等 主 观 信 息 进 行 自 动 提 取、分 表的大模型能够通过人类指令执行任何用户希望完
析、归 纳 和 推 理 的 处 理 过 程 [
,如 分 析 归 纳 客 户 评
18] 成的自然语言处理任务,而且性能表现都在上乘,尽
论、社交媒体帖子和新闻文章中的观点、情感和情绪 管大部分情况 下 都 不 及 目 前 最 优 的 专 用 模 型,但 其
等。Hendy 等 [14]从 4 个方面对 Cha
tGPT 的 情 感 分 通用的人工智能能力足以让人们刮目相看。无论其
析能力进行了具体评估,包括标准评估、极性转换评 宽广的知识面和“渊博”的知识储备,还是规范、流畅
估和开放领域评估以及情感推断评估。他们利用自 的语言表达能力,均已超出人们的想象,甚至超越一
动评价指标得 到 的 对 比 结 果 表 明,在 传 统 的 情 感 分 般人的表现。其 处 理 (翻 译)语 言 的 种 类 之 多、并 行

Cha
类任务上, tGPT 的性能与微调后的 BERT 模型 回复用户和问 题 类 型 的 数 量 之 大,更 是 让 专 用 模 型
相当,但仍落后 于 在 特 定 领 域 内 专 门 训 练 出 来 的 有 和人类所望尘莫及。
(
2)准确的用户意图理 解 能 力 和“随 机 应 变”的
Cha
监督模型。而在情绪信息 抽 取 任 务 上, tGPT 的
交互能力。Cha
tGPT 几 乎 能 够 准 确 理 解 和 把 握 人
Cha
准确度相对较低。但是在人工评估中, tGPT 在
这些任 务 上 的 表 现 并 不 是 太 差。 在 引 入 极 性 转 换 类用户的意图,且 能 够 根 据 人 类 的 指 令 和 上 下 文 进
(例如否定或推测后),
Cha
tGPT 通 常 能 够 正 确 的 理
行自然流畅的 人 机 交 互,可 随 时 根 据 用 户 的 问 题 和

解情 感 极 性 变 化 并 做 出 正 确 预 测,而 微 调 的 BERT 反馈修改模型 自 身 的 输 出,其 看 似 缜 密 的 推 理 过 程

模型则不能,这 说 明 Cha 和滴水不 漏 的 应 答 能 力 都 是 已 有 模 型 所 未 能 做 到


tGPT 具 有 更 强 的 鲁 棒 性。
在开放领域测 试 中,传 统 方 法 在 特 定 领 域 训 练 出 来 的。尽管有时候 它 也 会 胡 说 八 道,但 其 表 现 仍 然 一

的模型通常难以泛化到其它领域,而 Cha 本正经。


tGPT 反而
展现出了较强的泛化能力。 Cha
正如上面所述, tGPT 等 大 模 型 的 研 究 和 使
为了进一步 分 析 Cha 用所面临的问题和挑战也是显而易见的:
tGPT 在 情 绪 信 息 抽 取 任
(
1) 技 不 如 人:在 垂 直 领 域 和 专 项 任 务 上
表 2 Cha
tGPT 的文本摘要性能
Cha
tGPT 的性能不如目前最优的专用模型。
Mod
el ROUGE
-2 ROUGE
-L BERTS
cor
e (
2)无 中 生 有:Cha
tGPT 容 易 引 发 的“幻 觉”影
Cha
tGPT 17.
5 39.
1 70.
4 响了其输出的 忠 实 度 和 简 洁 性,由 此 产 生 的 臆 想 结
Fa
st-RL 41.
4 47.
1 79.
8 论和事实性错误极易以假乱真,混淆视听。
(
3)厚多薄寡:由于 在 训 练 Cha
tGPT 时 不 同 语
武俊宏等:Cha
tGPT 能力分析与未来展望 5

言的样本比例严重不平衡,导致 Cha
tGPT 在完成多 (
1)模型通用性和专用 性 的 均 衡 方 法 以 及 通 用
语言处理(翻 译)任 务 时,存 在 明 显 的 语 言 敏 感 的 性 领域和 垂 直 领 域 的 权 衡 问 题。 问 题 描 述 如 前 文
能差异。 所述。
(
4)价值趋同:由于 Cha tGPT 在 训 练 时 需 要 借 (
2)大模型的轻量化方法。Cha
tGPT 等大语言
助于调试人员 的 反 馈 强 化 学 习,实 现 模 型 学 到 的 知 模型在实际应用中存在计算和存储资源消耗过高的
识与调试人员 的 标 准 和 要 求 之 间 的 对 齐,因 此 模 型 问题。为了解决这一问题,模型的轻量化方法,如模
建立的价值观、意 识 形 态 和 社 会 伦 理 观 极 易 受 调 试 型压缩和推理 加 速,成 为 了 研 究 的 重 要 方 向。 模 型
人员的影响,而不同国家、不同民族和不同文化的价 压缩旨在减少 大 语 言 模 型 的 参 数 量 和 模 型 规 模,以
值趋向是不同的,因此,模型很难很好地处理多元价 降低模型在部署和推理阶段的计算、存储开销,从而
值观问题。 提高模型的推 理 效 率,使 大 语 言 模 型 更 广 泛 地 应 用
(
5)隐私 泄 露:在 训 练 大 模 型 时 需 要 大 规 模 的 于边缘设备、移动终端和实时应用场景。
多样化训练样 本,而 这 些 样 本 中 难 免 存 在 涉 及 个 人 (
3)大模型的终身 学 习 与 高 效 微 调。 语 言 是 一
隐私的信息,这些信息一旦被模型使用,极有可能产 个动态的领域,新词汇、新概念和新语言现象不断出
生隐私泄露问题,对相关人员造成伤害。 现。为使 Cha
tGPT 等 大 语 言 模 型 能 够 适 应 不 断 变
除了上述问题 之 外,如 何 判 断 被 大 模 型 使 用 的 化的数据和任 务,探 索 持 续 学 习 和 高 效 微 调 方 法 至
知识和数据是 否 被 侵 权,有 效 保 护 知 识 和 数 据 持 有 关重要。通过持 续 学 习,大 语 言 模 型 可 以 从 新 数 据
者的合法权益;如何界定 Cha
tGPT 等大模型生成内 中学习,并更新自身的知识库,以更好地理解和生成
容的知识 产 权,建 立 合 情、合 理 的 知 识 产 权 保 护 法 新的语言内容。高效微调则能够将大语言模型的通
规;如何制定大模型使用的明确规定,既充分发挥大 用知识与特定 任 务 的 要 求 相 结 合,提 高 模 型 在 特 定
模型的强大能 力,而 又 不 破 坏 应 有 的 学 术 诚 信 体 系 任务上的性能。 对 于 持 续 学 习 和 高 效 微 调 的 探 索,
等等,都是大模型研究和使用无法回避的问题。 将使大语言模型更好地适应变化的语言数据和任务
另外,大模型建立和维护的昂贵成本是制约技术 要求,以提高模型的性能和适应性,满足人们对于新
落地的重 要 因 素。据 半 导 体 研 究 公 司 S
emiAn
als
yis 的语言内容的需求。
估计,训练一 次 有 1750 亿 参 数 的 GPT-
3基础模型 (
4)大模型的可解释性与可控性。Cha
tGPT 的
所需要的 最 低 费 用 约 为 84 万 美 元 ①。 而
Cha
tGPT 发展也引发了对模型可解释性和可控性的关注。由
是在 GPT-
3 模型 的 基 础 上 经 过 反 复 的 试 错 迭 代 得 于 Cha
tGPT 的训练基于大规模数据,其生成结果可
到的,其开发 成 本 据 估 约 为 500 万 美 元 ② 。OpenAI 能受到不当或 有 害 内 容 的 影 响。 因 此,如 何 确 保 模
CEO Sam Al
tman 也 曾 在 社 交 媒 体 上 表 示, 型生成的内容符合伦理和准则成为了研究和探讨的
tGPT 每与用户互动一次约需数美分 ③ 。对于拥
Cha 重点。研究模型的可解释性旨在把控模型的决策过
有亿级月活跃 用 户 规 模 的 情 况 而 言,资 金 投 入 量 将 程和内部机制,以 帮 助 研 究 者 和 用 户 更 好 地 把 握 模
是一个极为庞 大 的 数 字。 设 想 一 下,一 个 特 定 的 用 型生成结果的原因和逻辑。可控性研究则是为了实
户,尤其是某个特定领域或行业的用户,是需要一个 现对模型生成 内 容 和 风 格 的 有 效 控 制,限 制 模 型 生
知识面宽泛却在解决本领域问题时表现并非最优的 成含有不当偏 见、敏 感 甚 至 虚 假 信 息 的 内 容 或 冒 犯
系统,还是更愿意有一个针对性强、性能优越的专用 性言论等,从而 确 保 模 型 生 成 的 内 容 更 加 合 乎 伦 理
系统呢? 准则,也更加真实可靠。
(
5)与其他学科领域的交叉融合。Cha tGPT 作
2 NLP 技术未来展望
为一种强大的 自 然 语 言 处 理 模 型,不 仅 局 限 于 解 决
正如前文所述,尽管大模型并不完美,但看起来 自然语言处理 领 域 内 的 问 题,而 且 可 以 为 其 他 学 科
前景光明,于是 针 对 大 模 型 的 研 究 正 如 火 如 荼。 以 领域的交叉研究提供有力支撑。由于模型学习到的
下问题是当前 研 究 人 员 关 注 的 热 点,或 将 是 未 来 很 知识来自巨大的样本空间,先验知识之丰富、各种要
长时期 NLP 领域研究的问题: 素组合关系之复杂、因果关系推断之千奇百怪,远远

① h
ttps:
//www. semianalys
is.com/p/the-a
i-br
ick
-wall
-a-pr
act
ica
l-l
imi
t
② h
ttps:
//lambdal
abs.com/b og/demys
l t
ifi
yng- t
gp-3
③ h
ttps:
//twit
ter.
com/s ama/stat /1599671496636780546
us
6 中 国 科 学 基 金 2023 年

超出人的想象,这 种 超 乎 寻 常 的 能 力 完 全 可 以 为 特
定学科领域(如生物医学、制药、化学等)提供重要帮 3 结 语
助,包括提出问 题、预 测 结 论 和 找 到 重 要 发 现 等,真
Cha
tGPT 作为 一 种 具 有 强 大 能 力 的 预 训 练 模
正让 AI为科学研究建立功勋。
型,对于自然语言处理领域的发展带来了深远影响,
(
6)大模型的产业化 应 用。 在 自 然 语 言 处 理 的
引领了新的研究范式,创造了新的发展机遇。同时,
理论方法研究 中,研 究 者 主 要 利 用 实 验 室 收 集 标 注
Cha
tGPT 的缺陷也为 NLP 研 究 留 下 了 极 大 的 探 索
的数据进行模 型 训 练 和 测 试,而 这 些 数 据 和 方 法 往
空间。
往与产业 化 实 际 应 用 中 的 情 况 有 一 定 的 隔 离 和 差
值得说明的 是, tGPT 之 所 以 被 如 此 关 注 ,
Cha
tGPT、 2 、
① ②
距。Cha DALLE- St
able Di
ffus
ion 等 一
是因 为 其 强 大 的 通 用 性 和 与 之 前 同 类 技 术 相 比 超
系 列 人 工 智 能 生 成 内 容 (Art
if
icia
lI nte
lligenc
e
乎 寻 常 的 性 能 表 现 ,而 与 人 的 实 际 要 求 相 比 ,尤 其
Gene
rat
edCon
t t,
en AIGC)产 品 所 取 得 的 空 前 成 功
是 针 对 具 体 任 务 的 高 标 准 要 求 ,它 还 有 相 当 大 的 差
表明,聚焦真实 世 界 的 实 际 问 题 比 在 学 术 界 建 立 的
距 。 而 且 我 们 也 必 须 清 楚 地 认 识 到 ,目 前 我 们 所 掌
简单数据集上 比 拼 性 能 更 为 重 要。 因 此,未 来 工 作
握 的 对 于 Cha
tGPT 的 了 解 大 多 来 自 OpenAI的 博
应该更加聚焦于弥补大语言模型与实际应用场景之
客 ,究 竟 还 有 多 少 更 深 层 、更 具 体 的 技 术 细 节 我

间的差距,包括探索多模态的人机交互模式,研发工
们 不 曾 了 解 ? 自 Cha
tGPT 发 布 以 来 ,国 内 有 数 十
具学习 [31](
Too
lLe
arn
ing)技 术,建 立 模 型 即 服 务
个“大 模 型 ”相 继 发 布 ,这 些 模 型 既 有 发 布 团 队 独
(Mode
la saSe
rvie,Ma
c aS)生态等。
立 研 发 的 ,也 有 在 LLaMA[32]、Vi
c
[
33]
una 等 开 源 大
ChatGPT 为 探 索 通 用 AI 蹚 出 了 一 条 希 望 之
路,但笔者认为,它 未 必 是 唯 一 之 路,甚 至 未 必 是 一 模 型 基 座 上 改 造 而 成 的 ;既 有 为 垂 直 领 域 构 建 的 ,

条最佳道路。一 方 面,在 理 论 上 大 模 型 本 身 并 没 有 也 有 面 向 通 用 领 域 搭 建 的 ;既 有 参 数 量 为 几 十 亿 的
稠 密 模 型 ,也 有 万 亿 参 数 量 的 混 合 专 家 系 统
n-
太大的创新,只是神经网络对传统 n 元文法模型(
(Mi
xtureofExpert,MoE)。 发 布 者 自 然 各 抱 初 衷 ,
r
g l)的 再 现 和 扩 展,成 功 的 原 因 更 多 地 来
am Mode
自于大数据、大算力和大量人工的工程投入,而如何 “蹭 热 度 ”也 情 有 可 原 ,但 重 要 的 是 ,如 何 沉 下 心

建立具有更强泛化和推理能力,规模更小、人工投入 来 ,明 确 目 标 ,坚 持 开 展 有 理 想 、有 情 怀 的 创 新 研
更少的中小规模的智能 NLP 模型,仍然是学界研究 究 ,做 出 超 越 Cha
tGPT 及 其 更 高 版 本 的 中 国 的 大
和探索的目标,当 然 这 种 研 究 可 以 借 鉴 大 模 型 成 功 语 言 模 型 ! 这 是 我 们 的 使 命 。 少 一 点 炒 作 ,少 一 点
的经验。 忽 悠 ,扎 扎 实 实 地 做 好 中 国 的 事 情 ,是 我 们 应 有 的
另 一 方 面 ,在 应 用 上 ,正 如 前 文 所 述 ,传 统 态度和品格。
NLP 方 法 和 针 对 特 定 领 域 、特 定 任 务 研 发 的 专 用
参 考 文 献
模型 无 论 在 建 造 成 本 和 性 能 表 现 方 面 ,还 是 系 统 的
安 全 性 、可 靠 性 、可 扩 展 性 等 方 面 ,都 有 其 独 特 的 [
1] 宗 成庆 .统计自然语言处理 .第2 版 .北京:清华大学出版

优 势 ,而 且 系 统 部 署 简 单 ,尤 其 对 于 特 殊 应 用 领 社,2013.

域 ,例 如 涉 及 公 共 安 全 和 国 防 安 全 的 领 域 ,不 便 于 [
2] Zhao WX,Zhou K, L
i JY,e
tal. A sur
vey o
fla
rge
上网 的 应 用 场 景 等 ,具 有 广 阔 的 应 用 前 景 。 由 此 可 l
anguage mode
ls. (
2023
-03
-31)
/[2023
-06
-21].h
ttps:
//

见,
NLP 学 科 方 向 决 不 会 因 为 Cha
tGPT 的 出 现 而 a
rxi
v.o
rg/pd
f/2303.
18223.
pdf.
销声 匿 迹 ,学 术 界 也 不 会 因 为 研 发 的 大 模 型 而 砸 掉 [
3] De
vlnJ,Ch
i ang MW,Le
eK,e
tal.Be
rt:p
re-
tra
ini
ngo
fde
ep
自 己 的 饭 碗 。 而 且 作 者 根 据 NLP 过 去 70 多 年 的 b
idi
rec
tio
nalt
ran
sfo
rme
rsf
orl
angu
ageund
ers
tand
ing.(
201
9-0
5-
发展 经 验 坚 定 地 认 为 ,随 着 技 术 的 进 步 ,未 来 一 定 4)
2 /[
202
3-0
6-1].h
2 tts:
p //a
rxi
v.o
rg/p
df/1
810.
048
05.
pdf.
会出 现 比 大 模 型 性 能 更 优 、规 模 更 小 、成 本 更 低 的 [
4] Rad
fod A,WuJ,Ch
r ild R,e
tal.Language mode
lsa
re

NLP 新 模 型 ,新 模 型 突 破 甚 至 抛 弃 大 模 型 的 范 式 unsupe
rvi
sed mu
lti
taskl
ear
ner
s.OpenAI b
log,2019,1
并非没有可能。 (
8):9.

① h
ttps:
//openai.om/da
c ll
-e-
2
② h
tt :
//
ps s tab
ili
ty.a/s
i t
abled
iff
usi
on
③ h
ttps:
//openai.om/b
c log
武俊宏等:Cha
tGPT 能力分析与未来展望 7

[
5] iJ,Tay Y,Bomma
We s iR,e
an tal.Eme
rgen
tab
ili
tie
sof [
17] Zhang HP,L
iu X,ZhangJW.Ex
tra
cti
vesumma
riz
ati
on

l
arge l
anguage mode
ls. (2022
-06
-15 )
/[2023
-06
-21 ]. v
iaCha
tGPTf
orf
ait
hfu
lsumma
ry gene
rat
ion.(
2023
-04
-

h
ttps:
//a
rxi
v.o
rg/pd
f/2206.
07682.
pdf. 09)
/[2023
-06
-21].h
ttps:
//a
rxi
v.o
rg/pd
f/2304.04193.

[
6] iJ,Bo
We sma M,Zhao VY,e
tal.F
ine
tunedl
anguage pd
f.

mode
lsa
rez
ero
-sho
tle
arne
rs. (
2022
-02
-08)
/[2023
-06
- [
18] WangZZ,Xi
e QM,Di
ng ZX,e
tal.I
s Cha
tGPT agood

21].h
ttps:
//a
rxi
v.o
rg/pd
f/2109.
01652.
pdf. s
ent
imen
tana
lyz
er? A p
rel
imi
nar
ysudy.(
t 2023
-04
-10)
/

[
7] Kap
lanJ,McCand
lishS,Hen
ighan T,e
tal.Sc
ali
ngl
aws [
2023
-06
-21].h
ttps:
//a
rxi
v.o
rg/pd
f/2304.
04339.
pdf.

f
orneur
all
anguage mode
ls.(
2020
-01
-23)
/[2023
-06
-21]. [
19] Co
sta
-jus
sà MR,Cr
ossJ,Çe
l iO,e
eb tal.Nol
anguagel
eft

h
ttps:
//a
rxi
v.o
rg/pd
f/2001.
08361.
pdf. beh
ind: s
cal
ing human
-cen
ter
ed ma
chi
ne t
rans
lat
ion.

[
8] i Y, Dye
Bahr r E, Kap
lan J,e
tal. Exp
lai
ning neur
al (2022
-07
-11 )
/[2023
-06
-21 ]. h
ttps:
//a
rxi
v.o
rg/pd
f/

s
cal
i aws.(
ngl 2021
-02
-12)
/[2023
-06
-21].h
ttps:
//a
rxi
v. 2207.
04672.
pdf.

o
rg/pd
f/2102.
06701.
pdf. [
20] Pap
i iK,Rouko
nen sS,Wa
rdT,e
tal.B
leu:ame
thodf
or

[
9] own T,MannB,Ryde
Br rN,e
tal.Language mode
lsa
re au
toma
ticeva
lua
tiono
f ma
chi
net
rans
lat
ion// Pr
oce
edi
ngs

f
ew-
sho
tle
arne
rs. Advanc
es i
n Neur
al I
nfo
rma
tion o
fthe 40
th Annua
l Me
eti
ng o
fthe As
soc
iat
ion f
or

Pr
oce
ssi
ngSys
tems.2020:1877—1901. Compu
tat
iona
lLi
ngu
ist
ics.Ph
ilade
lph
ia: As
soc
iat
ion f
or

[
10] Ouyang L, Wu J,J
iang X,e
tal. Tr
ain
ing l
anguage Compu
tat
iona
lLi
ngu
ist
ics,2002:311—318.

mode
lst
ofo
llow i
nst
ruc
tions wi
th human f
eedba
ck. [
21] Re
i R, De Souz
a JGC, Al
ves D,e
ta 22:
l. COMET-

Advanc
esi
n Neur
alI
nfo
rma
tion Pr
oce
ssi
ng Sys
tems. Unbabe
l-I
ST 2022 submi
ssi
on f
ort
he me
tri
cs sha
red

2022:27730—27744. t
ask//Pr
oce
edi
ngso
ftheSeven
th Con
fer
enc
eon Ma
chi
ne

[
11] Bang YJ,Cahyawi
jaya S,Le
e N,e
tal. A mu
lti
task, Tr
ans
lat
i i: As
on.Abu Dhab soc
iat
ion f
or Compu
tat
iona
l

mu
lti
li l, mu
ngua ltimoda
l eva
lua
tion o
f Cha
tGPT on L
ingu
ist
ics,2022:578—585.

r
eas
onng,ha
i lluc
ina
tion,andi
nte
rac
tiv
ity.(
2023
-02
-08)
/ [
22] 宗 成庆,夏睿,张家俊 .文本数据挖掘 .第2 版 .北京:清华
[
2023
-06
-21].h
ttps:
//a
rxi
v.o
rg/pd
f/2302.
04023.
pdf. 大学出版社,2022.

[
12] Qi
nC,Zhang A,ZhangZ.e
tal.I
sCha
tGPT agene
ral
- [
23] Ro
th D,Yi
h W.A l
ine
arp
rog
rammi
ngf
ormu
lat
ionf
or

pur
pos
ena
tur
all
anguagep
roc
ess
ingt
asks
ol r? .(
ve 2023
- l
goba
lin
fer
enc
einna
tur
all
anguaget
a //Pr
sks oce
edi
ngso
f

02
-08 )
/[2023
-06
-21 ]. h
ttps:
//a
rxi
v. o
rg/pd
f/2302. t
heE
igh
thCon
fer
enc
eonCompu
tat
iona
lNa
tur
alLanguage

06476.
pdf. Le
arn
ing. Bo
ston: As
soc
iat
ion f
or Compu
tat
iona
l

[
13] J
iao WX,Wang WX,HuangJT,e
tal.I
sCha
tGPTagood L
ingu
ist
ics,2004:1—8.

t
rans
lat
or? A p
rel
imi
nar
ysudy.(
t 2023
-01
-20)
/[2023
-06
- [
24] Cabo
tPLH,Nav
igi R.REBEL:Re
l lat
ion ex
tra
cti
on by

21].h
ttps:
//a
rxi
v.o
rg/pd
f/2301.
08745.
pdf. end
-to
-end l
anguage gene
rat
ion// F
ind
ings o
f t
he

[
14] Hendy A,Abde
lr im M,Sha
eh rafA,e
tal.How gooda
re As
soc
iat
ionf
orCompu
tat
iona
lLi
ngu
ist
ics:EMNLP2021.

GPT mode
lsa
t ma
chi
ne t
rans
lat
ion? a c
omp
rehens
ive Pun
ta Cana: As
soc
iat
ion f
or Compu
tat
iona
lLi
ngu
ist
ics,

eva
lua
tion. (
2023
-02
-18)
/[2023
-06
-21].h
ttps:
//a
rxi
v. 2021:2370—2381.

o
rg/pd
f/2302.
09210.
pdf. [
25] L
in CY.Rouge:A pa
ckagef
or au
toma
tic eva
lua
tion o
f

[
15] Han RD, Peng T, Yang CH, e
tal.I
sin
forma
tion summa
rie
s// Pr
oce
edi
ngs o
fthe Wo
rkshop on Tex
t

ex
tra
cti
on s
ol tGPT?
ved by Cha An ana
lys
is o
f Summa
riz
ati
on Br
anche
s Ou
t.Ba
rce
lona:As
soc
iat
ionf
or

pe
rfo e,eva
rmanc lua
tion c
rit
era,r
i obus
tne
ss and e
rro
rs. Compu
tat
iona
lLi
ngu
ist
ics,2004:74—81.

(2023
-05
-23 )
/[2023
-06
-21 ]. h
ttps:
//a
rxi
v.o
rg/pd
f/ [
26] L
in HT,Ma LQ,ZhuJN,e
tal.CSDS:A f
ine
-gr
ained
2305.
14450.
pdf. ch
ine
se da
tas
et f
or cus
tome
r s
erv
ice d
ial
ogue

[
16] YangXJ,L
iY,Zhang XL,e
tal.Exp
lor
ingt
hel
imi
tso
f summa
riz
aton// Pr
i oce
edi
ngs o
fthe 2021 Con
fer
enc
e on

Cha
tGPT f
or que
ryo
raspe
ct-
bas
ed t
extsumma
riz
ati
on. Emp
iri
calMe
thodsi
n Na
tur
alLanguagePr
oce
ssi
ng.Pun
ta

(2023
-02
-16 )
/[2023
-06
-21 ]. h
ttps:
//a
rxi
v.o
rg/pd
f/ Cana:As
soc
iat
ion f
or Compu
tat
iona
lLi
ngu
ist
ics,2021:

2302.
08081.
pdf. 4436—4451.
8 中 国 科 学 基 金 2023 年

[
27] Chen YC,Bans
al M.Fa
stabs
tra
cti
vesumma
riz
ati
on wi
th f
il
lingf
ora
spe
cts
ent
imen
ttr
ipl
etex
tra
cton//Pr
i oce
edi
ngs

r
ein
for
ce-
sel
ect
eds
ent
enc
erewr
itng// Pr
i oce
edi
ngso
fthe o
fthe2022 Con
fer
enc
eon Emp
iri
cal Me
thodsi
n Na
tur
al

56
th Annua
lMe
eti
ngo
ftheAs
soc
iat
ionf
orCompu
tat
iona
l Language Pr
oce
ssi i: As
ng. Abu Dhab soc
iat
ion f
or

L
ingu
ist
ics. Me
l ne: As
bour soc
iat
ion f
or Compu
tat
iona
l Compu
tat
iona
lLi
ngu
ist
ics,2022:6485—6498.

L
ingu
ist
ics,2018:675—686. [
31] Qi
n YJ, Hu SD, L
in YK,e
tal. Too
lle
arn
ing wi
th

[
28] ZhangT,Ki
sho
reV,WuF,e
tal.BERTSc
ore:eva
lua
ting f
ounda
tion mode
ls.(
2023
-04
-17)
/[2023
-06
-21].h
ttps:
//

t
extgene
rat
ion wi
th BERT.(
2020
-02
-24)
/[2023
-06
-21]. a
rxi
v.o
rg/pd
f/2304.
08354.
pdf.

h
ttps:
//a
rxi
v.o
rg/pd
f/1904.
09675.
pdf. [
32] Touv
ron H,Lav
rilT,I
zac
ardG,e
tal.LLaMA:openand

[
29] Pon
tiiM,Ga
k lan
is D,Papageo
rgou H,e
i tal.Semeva
l- e
ffi
cien
tfounda
tionl
anguagemode
ls.(
2023
-02
-27)
/[2023
-

2015 t
ask 12: a
spe
ct ba
sed s
ent
imen
t ana
lys
is// 06
-21].h
ttps:
//a
rxi
v.o
rg/pd
f/2302.
13971.
pdf.

Pr
oce
edi
ngso
fthe9
thI
nte
rna
tiona
lWo
rkshoponSeman
tic [
33] Ch
iang WL,L
iZ,L
in Z,e
ta cuna:anopen
l.Vi -sour
ce

Eva
lua
ti r: As
on. Denve soc
iat
ion f
or Compu
tat
iona
l cha
tbo
timp
res
sing gp
t-4 wi
th 90% * cha
t t qua
gp li
ty.

L
ingu
ist
ics,2015:19—30. (
2023- 14)
04- /[2023- 21]. h
06- ttps:
//v
icuna.lms
ys.
[
30] Zhang YC,Yang YF,L
iYH,e
tal.Bound
ar-
ydr
ive
nta
ble
- o
rg.

Ana
lys
iso
fCha
tGPT
􀆳sCapab
ili
tie
sandFu
tur
ePr
ose
pct
s

Junhong Wu YangZhao Chengq


ingZong
1† 2† 2*

1.Scho
olof Ar
tii
fci
alIn
tel
l e,Un
igenc ive
rsi
tyofCh
ine
seAcademyofSc
ienc
es,Be
ijng 100049
i
2.In
sti
tut
eof Au
toma
tion,Ch
ine
seAcademyofSc
ienc
es,Be
ijng 100190
i

Abst
ract Inrecen
tye a
rs,thenatur
all
anguageproc
ess
ingcapabil
it
iesoflargelanguage model
shavebe en
con
tinuous
ly improv
ing. Par
ticu
lar
l ,
y the pro
found knowledge and powerf
u l conve
rsat
ional ab
ili
tie
s
exh
ibi
tedbyt
heCha
tGPT havebe
comeag
loba
llypr
omi
nen
ttop
ico
fin
ter
est.Que
sti
onsa
ris
erega
rdi
ng
t
het
ruel
eve
lofl
anguageunde
rst
and
ingc
apa
cit
ypo
sse
ssedbyCha
tGPTandhowi
tspe
rfo
rmanc
ecompa
res
t
ospec
ial
ized mode
ls.Canitbecomeaun i
ver
sal mode
lint
heent
irefi
eldofnat
u r
allanguageproc
essi
ng
(NLP),r ep
laci
ng ot
her mode
ls,and even compl
ete
lyso
lvi
ng a
ll NLP pr
oblems? To addre
sst hese
que
stions,t
h i
spaperconduc
tsa met
icu
l ouseva
luat
ionandanal
ysi
softhepe
rfo
rmanceofChatGPTacros
s
mult
iplenaturall
anguageproc
ess
ingtasks.Furthe
rmore,theimpac
tofChatGPT ont
hefie
l dofna
tural
l
anguagepr
oce
ssi
ngi
sdi
scus
sed,andf
utur
edeve
lopmen
tsa
rean
tic
ipa
ted.

Ke
ywo
rds na
tur
all
anguagep
roc
ess
ing;l
argel l;p
anguage mode r
e-t
rai
nedl l;Cha
anguage mode tGPT

(责任编辑 崔国增 姜钧译)

† Cont
ributedequal
lya sc
o-f
irs
tauthor
s.
* Cor
responding Aut r,Ema
ho l:
i c
qzong@nl
pr.
ia.
ac.
cn

You might also like