You are on page 1of 26

中美两国对高影响力人工智能研究的贡献比较

安全和能源技术中心(CEST)数据概要

作者
阿什温·阿查里亚
布莱恩·邓恩

1
摘要
虽然中国人工智能出版物数量庞大且不断增长,但这项研究的质量仍存在
争议。一些观察家声称,中国有能力出版大量人工智能出版物,但在原创思想
和有影响力的研究1方面落后。就连中国的研究人员也偶尔批评他们国家的学术
体系在人工智能方面缺乏创新2。然而,近年来,定量分析发现,中国人工智能
出版物的影响力越来越大3。

人工智能是一项具有重要经济和战略意义的新兴技术,中国政府多年来一
直在推动国内人工智能的发展。中国和美国在人工智能开发方面的优势将对两
国在从科学和医学到战场应用等领域的相对能力产生影响。此外,中国研究人
员产生有影响力的人工智能进步的能力反映了一个更普遍的问题,即北京是否
能够促进有影响力的创新——这一能力有时会受到美国和欧洲观察家的质疑4。

本简介对美国和中国的人工智能研究进行了数据驱动的比较,审查了被高
度引用的出版物和在顶级人工智能会议上发表的出版物5。

我们发现:

 中国研究人员高引用人工智能出版物的产出与美国同行的工作竞争日益激
烈。在过去的十年中,中国研究人员在全球排名前 5%的人工智能出版物中
所占的份额不断增长,从 2010 年占美国产出的一半上升到 2019 年的同等

水平。

 中国顶级出版物经常在中国境外被引用,尽管中国在国际引用方面仍落后
于美国。被高度引用的中国出版物有 35%的引文来自非中文来源,而来自

国际来源的引文数量随着时间的推移稳步增加。然而,美国的出版物在国
际引文中保持着领先于中国的地位,这反映出美国与其他主要人工智能生
产商的关系更加密切。

 中国在 13 个顶级人工智能会议上的出版物份额不断增加,而美国在这些会

议上的出版物份额却停滞不前。2010 年至 2019 年间,中国在这些出版物中

2
的份额从 13%上升到 31%,而美国的份额从 55%下降到 51%。

 美国和中国研究人员的高影响力人工智能出版物中有一个显著的份额是美
中合作。例如,在 2019 年两国被高度引用的人工智能出版物中,此类合作
占 24%。

 CSET 科学地图中的一些研究集群包含的顶级人工智能出版物比其他集群多
得多。这些集群的主题反映了中国和美国研究人员感兴趣的一些领域。

 在中国高被引和顶级出版物中占有不成比例份额的集群包括关于通用计
算机视觉研究的出版物,以及人工智能在监控和工业中的应用。

 在美国高引用和顶级出版物中占有不成比例份额的集群涵盖了深度学习
中的算法创新,例如转换器和深度强化学习,以及人工智能伦理和安全研究。

 美国和中国共同发表了大约 65% 的高被引人工智能研究。 美国的盟友,


特别是欧盟和五眼联盟国家,也为人工智能研究做出了重大贡献6。

方法论

在 CSET 合并的学术文献语料库中识别 AI 出版物


在本简介中,我们使用 CSET 的科学地图调查了高质量的中国和美国学术研
究的规模,这是一个由 CSET 的研究集群和合并的学术文献语料库生成的出版物
自动分组7。该语料库包含了来自六个学术数据集的超过 2 亿份出版物。其中三
个是美国文献计量分析中常用的主要科学文献数据库:Clarivate 的科学网
(WOS)、数字科学的维度(DS)、微软学术图(MAG)。我们还包括中国国
家知识基础设施(CNKI)—一个大型中文文献数据库。最后,我们合并了来自
两个开源数据集的出版物:来自 ArXiv 的预印本和来自带有代码的论文的机器学

习论文。

CSET 中的科学组地图文档将语料库合并为大约 120000 个研究集群,包含

数百到数千份出版物。研究集群由一组相互引用多于引用集群外出版物的出版
物组成。由于集群是由引用链接而不是主题定义的,因此不能保证它们包含具

3
有公共主题的出版物。根据我们的经验,集群中的出版物通常共享一个相当明
确的研究领域,例如面部识别。然而,单个研究领域往往被多个集群所覆盖。

我们的分析侧重于出现在研究集群中的出版物,这些出版物包含了大量与
人工智能相关的工作;我们将这些人工智能研究集群中的出版物称为“人工智
能出版物”与仅基于预测 AI 相关性在论文层面上选择出版物相比,该方法允许

我们捕获更多将人工智能方法应用于其他领域的出版物,如无人机驾驶。然而,
我们的方法排除了在 AI 份额较低的集群中出现的 AI 出版物。我们的结果也可能

包括假阳性,例如直接关注无人机驾驶而不参考人工智能的出版物。一般来说,
这些集群中的出版物可能代表人工智能领域的进展、人工智能在单独领域(如
无人驾驶飞机驾驶)的应用,或这些人工智能应用领域的进展。我们使用与
CSET 作者8先前发表的工作相同的过滤器,并确定了 1897 个符合以下标准的研

究集群:

 对于至少 50%的出版物,我们可以通过对 ArXiv 数据进行训练的 SciBERT 分


类器或中文关键词搜索来预测它们的 AI 相关性9。

 在人工智能预测的出版物中,我们预测至少有 50%是人工智能出版物。

 整个集群的出版物平均出版年限不超过 20 年。这将过滤掉包含大量旧文档

的集群,这些文档不太可能与现代人工智能进展相关。

确定影响较大的出版物

虽然我们确定的 1897 个与人工智能相关的研究集群包括 160 多万份人工智

能出版物,但我们对这些集群的高影响力出版物特别感兴趣。文献中使用了许
多“精英”或高影响力研究的定义。本简介主要关注高引用率研究,遵循使用
参考群体中出版物的引用排名作为影响的代理衡量标准的常见文献计量实践。
我们按研究领域(如计算机科学、数学)对出版物进行分组,以适应不同领域
的引用实践,并按出版年份对出版物进行进一步分组,以说明旧出版物有更多
时间积累引用的事实10。然后,我们根据每个出版年度的引用次数对论文进行排
名,将其在这些领域年度组中的排名作为论文影响或质量的衡量标准11。在本简

10

11

4
介中,我们重点关注第 95 个引用百分位数及以上的研究,称为“高引用研究”
在同一年发表的同一研究领域的论文中,这些出版物的引用率超过 95%。我们
在 2005 年至 2019 年间出版的人工智能研究集群中确定了 170000 篇被高度引用
的出版物。在 2015 年至 2019 年间,几乎有一半(总共 79000 篇)发表了论文,
反映了人工智能作为一个研究领域的快速发展12。

将文献与国家联系起来

我们使用源数据集中的元数据在出版时将出版物与其作者的附属组织相关
联,并将这些组织与它们所在的国家/地区相关联。我们将分析限制在 CSET 合
并语料库中与至少一个国家相关联的出版物13。本简报将至少有一个美国作者组

织的所有出版物计为美国出版物,将所有至少有一个中国作者组织的出版物计
为中国出版物。因此,这些名称是非排他性的。

调查结果

比较人工智能中随着时间推移而被高度引用的研究

中国发表的高被引人工智能研究成果正与美国匹敌

图 1 中的结果挑战了中国能够发表大量研究但质量不高的普遍看法。自 2010

年以来,中国的人工智能研究数量不仅相对于美国有所增长,而且其高质量研
究的发表量也在稳步增加,截至 2019 年几乎可以与美国相媲美。

图 1 中国在人工智能出版物总量上早已超过美国,其被引用次数较多的人工智能出版物的份额

稳步增长14。

12

13

14

5
资料来源:CSET 合并语料库。2021 年 11 月 2 日产生的结果。

2005 年,中国在高被引人工智能研究方面落后于美国,但在总体人工智能
产出方面已经超过了美国。到 2013 年,中国在前四分之一的研究中已与美国平
起平坐,但美国的人工智能产出仍超过中国的 95%,高被引论文数量为 3,600
篇,而中国为 2,300 篇。 然而,在接下来的几年里,中国稳步缩小了高被引研
究的差距。到 2019 年,两国持平:当年 8,000 篇高被引 AI 出版物的作者来自
美国,而 7,900 篇的作者来自中国。这些总数分别对应于当年发表的 20,800 篇
高被引人工智能出版物中的 39% 和 38%。

6
中国人工智能论文被国际引用

数据表明,中国出版物从国际出版物中获得的引用比例始终如一,并且它
们从非中国来源获得的引用数量随着时间的推移而迅速增长。

从 2015 年到 2019 年,中国人工智能出版物 35%的引文和被高度引用的中


国人工智能出版物 38%的引文来自非中文出版物。这两个数字在这段时间内都

是稳定的。

如果中国高被引人工智能出版物的增加是由于中国研究人员的引用量增加,
而没有伴随研究质量的提高,我们预计它们从国际来源获得的引用量将随着时
间的推移而下降,但这 不是我们观察到的。 然而,中国出版物获得的国际引
用份额明显低于美国出版物,美国出版物在 2019 年收到了大约 58% 的引用来

自非美国出版物。

为了更直接地比较来自美国和中国的出版物的引用情况,我们考虑了来自
固定出版物库的引用:既没有美国也没有中国参与的国际出版物。 我们发现,
在中国新出版物发表后的第一年,国际出版物的引用次数少于美国新出版物的
引用次数。

然而,两国新的人工智能出版物收到的国际引用数量正在迅速增长,特别
是对于被引用次数最多的论文。

图 2 随着时间的推移,中国和美国人工智能出版物的国际引用量正在迅速增长。

资料来源:CSET 合并语料库。结果产生于 2021 年 9 月 30 日。

7
除了质量差异之外,还有多种因素可能导致中国出版物从国际来源获得的
引用比例低于美国出版物。中国的人工智能研究产出是世界上最大的,研究人
员和资助者的兴趣相结合可能会导致这项研究的很大一部分集中在外国研究人
员不太感兴趣的人工智能领域。美国出版物也更有可能是国际合作,我们可能
期望美国作者通常与其他生产性人工智能国家的同事联系更紧密,这些国家往
往是美国的盟友。语言障碍和术语差异也可能阻碍外国研究人员发现或欣赏相
关的中国出版物15。正如人们所预料的那样,中国和非中国作者之间的合作更有
可能引起中国以外的研究人员的兴趣。此类合作的 43%来自非中国出版物的引
用,而只有中国作者的论文只有 30%的引用来自非中国出版物16。这种差异可能

是由于我们提出的任何数量的因素造成的。这些论文可能质量更高,可能涵盖
非中国研究人员更感兴趣的主题,或者可能只是通过学术网络更容易引起他们
的注意。

总体而言,这些引用模式表明,中国人工智能出版物受到了国际资源的显
着且日益增长的兴趣。然而,中国出版物,即使是被高引用的出版物,在国际
上的引用率也明显低于美国出版物。我们的定量分析无法区分造成这种差距的
多个可能原因,但这可能部分是由于美国更大程度地融入了国际研究界。

顶级出版物
我们发现,中国研究在备受推崇的人工智能领域的出版物中所占的份额也
越来越大。 CSrankings.org 是一个由从业者创建的学术机构在顶级计算机科
学领域的出版物排名,列出了 13 个人工智能出版物的顶级会议17。我们确定了
2015 年至 2019 年间在这些会议上发表的人工智能研究集群中的 46,000 份出
版物。这些顶级出版物比一般的 AI 出版物更容易被高度引用:几乎一半
(47%) 被高度引用,而在 AI 集群中的所有出版物中,这一比例为 13%。顶级
出版物的高被引出版物占所有高被引出版物的一小部分但值得注意(20%)。
(有关详细信息,请参阅附录 B。)

我们发现,近年来,这些场所的中国和美国出版物数量都在迅速增加。尽
管美国在这些场所发表的文章绝对数量仍远多于中国,但两国之间的比例已经

15

16

17

8
缩小:2019 年中国在这些场所发表的文章数量是美国的 60%,而 2015 年为
32%, 2005 年为 10%。中国在这些顶级出版物的产出份额也在增长,而美国的
份额停滞不前;2019 年,这些顶级出版社 31% 的出版物至少有一位中国作者,
而 2010 年为 13%,2005 年仅为 6%。

图 3 在排名前 13 位的人工智能会议上,越来越多的出版物中有中国作者,而美
国在这些出版物中的份额却停滞不前。

资料来源:CSET 合并语料库。结果产生于 2021 年 9 月 30 日。

同样,CSRankings 的全球十大人工智能机构名单中,中国的影响力显着且
不断增长。2011 年至 2015 年 AI 顶尖机构名单中,中国 3 家,美国 6 家 18 ;
2016 年至 2020 年 AI 顶尖机构名单中,中国 4 家,美国 5 家19。 19 这些结
果表明,越来越多的中国研究吸引了国际研究界的极大兴趣。

美国和中国研究人员之间的合作

美国和中国研究人员之间的合作贡献了两国人工智能出版物的一小部分,

18

19

9
但值得注意。当我们考虑更高影响的研究子集时,这些合作占了中国人工智能
贡献的越来越大的份额。

表 1 中美研究人员之间的合作在两国高影响力的人工智能出版物中占有相当大的份额。

2019 年,只有 10%的中国人工智能出版物是与美国研究人员合作的,但这


些合作的引用率高于其他中国研究,占高引用率中国出版物的 24%。这种趋势
在高影响力出版物的较小子集中继续存在:美中合作在 99%的中国出版物中占
30%,在顶级人工智能研究场所的中国出版物中占 36%。如上所述,这些出版物
的质量并不一定高于纯中文出版物;他们也可能获得更大的国际认可,因为非
中国研究人员更容易接触到他们。

美中合作在美国人工智能出版物中也占了中等比例。2019 年以来,美国人
工智能出版物中有 19%是美中合作的;美国顶级出版物的这一比例上升到 22%,
被高度引用的美国出版物的这一比例上升到 24%。

比较顶级人工智能研究集群
我们在 CSET 的科学地图中探索研究集群,其中包含大量这些被高度引用的
顶级人工智能出版物。由于这些集群是由引文链接定义的,因此不能保证它们
只有一个主题。然而,集群中的文档通常共享一个定义相当明确的研究领域或
问题,例如特定的机器学习算法及其常见应用领域。

下面,我们展示了一小部分被高度引用或排名靠前的人工智能论文所占比
例异常高的集群,并举例说明了我们在上一节中列出的一些研究。科学地图中
的 1897 个 AI 集群中有一半包含不到 10 篇高被引出版物,其中四分之三的
集群包含不到 10 篇顶级论文。相比之下,拥有大量此类论文的集群相对较少:

10
只有 36 个(2%)的 AI 集群包含 300 多篇高被引论文,只有 90 个(5%)包
含至少 100 篇顶级论文20。我们在本节中描述的 16 个独特的集群都符合一个或
两个标准。

高引用率和顶级中文出版物的顶级研究集群
表 2A 显示了 2015-2019 年间被高度引用的中国人工智能出版物数量最高的人工智能研究集群。
表 2B 列出了顶级人工期刊中中国出版物数量最多的集群,筛选出了中国在这一时期发布的顶
级出版物数量超过美国的集群21。
表 2A 2015-2019 年中国人工智能研究被高度引用的人工智能研究集群

资料来源:CSET 合并语料库。结果产生于 2021 年 9 月 30 日。

20

21

11
表 2B 2015 年至 2019 年中国人工智能研究领域排名最高的人工智能研究集群

资料来源:CSET 合并语料库。结果产生于 2021 年 9 月 30 日。

这个列表展示了整个人工智能研究的一个小快照,但它代表了对一些被高
度引用和顶级期刊或会议的中国人工智能出版物通常涉及的主题的看法22。

我们发现,拥有大量中国顶级出版物的集群涵盖了计算机视觉的许多领域。
这些领域包括与监控相关的人员重新识别任务,或在多个视频源中重新识别同
一个人23。然而,中国也发表了许多通用计算机视觉任务的研究成果,在这些任
务中,进步可以提高民用和安全相关应用的能力。这些任务包括目标检测和视
觉跟踪,占据了计算机视觉研究的很大一部分24。

其他中国顶级集群专注于人工智能在工业中的实际应用,包括法律责任问
题、将人工智能应用于工业机械故障诊断以及在电子商务网站上推荐内容。

高被引和顶级美国人工智能出版物的顶级研究集群
表 3A 列出了 2015 年至 2019 年美国人工智能出版物被高度引用量最高的人工智能研究集群。
表 3B 列出了在顶级人工智能期刊或会议中美国出版物数量最多的集群,并对美国在这一时期

22

23

24

12
发布的顶级出版物数量超过中国的集群进行了筛选25。
表 3A 2015-2019 年美国人工智能研究被高度引用的人工智能研究集群
集群 ID 集群主题描述 2015-2019 年 美 2015-2019 年中 所有被高度引
国被高度引用的 国被高度引用 用的论文作为
人工智能论文数 的人工智能论 集群的一部分
量 文数量
1193 自 然 语 言 处 402 103 45%
理,尤其是使
用转换器架构
1609 深度强化学习 363 36 27%
4358 AI 部 署 的 社 会 326 11 35%
影 响 和 公 平
性,重点是社
交网络和刑事
司法系统
2381 对抗性攻击的 292 94 37%
AI 鲁棒性
1338 用 于 图 像 和 视 273 172 27%
频合成的生成
性对抗网络
资料来源:CSET 合并语料库。2021 年 9 月 30 日产生的结果

表 3B 2015 年至 2019 年,美国人工智能研究领域排名最高的人工智能研究集群


集群 ID 集群主题描述 2015-2019 年 美 中国顶级论文 所有顶级出版
国顶级人工智能 数量 物作为集群的
论文数量 一部分
1193 自 然 语 言 处 410 130 50%
理,尤其是使
用转换器架构
1338 用于图像和视 277 136 25%
频合成的生成
性对抗网络
3527 使用神经网络 255 195 39%
进 行 机 器 翻
译,尤其是使
用变换器和递
归神经网络结

1609 深度强化学习 244 60 21%
3446 使用点云表示 234 127 33%

25

13
从二维图像识
别和建模三维
对象
资料来源:CSET 合并语料库。结果产生于 2021 年 9 月 30 日。

与表 2B 一样,此列表提供了整体 AI 研究的一个小快照。 然而,它代表


了对美国高引用人工智能出版物通常讨论的一些主题的看法26。

其中一个主题是新型深度学习架构和训练方法的开发——包括近年来取得
重大进展的几个领域。深度强化学习用于训练在复杂领域做出决策的算法,例
如下围棋或驾驶汽车 . 生成对抗网络 (GAN) 用于合成图像和文本,而转换器
是一种很有前途的新文本合成架构,特别是用于 OpenAI 的 GPT-2 和 GPT-3。
美国顶级集群所涉及的创新通常用于强化学习和自然语言处理等高级人工智能
领域,而我们在中国顶级集群中看到的重点是计算机视觉。 美国其他顶级集群
讨论了人工智能伦理和安全,包括人工智能决策的公平性和提高人工智能系统
对抗性攻击的鲁棒性。

扩大口径:高引用人工智能研究的国际平衡

美国和中国共同贡献了人工智能集群中约 65%的高引用研究27

人工智能竞争是一个国际舞台:美国和中国是人工智能研究被高度引用的
最著名的国家,但远不是创新的唯一来源。更具代表性的人工智能创新平衡核
算将包括人工智能创新的其他关键来源,这些来源往往是美国的盟友。

美国的盟友,尤其是欧盟 27 国和 CANZUK 连门,也公布了大量被高度引用


的人工智能研究。

此前的 CSET 研究发现,中国和美国的研发支出在购买力平价方面具有可比


性,但美国及其盟国的研发支出总和是中国的两倍多 28。类似地,图 4 表明,中
国正在迅速接近美国被高度引用的人工智能研究成果,但美国及其盟国加起来
产生的人工智能研究被高度引用的数量远远超过中国。例如,2019 年,中国在
我们的人工智能研究集群中发表了 7900 篇被高度引用的出版物,相比之下,美
国、欧盟或加拿大、澳大利亚、新西兰和英国(CANZUK)至少有一个附属机构

26

27

28

14
发表了 13500 篇被高度引用的人工智能出版物。因此,与盟国的协调与合作对
于美国在人工智能研究和更广泛的技术竞争中保持优势的努力至关重要。

图 4 美国、欧盟和 CANZUK 都发表了大量被高度引用的人工智能研究;加在一起,它们的出


版量超过了中国的两倍。然而,中国的产出正在迅速增长29。

资料来源:CSET 合并语料库。结果产生于 2021 年 9 月 30 日。

结论
长期以来,中国一直是人工智能研究的主要贡献者。我们发现,从被高度
引用的出版物和顶级出版物来看,它在高质量产出方面与美国的竞争日益激烈。
研究产出和质量的每个指标都有局限性,但在我们的分析和相关工作中,一些
总体趋势似乎都适用 30。30 多年来,中国研究人员在人工智能研究集群中发表

的出版物比美国同行多,而且他们的产出在数量和质量上都在持续增长。中国
正在接近美国在世界高质量人工智能出版物中的份额。美国在顶级会议出版物
中保持领先地位,美国研究获得的国际引用远远多于中国研究。两国的高影响
力研究中有很大一部分来自美中合作,这些合作在高影响力美国出版物中占 21-
24%,在高影响力中国出版物中占 24-36%。

29

30

15
文献计量分析为我们提供了人工智能研究趋势的宝贵见解,但这是有限的
见解。一些研究没有反映在我们的结果中。人工智能领域许多最具影响力的进
步都是在行业努力中取得的,但这些进展并没有完全反映在文献计量数据中31。
我们的数据包括在学术场所出版或作为 ArXiv 预印本出版的行业项目;对专利数
据的分析可以补充我们的研究方法32。文献计量数据也必然排除未以任何形式公

布的进展,如政府机密项目或行业商业秘密。此外,人工智能出版物不能互换;
进一步的工作可以为高影响力研究提供更深入的主题层面分析。我们在表 2 和
表 3 中对研究集群的调查涵盖了两国被高度引用的研究中相对较小的一部分,

但也提出了一些兴趣点。在高水平上,这些集群的主题与之前的研究一致,这
些研究表明,中国在计算机视觉方面特别丰富,而美国在人工智能的其他子领
域(如自然语言处理)发表了更多被高度引用的研究33。

单靠研究并不能保证竞争力:为了开发有用的技术,一个国家需要一个健
康的创新生态系统。被高度引用的出版物表明,一个国家拥有有才华的研究人
员,但这并不保证他们的才能或见解能应用于实际目的。相反,顶级出版物较
少的国家仍然可以利用已发表研究中的见解34。国际合作、有竞争力的科技公司

和人才移民的流入可以让一个国家开发出有价值的人工智能应用程序,而不管
它的出版产出如何。

事实上,尽管中国在人工智能研究的许多领域的出版数量正逐渐超过或超
过美国,但美国在与其他技术先进国家的政策和研究关系方面拥有宝贵的资源。
此前的分析表明,美国及其盟友发表的国际合作往往比中国多得多,中国的国
际合作率大致持平,而其他国家的合作率却在增长 35。我们发现,加上美国在
CANZUK 联盟和欧盟 27 国的盟友,美国的人工智能研究产出远远超过中国。

展望未来,美国及其盟友需要找到一条路线,既能保留国际合作和高技能
移民的好处,又能防止对这些做法的敌对利用。如果做得不好,研究安全限制
可能会严重阻碍美国及其盟友。为了有效利用美国在国际研究生态系统中的地
位,有必要采取深思熟虑的、针对具体领域的方法36。
31

32

33

34

35

36

16
作者
Ashwin Acharya 是 CSET 的研究分析师。 Brian Dunn 是 CSET 的学期研
究分析师,他为我们对 AI 研究集群的定性描述做出了贡献。

致谢
对于他们的反馈,我们感谢凯瑟琳·艾肯、伊戈尔·米科利奇·托雷拉、
杜威·默迪克、威尔·亨特、伊利亚·拉科夫斯基和海伦·托纳。我们特别感
谢王宽三(Kuansan Wang)和 Field Cady(Field Cady)作为外部评审员发表
的评论,以及 Autunt Toney 在数据分析方面提供的建议和帮助。对于编辑协助,
我们感谢科里·库珀和梅丽莎·邓。

附录 A:高被引和顶级 AI 论文在研究集群中的分布情况

CSET 的科学地图包含 1897 个人工智能集群。2015 年至 2019 年间发表的


79000 篇被高度引用的人工智能论文和 40000 篇顶级人工智能论文在这些集群中
的分布并不均匀。相反,大多数集群包含的此类论文很少,而少数集群包含数
百篇37。

表 A-1 在所有人工智能研究集群中,有一半包含不到 10 个被高度引用的项目论文只有 2%包含


300 份或更多此类文件。
出版物类型 人工智能群集的数量(%):
0 篇论文 1-9 篇论文 10-99 篇论文 100-299 篇论文 300 篇以上论

被高度引用 289 (15%) 621 (33%) 784 (41%) 167 (9%) 167 (9%)
的人工智能
出版物
中国被高度 714 (38%) 711 (37%) 420 (22%) 420 (22%) 6 (0%)
引用的人工
智能出版物
美国被高度 621 (33%) 693 (37%) 532 (28%) 48 (3%) 3 (0%)
引用的人工
智能出版物
资料来源:CSET 合并语料库。2021 年 9 月 30 日产生的结果

表 A-2 几乎四分之三的人工智能集群包含不到 10 种顶级出版物;只有 5%包含 100 份或更多此


类出版物
出版物类型

37

17
0 篇论文 1-9 篇论文 10-99 篇论文 100-299 篇论文 300 篇以上论

顶级人工智 706 (37%) 681 (36%) 420 (22%) 78 (4%) 12 (1%)
能出版物
中国顶级人 1194 498 (26%) 186 (10%) 19 (1%) 0 (0%)
工智能出版 (63%)

美国顶级出 993 (52%) 557 (29%) 310 (16%) 36 (2%) 1 (0%)
版物
资料来源:CSET 合并语料库。结果产生于 2021 年 9 月 30 日。

尽管如此,由于高引用率和顶级出版物分布在许多研究集群中,排名前几
位的集群只包含所有高影响力出版物的一小部分。例如,表 2A 中的五个集群只
包含 8%的被高度引用的中国人工智能出版物。表 2 和表 3 中的 16 个独特集群总
共包含 15%的此类出版物。然而,如表 2 和表 3 所示,被高度引用的论文和顶级
论文在这些集群中所占比例异常大。

表 A-3 我们在表 2A、2B、3A 和 3B 中给出的顶级集群的单独列表不到相关出版物的 10%。总


体而言,我们展示的 16 个独特集群包含 11%到 16%的美国和中国顶级出版物,以及 10%的总体
AI 顶级出版物。
出版物类型 这组出版物在前 5 个相关集 表 2 和表 3 列出的 16 个独
群中的份额(例如表 2A 中 特集群中,这组出版物的份
高度引用的中国出版物的份 额
额)
中国被高度引用的出版物 8% 15%
中国顶级出版物 8% 16%
美国被高度引用的出版物 6% 11%
美国顶级出版物 6% 11%
人工智能集群中所有被高度 N/A 10%
引用的出版物
所有顶级出版物 N/A 10%
资料来源:CSET 合并语料库。2021 年 9 月 30 日产生的结果
附录 B:被高度引用和顶级人工智能论文之间的重叠

我们确定了 2015 年至 2019 年间出版的 79000 份高引用率和 46000 份顶级刊


物人工智能出版物。我们的大多数顶级出版物(3.4 万份,或 74%)属于人工智
能研究集群,我们用来确定被高度引用的人工智能出版物。在这些人工智能集
群中,16000 份出版物被高度引用,并在顶级刊物发表;这意味着人工智能集
群中 47%的顶级出版物被高度引用,远远高于所有人工智能出版物中 13%的基线

18
率38。相反,被高度引用的人工智能出版物中有 20%是在顶级刊物发表的,而人
工智能出版物的总体比例为 8%。

按国家分类时,这些比率相似:56%的中国顶级出版物被高度引用,19%的
中国高度引用出版物在顶级刊物发表。同样,54%的美国顶级出版物被高度引用,
31%的美国高度引用出版物在顶级刊物发表。在顶级刊物发表的美国高引用出版
物中所占比例较大,这可能反映出美国出版物在顶级刊物发表的可能性过大的
趋势;美国在顶级刊物论文中的份额高于美国在高引用人工智能出版物或整个
人工智能出版物中的份额。

附录 C:99% 人工智能出版物的分布

当我们考虑一组更严格的高引用出版物时,读者可能会好奇我们观察到的
趋势是否仍然存在。 为了探讨这个问题,我们重新对其研究领域最高百分位的
AI 出版物进行了数据分析39。这些结果与我们对上述 95% 的出版物的发现相似。

我们在图 1 中注意到,中国在 2005 年已经超过了美国的 AI 出版物数量,


到 2010 年在最高四分之一的出版物数量上与美国持平,现在在 95% 的出版物
数量上已达到同等水平。 换言之,我们看到了两个趋势:在被引用次数较多的
研究子集上,中国与美国的竞争力较弱,但随着时间的推移,它在所有领域都
变得更具竞争力40。在这里,我们看到这种有点微妙的观察结果延伸到 99 %的
人工智能出版物:中国在这一领域尚未达到同等水平,但其在这些出版物中的
份额正在接近美国的份额。

图 C-1 中国发表的 99% 的人工智能出版物少于美国,但随着时间的推移,


美国与中国出版物的比率正在下降。 2019 年,在中国 99% 的人工智能出版物
中,美中合作占了近三分之一。

38

39

40

19
资料来源:CSET 合并语料库。 结果于 2021 年 11 月 3 日生成。

我们还看到,随着我们筛选出更多被引用的作品,美中合作继续在中国出版
物中占据越来越大的份额。2019 年,这些出版物占中国所有人工智能出版物的
10%,占 95%的中国出版物的 24%,占 99%的中国出版物的 30%。

在图 C-2 中,我们看到美国、欧盟和 CANZUK 联合发表的 99% 出版物数


量是中国的两倍;图 4 展示了 95% 出版物的大致相同比率。

与我们的其他分析不同,我们观察到 2019 年可能出现的趋势变化,其增长


率远低于前几年 41。未来几年的类似分析将有助于我们确定 2019 年是反常现象,
还是 99%人工智能研究放缓的开始。

图 C-2 美国、欧盟和 CANZUK 都发表了大量 99% 的 AI 研究; 加在一起,它们的发布量比


中国高出两倍。

41

20
资料来源:CSET 合并语料库。结果于 2021 年 11 月 3 日生成。

21
尾注
1 For example, a McKinsey report claims that “China lags behind the United
States and the United Kingdom in terms of fundamental research that advances
the field of AI.” Dominic Barton, Jonathan Woetzel, Jeongmin Seong, and
Qinzheng Tian, “Artificial Intelligence: Implications for China” (McKinsey &
Company, April 2017), https://www.mckinsey.com/~/media/mckinsey/featured
percent20insights/China/Artificial percent20intelligence percent20Implications
percent20for percent20China/MGI-Artificial-intelligence-implications-forChina.ashx.
2 For example, several Chinese researchers recently wrote that “although
aggregate AI research outputs (e.g., scientific publications, patents) are rising
rapidly in China, truly original ideas and breakthrough technologies are lacking.”
Daitian Li, Tony W. Wong, and Yangao Xiao, “Is China Emerging as the Global
Leader in AI?,” Harvard Business Review, February 18, 2021,
https://hbr.org/2021/02/is-china-emerging-as-the-global-leader-in-ai.
3
Jiangjiang Yang and Oren Etzioni, “China is closing in on the US in AI research,”
Allen Institute for AI (Medium), May 11, 2021, https://medium.com/ai2-
blog/china-is-closing-in-on-the-us-in-ai-research-ea5213ae80df; Dewey
Murdick, James Dunham, and Jennifer Melot, “AI Definitions Affect
Policymaking” (Center for Security and Emerging Technology, June 2020),
https://cset.georgetown.edu/wp-content/uploads/CSET-AI-Definitions-AffectPolicymaking.pdf.
4 Robert D. Atkinson and Caleb Foote, “Is China Catching Up to the United
States in Innovation?” (Information Technology & Innovation Foundation, April
2019), https://projects.iq.harvard.edu/files/innovation/files/2019-china-catchingup-
innovation.pdf.
5 Our analysis is not limited to publications in academic journals and
conferences; it also includes preprints on the ArXiv repository, which private AI
labs often use to report their latest innovations. For example, most of the
publications linked on OpenAI’s publications page are ArXiv preprints. Such
preprints can still appear in our subset of highly cited AI publications. For
example, OpenAI’s ArXiv preprint “Deep Double Descent: Where Bigger Models
and More Data Hurt” appears in the CSET merged corpus as one of the most
highly cited AI publications of 2019, placing in the highest percentile for
computer science publications in that year. Preetum Nakkiran, “Deep Double
Descent: Where Bigger Models and More Data Hurt,” arXiv preprint
arXiv:1912.02292 (2019), https://arxiv.org/abs/1912.02292.
6 We refer to the Five Eyes countries, excluding the United States, as CANZUK.
This group includes Canada, the United Kingdom, Australia, and New Zealand. In this brief,
European Union refers to the 27 member states of the after the
departure of the United Kingdom: Austria, Belgium, Bulgaria, Croatia, Cyprus,
Czechia, Denmark, Estonia, Finland, France, Germany, Greece, Hungary, Ireland,
Italy, Latvia, Lithuania, Luxembourg, Malta, the Netherlands, Poland, Portugal,
Romania, Slovakia, Slovenia, Spain, and Sweden.
7 CSET merged corpus of scholarly literature includes Digital Science’s

22
Dimensions, Clarivate’s Web of Science, Microsoft Academic Graph, China
National Knowledge Infrastructure, arXiv, and Papers With Code. China
National Knowledge Infrastructure is furnished for use in the United States by
East View Information Services, Minneapolis, MN, USA.
8 Ilya Rahkovsky et al., “AI Research Funding Portfolios and Extreme Growth,”
Frontiers in Research Metrics and Analytics,, April 6, 2021,
https://www.frontiersin.org/articles/10.3389/frma.2021.630124/full.
9 Our SciBERT classifier is described in James Dunham, Jennifer Melot, and
Dewey Murdick, “Identifying the Development and Application of Artificial
Intelligence in Scientific Text,” arXiv preprint arXiv:2002.07143 (2020),
https://arxiv.org/abs/2002.07143; our Chinese-language keyword search
follows the same approach as Rakhovsky et al., “AI Research Funding Portfolios
and Extreme Growth.”
10 We classify papers into top-level research fields (e.g. computer science,
mathematics) using the Microsoft Academic Graph (MAG) field of study
taxonomy. (See Zhihong Shen, Hao Ma, and Kuansan Wang, “A Web-scale
system for scientific knowledge exploration,” arXiv preprint arXiv:1805.12216
(2018), https://arxiv.org/pdf/1805.12216.pdf). We use a natural language model
to estimate field scores for each English-language publication in the CSET
merged corpus. This model is highly accurate in replicating MAG’s scores for
papers in the MAG database, and allows us to extend our tagging to Englishlanguage publications
not in the MAG dataset. We also impute field scores for
publications in other languages (mostly Chinese) by taking an average over the
scores of their neighbors in the citation graph.
By far the most common field of study for AI publications, highly cited or
otherwise, was computer science.
11 We limit our data to papers from 2019 and prior years, since papers from
2020 have not yet had time to accumulate many citations and their citation rank
is therefore likely to be heavily impacted by small number bias.
12 Since AI is a particularly fast-growing and impactful research area, a
disproportionate share of AI publications are in the top 5 percentiles of their
broader research field (e.g. computer science or mathematics). Between 2015
and 2019, 13 percent of AI publications were in the 95th percentile of their research field, making
them “highly cited” as judged by our metric. For the full 2005-2019 period, 11 percent of AI
publications were in the 95th percentile of their research field.
13 Publications with an associated country account for 77 percent of AI
publications in recent years (2015-2019), as well as 92 percent of recent highly
cited AI publications and 98 percent of recent top-venue AI publications.
14 “Total AI publications” refers to all AI publications in our dataset with at least
one associated country. Throughout this brief, the reported figures for each
country include international collaborations featuring researchers from that
country.
15 For example, we find that publications that only appear in the Chinese
National Knowledge Infrastructure, which tend to be Chinese-language, receive

23
more than 99 percent of their citations from other Chinese-origin publications.
16 See also Autumn Toney and Melissa Flagg, “Research Impact, Research
Output, and the Role of International Collaboration,” (Center for Security and
Emerging Technology, November 2021). Here the authors find that excluding
international collaborations causes a significant decrease in China’s output of
highly cited publications.
17 In the CSRankings taxonomy, the high-level category of AI includes the
subcategories of artificial intelligence, computer vision, machine learning and
data mining, natural language processing, and “the Web & information
retrieval.” We include all venues listed under the high-level AI category in our
analysis in order to capture top publications from all of these subcategories of
artificial intelligence. For future work, we could consult AI domain experts to
identify other venues to include. For example, the International Conference on
Learning Representations (ICLR) is often mentioned as a top AI conference but
is absent from the CSRankings list. (See, e.g., this list of top AI conferences from
an AI consulting firm: https://www.am.ai/en/blog/ai-conferences-2021/).
18 “CSRankings AI Rankings, 2011-2015,” CSRankings, accessed September 21,
2021,
http://csrankings.org/#/fromyear/2011/toyear/2015/index?ai&vision&mlmining&
nlp&ir&world. Permanent link at https://perma.cc/AXS2-26RG; “CSRankings AI
Rankings, 2016-2020,” CSRankings, accessed September 21, 2021,
http://csrankings.org/#/fromyear/2016/toyear/2020/index?ai&vision&mlmining&
nlp&ir&world. Permanent link at https://perma.cc/B23T-B3VW.
19 A recent report similarly finds that both the quantity and quality of doctoral
graduates in China is growing over time. See Remco Zwetsloot et al., “China Is
Fast Outpacing U.S. STEM Ph.D. Growth” (Center for Security and Emerging Technology, August
2021), https://cset.georgetown.edu/publication/china-isfast-outpacing-u-s-stem-phd-growth/
20 See Appendix A for more details.
21 Two clusters led by the United States would otherwise have appeared in
Table 2B: clusters 1338 and 981. For the top Chinese clusters listed in Table
2A, China published more highly cited research than the United States over this
period.
22 The clusters listed in Table 2A contain 8 percent of highly cited Chinese AI
publications; the clusters in Table 3B contain 8 percent of top-venue Chinese AI
publications. Overall, top Chinese publications are spread across many research
clusters, but the clusters we present here are among the small fraction of
clusters that contain hundreds of these publications. By contrast, most AI
research clusters have zero top-venue Chinese publications and fewer than ten
highly cited Chinese publications: see Appendix A for details.
23 A recent report finds that China is by far the largest contributor to several
computer-vision surveillance tasks, and publishes a majority of research on
person re-identification. See Ashwin Acharya, Max Langenkamp, and James
Dunham, “Trends in AI Research for the Visual Surveillance of Populations”
(Center for Security and Emerging Technology, December 2021).

24
24 See Acharya, Langenkamp, and Dunham, “Trends in AI Research for the
Visual Surveillance of Populations.”
25 One China-led cluster would otherwise have appeared in Table 3B: cluster
148. For all top U.S. clusters listed in Table 3A, the United States published
more highly cited research than China over this period.
26 The clusters listed in Table 3A contain 6 percent of highly cited U.S. AI
publications; the clusters in Table 3B contain 6 percent of top-venue U.S. AI
publications. Overall, top U.S. publications are spread across many research
clusters, but the clusters we present here are among the small fraction of
clusters that contain hundreds of these publications. By contrast, most AI
research clusters have zero top-venue U.S. publications and fewer than ten
highly cited U.S. publications: see Appendix A for details.
Note that the clusters presented in Tables 3A and 3B overlap more than the
Chinese-led clusters in Tables 2A and 2B, reflecting the fact that U.S. AI
publications have a stronger correlation between citation rate and top-venue
status than Chinese publications. (See Appendix B.)
27 In 2019, the two countries published a total of 14,031 highly cited AI
publications, including 1,896 U.S.-Chinese collaborations. These accounted for
67 percent of the world total, meaning that 33 percent of world highly cited AI
papers had no U.S. or Chinese involvement. Further, a large number of U.S. and
Chinese highly cited papers also involved international collaboration with third
parties, so this 67 percent of world output was not due to U.S. and Chinese
research efforts alone.
28 Melissa Flagg, “Global R&D and a New Era of Alliances” (Center for Security
and Emerging Technology, June 2020),
https://cset.georgetown.edu/publication/global-rd-and-a-new-era-of-alliances/.
Purchasing power parity adjusts for the lower cost of a standardized basket of
goods in China compared to the United States. As such, it assigns greater value
to the Chinese yuan than would be indicated by the yuan-dollar exchange rate.
29 Note: we count a publication as EU if it is associated with any EU country; the
same is true of CANZUK. We do not double-count publications with multiple EU
or CANZUK countries: a publication authored by German, French, Canadian, and
Australian researchers would only be counted once for the EU and once for
CANZUK. Similarly, when we count U.S. and allied publications combined, a
U.S., German, and UK collaboration is only counted as a single allied publication.
30 For related work that reaches similar conclusions, see Murdick, Dunham, and
Melot (“AI Definitions Affect Policymaking”) and Yang and Etzioni (Allen
Institute: “China is closing in on the US in AI research”).
31 For example, impactful AI architectures like the Residual Network and the
Transformer were first developed at Microsoft and Google respectively. See
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun on the ResNet (“Deep
Residual Learning for Image Recognition,” arXiv preprint arXiv:1512.03385
(2015), https://arxiv.org/pdf/1512.03385.pdf) and Ashish Vaswani et al. on the
Transformer (“Attention Is All You Need,” arXiv preprint arXiv:1706.03762

25
(2017), https://arxiv.org/pdf/1706.03762.pdf).
32 See, e.g., Dewey Murdick and Patrick Thomas, “Patents and Artificial
Intelligence: A Primer” (Center for Security and Emerging Technology,
September 2020), https://cset.georgetown.edu/publication/patents-andartificial-intelligence/.
33 See, e.g. Figure 1 in Murdick, Dunham, and Melot, “AI Definitions Affect
Policymaking.”
34 For one discussion of the possibility of AI diffusion, see Michael C. Horowitz,
"AI and the Diffusion of Global Power," in “Modern Conflict and Artificial Intelligence” (Centre for
International Governance Innovation, 2020), 32,
https://www.cigionline.org/sites/default/files/documents/Modern%20Conflict%2
0and%20AI_web.pdf.
35 See Autumn Toney and Melissa Flagg, “Comparing the United States’ and
China’s Leading Roles in the Landscape of Science” (Center for Security and
Emerging Technology, June 2021), https://cset.georgetown.edu/wpcontent/uploads/CSET-
Comparing-the-United-States-and-Chinas-LeadingRoles-in-the-Landscape-of-Science-1.pdf.
36 Melissa Flagg, Autumn Toney, and Paul Harris, “Research Security,
Collaboration, and the Changing Map of Global R&D” (Center for Security and
Emerging Technology, June 2021), https://cset.georgetown.edu/wpcontent/uploads/CSET-
Research-Security-Collaboration-and-the-ChangingMap-of-Global-RD.pdf.
37 In addition, not all top-venue papers appear in AI clusters; between 2015 and
2019, 26 percent of these publications (10,700) appeared in research clusters
that do not match our working definition of AI clusters. In Figure 3, we present
counts of all top-venue publications, but in our data exploration we found that
restricting to top-venue publications in AI research clusters did not significantly
alter our findings.
38 As noted above, AI publications are unusually well-cited; roughly 13 percent
of recent AI publications are at or above the 95th percentile for citations within
their research field.
39 Since AI is a particularly fast-growing and impactful research area, a
disproportionate share of AI publications are in the top percentile of their
broader research field (e.g. computer science or mathematics). Between 2015
and 2019, 4 percent of AI publications were in the 99th percentile of their
research field by citation count, and were thus included in our analyses for
Appendix C.
40 These results align with a recent report from the Allen Institute, which finds
that China produces an increasing share of the top-1 of percent AI publications.
The authors project that China will reach parity with the United States in 2025.
See Yang and Etzioni, “China is closing in on the U.S. in AI research.”
41 Another noteworthy difference is that the absolute gap between Chinese and
U.S. publications is not clearly significant over time.

26

You might also like