You are on page 1of 67

BloombergGPT:面向金融的大型语言模型

ShijieWu1,∗,Ozan I˙rsoy1,∗,StevenLu1,∗,VadimDabravolski1, Markdredze1,2,


Sebastian Gehrmann1, Prabhanjan Kambadur1, David Rosenberg1, Gideon Mann1
1 美国纽约州,布隆伯格
2 美国马里兰州巴尔的摩,约翰霍普金斯大学,计算机科学
gmann16@bloomberg.net

摘要
NLP 在金融技术领域的应用是广泛而复杂的,其应用范围从情感分析、命名实体识别到
问答。大型语言模型(LLMs)已被证明在各种任务上是有效的;然而,文献中还没有专门针
对金融领域的 LLM 的报道。在这项工作中,我们提出了 BloombergGPT,一个 500 亿参
数的语言模型,在广泛的金融数据上进行训练。基于 Bloomberg 的广泛数据源构建了一
个 3630 亿 token 数据集,这可能是迄今为止最大的特定领域数据集,由来自通用数据集
的 3450 亿 token 增强。我们在标准的 LLM 基准、开放的金融基准和一套最准确地反映我
们预期用途的内部基准上验证了 BloombergGPT。我们的混合数据集训练产生了一个模型,
该模型在金融任务上明显优于现有模型,而不牺牲在一般 LLM 基准上的性能。此外,我
们解释了我们的建模选择,训练过程和评估方法。作为下一步,我们计划发布训练日志
(编年史),详细介绍我们在训练 BloombergGPT 方面的经验。

内容

1 介绍
3
1.1 BloombergGPT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 更广泛的贡献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.
4
2 数据集
2.1 金融数据集(363Btoken- 54.2%的训练)。。 。。。。。。。。。。。 5
7
2.1.1 Web (298Btoken-训练的 42.01%). . . . . 。。。。。。。。。。。
2.1.2 新闻(38Btoken-训练率 5.31%). . . . . . 。。。。。。。。。。。 7
7
2.1.3 备案(14Btoken- 2.04%的培训). . . . . 。。。。。。。。。。。
2.1.4 按(9B token-训练的 1.21%). . . . . . 。。。。。。。。。。。 7
8
2.1.5 彭博(5Btoken-训练的 0.70%)… 。。。。。。。。。。。
2.2 公开数据集(345Btoken-训练的 48.73%)… 。。。。。。。。。。。 8
9
2.2.1 堆(184B token- 25.9%的训练)… 。。。。。。。。。。。
2.2.2 C4 (138Btoken-训练的 19.48%). . . . . . 。。。。。。。。。。。 9
2.2.3 维基百科(24Btoken- 3.35%的训练)… 。。。。。。。。。。。 9
9
2.3 标记 ........................ 。。。。。。。。。。。
9
∗。Co-first 作者。

1
3 模型
11
3.1 架构. . . . . . . . . . 。。。。。。。。。
。。。。。。。。。。。。。。。。。 11
3.2 模型缩放. . . . . . . . . 。。。。。。。。。
。。。。。。。。。。。。。。。。。 12
3.3 训练配置. . . . 。。。。。。。。。
。。。。。。。。。。。。。。。。。 13
3.4 大规模优化… 。。。。。。。。。
。。。。。。。。。。。。。。。。。 14

4 训练
15

5 评价
16
5.1 少样本方法论. . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 18
5.2 Heldout 损失 . . . . . . . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 18
5.3 金融任务 . . . . . . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 19
5.3.1 对外财务任务. . . . . . .
。。。。。。。。。。。。。。。。。 20.
5.3.2 内部任务:情感分析。
。。。。。。。。。。。。。。。。。 22
5.3.3 探索性任务:NER . . . . . . . .
。。。。。。。。。。。。。。。。。 23
5.4 BIG-bench 硬 . . . . . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 26
5.5 知识考核. . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 26
5.6 阅读理解. . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 28
5.7 语言任务 . . . . . . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 29
5.8 总结 . . . . . . . . . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 30.

6
定性评估 31

7 相关工作 32

8 伦理、限制和影响
37
8.1 伦理使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
8.2 开放 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
9 结论
38
一个架构

B 外部财务任务的细节 64

2
1.介绍

GPT-3 于 2020 年发布(Brown et al., 2020),展示了训练超大型自回归语言模型(LLM)的


强大优势。GPT-3 有 1750 亿个参数,比之前的 GPT-2 模型增加了 100 倍,并且在广泛的
现在流行的 LLM 任务中表现得非常好,包括阅读理解、开放式问答和代码生成。这种性
能在其他几个模型中得到了复制(Chowdhery et al., 2022;Scao 等人,2022;张等,2022a)。
此外,证据表明,大型模型表现出突现行为;成长允许它们获得较小模型中不存在的能力
(Wei 等人,2022a)。突现行为的一个显著例子是通过少样本提示执行任务的能力,其中
模型可以从几个示例中学习任务。当我们增加语言模型的规模时,这种能力比随机提高
得多得多。一般来说,少样本提示极大地扩展了模型支持的任务范围,并降低了寻求新
语言任务自动化的用户的进入门槛。
在 GPT-3 之后,模型的规模增长到 2800 亿(Gopher, Rae 等人,2021 年)、5400 亿
(PaLM, Chowdhery 等人,2022 年)和 1 万亿参数(Megatron, Korthikanti 等人,2022 年)。
工作还探索了实现高性能 LLM 的其他重要方面,如不同的训练目标(Tay 等人,2022b),
多语言模型(Scao 等人,2022),更高效和更小的模型(Black 等人,2022),以及寻找数
据和参数有效的训练规模(Hoffmann 等人,2022)。
这些努力几乎完全集中在通用 llm 上,在涵盖广泛主题和领域的数据集上进行训练。
虽然这些包括了一些专门领域的数据集(例如,代码(Chen et al., 2021a)或生物医学文章
Gao et al.(2021)),但重点是构建具有广泛功能的 llm。最近的工作仅使用特定领域的数据
训练模型,已产生的模型虽然小得多,但在这些领域内的任务上击败了通用 llm,如
science Taylor 等 人 (2022) 和 medicine Bolton 等 人 (2023);Luo et al. (2022);Lehman et
al.(2023)。这些发现激励了专注于特定领域的模型的进一步发展。
金融科技(FinTech)是一个庞大且不断增长的领域,NLP 技术具有越来越重要的作用
Xing et al. (2018);Fisher et al. (2016);Dredze et al.(2016)。金融 NLP 任务 Shah 等人(2022)包
括情感分析 Araci(2019)、命名实体识别 Salinas Alvarado 等人(2015)、新闻分类 Sinha 和
Khandait(2020)以及问答 Chen 等人(2021b, 2022)。虽然任务的范围与一般 NLP 基准中发
现的任务相似,但金融领域的复杂性和术语保证了一个特定领域的系统。由于所有的原
因,生成式 LLM 通常是有吸引力的-少样本学习,文本生成,会话系统等-有一个专注于
金融领域的 LLM 将是有价值的。虽然有针对金融领域 Araci(2019)调优的掩码语言模型,
但还没有针对该领域的任务进行调优或评估的 LLM。

1.1 BloombergGPT

我们训练 BloombergGPT,这是一个 500 亿参数的语言模型,支持金融行业内广泛的任


务。我们采用混合的方法,而不是建立一个通用的 LLM,或专门在特定领域的数据上
建立一个小型的 LLM。一般

3.
模型涵盖许多领域,能够在各种各样的任务中进行高水平的执行,并在训练期间避免了专
业化的需要。然而,现有特定领域模型的结果表明,通用模型无法取代它们。在彭博社,
我们支持一组非常庞大和多样化的任务,通用模型很好地服务于我们,但我们的绝大多数
应用都在金融领域内,由特定模型更好地服务。出于这个原因,我们开始构建一个模型,
该模型在金融基准上取得了同类中最好的结果,同时也在通用 LLM 基准上保持有竞争力
的表现。
通过构建迄今为止最大的特定领域数据集,利用 Bloomberg 现有的数据创建、收集和
策展资源,实现了这一目标。由于 Bloomberg 主要是一家金融数据公司,我们的数据分
析师已经收集和整理了 40 多年的金融语言文档。我们拥有广泛的金融数据档案,涵盖了
一系列的主题,并对数据来源和使用权进行了仔细的跟踪。我们将这些数据添加到公共
数据集,以创建一个拥有超过 7000 亿 token 的大型训练语料库。使用该训练语料库的一
部分,我们训练了一个 bloom 风格的 500 亿参数模型,该模型是根据 Hoffmann 等人
(2022)和 Le Scao 等人(2022)的指导方针设计的。我们在标准的 LLM 基准、开放的金融基
准和一套最准确地反映我们预期用例的彭博内部基准上验证了该模型。我们的结果表明,
我们的混合训练方法产生了一个模型,该模型在域内金融任务上大大超过现有模型,同
时在一般 NLP 基准上持平或更好。

1.2 更广泛的贡献

除了为金融数据构建 LLM,我们的目标是为更广泛的研究社区做出贡献。具体来说,本
文中记录的我们的经验提供了证据,进一步发展了社区对文献中几个开放问题的理解。

特定领域的 llm。现有的少数特定领域的 llm 专门在特定领域的数据源上进行训练(Luo 等


人,2022;Bolton 等人,2023;Taylor et al., 2022),或将一个非常大的通用模型适应于特
定领域的任务(Singhal et al., 2022;Lewkowycz et al., 2022)。我们的替代方法-在特定领
域和一般数据源上训练 LLM -迄今尚未被研究。由此产生的模型在特定领域的任务上表
现非常好,但也在通用基准上保持了强大的性能。

训练数据。几乎所有的语言模型在很大程度上都依赖于网络抓取的数据,例如 C4 (Raffel
等人,2020)和 Pile (Gao 等人,2021)(其中包括 OpenWebText2)。在使用 Touvron et
al.(2023)之前,这些数据可能会以各种方式进行清洗或子集化;Rae et al. (2020);Scao 等
(2022);Jernite et al.(2022),但数据重复 Carlini et al.(2020)和有毒语言的问题仍然是 Welbl
et al.(2021)。我们的训练数据对于 LLM 训练来说不同寻常,因为它包括大量来自可靠来
源的策划和准备的数据。

评估。LLM 评估仍然是一个具有挑战性且不断发展的问题 Gehrmann et al. (2022);Goyal et


al.(2022),新的基准试图将评估标准化

4
模型(Liang 等,2022;Srivastava et al., 2022)。然而,对于特定领域的任务,评估和实际
用例之间仍然存在不匹配。评估是建立在可用的数据集上,而不一定是建立在模型将如
何在实践中使用上。我们提供了两个公共金融 NLP 基准的结果(Shah 等人,2022;Chen et
al., 2021b)以及选择的彭博内部任务,这些任务与我们预期的用例更好地吻合,并直接
评估我们的模型执行感兴趣任务的能力。

模型的尺寸。早期的 llm 对 2000 - 4000 亿 token 的语料库进行了一次训练(Brown et al.,


2020), Hoffmann et al.(2022)假设模型训练不足,而是专注于训练具有更多数据的较小模
型,这是 Touvron 等人最近采用的一种策略(2023)。我们选择了由 Hoffmann 等人(2022)驱
动的模型大小,并在我们超过 7000 亿 token 的语料库中的 5690 亿 token 上训练一个 500
亿参数模型,以产生一个与更大的模型竞争的模型。

分词器。在组装训练数据之后,tokenization 的关键步骤是将文本转换为适合语言模型
的格式。这一步的重要性经常被忽视 Mielke et al.(2021),许多较老的 llm 使用相同的
分词器和词汇表,这意味着我们几乎没有证据支持其他分词器。我们采取了一种不同
的方法,使用 Unigram 模型而不是贪婪的基于合并的子词分词器,因为它节省了概率,
允许在推理时进行更智能的分词(Kudo, 2018)。

模型构建的挑战。GPT-3 和后续的模型是大型团队的工作,需要大量的计算。重现这些
结果的初始工作,如 OPT Zhang et al. (2022a),并没有匹配原始模型的性能。随着每个
后续模型的发布,社区的理解、经验和软件工具都在增加。在开发 BloombergGPT 时,
我们受益于作为 BLOOM 努力 Scao et al.(2022)一部分开发的现有代码,表明一个中等
规模的团队可以在特定领域的数据上产生具有竞争力的模型。我们详细描述了我们训
练 BloombergGPT 的经验,以支持未来的训练工作,并解决上述每个主题。

2.数据集

为了训练 BloombergGPT,我们构建了“FinPile”,一个全面的数据集,由一系列英文金
融文件组成,包括新闻、文件、新闻发布、网络抓取的金融文件和从彭博档案中提取的
社交媒体。这些文件是通过我们过去二十年的业务流程获得的。我们使用广泛用于训练
llm 的公共数据来增强 FinPile。结果是一个训练语料库,大约一半是特定领域文本,一半
是通用文本。完整训练集的分解见表 1。为了提高数据质量,我们根据 Lee 等人(2022a)
对每个数据集(The Pile, C4, Wikipedia, FinPile)进行去重;作为副作用,表 1 中报告的统计
数据可能与其他论文中报告的数据不同。

5
文档 识字 托克
数据集 C/ 课 C / 斯 T%
1 e4 D T
1 1
e8 e8
FinPile 175886 年 1017 17883 4.92 3635 51.27%
年 年 年
网络 158250 年 933 14768 4.96 2978 42.01%
年 年
新闻 10040 年 1665 1672 4.44 376 5.31%
年 年
申请 3335 年 2340 780 5.39 145 2.04%

新闻 1265 年 3443 435 5.06 86 1.21%

彭博 2996 年 758 227 4.60 49 0.70%

公共 50744 年 3314 16818 4.87 3454 48.73%


年 年 年
C4 34832 年 2206 7683 5.56 1381 19.48%
年 年 年
Pile-CC 5255 年 4401 2312 5.42 427 6.02%
年 年
GitHub 1428 年 5364 766 3.38 227 3.20%

Books3 19 552398 1064 4.97 214 3.02%
年 年
公共医学中心 294 32181 947 4.51 210 2.96%

ArXiv 124 47819 591 3.56 166 2.35%

OpenWebText2 1684 年 3850 648 5.07 128 1.80%

FreeLaw 349 15381 537 4.99 108 1.52%

课件 1538 年 2201 339 4.17 81 1.15%

DM 数学 One 8193 82 1.92 43 0.60%
hundred. 年
维基百科(en) 590 2988 176 4.65 38 0.53%

USPTO 的背景 517 4339 224 6.18 36 0.51%

PubMed 摘要 1527 年 1333 204 5.77 35 0.50%

OpenSubtitles 38 31055 119 4.90 24 0.34%

古腾堡(PG-19) 3. 399351 112 4.89 23 0.32%

Ubuntu IRC 1 539222 56 3.16 18 0.25%

EuroParl 7 65053 45 2.93 15 0.21%

YouTubeSubtitles 17 19831 33 2.54 13 0.19%

BookCorpus2 2 370384 65 5.36 12 0.17%

HackerNews 82 5009 41 4.87 8 0.12%

PhilPapers 3. 74827 23 4.21 6 0.08%

国家卫生研 92 2165 20. 6.65 3. 0.04%
究院的出口 年

安然公司的 24 1882 5 3.90 1 0.02%
邮件 年
维基百科(7/1/22) 2218 年 3271 726 3.06 237 3.35%

总计 226631 年 1531 34701 4.89 7089 100.00%
年 年 年

表 1:用于训练 BloombergGPT 的完整训练集的分解。提供的统计是每个文档的平均字符数


(“C/D”) , 每 个 token 的 平 均 字 符 数 (“C/T”) , 以 及 整 体 token 的 百 分 比
(“T%”)。每一列的单位都在标题中标明。
6
2.1 金融数据集(363Btoken- 54.2%的训练)

在过去的四十年里,彭博终端提供了一套全面的、多样化的结构化和非结构化金融数
据和分析。为了完成这一使命,彭博分析师策划了一套财务文件,这些文件要么是内
部创建的,要么是从外部来源获得的。我们利用这些精心策划和维护的大量文件创建
了 FinPile,其中包括公司文件、金融新闻和其他与金融市场相关的数据。
FinPile 中包括的一些文件,如公司文件,可向公众提供,尽管收集这些文件并为
LLM 训练对其进行预处理是一项艰巨的任务。其他文件,如彭博新闻(子集),必须购买。
其余文件属于私人文件,可以通过彭博终端等渠道获取。最后,我们清理这些数据,剥
离标记、特殊格式和模板。
注意,FinPile 中的每个文档都有时间戳,日期范围从 2007- 03-01 到 2022-07-31;在
这个时间范围内,文档的质量和数量都在增加。虽然我们在这项工作中没有利用日期
信息,但我们计划在未来使用它,例如用于评估模型对不同时间段的学习情况。虽然
我们不能发布 FinPile,但我们在一个大型的、精心策划的、干净的特定领域数据集上
的经验训练可能会为社区提供有用的见解,特别是关于构建金融 LLM 的优势和挑战,
以及一般的特定领域模型。我们在表 2 中提供了 FinPile 的细分和分析,以及下面包含
的数据类型的简要描述。

2.1.1 Web (298B tokens - 42.01%的训练)

彭博社通过识别包含财务相关信息的网站来收集网络内容。虽然这一类别占了 FinPile 的
大部分,但它的分类很粗略,内容主要根据网络域名的位置进行分类。在这些特定位置的
来源中,例如“美国”(占总数的 15.95%)、“亚太”(占总数的 4.72%)和“英国”(占总数
的 1.98%),文档类型是非常不同的,这在网络抓取中是可以预期的。虽然网络资源在现
有的公共 LLM 训练数据集中很常见,但彭博社的网络抓取侧重于具有财务相关信息的高
质量网站,而不是通用的网络抓取。

2.1.2 新闻(38Btoken- 5.31%的训练)

新闻类别包括除彭博记者撰写的新闻文章外的所有新闻来源。总的来说,FinPile 有数百
种英语新闻来源,包括“Bloomberg Transcripts”(占总数的 0.41%),它们是彭博电视新闻
的文字记录。一般来说,这个数据集中的内容来自与金融界相关的有信誉的新闻来源,
以保持事实性并减少偏见。

2.1.3 备案(14Btoken- 2.04%的训练)

公司备案是由(上市)公司编制并向公众提供的财务报表。在一些国家,比如美国,上市
公司是强制性的

7
日 彭博 申请 新闻 新闻 网 总计
期 络
2007 (03) 276 73 892 523 2667 4431
年 年
2008 351 91 1621 628 9003 11695
年 年 年
2009 293 93 1791 528 9179 11883
年 年 年
2010 292 111 1917 527 11388 14236
年 年 年
2011 335 117 2264 548 13643 16907
年 年 年
2012 403 105 2502 529 15015 18554
年 年 年
2013 415 87 2437 441 17230 20610
年 年 年
2014 396 251 2458 437 18510 22052
年 年 年
2015 358 1639 2371 427 20782 25576
年 年 年 年
2016 324 1891 2509 418 24337 29478
年 年 年 年
2017 294 2294 2567 398 25283 30837
年 年 年 年
2018 275 1791 2702 420 26027 31214
年 年 年 年
2019 263 1662 3102 504 27195 32726
年 年 年 年
2020 277 1632 2794 805 30928 36435
年 年 年 年
2021 247 1767 3515 938 29749 36215
年 年 年 年
2022 年[- 140 882 2206 531 16872 20631
07] 年 年 年
4939 14486 37647 8602 297807 363482
年 年 年 年 年 年

表 2:FinPile 中包含的文档中的 token 数量(以百万计),按年份(行)和类型(列)组织。单位


是数百万个 token。

按时编制并提交财务报表;例如,10-K 年度报告和 10-Q 季度报告。在我们的数据集中,


大部分的文件来自 EDGAR,它是 SEC 的在线数据库(占总数的 1.90%)。备案文件通常
是带有表格和图表的长 PDF 文档,这些表格和图表密集地包含了金融信息,在彭博社
进行了处理和规范化。备案文件与通常用于训练 llm 的文件类型有本质上的不同,但包
含了对金融决策至关重要的信息。

2.1.4 按下(9Btoken-训练的 1.21%)

Press 类别包含通常由财务相关的公司发布的新闻稿。和文件一起,新闻发布代表了公司
的大部分公共传播。然而,与备案文件不同的是,新闻稿在内容和风格上与新闻故事相似。

2.1.5 彭博社(5Btoken- 0.70%的训练)

该类别包括彭博撰写的新闻和其他文件,如意见和分析。最大的来源是“彭博新闻”(占
总新闻的 0.44%)和“彭博第一词”(占总新闻的 0.13%),后者是彭博撰写的实时新闻。
虽然“彭博新闻”的话题范围很广,但它通常关注的是与金融界相关的内容。这个数据
集包含了不同长度的文档。

8
2.2 公开数据集(345B token - 48.73%的训练)

我们在训练语料库中使用了三个广为人知且可用的公共数据集。

2.2.1 桩(184B token - 25.9%的训练)

Pile (Gao et al., 2021)是 GPT- neo (Black et al., 2021)、GPT- J (Wang 和 Komatsuzaki,
2021)和 GPT- neox (20B) (Black et al., 2022)中使用的数据集。我们将堆包含在我们的训
练数据中是出于以下原因。首先,它已经被用来成功地训练一个 LLM。其次,它经历了
重要的数据清洗和预处理。第三,它包括多个领域,我们相信这样多样化的数据将有助
于对新领域的泛化,甚至可能支持金融数据的训练。例如,像 FreeLaw 和 GitHub 这样的
域名对彭博社分别从事法律文件和软件开发的团队很有用。这一堆的创作者故意选择包
含重复的内容,重复因子与感知到的内容质量成正比。然而,当我们对每个数据集进行
去重时,堆的大小就大大减少了。此外,请注意我们的分词器(§2.3)是在堆上训练的。

2.2.2 C4 (138Btoken-训练的 19.48%)

庞大干净的爬取语料库(C4)是用于训练 llm 的常用数据集,引入该数据集是为了支持训


练 T5 (Raffel 等人,2020)。虽然它与 Pile-CC 重叠,但 C4 的清洗和处理方式不同;因此,
我们觉得在桩之外加上 C4 比重复的文件能增加更多的价值。我们发现,由于清洗的层
次,C4 包含高质量的自然语言文档,尽管其他人已经注意到跨网络域的分布是不寻常的,
其中高比例的数据来自专利 Dodge 等人(2021)。

2.2.3 维基百科(24B token - 3.35%的训练)

Pile 和 C4 都包含过时的维基百科副本,因此包含最新的维基百科页面可能对模型的事实
性有益。因此,我们包含了从 2022 年 7 月 1 日开始的英文维基百科的转储。这个数据集
的标记化效率相当低(每个标记 3.06 个字符),这表明标记量高于平均水平,这表明进一
步的清理可能有利于未来的模型训练。

2.3 标记

我们选择 Unigram 分词器(Kudo, 2018)而不是贪婪的基于合并的子词分词器,如字节对编


码(BPE) (Sennrich 等人,2016)或 Wordpiece (Schuster and Nakajima, 2012;Wu et al., 2016),
基于在 Kudo 和 Richardson(2018)以及 Bostrom 和 Durrett(2020)中有希望的结果。继 GPT-2
Radford et al.(2019)之后,我们将我们的数据视为字节序列而不是 Unicode 字符,并且我们
将 256 字节中的每一个作为标记包含在内。在预标记化步骤中,通过贪婪地匹配以下正则
表达式,将输入的字节序列分割成块:[a- za -z]+|[0-9]|[^ a- za -z0-9]+。这遵循了 GPT-2 在
防止多个字符类出现在单个 token 中的做法。然而,我们在字母块中包含了空格,这允许
学习多词标记,增加了信息密度并减少了上下文长度。的 pretokenization

9
布鲁姆 /我 NeoX /我 选 /我 BloombergGPT
们的 们的 择 们的
FinPile(旧) 451 110% 460 112% 456 111% 412
C4 166 121% 170 123% 170 123% 138
桩 203 110% 214 116% 239 130% 184
维基百科 21 88% 23 99% 24 103% 24
总计 390 113% 408 118% 434 126% 345

表 3:使用 BLOOM、NeoX、OPT (GPT2)和 BloombergGPT 分词器的每个训练数据集中


的 token 数量。所有的 token 计数都以十亿为单位(B)。请注意,此计数使用了
较旧版本的 FinPile,因此 token 数字将与早期的表不匹配。

遵循 PaLM Chowdhery 等人(2022)的方法,将每个数字放在自己的块中,希望这将导致更


好地处理数字。我们在桩上训练我们的标记器 Gao et al.(2021),因为它从不同的领域中提
取,包括代码和学术论文,按适合我们的用例的比例。

并行 Tokenizer 训练。Unigram tokenizer 的实现效率太低,无法一次性处理整个桩数据集,


因此我们使用拆分合并的方法。我们将堆中的 22 个域分别分割成 256 个大小大致相等的
块。然后,我们在每个 22 × 256(总= 5,632) 块上训练一个词汇量为 65,536(216) 的
Unigram 分词器。我们通过首先合并每个域的 256 个分词器来分层合并单个分词器,然
后合并得到的 22 个分词器以得到最终的分词器。
Unigram 分词器相当于 token(即 Unigram 语言模型)上的概率分布,我们通过对相应
token 的概率进行加权平均来合并分词器,权重由用于训练分词器的数据的相对大小(以
字节为单位)决定。结果是一个拥有 700 万个 token 的 tokenizer。为了将词汇表的大小
减少到 217 个 token,我们删除概率最小的 token 并重新归一化。为了确保我们不需要词
汇表外的 token,我们还添加了不出现在堆中的 36(256 个可能的)字节作为 token,以及
一个<|endoftext|> token。
选择词汇表大小有很多考虑因素。对于 llm 来说,词汇量大的一个好处是可以将更多
的信息放入上下文窗口。另一方面,更大的词汇表也有开销:token 嵌入需要更大比例的模
型参数。我们根据词汇量从 25,000 到 550,000 的实验选择了我们的 217 个 token 的词汇量。
对于每个词汇量,我们对 C4 数据集进行 token 化,并计算数据集的总大小(以字节为单
位),其中每个 token 都用 log2(词汇量)位表示。我们的启发式方法是选择导致 C4 的最小
编码表示的词汇量。这给了我们一个 125000 的词汇量,然后我们将其四舍五入到最接近
2 的幂次(217,或 131072 个 token)。相对于大约 50,000 个 token 的标准词汇量,我们的分
词器是很大的。分词效率的分析见表 3。

10
形状

层数头数词汇量大 70 40
小隐藏维度总参数 131,072
7,680
50.6b

Hyperparameters

最大学习率最终学习率 6e-5 6e-6 余弦


学习率调度梯度裁剪 衰减 0.3

训练

令牌硬件吞吐 569B 64 × 8 A100


量 avg. 40GB 32.5 秒/step
TFLOPs 总 102 2.36e23
FLOPS

表 4:对 BloombergGPT 的超参数及其值的总结。

3.模型 3.1 架构
我们的模型是一个基于 BLOOM 的仅解码器的因果语言模型(Scao et al., 2022)。我们提
出了一个架构的概述,完整的细节见附录 A。
该模型包含 70 层 transformer 解码器块,定义如下:

其中 SA 是多头自注意力(multi-head self-attention), LN 是层归一化(layer-normalization),


FFN 是具有 1 隐层的前馈网络。在 FFN 内部,非线性函数是 GELU (Hendrycks and
Gimpel, 2016)。不在场位置编码是通过 transformer 网络的自注意力组件的加性偏差来应
用的(Le Scao 等人,2022)。在最终的 softmax 之前,输入 token 嵌入被绑定到线性映射。
继 Le Scao 等人(2022)和首先在 detmers 等人(2022)中使用之后,该模型在 token 嵌入之后
有一个额外的层归一化,形式上:

其中 h0 是初始 token 嵌入,LNem 是嵌入层的新组件——归一化。注意,第二项包括了两个


连续的层归一化。

11
2000 最优#参数 w.r.t。失败 最优# token w.r.t. FLOPs
1000 Chinchilla-1 5000
Chinchilla-1
Chinchilla-2 Chinchilla-2
500 Chinchilla-3 MT-NLG PaLMKaplan Chinchilla-3
小田鼠 卡普兰
2000
200 GPT-3/侏罗纪/OPT BLOOM LaMDA 钦奇利亚
One OPT 棕榈栗鼠 BloombergGPT 1000 骆驼

令牌(B)
hun 棕榈 棕榈
参数(B)

骆驼
dre 500 BloombergGPT
d. NeoX
20.
50 Bloom opt mt-nlg
NeoX
10
200 LaMDA
骆驼
1 e22
3.2e22 1e23 FLOPs3.2e23 1e24 3.2e24 1001 e22 3.2e22 1e23 FLOPs3.2e23 1e24 3.2 e24

图 1:Kaplan et al.(2020)和 Chinchilla 缩放定律与之前的大型语言模型和 BloombergGPT 参


数和数据大小。我们采用了 Hoffmann et al.(2022)的风格。

3.2 模型缩放

大小。我们模型的大小是基于钦奇利亚缩放定律(Hoffmann et al., 2022),特别是他们的


方法 1 和方法 2。我们从 40GB A100 GPU 上 130 万 GPU 小时的总计算预算开始。由于我
们采用激活检查点(activation checkpointing)来减少内存占用,由于重复的前向传递,每次
迭代会额外消耗 0.33x TFLOPs。为了考虑这个额外的成本,我们将 0.75 × 1.3M 代入钦奇
利亚方程,而不是全部的量。
根据 Hoffmann et al.(2022),我们将表 3 中报告的数据用于方法 1,表 A3 用于方法 2,并将
回归直线拟合到它们的对数比例版本。这给了我们:方法 1 的参数
=exp10(log10(FLOPs)·0.498−1.004)= 52.993B
令牌=exp10(log10(FLOPs)·0.502 + 0.229)= 1111.112B 方法 2 参
数=exp10(log10(FLOPs)·0.490−0.839)= 49.753B

这些计算表明,考虑到我们的计算预算(假设仅通过一次数据),我们的~700B token 的
数据集对于“栗鼠最优”配置来说太小了虽然我们可以增加通用训练数据的数量,但
我们可以使用的特定领域训练数据的数量是有限的。FinPile 已经是最大的特定领域训
练集之一,我们不希望它代表少于我们总训练量的一半。
1.Chinchilla 推 导 出 的 缩 放 律 是 特 定 于 tokenizer 的 。由 于 支 持 多 词 表达 式 和 更 大 的 词 汇 量 , 我 们的
tokenizer 可以对相同的文档进行更紧凑的编码。这些缩放定律在分词器之间的迁移情况如何,以及假
设计算固定,词汇量大小如何影响 token 和参数权衡,仍然是一个开放的问题。我们将这种探索留给未
来的工作。

12
由于我们的数据有限,我们选择了我们能选择的最大的模型,同时确保我们可以在所
有 token 上进行训练,并且仍然留下总计算预算的约 30%作为不可预见的故障、重试和重
启的缓冲区。这将我们引向一个 50B 参数模型,这也大致是我们计算预算的栗鼠最优大
小。图 1 提供了缩放定律的总结以及 BloombergGPT 与其他模型的比较。

形状。为了确定如何将 50B 参数分配给不同的模型组件(即我们模型的“形状”),我们遵


循 Levine 等人(2020),他提出对于 self-attention 层的总数 L,最优隐藏维度 D 由:

D = exp(5.039) exp(0.0555·L)

我们在整数值范围内扫描 L,并选择产生总共~50B 参数的(L, D)组合。这导致选择 L =


70 和 D = 7510 作为我们的目标形状参数。然而,我们也想遵循传统,隐藏维度可以被
注意力头的数量整除,由商给出注意力头维度。此外,我们希望维度是 8 的倍数,以
在 NVIDIA(2023)的张量核心操作中实现更高的性能。我们确定了 40 个正面,每个正
面的维度为 192,从而得到总隐藏维度 D = 7680,总共有 50.6B 的参数。表 4 提供了在
BloombergGPT 中使用的超参数的摘要。

3.3 训练配置

训练。BloombergGPT 是一个用标准的从左到右的因果语言建模目标训练的 PyTorch 模


型。继 Brown et al.(2020)之后,我们希望所有的训练序列都是完全相同的长度,在我
们的例子中是 2048 个 token,以最大限度地利用 GPU。为了实现这一点,我们将所有
标记化的训练文档与<|endoftext|>标记连接起来作为文档分隔符。然后,我们将这个
token 序列分解为 2048 个 token 的块。注意,使用这种方法,每个训练序列可能包含来
自不同域的多个文档。还要注意,因为我们使用的是不在场的位置编码,所以
BloombergGPT 可以应用于推理时长度超过 2048 的序列。为了优化效率,训练序列被
分组成批次,如下所述。

优化。我们使用 AdamW 优化器(Loshchilov and Hutter, 2019)。我们将 β1 设置为 0.9,β2


设置为 0.95,权重衰减设置为 0.1。在 Brown et al.(2020)之后,我们将最大学习率设置为
6e-5,并使用具有线性预热的余弦衰减学习率调度器。我们在前 1800 个步骤中热身学习
率。继 Hoffmann et al.(2022)之后,最终的学习率是最大学习率的 0.1 倍,即 6e-6。我们还
采用了批大小热身(Brown et al., 2020):在前 7200 步中,我们使用 1024 (2.1M token)的批
大小,然后切换到 2048 (4.2M token)的批大小用于剩余的训练。
在我们的初始运行中,我们将所有层的 dropout 设置为 0.0,尽管我们稍后添加了
dropout,如§4 所述。模型参数被随机 p 初始化为均值为零、标准差为 1/(3D) = 0.006588
的正态分布的样本(Smith et al., 2022)。在 Megatron-LM 之后(Shoeybi et al., 2019),我
们将 MLP 中的第二层和注意力的输出层的标准√偏差重新调整 1/ 2L。我们使用

13
查询关键层缩放技术(Shoeybi et al., 2019),该技术被提出以提高 FP16 混合精度训练
的数值稳定性,但也可能有助于 BF16。

训练不稳定。LLMs 优化需要在非常复杂的非凸损失曲面上运行凸优化算法。之前的工
作报告了在训练 LLMs 时的各种不稳定性。例如,Chowdhery 等人(2022)发现,尽管启
用了梯度裁剪,但在训练 PaLM 时,损失增加了约 20 倍。他们通过在峰值开始前大约
100 步从一个检查点重新开始训练来缓解这些问题,然后跳过 200-500 个数据批次。他
们假设,峰值的发生是由于特定数据批次与特定模型参数状态的组合。同样,在 OPT 训
练期间,Zhang 等人(2022a)注意到梯度和激活规范的峰值,或训练困惑度的分歧。在这
些行为之后,他们降低了自己的学习率,这稳定了这些规范,并允许训练继续。有趣的
是,Scao 等人(2022)只报告了一个损失峰值,模型从这个峰值中自行恢复。

硬件堆栈。我们使用 AWS 提供的 Amazon SageMaker 服务对 BloombergGPT 进行训练和


评估。我们使用训练时可用的最新版本,总共训练 64 个 p4d。24 xlarge 实例。每个 p4d。
24xlarge 实例有 8 个 NVIDIA 40GB A100 gpu,具有 NVIDIA NVSwitch 节点内连接(600
GB/s)和 NVIDIA GPUDirect 使用 AWS Elastic Fabric Adapter (EFA)节点间连接(400 GB/s)。
这总共产生了 512 个 40GB A100 gpu。为了快速的数据访问,我们使用 Amazon FSX For
Lustre,它支持每个 TiB 存储单元高达 1000 MB/s 的读写吞吐量。

3.4 大规模优化

为了训练 BloombergGPT,它在云实例上的内存占用比可用 GPU 内存大,我们依赖于零


优化的第 3 阶段(Rajbhandari et al., 2020)。我们利用了 AWS 专有的 SageMaker 模型并
行(SMP)库,该库能够在多个 GPU 设备和实例上自动分发大型模型(Karakus 等人,2021)。
在尝试各种技术后,我们平均实现了 102 TFLOPs,每个训练步骤需要 32.5 秒。我们发
现以下设置在我们的训练中表现最好。

零优化(阶段 3).在一组 gpu 上对训练状态(模型参数、梯度和优化器状态)进行零分片。


我们在 128 个 gpu 上对模型进行分片,在训练过程中我们有 4 个模型副本。

中等收入国家。Zhang et al. (2022b)降低了云训练集群的训练通信开销和内存需求。


MiCS 包括分层通信、2 跳梯度更新、尺度感知模型划分等功能。

激活检查点。Chen et al.(2016)通过在向后传递期间以额外的计算为代价删除激活来最小
化训练内存消耗。当一层启用激活检查点时,在前向传递之后,只有层的输入和输出保
留在内存中,而任何中间张量都从内存中丢弃。在向后传递期间,这些中间张量可能会
被重新计算。我们对每个 transformer 层应用激活检查点。

14
4.00 2.30 学习曲线
configconfiglr 6e-5 + bs 1024
3.75 Lr
2.25
Lr Lr
3.50
2.20 6e-5
3.25 6e-5
2.15 +lrlr
损失

3.00 Lrlrbs6e-54e-52e-51024+ dropoutLr


2.10 4e-5metric1e-5 + dropout
2.75 Lr 2e-5
+smoothvaldropouttrainlossLr
2.50 1e-5 + dropoutlossmetric
smooth train loss val
2.25 loss

2.00
0 20000 40000 60000 Steps80000 100000 120000 140000

图 2:(平滑)BloombergGPT 的训练和验证损失。内部图是外部图(共享 x 轴)虚线矩形内


区域的放大版。颜色表示不同的超参数配置。样式表示训练 vs 验证损失。

混合精度训练。为了减少内存需求,在 BF16 中进行前向和后向传递,而参数则以全精度


存储和更新(FP32)。不在场证明矩阵以全精度计算并存储在 BF16 中。我们还使用 FP32
在注意力块中计算融合的 softmax,并将其结果存储在 BF16 中。最后,损失函数中的
softmax 计算在 FP32 中计算。

融合内核。优化的另一种可能性是将几个操作的组合组合成一个 GPU 操作。这既可以


通过避免 存储计 算图 中的中间 结果来 减少 峰值内存 使用, 也有 助于提高 速度。 与
Megatron-LM Shoeybi 等人(2019)类似,我们在 self-attention 模块中使用 SMP 中的 mask
-causal-softmax 融合核。在实践中,我们观察到速度方面的 4-5 TFLOPs 改进,并在给
定其余配置的情况下避免内存不足错误。

4.训练

训练 BloombergGPT 的过程涉及基于模型训练进展的一路上的决策。我们分享了这一过
程中的一些亮点。图 2 显示了训练集和验证集的学习曲线。实线显示(平滑)训练损失,
虚线显示保留验证集上的损失。线条颜色的变化也表明优化超参数配置的变化

15
如期,或为了应对验证损失的增加或停滞。这张图显示了成功的模型训练运行所采取的
路径。为了呈现一个清晰的图,图中没有显示不同模型配置的其他尝试,回滚后被覆盖
的部分运行,或在最终模型中未使用的其他训练策略。
我们在当前批次上每 5 步测量一次训练损失。原始值变化很大,绘制时造成很大的
抖动。图中通过显示平滑了训练损失
yt= Pti = 0(1−α)(t−1)
其中 α= 0.001。不需要平滑
验证损失,因为它每 300 步在整个验证集上测量一次。
我们总共训练了 139,200 步(~53 天),并在通过我们的训练数据(709B 可用 token 中的
569B token)完成一个 epoch 的 80%后结束了模型训练。我们提前结束了训练,因为我们
保留的开发集上的损失不再改善,尽管更长时间的训练可能会产生进一步的改进。
我们从 7200 步的 1024 个预热批大小开始运行,之后我们切换到常规的 2048 个批大
小(颜色从黑色变为蓝色)。批量大小的变化表现为步骤 7200 时验证损失的可见曲率变化。
其余的大部分训练都稳定地进行,训练和验证损失减少。在后续阶段,在步骤 115500 之
后,当我们观察到验证损失持平或增加时,需要进行干预。然后,我们依次应用以下纠
正性修改:

•步骤 115500(蓝色到橙色):将学习率缩小到三分之二
•步骤 129,900(橙色到绿色):学习率减半,并添加 dropout (0.1 prob-
能力)

•步骤 137,100(绿色到红色):学习速率再次减半

基于在验证损失上缺乏可观察的进展,我们在步骤 14.6 000 处结束运行。我们选择步骤


139,200 的检查点作为基于验证损失和下游评估的最终模型。

5.评价

我们评估了 BloombergGPT 在两大类任务上的表现:金融特定任务和通用任务。金融专


用性任务帮助我们检验我们的假设,即在高质量的金融专用性数据上进行训练将在金
融任务上产生更好的结果。通用任务调查我们模型的表现是否与之前发表的结果直接
可比。对于金融任务,我们组装了公开可用的金融数据集,其中包括一系列 NLP 任务。
然后,为了直接测试 BloombergGPT 在彭博感兴趣的任务上的能力,我们还包括了从
彭博内部用于情感分析和命名实体识别的高质量评估集中提取的任务。对于通用任务,
我们从多个现有基准中提取并将结果分组为以下类别:BIG-bench Hard、知识评估、阅
读理解和语言任务。每种类型的任务数量和组的定义见表 5。

16
套件 任务 它衡量的是什么?

公共财政任务 5 金融领域的公共数据集
彭博金融任务 12 NER 和情感分析任务

Big-bench Hard (Suzgun 等人,2022) 23 推理和一般 NLP 任务


知识的评估 5 闭卷信息回忆测试
阅读理解 5 测试开卷任务
语言任务 9 不是直接面向用户的 NLP 任务

表 5:评估基准。我们在一组评估下游性能的高覆盖率标准基准上评估了 bloombergpt,
这些基准取自 HELM、SuperGLUE、MMLU 和 GPT-3 套件。由于这些有显著
的重叠和/或相互包括,我们将它们重组为此处提出的类别。我们只对每个数
据集的一个设置进行评估。我们进一步评估了一套内部和公共财政任务的
BloombergGPT。

名字 #token(B) #参数。(B) 计算

BloombergGPT 569 50.6 1.00×


GPT-NeoX 472 20. 0.33×
选择 300 66 0.69×
布鲁姆 366 176 2.24×

GPT-3 300 175 1.82×

表 6:评价模型队列。OPT 和 BLOOM 都有多种可用尺寸,我们报告了我们评估的尺寸。


我们注意到,计算数字仅在模型之间具有部分可比性:例如,bloom 训练数据只
有 1/3 是英语的,OPT 重复了其一些训练数据。我们报告了可用的 GPT-3 结果,
但由于缺乏可用性,我们自己没有运行它。

我们将 BloombergGPT 与§7 中描述的三个最接近的模型进行比较,基于模型大小、


训练数据类型、整体性能,以及最重要的是访问权限。表 6 提供了模型大小和计算的
概述。

1.GPT-NeoX (Black et al., 2022):根据 Liang et al.(2022)的说法,该模型是在 50B 参数


下表现最好的可用模型。

2.OPT66B(Zhang et al., 2022a):我们选择与 OPT66B 进行比较,因为我们的模型大小和结


构大致匹配,尽管我们的模型更小。

3.BLOOM176B(Scao et al., 2022):虽然这个模型比 BloombergGPT 大得多,但我们使用相同的模型架


构和软件栈。我们注意到,BLOOM176B 是多语言的,所以虽然它大得多,但它也对来自更多语
言的数据进行了训练。

17
这三个模型都使用了我们在训练语料库中使用的一些相同的通用数据集。当外部可用时,
我们还报告原始 GPT-3 (Brown et al., 2020)的结果
我们更喜欢自己运行模型,以确保相同的评估设置,我们将任何在其他地方报告的、
不是由我们运行的结果放在一个单独的组中。为了公平地比较模型,我们避免了对提示
和其他技术的任何调整,这些技术可能导致一些(但不是所有)模型的结果得到改善。出于
这个原因,每个任务都通过“标准”提示进行测试(如表 7 所示),即不需要对基础模型进
行任何参数更改,不需要任务描述,也不需要思维链提示(Wei et al., 2022b)。呈现给模
型的少样本数量取决于任务,我们在各自的章节中包括了这些细节。对于每组结果,我
们进一步呈现类似于 Liang et al.(2022)的胜率,它代表了我们自己运行评估的所有模型对
之间在单个任务上并排比较的“胜”的比例。

5.1 少样本方法论

对于给定一组候选项的任务,我们执行基于似然的分类,遵循 Brown et al.(2020)。我们


考虑三种分类方法:常规、校准和归一化。在形式上,
•正则:arg 最大 αp(α|s)
•校准:arg 最大 αp(α|s)/p(α|“答案:”)
•归一化:argmaxα p(α|s)/len(α)

其中 α 是候选项,s 是上下文,len 衡量子词 token 的数量。我们报告了每个模型和任务


的最佳方法的性能。对于其他任务,我们通过贪婪解码执行生成。
我们使用官方的分割并尽可能报告测试集上的性能。如果测试标签没有公开可用,我
们会报告开发集上的性能。如果一个数据集的官方划分不存在,我们通过选择 20%的样
本作为测试,其余的作为训练来创建训练和测试划分。所有少样本的上下文示例都是从
训练集中采样的。为了减少少样本评估的方差,我们为每个测试示例采样不同的镜头,
除非另有规定。为了一致性,对于每个测试示例,所有模型都具有相同的表面形式作为
我们评估的输入。

5.2 留存损失

我们首先测试 BloombergGPT 对分布中的金融数据的语言分布进行建模的效果。我们在


一个保留数据集上评估不同模型的每字节位数,该数据集包含来自 FinPile 所有章节的示
例(见§2)。为了限制数据泄漏和更好地模拟 LLMs 的现实世界使用,我们选择了一个时
间保留
2.另一个相关的通用模型,大小相当(LLaMA, Touvron et al., 2023),在准备本手稿期间发布,但没有第
三方评估结果,我们没有获得模型权重的访问权限。

18
0.8 BloombergGPT
GPT-Neo-X
OPT66B
BLOOM176B
每字节位数
0.6

0.4
0.2

0.0 彭博社整体备案新闻通讯社
网络

图 3:我们 FinPile 中每种数据类型的保持测试集上的每字节位数(越低越好)。文档集


被及时保留,并与训练集去重,这样所有的文档都完全被 BloombergGPT 所
看不到。无论如何,我们观察到模型之间存在很大的差距。对于专业的域
内文档(如文件),改进最大。

比训练集更晚的数据集,并在训练集和保留集之间执行重复数据删除。在评估过程中,
对于超过 2048 个 token 的文档,我们使用半窗口大小作为上下文的滑动窗口方法。这意
味着任何超过前 2048 个词例的词例在预测期间至少有 1024 个词例作为上下文。我们在
FinPile 中按文档类型报告损失分类。

图 3 显示 BloombergGPT 始终优于其他模型。虽然这是预期的,主要用作完整性检查,
但它也为其他模型的泛化能力提供了有价值的见解。例如,与 BloombergGPT 的差距在
备案类别中最为显著,可能是因为这些文档虽然公开,但通常是 PDF 格式,因此不包括
在任何现有的数据集中。

5.3 财务任务

在金融中最常考虑的 NLP 任务在更广泛的 NLP 文献中也很常见;但是,当在金融数据上


执行时,这些任务具有不同的特点和挑战。以情绪分析为例,标题如“公司将裁员 1 万
人”在一般意义上描绘负面情绪,但有时可以被认为是对公司的财务情绪的积极影响,
因为它可能导致股价或投资者信心增加。我们使用公开和内部基准的组合来评估
BloombergGPT,BLOOM176B, GPT-NeoX 和 OPT66B 的表现。所有考虑的任务类型及其对应的
提示模板如表 7 所示。

19
任务 模板/例子

区别的

情绪分析 {句}
问题:什么是情感?
答:{负/中性/正}
方面情感分析 {句}
问题:{target}上的情绪是什么?
答:{负/中性/正}
二元分类 {句}
问题:{}的问题吗?
答:{是的/不}
生成

尼珥 史蒂夫·乔布斯是苹果公司的
CEO
提取命名实体:史蒂夫·乔布斯(人),苹果(组织)
尼珥+内德 苹果公司停止使用英特尔芯片
提取股票:AAPL, inc
质 {上下文}



问题:{}的问题吗?
答:{答案}

表 7:我们在金融领域评估的不同任务的模板。

5.3.1 对外财务工作

我们的公共金融基准包括来自烟道基准(Shah et al., 2022)和 ConvFinQA 数据集(Chen et


al., 2022)的四个任务。由于 LLM 在大多数这些金融任务上的表现尚未得到广泛报道,
因此没有标准的测试框架。因此,我们将它们适应于少样本设置(见§5.1 节)。我们设计
实验的指导原则是选择射击的数量,使所有模型的平均性能是最好的。虽然这些任务的
非 llm 自定义模型数量是可用的,但由于评估设置的差异,我们在这里省略了报告它们。
因此,我们的声明仅限于 llm 的比较。我们对以下任务进行评估(更多细节见附录 B):

•FPB (Malo et al., 2014): Financial Phrasebank 数据集包括一个对来自金融新闻的句


子的情感分类任务。任何可能让投资者受益/受伤的新闻都被认为是积极/消极的,
否则就是中性的。我们创建自己的分割,并在 5 次设置中报告以支持度加权的 F1
分数。

•FiQA SA (Maia et al., 2018):第二个情感分析任务是预测英文财经新闻和微博标题


中的特定方面情感,这是作为 2018 年财经问答和观点挖掘挑战的一部分发布的。
虽然原始数据集是在连续尺度上标注的,但我们将数据离散化为一个包含负类、
中性类和正类的分类设置。和 FPB 一样,我们创建了自己的划分,包括微博和新
闻,并使用 5 次设置,报告加权 F1。

20.
BloombergGPT GPT-NeoX OPT66B BLOOM176B
ConvFinQA 43.41 30.06 27.88 36.31
FiQA SA 75.07 50.59 51.60 53.12
FPB 51.07 44.64 48.67 50.25
标题 82.20 73.22 79.41 76.51
尼珥 60.82 60.98 57.49 55.56

所有任务(avg) 62.51 51.90 53.01 54.35


所有任务(WR) 0.93 0.27 0.33 0.47

表 8:金融领域任务的结果。

•标题(Sinha and Khandait, 2020):这是一个关于黄金商品领域的新闻标题是否包含某些信


息的二分类任务。这个人工标注的数据集由关于“黄金”的英文新闻标题组成。每
一篇新闻文章都包含以下标签的子集:“价格与否”、“价格上涨”、“价格下跌”、
“价格稳定”、“过去价格”、“未来价格”、“过去一般”、“未来一般”、
“资产比较”。我们使用官方文档将每个标签用语言表达成一个问题,使用 5 个镜
头,并报告所有类别的平均加权 F1 分数。

NER (Salinas Alvarado 等人,2015):这是一项针对金融数据的命名实体识别任务,从提


交给 SEC 的金融协议中收集信用风险评估。注释的实体类型遵循标准 CoNLL 格式
(Tjong Kim Sang 和 De Meulder, 2003),并以 PER、LOC、ORG 和 MISC 进行注释。
由于在少样本设置中学习预测空输出是非常重要的,因此我们删除了不包含任何实
体的句子。由于其定义模糊,我们进一步删除 MISC 标签。所有的模型都需要更多
的镜头才能表现良好,因此我们选择了 20 个镜头并报告实体级别的 F1 分数。

•ConvFinQA (Chen et al., 2022):给定来自标准普尔 500 收益报告的输入,其中包括


文本和至少一个带有财务数据的表格,任务是回答需要对输入进行数值推理的对话
问题。该任务需要数值推理,对结构化数据和金融概念的理解,模型需要将后续问
题与对话回合联系起来。

对于 ConvFinQA,我们使用了一个完整的黄金对话,其上下文被用作模型的输入。
当对话的每个“转弯”结束时,“转弯”连同该转弯的答案被附加作为未来转弯的
上下文。我们报告了在公共开发集上的精确匹配精度。

BloombergGPT 在五个任务中的四个(ConvFinQA, FiQA SA, FPB 和 Headline)中表现最


好,并在 NER 中排名第二(表 8)。因此,BloombergGPT 在我们测试的所有模型中也具
有最高的胜率。ConvFinQA 与同等大小的模型之间的差距尤其明显,因为它需要使用
对话输入对表格进行推理并生成答案,因此具有挑战性。

21
名字 时间 令牌 测试尺 % Pos % Neu %底片

股票的新闻 2018 - 2019 150 - 1000 7 87 6
200 年
公平社交媒体 2015 - 2020 15 - 1000 10 83 7
20 年
股本成绩单 2008 - 2020 70 - 800 19 75 6
80
ES 新闻 2016 - 2019 100 - 1000 32 53 15
120 年
国家新闻 2009 - 2021 50 - 1000 18 60 22
1000 年

表 9:彭博内部情感分析任务概述。输入 token 和标签分布编号在测试集上计算。

5.3.2 内部任务:情感分析

对于 Bloomberg-internal 任务,我们考虑在金融文献中普遍存在的特定方面情感分析。我
们使用的所有数据集都是英文的。
我们的注释过程由一个发现阶段组成,在此期间我们建立注释和采样程序,了解每个
示例通常需要多少注释者,并确定注释者所需的训练水平(Tseng et al., 2020)。根据任务
的复杂性,我们的注释者是由彭博社(Bloomberg)的金融专家、顾问工作者组成的专门团
队,或两者的结合。在每一种情况下,纽带都是通过额外标注者的裁决来解决的,歧义
的例子被排除在外。本节中的所有数据集都由 2 个标注者注释,第三个标注者打破了任
何联系。
我们使用五次评估来测量内部数据集的 llm 的性能,类似于外部数据集。由于数据
集很大,我们随机抽样最多 1k 个测试样本。我们报告每个标签支持度加权的 F1 值。
请注意,与外部数据集类似,我们内部数据集中使用的数据的未标记版本很可能出现
在 FinPile 中,因此在训练期间被 BloombergGPT 看到。然而,由于一些 FinPile 也可以
在网络上获得,我们对比的其他 llm 可能也已经在此数据的未标记版本上进行了训练。
数据集统计数据如表 9 所示。

•股票新闻情绪:此任务是预测新闻报道中对一家公司表达的特定方面的情绪。该数据
集由来自彭博社、premium 和网络内容的英语新闻故事组成。标注“正面”、“负
面”或“中性”,表明该新闻报道可能会增加、减少,或不会改变长期投资者对该
公司的信心。

•股票社交媒体情绪:任务类似于“股票新闻情绪”
但我们使用的不是新闻,而是与金融相关的英语社交媒体内容。

•股票文本情绪:这个任务也类似于“股票新闻情绪”,但我们使用的不是新闻,而
是公司新闻发布会的文字记录。这些文本通过使用语音识别,有时也通过人工编
辑来提供。长转录本以块为单位进行处理,我们数据集中的每个块通常包含 70 到
80 个 token。

22
BloombergGPT GPT-NeoX OPT66B BLOOM176B
股票的新闻 79.63 14.17 20.98 19.96
公平社交媒体 72.40 66.48 71.36 68.04
股本成绩单 65.06 25.08 37.58 34.82
ES 新闻 46.12 26.99 31.44 28.07
国家新闻 49.14 13.45 17.41 16.06

所有任务(avg) 62.47 29.23 35.76 33.39


所有任务(WR) 1.00 0.00 0.67 0.33

表 10:内部特定方面情感分析数据集的结果。BloombergGPT 在情感分析任务上的表
现远远超过了其他所有模型。

名字 令牌 测试尺 疯狂 ORG 每
寸 的
自行 ~ 500 0.2 1.6 0.0
车造 21 500 0.7 1.0 0.6
福世 ~
界" 30 500 0.1 1.3 0.4
组织 500 0.7 2.7 1.0
~
BN 32 500 0.6 1.4 0.3
申请 ~ 500 0.6 0.6 0.3
头条新闻 50 500 0.4 1.4 0.2
溢价 ~
成绩单
29
~
社交媒体 23

~
12

表 11:我们内部 NER 测试集的统计概况。我们报告了每个示例的平均位置、组织、人员数


量。

ES 新闻情绪:虽然这项任务是预测新闻故事中对公司(方面)表达的特定方面的情绪,
但目标不是表明对投资者信心的影响。如果新闻报道中包含的内容反映了公司环境
和社会政策的好、坏或中性消息,则这些报道被标注为“积极”、“消极”或“中
性”。

•国家新闻情感:该任务与其他情感任务的不同之处在于,目标是预测新闻故事中表
达的对一个国家的情感。该数据集由来自彭博社、premium 和网络内容的英语新
闻故事组成。如果新闻故事暗示了该国经济的增长、萎缩或现状,则这些故事被
标注为“积极”、“消极”或“中性”。

表 10 显示,在四个内部方面特定的情感任务中,bloombergpt 的表现比其他所有测试模型
都要好,差距很大。模型表现相似的唯一任务是社交媒体情感任务,而 BloombergGPT 比其
他模型的表现至少高出 25 点,在其他三个任务中最高超过 60 点。

5.3.3 探索性任务:NER

尽管 NER 是一个成熟的 NLP 任务,使用 BERT Wu 和 Dredze(2019)取得了最先进的结


果;Luoma 和 Pyysalo(2020)和 T5 Liu et al.(2022)风格模型,

23
NER 在很大程度上是生成式 llm 的未探索任务。NER 不在 HELM Liang et al.(2022)中,在
BIG-bench Srivastava et al.(2022)中有一个单一的(Polish)任务,我们研究的 LLM 论文中没
有一篇报告 NER 的表现。因此,我们认为 NER 是一项探索性任务,鉴于其在金融部门的
重要性,我们报告了初步的 NER 结果。
为什么 NER 对于生成性 llm 来说可能是一项艰巨的任务,有几个原因。NER 是一项
信息提取任务,更适合于编码器-解码器或仅编码器架构。LLMs 的生成性质并没有给
NER 带来优势。要为 NER 获得比其他任务更合理的结果,需要广泛的提示工程和更多的
镜头。金融特定的 NER 具有微妙之处,使其特别难以进行零次或少次学习。
例如,考虑一下(捏造的)标题“彭博社:马斯克先生在 Twitter 上添加了新的功能和对中
国的评论”。根据我们的注释指南和下游任务需求:(a)报道新闻机构“彭博社”是否可以
被标记,取决于我们是否只想要显著的实体,(b)“马斯克先生”或仅仅“马斯克”是要
被标记的 PER, (c)“Twitter”可以被标记为一个 ORG 或一个 PRD(产品),因为功能添
加到 Twitter 产品而不是组织,(d)“中国”可以被标记为 ORG 或 LOC,尽管正确的标签
可能是 ORG。没有在提示中添加广泛的注释指导方针,LLM 不知道预期的标记行为。
基于初步测试,我们确定了以下设置,以从所有模型中获得在内部 NER 任务上的最佳
性能。首先,我们将被预测的实体类型限制为 ORG、PER 和 LOC。总的来说,我们过滤
掉了不到 1%的实体。我们还删除了所有不包含实体的文档(即所有“O”)。这两种修改都
是为了增加在少样本提示中看到的示例的有用性。我们预计,对 NER 的提示工程的进一
步工作可以产生更好的结果。
我们考虑了来自不同领域的 7 个彭博内部 NER 数据集。

•BN NER:这是一项对 2017 年至 2020 年期间出现在英文长篇彭博新闻内容(“BN


wire”)中的实体的命名实体识别任务。

•BFW NER:类似于“BN NER”,但不是使用长形式的 BN wire,我们使用来自 2018


年至 2020 年“彭博第一词”wire 的短篇故事。

•申报 NER:这项任务的目标是识别公司提交的强制性财务披露中发生的实体。该数
据集包含 2016 年至 2019 年之间采样的文件。

•标题 NER:此任务的目标是识别出现在彭博新闻英文内容标题中的实体。该数据集包
含 2016 年至 2020 年之间采样的标题。

高级 NER:这项任务的目标是识别出现在彭博社采集的第三方英语新闻内容子集中的
实体。该数据集包含 2019 年至 2021 年采样的新闻报道。

•转录本 NER:该任务的目标是识别发生在转录本中的实体
公司新闻发布会。该数据集包含 2019 年的转录本。

24
BloombergGPT GPT-NeoX OPT66B BLOOM176B
尼珥

自行 72.04 71.66 72.53 76.87


车造 57.31 52.83 46.87 59.61
福世
界" 58.84 59.26 59.01 64.88
组织 53.61 47.70 46.21 52.17
BN 60.49 59.39 57.56 61.61
申请 75.50 70.62 72.53 77.80
头条新闻 60.60 56.80 51.93 60.88
溢价
成绩单
社交媒体
所有任务(avg) 62.63 59.75 58.09 64.83
所有任务(WR) - 0.57 - 0.29 - 0.19 - 0.95
尼珥+内德

自行 55.29 34.92 36.73 39.36


车造 60.09 44.71 54.60 49.85
福世
界" 66.67 31.70 65.63 42.93
组织 67.17 36.46 56.46 42.93
BN 64.11 40.84 57.06 42.11
申请 73.15 23.65 70.44 34.87
头条新闻 67.34 62.57 70.57 65.94
溢价
成绩单
社交媒体
所有任务(avg) 64.83 39.26 58.79 45.43
所有任务(WR) - 0.95 - 0.00 - 0.67 - 0.38

表 12:内部 NER 和 NED 数据集的结果。在 NER 上,虽然大得多的 BLOOM176B 模型的


表现优于所有其他模型,但所有模型的结果都相对接近,bloombergpt 的表
现优于其他两个模型。在 NER+NED 上,BloombergGPT 的表现大大超过了
其他所有模型。

•社交媒体 NER:这项任务的目标是识别出现在英语金融相关社交媒体内容中的实体。
该数据集包含 2009 年至 2020 年之间采样的社交媒体内容。

由于我们的数据集是实质性的,我们从每个过滤后的内部数据集中随机采样 4000 个训
练样本和 500 个测试样本。我们利用 20 次提示并使用 F1 进行评估。内部 NER 任务的
结果是混合的(表 12)。更大的 BLOOM176B 赢得了大多数 NER 任务。在同等大小的模型
中,BloombergGPT 表现最好,排名第一一次(头条),第二四次(BN,保费,转录本,
社交媒体),第三次(BFW),最后一次(备案)。

探索性任务:NER+NED 命名实体消歧(NED)将实体提及链接到知识库或其他结构化信
息源中的已知实体。在金融世界中,我们寻求将公司的文本提及链接到它们的股票符
号(ticker symbols),这是一个唯一标识特定股票在特定股票市场上公开交易的特定股票
股票的缩写。
我们通过评估一个联合的 NER+NED 任务:识别文档中提到的公司的股票报价符号,
直接测试 LLM 完成这项任务的能力。这

25
要求模型首先识别公司提及数,然后生成相应的股票行情。例如,“苹果公司宣布他们
将在未来的产品中停止使用英特尔芯片。正确的 NER 输出应该是“AAPL,英特尔”,
而正确的 NER+NED 输出应该是“AAPL,英特尔”。
这项任务的优点之一是,它对提取精确文本跨度的变化具有鲁棒性。虽然 NER 评估
需要精确匹配,但 tickers 可能在不首先识别 span 的情况下成功产生。此外,它评估了模
型对公司的知识,它们的各种表面形式,以及公司到股票的映射。
通过在来自每个域的 Bloomberg 内部 NER 注释文档上为财务数据中的公司运行最先
进的实体链接系统,我们为这项任务创建了链接股票的评估数据。我们删除了没有链接
股票的文档。在我们的 NER 评估之后,我们从每个过滤后的内部数据集中随机采样了
4000 个训练样本和 500 个测试样本。我们利用 20 次提示并使用 F1 进行评估。
表 12 显示,BloombergGPT 以很大的优势超过了所有其他模型,除了在社交媒体数
据上,它仅次于 BLOOM176B 。在我们的社交媒体数据中,公司经常被它们的股票引用,
去 掉 了 模 型 链 接 提 及 的 要 求 , 并 将 任 务 恢 复 到 NER 。 这 些 结 果 进 一 步 强 调 了
BloombergGPT 在金融任务上的优势。

5.4 BIG-bench Hard

现在我们转向在标准的通用 NLP 任务上评估 BloombergGPT。虽然我们的模型关注的是


金融任务,但我们纳入通用训练数据可能不仅有助于改善金融任务,还可以让我们的模
型在更标准的 NLP 数据集上表现良好。我们从 BIG-bench Hard (Suzgun et al., 2022)开始,
这是 BIG-bench 中最具挑战性任务的子集(Srivastava et al., 2022)。它只包括在建时可用
的最佳模型无法通过标准的提示技术实现高于平均人类评分者的性能的任务。
每 个 任 务 的 结 果 如 表 13 所 示 。 总 的 来 说 , 虽 然 bloombergpt 落 后 于 大 得 多 的
PaLM540B(10倍参数)和 BLOOM176B(3.5 倍参数),但它是大小相似的模型中表现最好的。事
实上,它的性能更接近于 BLOOM176B ,而不是 GPT-NeoX 或 OPT66B 。它在日期理解、
hyperbaton(形容词排序)和跟踪打乱的对象方面进一步实现了所有模型的最佳性能。总
而言之,根据这个基准,我们发现发展金融专用的 BloombergGPT 并没有以牺牲其通用
能力为代价。

5.5 知识评估

接下来,我们评估知识,我们将其定义为通过场景在不提供额外上下文或资源(闭卷问答)
的情况下,回忆在模型训练中看到的信息的能力。这包括多项选择题,我们报告准确性。
我们遵循 Brown et al.(2020)的模板。场景列表如下:

•ARC (Clark et al., 2018):从 3 年级到 9 年级收集的多项选择题


科学考试,包括简单和有挑战性的分割题。

26
大板凳困难任务 BloombergGPT GPT-NeoX OPT66B BLOOM 176B PaLM540B
布尔表达式 λ 62.40 71.20 48.40 69.20 83.2
因果关系的判断 49.73 52.41 51.87 51.87 61.0
日期的理解 54.80 45.60 49.60 50.00 53.6
消歧 QA 34.00 40.80 40.40 40.40 60.8
戴克语言 15.60 26.00 14.80 42.00 28.4
正式的谬论 50.80 52.80 54.00 52.80 53.6
几何形状 15.20 8.00 11.60 22.40 37.6
倒装法 92.00 92.00 91.60 92.00 70.8
λ
逻辑推理 (avg) 34.53 30.93 31.87 34.00 60.4
电影推荐 90.40 86.40 91.20 91.20 87.2
λ
多步算法 [2] 1.20 0.40 0.40 0.00 1.6
导航 42.00 45.20 42.00 50.00 62.4
对象计数 33.20 21.20 26.00 36.80 51.2
表中的企鹅 37.67 33.56 28.08 40.41 44.5
彩色物体的推理 34.80 26.00 31.20 36.80 38.0
毁灭的名字 56.00 54.00 52.80 54.80 76.0
显著翻译错误检测 20.00 20.40 16.40 23.60 48.8
蛇鲨 69.66 62.36 69.66 72.47 78.1
体育的理解 62.80 53.20 54.40 53.20 80.4
时间序列 29.20 21.20 23.60 36.80 39.6
跟踪打乱的物体 λ (avg) 25.33 24.53 24.00 23.47 19.6
谎言之网 49.20 52.40 54.00 51.20 51.2
单词排序 4.80 5.20 2.40 7.60 32.0

NLP 任务(avg) 54.39 51.63 52.60 54.96 62.7


λ
算法的任务 (avg) 28.42 27.84 25.37 33.95 40.9

所有任务(avg) 41.97 40.25 39.58 44.91 52.3


所有任务(WR) 0.57 0.45 0.39 0.75 -

表 13:大板凳硬结果使用标准的 3 射提示。遵循 Suzgun 等人(2022)的惯例,我们用上标 λ


表示算法任务,并给出 NLP 和算法类别的平均值。PaLM540B(Chowdhery et al.,
2022)的基线数字取自原始 BBH 论文。

•CommonsenseQA (Talmor et al., 2019):需要不同类型常识知识的多项选择题 QA 数


据集。
•MMLU (Hendrycks 等人,2021):手动收集 57 名受试者的多项选择知识问题。
•PhysicalQA (PiQA, Bisk et al., 2020):关于物理世界如何
的 工
作 原
理。

BloombergGPT 在一个任务中在 BLOOM176B、GPT-NeoX 和 OPT66B 中取得了最高的性能,


在其他三个任务中排名第二(表 14)。与上一节类似,它的性能优于类似大小的模型,
同时几乎与大得多的模型持平。大规模多任务语言理解(MMLU, Hendrycks 等人,2021)
涵盖了 57 个不同的科目,因此比上述任务的覆盖面要广得多。表 15 中的汇总结果描
绘了一幅更一致的画面,并遵循了 BIG-bench hard 中看到的见解。bloombergpt 持续优
于 OPT66B,而 OPT66B 又优于 GPT-NeoX,而 GPT-3 表现最好。与此形成鲜明对比的

27
任务 BloombergGPT GPT-NeoX OPT66B BLOOM176B GPT-3

弧(容易) 73.99 70.79 71.25 75.93 71.2


弧(挑战) 48.63 45.39 44.54 50.85 53.2
CommonsenseQA 65.52 60.36 66.42 64.21 -
PiQA 77.86 75.84 77.58 77.04 80.5

所有任务(平 66.50 63.10 64.95 67.01 -


均)
所有任务(WR) 0.75 0.08 0.33 0.67 -

表 14:知识任务 1-shot 结果。GPT-3 的基线数字取自 Brown et al.(2020)。在所有模型中,


BloombergGPT 在我们自己运行的模型中实现了最高的胜率,平均表现第二
好。

模型 BloombergGPT GPT-NeoX OPT66B BLOOM176B GPT-3

人文学科 36.26 32.75 33.28 34.05 40.8


阀杆 35.12 33.43 30.72 36.75 36.7
社会科学 40.04 36.63 38.32 41.50 50.4
其他 46.36 42.29 42.63 46.48 48.8

平均 39.18 35.95 35.99 39.13 43.9

表 15:MMLU (Hendrycks et al., 2021)基准上的结果(5 次)。GPT-3 的基线数字取自


Hendrycks et al.(2021)。虽然 bloombergpt 在三个类别上落后于 BLOOM176B,但
它的平均值是我们评估的所有模型中最高的。与 GPT-3 的差距最大的是社会
科学,而在其他类别的表现与 GPT-3 相近。

在前面的部分中,BloombergGPT 在这一类别中也优于 BLOOM176B,尽管差距很小。它落后


于报道中 GPT-3 的表现,尤其是在社会科学类别上。与 GPT-3 的差距最接近的是 STEM
和“其他”领域,包括金融和会计相关问题。

5.6 阅读理解

我们将阅读理解基准定义为任务,在这些任务中,模型可以根据所提供的输入文本中包含
的信息生成正确的响应。我们的分组包括开卷 QA 任务,而 Brown 等人(2020)则将它们分
成不同的类别。我们遵循 Brown et al.(2020)的模板,并报告准确性。我们包括以下任务:

BoolQ (Clark et al., 2019):关于维基百科一篇文章的是/否问题。


•OpenBookQA (Mihaylov et al., 2018):基础科学水平的多项选择题,给定一本科学
事实书,应用于新的情况。
•RACE (Lai et al., 2017):初中和高中英语选择题数据集
考试。

28
RC 场景 BloombergGPT GPT-NeoX OPT66B BLOOM176B GPT-3
BoolQ 74.59 46.36 57.46 52.94 76.7
OpenBookQA 51.60 44.20 58.00 47.20 58.8
种族(中) 54.32 41.23 47.42 52.30 57.4
种族(高) 41.74 34.33 37.02 39.14 45.9
MultiRC 62.29 22.86 18.80 26.65 72.9
记录 82.79 67.86 82.53 78.01 90.2

所有任务(avg) 61.22 42.81 50.21 49.37 67.0


所有任务(WR) 0.94 0.06 0.50 0.50 -

表 16:阅读理解结果(1-shot)。GPT-3 的基线数字取自 Brown et al.(2020)。BloombergGPT


远远超过了我们自己评估的模型,略微落后于 GPT-3。

•多句阅读理解(MultiRC, Khashabi et al., 2018):短段落和多句问题。


•基于常识推理的阅读理解(ReCoRD, Zhang et al., 2018):自动生成关于 CNN
和每日邮报新闻文章的问题。

表 16 反映了与上述评价类似的排名:GPT-3 的表现最高,BloombergGPT 紧随其后。


除了 OpenBookQA, BloombergGPT 的性能在 BLOOM176B、GPT-NeoX 和 OPT66B 中是最
高的。令人惊讶的是,BLOOM176B 在这一类别中明显落后。

5.7 语言任务

我们将那些与面向用户的应用程序没有直接联系的场景定义为语言任务。这些任务包
括评估消歧、语法或蕴含的任务。这些任务旨在直接评估模型理解语言的能力。我们
遵循 Brown et al.(2020)的模板,并报告准确性。任务列表如下:

• 识 别 文 本 蕴 涵 (RTE, Dagan 等 人 , 2007;Haim 等 人 , 2006;Giampiccolo 等 人 ,


2007;Bentivogli et al., 2009):给定两个文本片段,识别是否包含一个文本的含义。
•对抗性 NLI (ANLI, Nie et al., 2020):对抗性构建蕴涵检测。
•承诺银行(CB, De Marneffe et al., 2019):其最终句子包含子句嵌入谓词的自然发生
的话语。
•似是而非的备选项的选择(COPA, Gordon et al., 2011):前提和两个备选项,其中的
任务是选择与前提更似是而非有因果关系的备选项。
•语境中的单词(WIC Pilehvar 和 camachoc - collados, 2019):确定 a
一个单词在两句话中具有相同的意思。

29
语言的场景 BloombergGPT GPT-NeoX OPT66B BLOOM176B GPT-3

RTE 安利轮 1 69.31 53.79 54.87 57.40 70.4


安利轮 2 安利 32.90 32.60 33.10 33.60 32.0
轮3 34.40 33.80 34.20 33.80 33.9
37.33 36.17 34.92 35.17 35.1
Cb 53.57 48.21 44.64 48.21 64.3
copa 86.00 88.00 86.00 84.00 87.0
wic 52.51 50.00 52.51 50.16 48.6
WinoGrad 80.95 79.12 82.78 78.02 89.7
WinoGrande - - - - -
64.09 60.62 66.14 67.01 73.2
HellaSWAG 73.92 68.37 73.47 73.21 78.1
StoryCloze - - - - -
80.87 78.30 81.83 80.28 84.7
所有任务(avg)所 60.63 57.18 58.59 58.26 63.4 -
有任务(WR) - 0.85 - 0.27 - 0.58 - 0.42

表 17:语言场景的结果(1-shot)。GPT- 3 的基线数字取自 Brown et al.(2020)。胜率和平


均值仅基于准确率数字计算。在我们评估的模型中,BloombergGPT 始终得
分最高,达到 85%的胜率。

•Winograd (Levesque et al., 2011):当一个代词在语义上没有歧义时,确定它指的是哪


个词。

•Winogrande (Sakaguchi et al., 2019):对抗性挖掘具有挑战性的 Winograd 示例。

•HellaSWAG (Zellers et al., 2019):为一个故事或一组指令选择最佳结局。

•故事填空(Mostafazadeh et al., 2016):为 five-选择正确的结尾句


句子长故事。

语言任务的结果(表 17)遵循与知识类别类似的趋势。BloombergGPT 略落后于 GPT-3,


表现优于其他模型。与阅读理解类类似,BLOOM176B 落后于 BloombergGPT。

5.8 总结

在许多基准的几十个任务中,一个清晰的画面出现了。在我们对比的具有数百亿参数
的模型中,BloombergGPT 表现最好。此外,在某些情况下,它的性能甚至超过了更大
的模型(数千亿参数)。虽然我们对 BloombergGPT 的目标是成为金融任务的一流模型,
并且我们包括了通用训练数据以支持特定领域的训练,但该模型仍然在通用数据上获
得了超过类似规模的模型的能力,并且在某些情况下匹配或优于更大的模型。

30.
输入:告诉我苹果公司的最新价格和市值
输出:get(px_last,cur_mkt_cap) for([' AAPL US Equity '])

输入:特斯拉价格
输出:get(px_last) for([' TSLA US Equity '])

输入:获取 EC527035 Corp 和 AL580550 Corp 的收益率和价差

输出:get(yield,spread) for([' EC527035 Corp ', ' AL580550 Corp '])


输入:苹果和 ibm 的市值和每股收益
输出:get(cur_mkt_cap,is_eps) for([' AAPL US Equity ', ' IBM US Equity '])
输入:IBM 苹果微软谷歌的行业子组
输出:get(industry_subgroup()) for([' AAPL US Equity ', ' IBM US Equity '
, ' MSFT US Equity ', ' GOOGL US Equity '])

图 4:使用 BloombergGPT 生成有效的彭博查询语言。在给定自然语言请求的情况下,只


需在少样本设置下使用几个示例,该模型就可以利用其关于股票行情和金融
术语的知识来组合有效查询以检索数据。在每种情况下,模型都给出了 3 个
示例(未显示),后面是` Input `和一个“Output:”的提示。

6.定性样品

我们现在分享来自我们模型的定性示例,这些示例突出了我们领域专业化的好处。

彭博查询语言的生成。BloombergGPT 的一个用例是让与金融数据的交互更加自然。现
有的一种检索数据的方式是通过彭博查询语言(BQL)。BQL 可以用来与不同类别的证券
进行交互,每种证券都有自己的字段、函数和参数。BQL 是一个非常强大但复杂的工
具。正如我们在图 4 中所示,BloombergGPT 可以通过将自然语言查询转换为有效的
BQL 来使 BQL 更易于访问。

新闻标题的暗示。其他得到良好支持的用例在新闻领域。由于它是在许多新闻文章上进
行训练的,因此它可以用于许多新闻应用程序,并协助记者进行日常工作。例如,在构
建新闻简报时,记者可能需要为每个新版块编写简短的标题。虽然帮助完成这项任务的
专用模型可能维护成本过高,但 BloombergGPT 的表现很好,开箱即用(图 5)。

金融问答。由于有金融领域的训练数据,我们可以在 BloombergGPT 上查询与金融世


界相关的知识。例如,它在识别公司 CEO 方面表现很好。图 6 显示了几个例子,包括
来自其他模型的输出。虽然 BloombergGPT 能正确识别 ceo,但 GPT-NeoX 不能,而
FLAN-T5-XXL 则完全失败,始终忽略 com-

31
输入:根据 Redfin 的数据,美国房地产市场在 2022 年下半年缩水 2.3 万亿美元,降幅
4.9%
。这是自 2008 年住房危机以来百分比降幅最大
的一次,2008 年同期美国住房市场价值暴跌 5.8%。
产出:房价出现 15 年来最大跌幅
输入:耶伦在 20 国集团峰会上表示,全球经济形势比几个月前许多人预测的要好
。在国内,她指出了美国经济的弹性
,总体通胀已经放缓,劳动力市场强劲。她还呼吁
国际货币基金组织迅速采取行动,为乌克兰提供全面融资。
产出:耶伦认为全球经济比预期更具弹性

输入:谷歌被美国和 8 个州起诉,要求分拆其
广告技术业务,理由是涉嫌垄断数字广告市场。这起诉讼
是拜登政府首次对科技巨头发起重大挑战,也是自 1982 年以来美国司法部寻求分拆
一家大公司的罕见案件之一

输出:谷歌起诉垄断在线广告市场

图 5:使用 BloombergGPT 在三镜头设定下生成简短的标题建议。彭博新闻每天发送许


多需要这些标题的时事通讯。BloombergGPT 可以通过从文本中建议最初的
标题来帮助编辑过程。

而不是预测 Cirrus Logic 公司的 CEO,他被包括在提示中。虽然 BloombergGPT 并没有


完美地解决这个任务,并且犯了错误,但我们没有找到任何其他模型解决了这个任务
而 BloombergGPT 没有的例子。

7.相关工作

语言模型。语言建模在 NLP 社区中有着悠久的历史。训练一个概率语言模型来对单词


序列进行评分的想法可能是由 Jelinek(1976)首次提出的。N-gram 模型流行了几十年,
Brown et al.(1992),并在多达 2 万亿 token 的语料库上进行训练(Brants et al., 2007)。
在过去的十年中,由于机器学习、数据可用性和计算方面的创新,对训练语言模型的
研究加速了。自回归语言建模的早期工作(例如,Mikolov 等人,2010;Sutskever et al.,
2011)使用了循环神经网络,但这些都是在小型数据集上训练的小型模型。transformer
架构的引入(Vaswani et al., 2017)促进了这些模型在数据、计算和参数数量方面的扩展。
开发模型的过程可以更好地近似大型语料库上的语言分布,从而发现这些模型产生
的表示是许多下游任务的有用起点。Radford 等人(2018)以及 Howard 和 Ruder(2018)证
明了这一点,他们展示了生成式预训练

32
输入:Assicurazioni Generali 的 CEO ?
彭博社:Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters,{空串}

Input:硅谷银行 CEO ?
彭博社:Greg Becker
GPT-NeoX:约翰·阿多、迈克·弗里根、彼
得·R·布里格
FLAN-T5-XXL:克里斯蒂安·克莱因、约翰·M·福赛斯、约
翰·M·福赛斯
Input: IHS Markit Ltd 的 CEO ?
彭博社:Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth

输入:沃尔格林博姿联盟 CEO ?
记者:罗莎琳·布鲁尔
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth

输入:花旗集团(Citigroup Inc)
CEO ?
彭博社记者:简·弗雷泽
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat*
FLAN-T5-XXL: Christian 缝纫,John M Forsyth, John M Forsyth

图 6:测试 BloombergGPT、GPT-NeoX 和 FLAN-T5-XXL 回忆公司 ceo 名字的能力。每


个模型都在 10 个镜头的设定下运行。我们最多采样三个答案,如果它们不
正确,就全部呈现出来。*迈克尔·科尔巴特(Michael Corbat)担任花旗集团
(Citigroup)首席执行官至 2021 年,这凸显了最新模型的重要性。

通过自回归语言建模目标,在迁移学习中取得了强大的性能。Radford 等人(2019)进一步
表明,缩放模型大小和训练数据可以使自回归语言模型在不同的下游任务中表现良好,而
无需任何额外的监督微调。
Brown et al.(2020)表明,进一步扩展模型导致了新的模型能力的出现和模型鲁棒性的增
加。自 Brown et al.(2020)发布 GPT-3 以来,许多其他研究人员建立了大型语言模型来研究
数据数量、数据质量、网络架构、参数缩放、数据缩放、token 化和开源策略(Raffel et al.,
2020;Zhang et al., 2022a;Black 等,2022;Rae 等,2021 年;Hoffmann 等,2022 年;乔杜里等,
2022;利伯等,2021 年;曾等,2022;塔福德和克拉克,2021 年;史密斯等人,2022 年;Scao
等,2022;泰勒等,2022;林等,

33
2022;索尔坦等人,2022;托皮兰等人,2022;包等,2022;Sanh 等,2022;罗尔等,2021
年;Glaese 等,2022 年;王等,2021 年;Peng et al., 2022,等等)。

特定领域的大型语言模型。特定领域的训练对掩码(仅编码器)语言模型的价值是建立良
好的。通常被接受的方法是在特定领域的数据上从头训练 BERT 模型(Devlin et al., 2019)
或在新的特定领域数据上继续预训练现有模型(Gururangan et al., 2020)。遵循这些策略,
BioBERT (Lee et al., 2020)将 BERT 适应于生物医学领域,而 SciBERT 则在科学出版物
上进行训练(Beltagy et al., 2019)。这些论文的结果表明,域内训练允许模型在各种生物
医学文本挖掘任务中超越之前的最先进模型。这种范式的进一步例子是临床领域的
ClinicalBERT (Huang 等人,2019),科学生物医学论文的 BioMed- RoBERTa (Gururangan
等人,2020),以及 Twitter 数据的 BERTweet 和 Bernice (Nguyen 等人,2020;DeLucia et
al., 2022)。
由于训练超过 10B 参数的纯自回归解码器语言模型比训练 1B 参数的掩码语言模型的
成本要高得多,因此特定领域的自回归模型的例子要少得多。然而,现有的方法遵循相
同的两种策略。medPaLM (Singhal et al., 2022)调整现有模型,将 PaLM 调整到生物医
学领域,将 Minerva (Lewkowycz et al., 2022)调整到数学推理任务。
最近,出现了几个针对特定领域数据的从头开始训练的纯解码器模型的例子。一个流
行的领域是蛋白质序列,因为它们可以用类似语言的序列表示,但不被自然语言模型覆
盖(例如,Lin 等人,2022;Xiao 等人,2021;Nijkamp 等,2022)。然而,即使对自然语言
领域的模型也可以有好处。Galactica 专门在大量科学数据集上进行训练,并包括处理科
学符号的特殊处理(Taylor et al., 2022)。虽然在科学任务上表现非常出色,但令人惊讶
的是,卡拉狄加在更标准的 NLP 任务上也表现出色。BioGPT (Luo et al., 2022)和
biomedical lm Bolton et al.(2023)都是在生物医学数据上训练的较小的 gpt 风格的模型。
Lehman et al.(2023)比较了专门在特定领域数据上训练的编码器/解码器模型与从通用训练
中改编的模型。研究大型生成式语言对话模型的研究人员也就使用特定领域训练数据的
好处得出了类似的结论(Zhang et al., 2020;Roller 等人,2021 年;Thoppilan 等,2022)。
这些发现突出了域内预训练的优势,特别是在有足够的数据可用的情况下,就像我们
的情况一样。受卡拉狄加的通用能力启发,我们用公开数据来增强我们的私有数据,目
的是研究一个模型是否可以在不牺牲通用域性能的情况下获得域内能力。

训练数据。原始文本数据的大型语料库对于训练 llm 至关重要。因此,现在有几个可


用的语料库,涵盖了广泛的来源。
庞大的干净爬取语料库(C4, Raffel et al., 2020)从 Common Crawl 中提取,以创建经
过处理的训练语料库。该堆是一个精心策划的语料库,包含广泛的数据源 Gao et
al.(2021)。这些数据集建立在或包括网络爬虫(OpenWebText2),并由来自高质量来源
(Pubmed, Arxiv)的数据数组增强。各种努力旨在通过删除来清理数据集,特别是网络数

34
不需要或有害的文本(Touvron 等人,2023;Rae et al., 2020)。BLOOM Scao et al.(2022)
精心挑选的数据源,并包括各种过滤机制 Jernite et al.(2022)。
虽然 web 数据是获取大量多样化数据的有效策略,但稳健的清理工作仍然会导致数据
伪像,重复 Carlini 等人(2020),各种类型的有毒语言 Welbl 等人(2021),并可能导致少数
群体声音的无意边缘化(Xu 等人,2021)。Dodge et al.(2021)研究了 C4,以更好地理解元
数据,以及纳入和排除的数据。他们的发现表明,C4 包含机器生成的文本,由于排除过
滤器而存在偏差,并且可能包含从 NLP 任务的评估数据集中提取的示例。Zeng 等人
(2022)也进行了类似的努力,以记录他们为训练中文大型语言模型所进行的预处理。
Lee et al. (2022a)研究了重复数据删除对几个数据集模型性能的影响,发现重复数据
删除减少了记忆训练数据的发射,允许更好地估计泛化误差,并在不影响性能的情况下
提高了训练时间和成本。这些见解突出了构建高质量训练语料库的重要性和挑战。如
§2 所述,彭博的核心业务策划并提供数据集的访问,我们使用这些数据集构建高质量
的数据集 FinPile 来训练 BloombergGPT,从而产生了一流的财务表现。

评估。语言模型处理的任务大大增加,需要与传统特定任务系统非常不同的评估过程。
LLM 评估有两种范式:第一种是通过自动评估在许多不同的场景中评估模型(Liang et al.,
2022;Srivastava et al., 2022),第二种是通过将外部评估和特定任务评估集成到用户工作流
中来执行(例如,Lee et al., 2022b;Goyal 等人,2022)。
虽然第二种策略对于评估产品中模型的部署是必要的,但以第一种策略的规模运行这
些人工评估是不可实现的,因此在引入新模型时遵循第一种策略是标准的。在我们的案
例中,我们结合了来自多个具有不同目标的现有基准的多个通用评估。Srivastava 等人
(2022)旨在通过向整个研究界征集任务来实现最大的覆盖率,而 HELM (Liang 等人,
2022)建议在通过特定数据集表示的各种“场景”中进行评估。早期的语言模型论文开发
了自己的评估图式(Brown et al., 2020)。虽然这些基准允许在模型之间进行并排比较,
但要确保所有实验参数(提示、解码策略、少样本示例等)都是相同的,这是具有挑战性
的。出于这个原因,我们在评估中区分报告和验证的数字(§5)。
除了通用评估,我们还需要有针对性的领域评估。之前的特定领域模型如 Galactica
(Taylor et al., 2022)选择了一组模型可能在上面表现良好的任务。在他们的案例中,这
些是各种科学任务。然而,金融 NLP 领域并不存在标准基准。虽然最近关于烟道(Shah
et al., 2022)的工作旨在提供这样一个基准,但它对相关任务的覆盖范围有限,对少样
本学习没有建议的评估策略,并且一些注释的质量较低。为了提供外部可比较的结果,
我们开发了

35
对流感采取少样本战略,但也决定用公司内部基准来扩大公开可用的评估任务。

模型的尺寸。从计算成本和人工组装数据和训练模型的成本来看,大型语言模型训练
仍然是昂贵的。为了资源的最佳利用,确定最佳的训练数据量和模型形状和大小变得
很重要。
Kaplan et al.(2020)首先研究了语言模型性能对架构、参数大小、计算能力和数据集大
小的依赖关系。他们报告说,模型参数的数量、数据集大小和计算量根据幂律平稳地提
高了自回归语言建模目标的性能。Hernandez 等人(2021)对不同分布的数据传输进行了类
似的调查,发现这也遵循幂律。除了研究对损失的影响外,Rae 等人(2021)还通过训练广
泛的模型大小,分析了规模对偏差和毒性等不良属性的影响。
Levine et al.(2020)比较了模型架构,研究了使用自注意力的模型的尺度,并导出了
深度到宽度分配的指导方针。Tay 等人(2021)报告称,模型形状(深度-宽度比)会影响下
游任务的性能,即使它对预训练目标的影响很小。Tay et al. (2022a)进一步研究了不同
模型架构的扩展效果,并表明在扩展时架构选择是有针对性的,普通 transformer 架构
的扩展效果最好。
这项工作特别重要的是 Hoffmann 等人(2022)的研究,他们调查了在给定固定计算预算
的情况下,模型大小和训练 token 数量对模型性能的影响。他们假设现有的大型语言模型
是训练不足的,模型大小和训练 token 的数量应该被均匀缩放。他们通过 Chinchilla 证明
了这一假设,Chinchilla 是一个比大多数最大的 llm 小得多但性能更高的模型。这些发现
为实现强大性能的较小模型的“栗鼠最优”训练打开了大门,并且其推理可以比其较大的
对应模型运行得更有效。这些发现让我们考虑了一个使用标准架构的近似“龙猫最优”模
型。

标记。标记化和词汇选择在模型性能中发挥着关键作用,因为它们可以帮助模型学习有
意义的表示,并泛化到未见过的单词。字节对编码(BPE) (Sennrich et al., 2016)通过反
复合并训练集中最频繁的序列对来学习一个贪婪的自下而上的词汇表,直到达到预定的
词汇表大小。Radford et al.(2018)通过限制基本词汇表为所有可能的字节而不是所有
Unicode 字符来调整 BPE。Wordpiece tokenization (Schuster and Nakajima, 2012)也通过反
复合并最大化训练数据可能性的序列对来学习一个贪婪的自下而上的词汇表,这与
Sennrich 等人(2016)的方法略有偏差。
与 BPE 和 Wordpiece 相比,Unigram tokenizer (Kudo, 2018)通过首先初始化一个大词汇
表,并反复丢弃那些损失(例如,训练数据的对数似然)增加最少的词汇表项来学习自上而
下的词汇表。通过构建,Unigram 模型可以以几种不同的方式对输入文本进行 token 化。
也就是说,Unigram 模型节省了概率,允许在推理时进行更智能的分词。

36
最后,SentencePiece (Kudo 和 Richardson, 2018)调整了上述方案来处理没有空格分隔
的语言。Beltagy 等人(2019)构建了一个科学文本专用的词汇表,并观察到他们的领域专
用训练词汇表与在通用领域文本上训练的非领域专用 BERT 词汇表只有 42%的重叠。类
似地,Lewis 等人(2020)表明,专用的生物医学词汇始终提高了序列标记任务的性能。
Lieber 等人(2021)构建了更大的词汇表以确保 token 效率,作者称这导致了训练时间的减
少和更好的语义表示。这些发现证明了选择最能反映该训练领域的 token 赋予器和配套词
汇表的重要性。出于这些原因,我们决定训练我们自己的 unigram 分词器,而不是依赖
现有的公共分词器。

位置嵌入。基于 transformer 的模型依赖于位置嵌入来编码文本中单词的位置和位置信息。


编码序列位置和这种选择对模型性能的影响已经被广泛研究。这些包括正弦嵌入(Vaswani
et al., 2017),旋转位置嵌入(Su et al., 2021),添加相对位置偏差(Raffel et al., 2020),
以及向注意力头添加线性偏差(Press et al., 2022)。Press 等人(2022)的策略的一个副作用
是,人们可以在较短序列上进行训练,而不会损失较长序列的性能。这有两个好处:首先,
模型可以学习归纳(外推)到更长的序列,其次,模型可以在更短的序列上进行训练,减少
训练时间。

8.伦理、限制和影响

大型语言模型的快速发展和采用伴随着关于这些模型的伦理、用途和局限性的严格对话。
为了更完整地处理这些主题,我们引导读者阅读 Bommasani 等人(2021);Bender 等人
(2021);Birhane et al. (2022);Weidinger et al.(2021, 2022)。我们讨论了与 BloombergGPT 的
发展直接相关的问题。

8.1 合乎道德的
使用

金融对技术来说是一个敏感领域,确保准确、真实的信息对我们的产品、我们的客户以
及公司在市场上的声誉至关重要。另一方面,我们的客户也渴望采用最先进的技术来支
持他们的工作流程。为了向金融界提供自然语言应用,我们制定了一套严格的风险和测
试评估流程。这一过程包括细心的注释指南 Tseng et al.(2020),由中央风险和合规组织,
以及产品负责人(如新闻编辑室)在适用时进行的多级发布前审查,以及发布后监控。此
外,我们根据所有适用的法规进行 NLP 和 AI 系统的研究、开发和部署。
同样,毒性和偏见是作为一家公司,我们对我们生产的任何内容(无论是来自人类还是
机器)都非常小心的领域。由于在我们的模型中对毒性和偏见的测量取决于其应用领域,因
此量化有害语言产生的潜力仍然是一个开放的问题。我们特别感兴趣的是研究 FinPile,它
更干净,包含的明显偏置的例子更少

37
或有毒的语言(例如,新闻发布),降低了模型生成不适当内容的倾向。当我们开始开发基
于这种技术的产品时,我们将应用现有的测试程序,以及风险和合规控制,以确保安全
使用。

8.2 开放

社区中正在讨论如何释放 llm,如果要释放的话。虽然没有公开可用的模型不能被社区完
全评估,但分发模型可能会导致邪恶的目的。特别是对于像 BloombergGPT 这样的模型,
它是在大量的新闻稿、新闻文章和文件上进行训练的,发布具有通过模仿而被滥用的高风
险。
我们已经见证了许多不同的策略来减轻与 LLMs 发布相关的风险。一种策略是自由和
公开地共享经过训练的模型 Scao et al.(2022),并依赖于规定模型应该如何使用和不应该
如何使用的许可证。另一种策略是要求个人申请访问经过训练的模型参数 Zhang et al.
(2022a);Touvron et al.(2023)。一种更具限制性的方法是提供对模型的 API 访问,但不能访
问底层的模型参数或训练模型的数据的详细信息(Brown et al., 2020)。最后,一些人没有
提供对 Chowdhery et al.(2022)模型的访问;Hoffmann 等人(2022)。每个决策都反映了一系列
因素的组合,包括模型使用、潜在危害和商业决策。
Bloomberg 的核心商业主张之一就是提供对过去几十年收集的数据的访问。众所周知,
llm 容易受到数据泄露攻击,在给定模型权重 Carlini et al.(2020, 2022)的情况下,有可能提
取出重要的文本片段。此外,即使给予研究人员选择性的访问权限,也不能保证模型不会
被泄露。没有强有力的隐私保证,我们必须担心提供模型权重的访问需要给予 FinPile 的
访问权限。出于这个原因,我们谨慎行事,并遵循其他 LLM 开发者的做法,不发布我们
的模型。
尽管如此,我们在训练和评估 BloombergGPT 中的见解和经验有助于发展对这些模
型的理解。特别是,我们的经验可能对那些构建自己的特定领域模型的人有用。在开
发 BloombergGPT 的过程中,我们发现 OPT 编年、BLOOM 团队的经验,以及 GPT-3、
PaLM、Chinchilla、Galactica 和 Gopher 等非开放模型的工作,对我们的工作是至关重
要的促成因素。

9.结论

我们介绍了 BloombergGPT,一个一流的金融 NLP LLM。


我们的模型为训练特定领域模型的有效方法提供了持续的对话。我们混合特定领域和
通用数据的训练策略产生了一个平衡两个领域性能的模型。此外,我们的工作提供了选
择栗鼠最优大小模型的另一个数据点。最后,我们希望我们的模型训练日志将为那些训
练自己的 llm 的人提供指导。
我们有几个有趣的方向去追求。首先,任务微调已经在 llm 中产生了显著的改进,我
们计划考虑在金融领域中模型对齐存在哪些独特的机会(Wei 等人,2021;欧阳等人,2022)。
第二,

38
通过对 FinPile 中的数据进行训练,我们选择的数据可能表现出更少的毒性和偏见的语言。
这对最终模型的影响目前还不清楚,我们计划进行测试。第三,我们试图了解我们的标
记化策略如何改变结果模型。这些是我们希望与 BloombergGPT 一起追求的一些新的研
究方向。
我们在一般 LLM 基准上取得了强大的结果,并在金融任务上超过了可比的模型。我
们将其按照影响的递减顺序归结为 1。一个精心策划的内部数据集,2。我们在 tokenizer
中的独特选择,以及 3。最新的架构。我们将继续与 BloombergGPT 开发金融应用程序,
以进一步探索这些建模选择的好处。

致谢

我们要感谢帮助我们的人,包括 Emmanuel Scoullos (NVIDIA)和 Can Karakus(亚马逊网


络服务)。

参考文献

人偶 Araci。Finbert:基于预训练语言模型的金融情绪分析。arXiV 预印本
arXiV:1908.10063, 2019。

鲍思琪,何煌,王帆,吴华,王海峰,吴文泉,吴志华,郭振,卢华,黄新贤,田欣,
徐新超,林英战,牛正宇。PLATO-XL:探索对话生成的大规模预训练。《计算语言学
协会的发现:AACL-IJCNLP 2022》 ,第 107-118 页,仅在线,2022 年 11 月。计算语言
学 协 会 (Association for Computational Linguistics) 。 URL https:
//aclanthology.org/2022.findings-aacl.10。

Iz Beltagy, Kyle Lo,和 Arman Cohan。SciBERT:科学文本的预训练语言模型。2019 年


自然语言处理经验方法会议论文集和第九届自然语言处理国际联合会议(EMNLP-
IJCNLP),第 3615-3620 页,中国香港,2019 年 11 月。计算语言学协会(Association
for Computational Linguistics) 。 doi: 10.18653 / v1 / d19 - 1371 。 URL
https://aclanthology.org/d19 - 1371。

Emily M Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell。论随机鹦


鹉的危险:语言模型会太大吗?在 2021 年 ACM 公平、问责和透明会议论文集中,页
610-623,2021 年。

Luisa Bentivogli, Bernardo Magnini, Ido Dagan, Hoa Trang Dang, Danilo Giampiccolo。第
五位帕斯卡认识文本蕴涵挑战。2009 年 11 月 16- 17 日,在美国马里兰州盖瑟斯堡
举 行 的 TAC 2009 第 二 届 文 本 分 析 会 议 论 文 集 上 。 NIST, 2009 年 。 URL
https://tac.nist.gov/publications/2009/additional。论文/ RTE5_overview.proceedings.pdf。

39
阿贝巴·比尔汉、普拉秋莎·卡鲁里、达拉斯·卡德、威廉·阿格纽、拉维特·多坦、
包蜜雪儿。机器学习研究中编码的价值观。2022 年 ACM 关于公平、问责和透明度的
会议,第 173-184 页,2022。

Yonatan Bisk, Rowan Zellers, Ronan Le Bras, Jianfeng Gao, Yejin Choi。《PIQA:用自然
语言推理物理常识》 。在第 34 届 AAAI 人工智能大会 AAAI 2020、第 32 届人工智
能创新应用大会 IAAI 2020、第十届 AAAI 人工智能教育进展研讨会 EAAI 2020,
美国纽约州纽约,2020 年 2 月 7 日-12 日,7432-7439 页。AAAI 出版社,2020 年。
URL https: //ojs.aaai.org/index.php/AAAI/article/view/6239。

Sid Black、Leo Gao、 Phil Wang、Connor Leahy 和 Stella Biderman 。GPT-Neo:基于


Mesh-Tensorflow 的 大 规 模 自 回 归 语 言 建 模 , 2021 年 3 月 。 URL https:
//doi.org/10.5281/zenodo.5297715。如果您使用本软件,请使用这些元数据引用。

Sidney Black、Stella Biderman、Eric Hallahan、Quentin Anthony、Leo Gao、Laurence


Golding、Horace He、Connor Leahy、Kyle McDonell、Jason Phang、Michael Pieler、
Usvsn Sai Prashanth、Shivanshu Purohit、Laria Reynolds、Jonathan Tow、Ben Wang
和 Samuel Weinbach。GPT-NeoX-20B:一个开源的自回归语言模型。 《大科学学报》
第 5 集-创建大型语言模型的挑战和前景研讨会,第 95-136 页,virtual+Dublin, 2022
年 5 月 。 计 算 语 言 学 协 会 。 doi: 10.18653 / v1/2022.bigscience - 1.9 。 URL
https://aclanthology.org/2022.bigscience - 1.9。

艾略特·博尔顿、大卫·霍尔、康永道宏、托尼·李、克里斯·曼宁、珀西·梁。
BioMedLM。https://github.com/stanford-crfm/BioMedLM, 2023。

里希·博马萨尼、德鲁·a·哈德森、艾山·阿德利、拉斯·奥特曼、西姆兰·阿罗拉、
西德尼·冯·阿克斯、迈克尔·s·伯恩斯坦、珍妮特·博赫、安东尼·博塞卢特、
艾玛·布伦斯基尔、埃里克·布林约尔松、s·布赫、达拉斯·卡德、罗德里戈·卡
斯特隆、尼拉德里·s·查特吉、安妮·s·陈、凯瑟琳·a·克里尔、贾里德·戴维
斯、多拉·德姆斯基、克里斯·多纳休、穆萨·杜姆-布亚、埃辛·杜姆斯基、斯特
凡诺·埃切门迪、卡温·伊塔亚拉杰、李飞飞、切尔西·芬、特雷弗·盖尔、劳
伦·e·吉莱斯皮、卡兰·戈尔、诺亚·d·古德曼、谢尔比·格罗斯曼、尼尔·古哈、
桥本达则、彼得·亨德森、约翰·休伊特、丹尼尔·e·何、珍妮·洪、徐凯尔、黄
静、托马斯·f·伊卡德、萨希尔·贾恩、丹·尤拉夫-斯基、普拉楚萨·卡鲁里、希
德达斯·卡拉姆切蒂、杰夫·基林、费雷什特·卡尼、O.哈塔普、庞伟·高、马
克·s·克拉斯、兰杰·克里希纳、罗希斯·库迪蒂普迪、安娜雅·库马尔、费萨
尔·拉达克、米纳·李、托尼·李、朱尔·莱斯科韦克、伊莎贝尔·莱文特、李翔丽
莎、李学辰、马腾宇、阿里·马利克、克里斯托弗·d·曼宁、苏维尔·米尔查达尼、
Eric Mitchell、Zanele Munyikwa、Suraj Nair、Avanika Narayan、Deepak Narayanan、
Benjamin Newman、Allen Nie、Juan Carlos Niebles、Hamed Nilforoshan、J. F. Nyarko、
Giray Ogut、Laurel J. Orr、Isabel Papadimitriou、Joon Sung Park、Chris Piech、Eva
Porte- lance 、 Christopher Potts 、 Aditi Raghunathan 、 Robert Reich 、 Hongyu Ren 、
Frieda Rong、Yusuf H. Roohani、Camilo Ruiz、Jack Ryan、Christopher R’e、Dorsa
Sadigh、Shiori Sagawa、Keshav Santhanam、Andy Shih、Krishna Parasuram Srinivasan、
Alex Tamkin、

40
陶利罗翰、阿明·托马斯、佛罗瑞安·特拉姆、王玫瑰、王威廉、吴伯翰、吴嘉俊、
吴玉怀、谢志刚、安永道宏、尤嘉轩、马泰·扎哈里、张天一、张锡坤、张雨慧、
郑露琪、周凯琳、梁佩西。论基础模型的机遇与风险。ArXiV, abs/2108.07258, 2021。

Kaj Bostrom 和 Greg Durrett。字节对编码对于语言模型预训练是次优的。 《计算语言


学协会的发现:EMNLP 2020》 ,第 4617-4624 页,在线,2020 年 11 月。计算语言
学协会。doi: 10.18653 / v1/2020.findings-emnlp.414。URL https://aclanthology.org/
2020.finding -emnlp.414。

Thorsten Brants、Ashok C. Popat、Peng Xu、Franz J. Och 和 Jeffrey Dean。机器翻译中的


大型语言模型。2007 年自然语言处理和计算自然语言学习经验方法联合会议(EMNLP-
CoNLL)论文集,第 858-867 页,捷克布拉格,2007 年 6 月。计算语言学协会。URL
https://aclanthology.org/d07 - 1090。

Peter F Brown, Vincent J Della Pietra, Peter V Desouza, Jennifer C Lai, Robert L Mercer。基
于类的自然语言 n-gram 模型。计算语言学,18(4):467-480,1992。

Tom B. Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared Kaplan、Prafulla


Dhariwal 、 Arvind Neelakantan 、 Pranav Shyam 、 Girish Sastry 、 Amanda Askell 、
Sandhini Agarwal、Ariel Herbert-Voss、Gretchen Krueger、Tom Henighan、Rewon Child、
Aditya Ramesh、Daniel M. Ziegler、Jeffrey Wu、Clemens Winter、Christopher Hesse、
Mark Chen、Eric Sigler、Mateusz Litwin、Scott Gray、Benjamin Chess、Jack Clark、
Christopher Berner、Sam McCandlish、Alec Radford、Ilya Sutskever 和 Dario Amodei。
语言模型是少样本的学习者。在 Hugo Larochelle、Marc 'Aurelio Ranzato、Raia Hadsell、
Maria-Florina Balcan 和 Hsuan-Tien Lin 编辑的《神经信息处理系统进展 33:2020 年神经
信息处理系统年会》中,NeurIPS 2020, 2020 年 12 月 6 日-12 日,virtual, 2020。URL
https://proceedings.neurips.cc/paper/ 2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-
Abstract.html。

Nicholas Carlini、Florian Tram 'er、Eric Wallace、Matthew Jagielski、Ariel Herbert-Voss、


Katherine Lee、Adam Roberts、Tom B. Brown、Dawn Xiaodong Song、Ulfar´Erlingsson、
Alina Oprea 和 Colin Raffel。从大型语言模型中提取训练数据。在 USENIX 安全研讨会,
2020 年。

Nicholas Carlini、Daphne Ippolito、Matthew Jagielski、Katherine Lee、Florian Tramer、


Chiyuan Zhang 。 跨 神 经 语 言 模 型 的 量 化 记 忆 , 2022 年 。 URL
https://arxiv.org/abs/2202.07646。

Mark Chen、Jerry Tworek、Heewoo Jun、袁启明、Henrique Ponde、Jared Kaplan、


Harrison Edwards、Yura Burda、Nicholas Joseph、Greg Brockman、Alex Ray、Raul
Puri 、 Gretchen Krueger 、 Michael Petrov 、 Heidy Khlaaf 、 Girish Sastry 、 Pamela
Mishkin、Brooke Chan、Scott Gray、Nick Ryder、Mikhail Pavlov、Alethea Power、
Lukasz Kaiser、Mohammad Bavarian、Clemens Winter、Philippe Tillet、Felipe Petroski
Such、David W。

41
卡明斯、Matthias Plappert、Fotios Chantzis、Elizabeth Barnes、Ariel Herbert-Voss、
William H. Guss、Alex Nichol、Igor Babuschkin、S. Arun Balaji、Shantanu Jain、
Andrew Carr 、 Jan Leike 、 Joshua Achiam 、 Vedant Misra 、 Evan Morikawa 、 Alec
Radford、Matthew M. Knight 、Miles Brundage 、Mira Murati 、Katie Mayer、Peter
Welinder、Bob McGrew、Dario Amodei、Sam McCandlish、Ilya Sutskever、Wojciech
Zaremba。评估在代码上训练的大型语言模型。arXiV, abs/2107.03374, 2021a。

陈天奇、徐冰、张池源、Carlos Guestrin。用次线性内存成本训练深度网络。arXiV 预
印本 arXiV:1604.06174, 2016。

陈志宇、陈文虎、Charese Smiley、Sameena Shah、Iana Borova、Dylan Langdon、


Reema Moussa 、 Matt Beane 、 Huang Ting-Hao 、 Bryan Routledge 、 William Yang
Wang。FinQA:对金融数据进行数值推理的数据集。 《2021 年自然语言处理经验方法
会议论文集》 ,页 3697-3711,在线和 Punta Cana,多米尼加共和国,2021b。计算语
言 学 协 会 。 doi: 10.18653 / v1/2021.emnlp-main.300 。 URL https:
//aclanthology.org/2021.emnlp-main.300。

陈志宇、李诗阳、Charese Smiley、马志强、Sameena Shah、王威廉杨。ConvFinQA:探


索对话式金融问答中的数值推理链。《2022 年自然语言处理经验方法会议论文集》,
第 6279-6292 页,阿拉伯联合酋长国阿布扎比,2022 年 12 月。计算语言学协会。
URL https://aclanthology。org/2022.emnlp-main.421。

Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam
Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker
Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi
Tay, Noam M. Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Benton C.
Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy gurari,
Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev ,Henryk
Michalewski 、 Xavier Garc´ıa 、 Vedant Misra 、 Kevin Robinson 、 Liam Fedus 、 Denny
Zhou、Daphne Ippolito、David lupassi、David Dohan、Shivani Agrawal、Mark mernick、
Andrew M. Dai、Thanu- malayan Sankaranarayana Pillai、Marie Pellat、Aitor Lewkowycz、
Erica Moreira、Rewon Child、Oleksandr Polozov、Katherine Lee、周宗伟、王学智、
Brennan Saeta 、Mark D´ıaz、Orhan Firat 、Michele Catasta 、Jason Wei 、 Kathleen S.
Meier-Hellstern、道格拉斯·埃克、杰夫·迪恩、斯拉夫·彼得罗夫、诺亚·菲德尔。
Palm:用 pathways 扩展语言建模。arXiV, abs/2204.02311, 2022。

克里斯托弗·克拉克、肯顿·李、张明伟、汤姆·科亚特科夫斯基、迈克尔·柯林斯、
克里斯汀娜·图塔诺瓦。布尔克:探索自然是/否问题的惊人难度。《计算语言学协会
2019 年北美分会会议论文集:人类语言技术》 ,第 1 卷(长论文和短论文),第 2924-
2936 页,明尼苏达州,2019 年 6 月。计算语言学协会(Association for Computational
Linguistics)。doi: 10.18653 / v1 / n19 - 1300。URL https: //aclanthology.org/N19-1300。

42
Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa
Schoenick,和 Oyvind Tafjord。认为你已经解决了问答问题?试试 arc, ai2 推理挑战
赛。arXiV, abs/1803.05457, 2018。

伊多·达甘、奥伦·格利克曼、贝尔纳多·马格尼尼。帕斯卡识别文本蕴涵的挑战。在
2007 年机器学习挑战研讨会上。

Marie-Catherine De Marneffe, Mandy Simons 和 Judith Tonhauser。《承诺银行:研究自然发


生话语中的投射》。 《Sinn und Bedeutung 学报》 ,2019 年,第 107-124 页。

Alexandra DeLucia, Shijie Wu, Aaron Mueller, Carlos Aguirre, Philip Resnik, Mark Dredze。
Bernice:面向 Twitter 的多语言预训练编码器。在 2022 年自然语言处理经验方法会议
论文集中,第 6191 - 6205 页,阿拉伯联合酋长国阿布扎比,2022 年 12 月。计算语言
学协会。URL https://aclanthology.org/2022.emnlp-main.415。

Tim Dettmers, Mike Lewis, Sam Shleifer, and Luke Zettlemoyer. 8 位优化器通过块级量化。
国际学习表征会议,2022 年。

Jacob Devlin, Ming-Wei Chang, Kenton Lee 和 Kristina Toutanova。BERT:用于语言理解


的深度双向 transformer 预训练。在计算语言学协会 2019 年北美分会会议论文集:人
类语言技术,第 1 卷(长和短论文),4171-4186 页,明尼苏达州,2019 年 6 月。计算
语言学协会(Association for Computational Linguistics)。doi: 10.18653 / v1 / n19 - 1423。
URL https://aclanthology.org/n19 - 1423。

Jesse Dodge, Maarten Sap, Ana Marasovi´c, William Agnew, Gabriel Ilharco, Dirk Groen-
eveld, Margaret Mitchell,和 Matt Gardner。记录大型网络文本语料库:对庞大干净爬
取的语料库的案例研究。《2021 年自然语言处理经验方法会议论文集》,页 1286-
1305,多米尼加共和国在线和蓬塔卡纳,2021 年 11 月。计算语言学协会。doi:
10.18653 / v1/2021.emnlp-main.98。URL https://aclanthology.org/
2021. emnlp-main.98。

马克·德雷泽、普拉班扬·坎巴杜尔、加里·卡赞采夫、吉迪恩·曼和迈尔斯·奥斯本。
推特如何改变财经新闻发现的本质。《第二届宏观建模数据科学国际研讨会论文集》,
第 1-5 页,2016 年。

Ingrid E Fisher, Margaret R Garnsey,和 Mark E Hughes。《会计、审计和金融中的自然语言


处理: 文献的综合与未 来研究的路线 图》。会 计、财务与管 理智能系 统, 23(3):157-
214,2016。

Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster,
Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, Connor Leahy。
The pile: 用 于 语 言 建 模 的 800gb 多 样 化 文 本 数 据 集 , 2021 年 。 URL
https://arxiv.org/abs/2101.00027。

43
Sebastian Gehrmann, Elizabeth Clark,和 Thibault Sellam。修复破裂的基础:生成文本
评估实践中的障碍调查,2022。URL https://arxiv.org/abs/2202.06935。

Danilo Giampiccolo, Bernardo Magnini, Ido Dagan 和 Bill Dolan。第三个帕斯卡识别文本


蕴涵的挑战。2007 年 6 月,布拉格,第 1-9 页,《关于文本蕴涵和释义的 ACL-
PASCAL 研讨会论文集》。计算语言学协会。URL https://aclanthology.org/w07 - 1401。

Amelia Glaese 、 Nat McAleese 、 Maja Trebacz 、 John Aslanides 、 Vlad Firoiu 、 Timo
Ewalds、Maribeth Rauh、Laura Weidinger、Martin Chadwick、Phoebe Thacker、Lucy
Campbell- Gillingham、Jonathan Uesato、黄波森、Ramona Comanescu、范杨、Abigail
See、Sumanth daththri、Rory Greig、Charlie Chen、Doug Fritz、Jaume Sanchez Elias、
Richard Green 、 Soˇna Mokr´a 、 Nicholas Fernando 、 Boxi Wu 、 Rachel Foley 、
Susannah Young、Iason Gabriel、William Isaac、John Mellor、Demis Hassabis、Koray
Kavukcuoglu、丽莎·安妮·亨德里克斯,和杰弗里·欧文。通过有针对性的人类判
断改进对话代理的对齐,2022。URL https://arxiv.org/abs/2209.14375。

Andrew S. Gordon, Zornitsa Kozareva,和 Melissa Roemmele。Semeval-2012 任务 7:似是而


非的选择:常识因果推理的评估。In International Workshop on Semantic Evaluation, 2011。

Tanya Goyal, Junyi Jessy Li,和 Greg Durrett。gpt-3 时代的新闻摘要与评价,2022。


URL https://arxiv.org/abs/2209.12356。

Suchin Gururangan, Ana Marasovi´c, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug
Downey, and Noah A. Smith。不要停止预训练:使语言模型适应领域和任务。在计算
语言学协会第 58 届年会论文集中,8342-8360 页,在线,2020 年 7 月。计算语言学
协会。doi: 10.18653 / v1/2020.acl-main.740 。URL https://aclanthology.org/ 2020.acl-
main.740。

R Bar Haim、Ido Dagan、Bill Dolan、Lisa Ferro、Danilo Giampiccolo、Bernardo Magnini、


Idan Szpektor 。第二个帕斯卡识别文本蕴涵的挑战。《关于识别文本蕴涵的第二届
PASCAL 挑战研讨会论文集》 ,2006 年第 7 卷。

丹·亨德瑞克斯和凯文·金普尔。高斯误差线性单位(gelus)。arXiV 预印本
arXiV:1606.08415, 2016。

丹·亨德瑞克斯、科林·伯恩斯、史蒂文·巴沙特、安迪·邹、曼塔斯·马泽伊卡、唐
恩·宋、雅各布·斯坦哈特。测量大规模多任务语言理解。国际学习表征会议,2021
年。URL https://openreview.net/forum?id = d7KBjmI3GmQ。

丹尼·埃尔南德斯,贾里德·卡普兰,汤姆·海尼根,山姆·麦克坎利什。转移的缩
放定律。arXiV 预印本 arXiV:2102.01293, 2021。

44
Jordan Hoffmann、Sebastian Borgeaud、Arthur Mensch、Elena Buchatskaya、Trevor Cai、
Eliza Rutherford、Diego de las Casas、Lisa Anne Hendricks、Johannes Welbl、Aidan
Clark、Tom Hennigan、Eric Noland、Katherine Millican、George van den Driessche、
Bogdan Damoc、Aurelia Guy、Simon Osindero、Karen Simonyan、Erich Elsen、Oriol
Vinyals、Jack William Rae、Laurent Sifre。计算最优的大型语言模型训练实证分析。
在 Alice H. Oh、Alekh Agarwal、Danielle Belgrave 和 Kyunghyun Cho 编辑的《神经
信 息 处 理 系 统 的 进 展 》 中 , 2022 年 。 URL
https://openreview.net/forum?id=iBBcRUlOAPR。

杰瑞米·霍华德和塞巴斯蒂安·鲁德。用于文本分类的通用语言模型微调。 《计算语
言学协会第 56 届年会论文集》(第 1 卷:长论文),328-339 页,澳大利亚墨尔本,
2018 年 7 月 。 计 算 语 言 学 协 会 。 doi: 10.18653 / v1 / p18 - 1031 。 URL
https://aclanthology.org/p18 - 1031。

黄可欣、Jaan Altosaar、Rajesh Ranganath。Clinicalbert:对临床记录进行建模并预测医


院再入院。arXiV, 2019 年 4 月。URL http://arxiv.org/abs/1904。05342.

弗雷德里克内克。用统计方法进行连续语音识别。IEEE 学报,64(4):532-556,1976。

Yacine Jernite 、 Huu Nguyen 、 Stella Biderman 、 Anna Rogers 、 Maraim Masoud 、
Valentin Danchev 、 Samson Tan 、 Alexandra Sasha Luccioni 、 Nishant Subramani 、
Isaac Johnson 、 Gerard Dupont 、 Jesse Dodge 、 Kyle Lo 、 Zeerak Talat 、 Dragomir
Radev、Aaron Gokaslan、Somaieh Nikpoor、Peter Henderson、Rishi Bommasani 和
Margaret Mitchell。大规模数据驱动语言技术时代的数据治理。2022 年 ACM 关于公
平、问责和透明度的会议。ACM, 2022 年 6 月。doi: 10。1145/3531146.3534637。
URL https://doi.org/10.1145%2F3531146.3534637。

Jared Kaplan、Sam McCandlish、Tom Henighan、Tom B. Brown、Benjamin Chess、


Rewon Child、Scott Gray、Alec Radford、Jeffrey Wu、Dario Amodei。神经语言模型
的缩放定律。arXiV, 1 2020。URL http://arxiv.org/abs/2001.08361。

Can Karakus, Rahul Huilgol, Wu Fei, Anirudh Subramanian, Cade Daniel, Derya Cavdar, Teng
Xu, Haohan Chen, Arash Rahnama 和 Luis Quintela。Amazon sagemaker 模型并行:用于大
型模型训练的通用而灵活的框架。arXiV 预印本 arXiV:2111.05972, 2021。

Daniel Khashabi、Snigdha Chaturvedi、Michael Roth、Shyam Upadhyay 和 Dan Roth。


《透视表面:多句子阅读理解的挑战》 。《计算语言学协会北美分会 2018 年会议论文
集:人类语言技术》 ,第 1 卷(长论文),第 252-262 页,路易斯安那州新奥尔良,2018
年 6 月。计算语言学协会(Association for Computational Linguistics)。doi: 10.18653 /
v1 / n18 - 1023。URL https://aclanthology。org/n18 - 1023。

45
Vijay Korthikanti、Jared Casper、Sangkug Lym、Lawrence McAfee、Michael Andersch、
Mohammad Shoeybi、Bryan Catanzaro。减少大型 transformer 模型中的激活重计算,
2022 年。URL https://arxiv.org/abs/2205.05198。

佐藤奖赏。子词正则化:用多个子词候选改进神经网络翻译模型。 《计算语言学协会第
56 届年会论文集》(第 1 卷:长论文),66-75 页,澳大利亚墨尔本,2018 年 7 月。计
算语言学协会。doi: 10.18653/ v1/P18-1007。URL https://aclanthology.org/p18 - 1007。

工藤卓和约翰·理查德森。SentencePiece:用于神经文本处理的简单且独立于语言的子
词分词器和去分词器。2018 年自然语言处理经验方法会议论文集:系统演示,第 66-
71 页,比利时布鲁塞尔,2018 年 11 月。计算语言学协会。doi: 10.18653 / v1 / d18 -
2012。URL https://aclanthology.org/d18 - 2012。

赖国坤、谢启哲、刘汉晓、杨一鸣、Eduard Hovy。RACE:来自考试的大规模阅读理
解数据集。2017 年自然语言处理经验方法会议论文集,第 785-794 页,丹麦哥本哈
根 , 2017 年 9 月 。 计 算 语 言 学 协 会 。 doi: 10.18653 / v1 / d17 - 1082 。 URL
https://aclanthology.org/d17 - 1082。

steven Le Scao、Thomas Wang、Daniel Hesslow、Stas Bekman、M Saiful Bari、Stella


Bider- man 、 Hady Elsahar 、 Niklas Muennighoff 、 Jason Phang 、 Ofir Press 、 Colin
Raffel、Victor Sanh、Sheng Shen、Lintang Sutawika、Jaesung Tae、郑信勇、Julien
Launay、Iz Beltagy。如果你有 100 万 GPU 小时,要训练什么语言模型?《计算语言
学协会的发现:EMNLP 2022》 ,第 765 - 782 页,阿拉伯联合酋长国阿布扎比,2022
年 12 月。计算语言学协会。URL https://aclanthology.org/2022.findings-emnlp.54。

李镇赫、尹元珍、金成东、金东贤、金善奎、苏陈浩、姜在宇。Biobert:用于生物医学
文本挖掘的预训练生物医学语言表示模型。生物信息学,36:1234 - 1240,2 2020。
ISSN 14602059。doi: 10.1093 /生物信息学/ btz682。

Katherine Lee、Daphne Ippolito、Andrew Nystrom、Chiyuan Zhang、Douglas Eck、


Chris Callison-Burch、Nicholas Carlini。去重训练数据,让语言模型更好。计算语言
学协会第 60 届年会论文集(第 1 卷:长论文),8424-8445 页,爱尔兰都柏林,2022a
年 5 月 。 计 算 语 言 学 协 会 。 doi: 10.18653 / v1/2022.acl-long.577 。 URL
https://aclanthology.org/2022.acl-long.577。

米娜·李、梅加·斯里瓦斯塔瓦、阿米莉亚·哈代、约翰·辛克斯坦、埃辛·德
姆斯、阿什温·帕拉纳杰、伊内斯·杰拉德-乌尔辛、向丽莎·李、费萨尔·拉
达克、弗里达·容、罗斯·e·王、权美奈、朴俊成、曹汉成、托尼·李、瑞
希·博马萨尼、迈克尔·s·伯恩斯坦、珀西·梁。评价人-语言模型交互。
CoRR, abs/2212.09746, 2022b 。 doi: 10.48550 / arXiv.2212.09746 。 URL https:
//doi.org/10.48550/arXiv.2212.09746。

46
Eric Lehman, Evan Hernandez, Diwakar Mahajan, Jonas Wulff, Micah J. Smith, Zachary
Ziegler, Daniel Nadler, Peter Szolovits, Alistair Johnson, Emily Alsentzer。我们还需要
临床语言模型吗?, 2023 年。URL https://arxiv.org/abs/2302.08091。

赫克托·j·莱维斯克(Hector J. Levesque)、欧内斯特·戴维斯(Ernest Davis)和 l·摩根


斯坦(L. Morgenstern)。《winograd 图式挑战》。国际知识表示与推理原理会议,2011。

Yoav Levine, Noam Wies,或 Sharir, Hofit Bata,和 Amnon Shashua。self-attention 深


度效率的限制。在 H. Larochelle、M. Ranzato、R. Hadsell、M.F. Balcan 和 H. Lin 主
编的《神经信息处理系统的进展》第 33 卷,22640-22651 页。Curran Associates,
Inc. , 2020 年 。 URL https://proceedings.neurips.cc/
paper/2020/file/ff4dfdf5904e920ce52b48c1cef97829-Paper.pdf。

Patrick Lewis, Myle Ott, Jingfei Du,和 Veselin Stoyanov。生物医学和临床任务的预训


练语言模型:理解和扩展最先进的技术。 《第三届临床自然语言处理研讨会论文集》 ,
第 146-157 页 , 在 线 , 2020 年 11 月 。 计 算 语 言 学 协 会 。 Doi: 10.18653/v1/
2020.clinicalnlp-1.17。URL https://aclanthology.org/2020.clinicalnlp - 1.17。

Aitor Lewkowycz、Anders Andreassen、David Dohan、Ethan Dyer、Henryk Michalewski、


Vinay Ramasesh、Ambrose Slone、Cem Anil、Imanol Schlag、Theo gu 特曼- solo、yu
怀 Wu、Behnam Neyshabur、Guy guri - ari、Vedant Misra。用语言模型解决定量推理
问题,2022 年。URL https://arxiv.org/abs/2206.14858。

Percy Liang、Rishi Bommasani、Tony Lee、Dimitris Tsipras、Dilara Soylu、Michihiro


Ya- sunaga、Yian Zhang、Deepak Narayanan、Ananya Kumar、Benjamin Newman、
Binhang Yuan、Bobby Yan、Ce Zhang、Christian Cosgrove、Christopher D. Manning、
Christopher R´e 、 Diana Acosta-Navas 、 Drew A. Hudson 、 Eric Zelikman 、 Esin
Durmus 、 Faisal Ladhak 、 Frieda Rong 、 任 宏 宇 、 姚 华 秀 、 Jue Wang 、 Keshav
Santhanam、Laurel J. Orr、Lucia Zheng、Mert Y¨uksekg¨on¨ul、Mirac Suzgun、
Nathan Kim 、Neel Guha、Niladri S. Chatterji 、Omar Khattab、Peter Henderson、
Huang、Ryan Chi、Sang Michael Xie、Shibani Santurkar、Surya Ganguli、Hashimoto
Tatsunori、Thomas Icard、张天一、Vishrav Chaudhary、王威廉、李学辰、麦一凡、
张 宇 辉 、 是 枝 裕 太 。 语 言 模 型 的 整 体 评 估 。 CoRR, abs/2211.09110, 2022 。 doi:
10.48550 / arXiv.2211.09110。URL https://doi.org/10。48550 / arXiv.2211.09110。

奥弗·利伯,或沙里尔,巴拉克·伦茨,约亚夫·肖汉姆。《侏罗纪-1:技术细节与评估》。
白皮书。AI21 实验室,1,2021。

林泽明、哈里尔·阿金、罗山·拉奥、布莱恩·Hie、朱仲凯、卢文丁、阿兰·多斯
桑托斯·科斯塔、马里亚姆·法泽尔-扎兰迪、汤姆·塞尔库、萨尔·坎迪多、亚历
山大·里弗斯。进化尺度上的蛋白质序列语言模型实现了精确的结构预测。bioRxiv,
2022 年 。 doi: 10.1101 / 2022.07.20.500902 。 URL https://www.biorxiv 。
org/content/early/2022/07/21/2022.07.20.500902。

47
刘天宇、江宇晨 Eleanor Jiang、Nicholas Monath、Ryan Cotterell、Mrinmaya Sachan。
基于语言模型的自回归结构化预测。《计算语言学协会的发现:EMNLP 2022》,第
993-1005 页,阿拉伯联合酋长国阿布扎比,2022 年 12 月。计算语言学协会。URL
https://aclanthology.org/2022.findings-emnlp.70。

Ilya Loshchilov 和 Frank Hutter。解耦的权重衰减正则化。在 2019 年国际学习表征会议


上。URL https://openreview.net/forum?id = Bkg6RiCqY7。

罗仁谦、孙辽艾、夏英策、秦涛、张盛、潘海峰、刘铁岩。BioGPT:用于生物医学文
本生成和挖掘的生成式预训练 transformer。生物信息学简报,23(6),2022 年 9 月。
doi: 10.1093 /龙头/ bbac409。URL https://doi.org/10.1093%2Fbib%2Fbbac409。

Jouni Luoma 和 Sampo Pyysalo。利用 BERT 探索跨句语境进行命名实体识别。 《第 28


届计算语言学国际会议论文集》 ,第 904-914 页,西班牙巴塞罗那(在线),2020 年 12
月。国际计算语言学委员会(International Committee on Computational Linguistics)。
doi: 10.18653 / v1/2020.coling-main.78 。 URL https://aclanthology.org/2020.coling-
main.78。

Macedo Maia、Siegfried Handschuh、Andr´e Freitas、Brian Davis、Ross McDermott、


Manel Zarrouk 和 Alexandra Balahur。Www ' 18 开放式挑战:金融观点挖掘和问题回答。
摘自 Pierre-Antoine Champin、Fabien Gandon、Mounia Lalmas 和 Panagiotis G. Ipeirotis,
编辑,the Companion of the Web Conference 2018 on the Web Conference 2018,法国里
昂 , 2018 年 4 月 23 日 -27 日 , 1941-1942 页 。 ACM, 2018 年 。 doi:
10.1145/3184558.3192301。URL https://doi.org/10.1145/3184558。3192301.

Pekka Malo, Ankur Sinha, Pekka J. Korhonen, Jyrki Wallenius, Pyry Takala。Good debt
or bad debt:探测经济文本中的语义倾向。j . Assoc。正,科学。抛光工艺。 , 65(4):
782-796, 2014。doi: 10.1002 / asi.23062。URL https://doi.org/10。1002 / asi.23062。

Sabrina J. Mielke、Zaid Alyafeai、Elizabeth Salesky、Colin Raffel、Manan Dey、Matthias


Gall´e、Arun Raja、Chenglei Si、Wilson Y. Lee、Benoˆıt Sagot、Samson Tan。 《在单
词 和 字 符 之 间 :nlp 中 开 放 词 汇 建 模 和 token 化 简 史 》, 2021 年 。 URL
https://arxiv.org/abs/2112.10508。

Todor Mihaylov, Peter Clark, Tushar Khot 和 Ashish Sabharwal。一套盔甲能导电吗?用于


开卷问答的新数据集。 《2018 年自然语言处理经验方法会议论文集》 ,第 2381-2391
页,比利时布鲁塞尔,2018 年 10 - 11 月。计算语言学协会。doi: 10.18653 / v1 / d18
- 1260。URL https://aclanthology.org/d18 - 1260。

Tomas Mikolov、Martin Karafi´at、Lukas Burget、Jan Cernock’y 和 Sanjeev Khudanpur。基


于循环神经网络的语言模型。在 Interspeech,第 1045-1048 页。Makuhari, 2010 年。

48
Nasrin Mostafazadeh, Nathanael Chambers, He Xiaodong, Devi Parikh, Dhruv Batra, Lucy
Vanderwende, Pushmeet Kohli, and James Allen。语料库和完形填空评价,以加深对常
识故事的理解。《计算语言学协会北美分会 2016 年会议论文集:人类语言技术》,第
839-849 页 , 加 州 圣 地 亚 哥 , 2016 年 6 月 。 计 算 语 言 学 协 会 (Association for
Computational Linguistics) 。 doi: 10.18653 / v1 / 但 - 1098 不 行 了 。 URL
https://aclanthology。org/n16 - 1098。

Dat Quoc Nguyen, Thanh Vu, Anh Tuan Nguyen。BERTweet:英语推文的预训练语言模型。


《2020 年自然语言处理经验方法会议论文集:系统演示》,第 9-14 页,在线,2020 年
10 月 。 计 算 语 言 学 协 会 。 doi: 10.18653 / v1/2020.emnlp-demos.2 。 URL
https://aclanthology.org/2020.emnlp-demos.2。

聂奕欣、Adina Williams、Emily Dinan、Mohit Bansal、Jason Weston、Douwe Kiela。对


抗性 NLI:自然语言理解的新基准。 《计算语言学协会第 58 届年会论文集》 ,第 4885 -
4901 页,在线,2020 年 7 月。计算语言学协会。Doi: 10.18653/v1/ 2020.acl-main.441。
URL https://aclanthology.org/2020.acl-main.441。

Erik Nijkamp、Jeffrey Ruffolo、Eli N. Weinstein、Nikhil Naik 和 Ali Madani。Progen2:


探 索 蛋 白 质 语 言 模 型 的 边 界 。 CoRR, abs/2206.13517, 2022 。 doi: 10.48550 /
arXiv.2206.13517。URL https://doi.org/10.48550/arXiv.2206.13517。

NVIDIA。混合精度训练,2023。URL https://docs.nvidia.com/
deeplearning/performance/mixed precision-training/index.html。

龙欧阳、Jeffrey Wu、徐江、Diogo Almeida、Carroll Wainwright、Pamela Mishkin、Chong


Zhang、Sandhini Agarwal、Katarina Slama、Alex Gray、John Schulman、Jacob Hilton、
Fraser Kelton 、 Luke Miller 、 Maddie Simens 、 Amanda Askell 、 Peter Welinder 、 Paul
Christiano、Jan Leike、Ryan Lowe。训练语言模型,使其遵循人类反馈的指令。在
Alice H. Oh、Alekh Agarwal、Danielle Belgrave 和 Kyunghyun Cho 编辑的《神经信息处
理系统的进展》中,2022 年。URL https: //openreview.net/forum?id=TG8KACxEON。

彭宝林、Michel Galley、何鹏程、克里斯·布洛克特、拉斯·林登、埃尔纳兹·努里、
周瑜、比尔·多兰、高剑锋。哥德尔:目标导向对话的大规模预训练。arXiV 预印本
arXiV:2206.11309, 2022。

Mohammad Taher Pilehvar 和 Jose Camacho-Collados。WiC:用于评估上下文相关含义表


示的单词-上下文数据集。在 2019 年 6 月明尼苏达州明尼阿波利斯市的计算语言学协
会北美分会 2019 年会议论文集:人类语言技术,第 1 卷(长和短论文),第 1267-1273
页。计算语言学协会(Association for Computational Linguistics)。doi: 10.18653 / v1 /
n19 - 1128。URL https://aclanthology.org/n19 - 1128。

Ofir Press、Noah Smith 和 Mike Lewis。训练短,测试长:线性偏差的注意力使输入长


度 外 推 成 为 可 能 。 在 2022 年 国 际 学 习 表 征 会 议 上 。 URL
https://openreview.net/forum?id=R8sQPpGCv0。

49
Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever。通过生成性预训练提
高语言理解能力,2018 年。URL https://gluebenchmark.com/排行榜。

Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever。语言
模型是无监督多任务学习者,2019 年。URL https://github.com/ codelucas/newspaper。

Jack W. Rae、Anna Potapenko、Siddhant M. Jayakumar、Chloe Hillier、Timothy P. Lil-


licrap。用于长程序列建模的压缩 transformer。第 8 届学习表征国际会议,ICLR 2020,
埃塞俄比亚亚的斯 亚 贝巴,2020 年 4 月 26-30 日 。OpenReview.net, 2020。URL
https://openreview.net/forum?id=SylKikSYDH。

Jack W. Rae 、 Sebastian Borgeaud 、 Trevor Cai 、 Katie Millican 、 Jordan Hoffmann 、
Francis Song、John Aslanides、Sarah Henderson、Roman Ring、Susannah Young、
Eliza Rutherford、Tom Hennigan、Jacob Menick、Albin Cassirer、Richard Powell、
George van den Driessche、Lisa Anne Hendricks、Maribeth Rauh、Po-Sen Huang、
Amelia Glaese、Johannes Welbl、Sumanth daththri、Saffron Huang、Jonathan Uesato、
John Mellor、Irina Higgins、Antonia Creswell、Nat McAleese、Amy Wu、Erich Elsen、
Siddhant Jayakumar 、 Elena Buchatskaya 、 David Budden 、 Esme Sutherland 、 Karen
Simonyan 、 Michela Paganini 、 Laurent Sifre 、 Lena Martens 、 Xiang Lorraine Li 、
Adhiguna Kuncoro 、 Aida Ne- matzadeh 、 Elena Gribovskaya 、 Domenic Donato 、
Angeliki Lazaridou 、 Arthur Mensch 、 Jean-Baptiste Lespiau 、 Maria Tsimpoukelli 、
Nikolai Grigorev、Doug Fritz、Thibault Sot- tiaux、Mantas Pajarskas、Toby Pohlen、
龚志涛、Daniel Toyama、Cyprien de Masson d 'Autume、Yujia Li、Tayfun Terzi、
Vladimir Mikulik、Igor Babuschkin、Aidan Clark、迭戈·德·拉斯·卡萨斯、奥雷里
亚·盖伊、克里斯·琼斯、詹姆斯·布拉德伯里、马修·约翰逊、布莱克·赫克特
曼、劳拉·魏丁格、亚森·加布里尔、威廉·艾萨克、埃德·洛克哈特、西蒙·奥
辛-德罗、劳拉·里梅尔、克里斯·戴尔、奥里奥尔·维尼亚尔斯、卡里姆·阿尤布、
杰夫·斯坦威、洛莱恩·班尼特、德米斯·哈萨比斯、科拉伊·卡武库奥卢、杰弗
里·欧文。扩展语言模型:训练 gopher 的方法、分析与启示。arXiV, 12 2021。URL
http://arxiv.org/abs/2112.11446。

Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael


Matena、Yanqi Zhou、Wei Li、Peter J. Liu。用统一的 text-to-text transformer 探索迁
移 学 习 的 局 限 性 。 机 器 学 习 研 究 , 21(140):1-67,2020 。 URL
http://jmlr.org/papers/v21/20 - 074. - html。

Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase,和何宇雄。Zero:面向训练万亿参数模


型的内存优化。在 SC20:高性能计算、网络、存储和分析国际会议上,第 1-16 页。
IEEE 2020。

Stephen Roller、Emily Dinan、Naman Goyal、Da Ju、Mary Williamson、Yinhan Liu、


Jing Xu、Myle Ott、Eric Michael Smith、Y-Lan Boureau 和 Jason Weston。构建开放域
聊天机器人的秘诀。 《计算语言学协会欧洲分会第 16 届会议论文集:主卷》 ,300-325
页,在线,2021 年 4 月。计算语言学协会(Association for Computational Linguistics)。
doi: 10.18653 / v1/2021。eacl-main.24。URL https://aclanthology.org/2021.eacl-main.24。

50
坂口圭佑、罗南·勒·布拉斯、钱德拉·巴伽瓦图拉、崔叶津。WINO- GRANDE:大
规模的对抗性 winograd 图式挑战。Commun。Acm, 64: 99-106, 2019。

胡里奥·塞萨尔·萨利纳斯·阿尔瓦拉多、卡琳·弗斯波尔和蒂莫西·鲍德温。命名
实体识别的域适应,以支持信用风险评估。 《2015 年澳大利亚语言技术协会研讨会
论 文 集 》, 第 84-90 页 , 澳 大 利 亚 帕 拉 马 塔 , 2015 年 12 月 。 URL
https://aclanthology.org/u15 - 1010。

Victor Sanh 、 Albert Webson 、 Colin Raffel 、 Stephen Bach 、 Lintang Sutawika 、 Zaid
Alyafeai、Antoine Chaffin、Arnaud Stiegler、Arun Raja、Manan deer、M Saiful Bari、
Arun Raja、Urmish Thakker、Shanya Sharma Sharma、Eliza Szczechla、Taewoon Kim、
Gunjan Chh- ablani、Nihal Nayak、Debajyoti Datta、Jonathan Chang、Mike Tian-Jian
Jiang、Han Wang、Matteo Manica、Sheng Shen、Zheng Xin Yong、Harshit Pandey、
Rachel Baw- den、Thomas Wang、Trishala Neeraj、Jos Rozen、Abheesht Sharma、
Andrea Santilli、Thibault Fevry、Jason Alan Fries、Ryan Teehan、Teven Le Scao、
Stella Biderman、Leo Gao、Thomas Wolf、Alexander M Rush。多任务提示训练使零
次 任 务 泛 化 成 为 可 能 。 在 国 际 学 习 表 征 会 议 上 , 2022 。 URL
https://openreview.net/forum?id=9Vrb9D0WI4。

cois Yvon, Matthias Gall´e, Jonathan Tow, Alexander M. Rush, Stella Biderman, Albert Webson,
Pawan Sasanka Ammana- manchi, Thomas Wang, Benoˆıt Sagot, Niklas Muennighoff, Albert
Villanova del Moral, Olatunji Ruwase, Rachel Bawden, Stas Bekman, Angelina McMillan-
Major, Iz beltagji, Huu Nguyen, Lucile Saulnier, Samson Tan, Pedro Ortiz Suarez, Victor Sanh,
Hugo Lau- ren con, Yacine Jernite, Julien Launay, Margaret Mitchell, Colin Raffel, Aaron
Gokaslan, Adi Simhi, Aitor Soroa, Alham Fikri Aji, Amit Alfassy, Anna Rogers, Ariel
Kreisberg Nitzav, Canwen Xu, Chenghao Mou, Chris Emezue, Christopher Klamm, Colin
Leong, Daniel van Strien, David Ifeoluwa Adelani, Dragomir Radev, Eduardo gonzalez
Ponferrada, Efrat levkovvizh, Ethan Kim, Eyal Bar Natan, Francesco De Toni, G´erard
Dupont, Germ’an Kruszewski, Giada Pistilli, Hady Elsahar, Hamza Benyamina,Hieu Tran、
Ian Yu、Idris Abdulmumin、Isaac Johnson、Itziar gonzales - dios、Javier de la Rosa、Jenny
Chim 、 Jesse Dodge 、 Jian Zhu 、 Jonathan Chang 、 j¨org Frohberg 、 Joseph Tobing 、
Joydeep Bhattacharjee、Khalid Almubarak、Kimbo Chen、Kyle Lo、Leandro Von Werra、
Leon Weber 、 Long Phan 、 Loubna Ben allal 、 Ludovic Tanguy 、 Manan Dey 、 Manuel
Romero Mu˜noz、Maraim Masoud、Mar´ıa Grandury、Mario Saˇsko、ˇMax Huang、
Maximin Coavoux、Mayank Singh、Mike Tian-Jian Jiang、Minh Chien Vu、Mohammad A.
Jauhar、Mustafa Ghaleb、Nishant Subramani、Nora Kassner、Nurulaqilla Khamis、Olivier
Nguyen 、 Omar Espe- jel 、 Ona de Gibert 、 Paulo Villegas 、 Peter Henderson 、 Pierre
Colombo 、 Priscilla Amuok 、 Quentin Lhoest 、 Rheza Harliman 、 Rishi Bommasani 、
Roberto Luis L´opez、Rui Ribeiro、Salomey Osei、Sampo Pyysalo、Sebastian Nagel、
Shamik Bose、Shamsuddeen Hassan Muhammad、shananya Sharma、Shayne Longpre、
Somaieh Nikpoor、Stanislav Silberberg、Suhas Pai、Sydney Zink、Tiago Timponi Torrent、
Timo Schick、Tristan Thrush、Valentin Danchev、Vassilina Nikoulina、Veronika Laippala、
Violette leperq 、 vinda Prabhu 、 Zaid Alyafeai 、 Zeerak Talat 、 Arun Raja 、 Benjamin
Heinzerling、Chenglei Si、Davut Emre Ta 恰尔莎、

51
Elizabeth Salesky, Sabrina J. Mielke, Wilson Y. Lee, Abheesht Sharma, Andrea Santilli,
Antoine Chaffin, Arnaud Stiegler, Debajyoti Datta, Eliza Szczechla, Gunjan Chhablani, Han
Wang, Harshit Pandey, Hendrik Strobelt, Jason Alan Fries, Jos Rozen, Leo Gao, Lintang
Sutawika, M Saiful Bari, Maged S. Al-shaibani, Matteo Manica, Nihal Nayak, Ryan Teehan,
Samuel Albanie, Sheng Shen, Srulik Ben-David, Stephen H. Bach, Taewoon Kim, Tali Bers,
Thibault Fevry, Trishala Neeraj, Urmish Thakker,Vikas Raunak, Xiangru Tang, zhengxin
Yong, Zhiqing Sun, Shaked Brody, Yallow Uri, Hadar Tojarieh, Adam Roberts, Hyung Won
Chung, Jaesung Tae, Jason Phang, Ofir Press, Conglong Li, Deepak Narayanan, Hatim
Bourfoune, Jared Casper, Jeff Rasley, Max Ryabinin, Mayank Mishra, Minjia Zhang,
Mohammad Shoeybi, Myriam Peyrounette, Nicolas Patry, Nouamane Tazi, Omar Sanseviero,
Patrick von Platen, Pierre Cornette, Pierre Fran cois Lavall´ee, R´emi Lacroix, Samyam
Rajbhandari, Sanchit Gandhi,Shaden Smith, St´ephane Requena, Suraj Patil, Tim detmers,
Ahmed Baruwa, Amanpreet Singh, Anastasia Cheveleva, Anne- Laure Ligozat, Arjun
Subramonian, Aur´elie N´ev´eol, Charles Lovering, Dan Garrette, Deepak Tunuguntla, Ehud
Reiter,叶卡捷琳娜 Taktasheva,叶卡捷琳娜 Voloshina, Eli Bogdanov, Genta Indra Winata,
Hailey Schoelkopf, Jan-Christoph Kalo, Jekaterina Novikova, Jessica Zosa Forde, Jordan
Clive, Jungo Kasai, Ken Kawamura, Liam Hazan, Marine Carpuat, Miruna Clinciu, najung
Kim,Newton Cheng、Oleg Serikov、Omer Antverg、oscar van der Wal、Rui Zhang、
ruchen Zhang、Sebastian Gehrmann、Shachar Mirkin、Shani Pais、Tatiana Shavrina 、
Thomas Scialom 、 Tian Yun 、 Tomasz Limisiewicz 、 Verena Rieser 、 Vitaly Protasov 、
Vladislav Mikhailov、Yada Pruksachatkun、Yonatan Belinkov、Amir Feizpour、Ammar
Khan、Amy Faranak、Ana Aghagol、Arezoo Abdollahi、Aycha tamour、ˇek Kasner、
Alice Rueda、Amanda Pestana、Amir Feizpour、Ammar Khan、Arash Aghagol、Arezoo
Abdollahi、Aycha tamour、Azadeh HajiHosseini、Bahareh Behroozi、Benjamin Ajibade、
Bharat Saxena 、 Carlos Mu˜noz Ferrandis 、 Danish Contractor 、 David Lansky 、 Davis
David、Douwe Kiela、Duong A. Nguyen、Edward Tan、Emi Baylor、Ezin- wanne Ozoani、
Fatima Mirza、Frankline ononilwu、Habib Rezanejad、Hessie Jones、Indrani Bhattacharya、
Irene Solaiman 、Irina Sedenko 、Isar Nejadgholi 、Jesse Passmore 、Josh Seltzer 、Julio
Bonis Sanz、Livia Dutra、Mairon Samagaio、Maraim Elbadri、Margot Mieskes、Marissa
Gerchick、Martha Akinlolu、Michael McKenna、Mike Qiu、Muhammed Ghauri、Mykola
Burynok、Nafis Abrar、Nazneen Rajani、Nour Elkott、Nour Fahmy、Olanrewaju Samuel、
Ran An、Rasmus Kromann、Ryan Hao、Samira Alizadeh、Sarmad Shub- ber、Silas Wang、
Sourav Roy、Sylvain Viguier、Thanh Le、Tobi Oyebade、trieuu Le、Yoyo Yang、Zach
Nguyen、Abhinav Ramesh Kashyap、Alfredo Palasciano、Alison Callahan、Anima Shukla、
Antonio mirada - escalada、Ayush Singh、Benjamin Beilharz、Wang Bo、Caio Brito、
Chenxi Zhou、Chirag Jain、Chuxin Xu、Cl´ementine Fourrier、Daniel Le´on Peri ~ n´an、
Daniel Molano 、 Dian Yu 、 Enrique Manjavacas 、 Fabio Barth 、 Florian Fuhrimann 、
Gabriel Altay、Giyaseddin Bayrak、Gully Burns、Helena U. Vrabec、Imane Bello、Ishani
Dash、Jihyun Kang、John Giorgi、Jonas Golde、Jose David Posada、Karthik Rangasai
Sivaraman、Lokesh Bulchandani、Lu Liu、Luisa Shinzato、Madeleine Hahn de Bykhovetz、
Maiko Takeuchi、Marc P 'amies、Maria A Castillo、Marianna nezhuurina、Mario¨anger、
Matthias Samwald 、 Michael Cullan 、 Michael Weinberg 、 Michiel De Wolf 、 Mina
Mihaljcic 、 Minna Liu 、 Moritz Freidank 、 Myungsun Kang 、 Natasha Seelam 、 Nathan
Dahlberg、Nicholas Michio Broad、Nikolaus Muellner、Pascale Fung、Patrick Haller、
Ramya Chandrasekhar、Renata Eisenberg、Robert Martin、Rodrigo Canalli、Rosaline Su、
Ruisi Su、Samuel Cahyaw-

52
ijaya、Samuele Garda、Shlok S Deshmukh、Shubhanshu Mishra、Sid Kiblawi、Simon
Ott、Sinee 尚阿龙斯里、Srishti Kumar、Stefan Schweter、Sushil Bharati、Tanmay Laud、
Th´eo Gigant、Tomoya Kainuma、Wojciech Kusa、Yanis Labrak、Yash Shailesh Bajaj、
Yash Venkatraman、Yifan Xu、Yingxin Xu、Yu Xu、Tan、Zhongli Xie、zizan Ye、
Mathilde Bras、Younes Belkada 和 Thomas Wolf。Bloom:一个 176b 参数开放获取的多
语言语言模型。arXiV, 11 2022。URL http://arxiv.org/abs/2211.05100。

迈克·舒斯特和中岛康介。日文和韩文语音搜索。2012 年 IEEE 国际声学、语音与信号处


理会议(ICASSP),第 5149 - 5152 页。IEEE 2012。

里科·森里奇,巴里·哈多,亚历山德拉·伯奇。含子词单元的罕见词神经机器翻
译。 《计算语言学协会第 54 届年会论文集》(第 1 卷:长论文),第 1715 - 1725 页,
德国柏林,2016 年 8 月。计算语言学协会。doi: 10.18653 / v1 / p16 - 1162。URL
https://aclanthology.org/p16 - 1162。

Raj Shah、Kunal Chawla、Dheeraj Eidnani、Agam Shah、Wendi Du、Sudheer Chava、


Na- traj Raman、Charese Smiley、Jiaao Chen、Diyi Yang。When meets FLANG:金融领
域的基准和大型预训练语言模型。《2022 年自然语言处理经验方法会议论文集》,第
2322 - 2335 页,阿拉伯联合酋长国阿布扎比,2022 年 12 月。计算语言学协会。URL
https://aclanthology.org/2022.emnlp-main.148。

Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, Bryan
Catanzaro。Megatron-lm:使用模型并行性训练数十亿参数语言模型。 arXiV 预印本
arXiV:1909.08053, 2019。

Karan Singhal、Shekoofeh Azizi、Tao Tu、S. Sara Mahdavi、Jason Wei、Hyung Won


Chung 、 Nathan Scales 、 Ajay Tanwani 、 Heather Cole-Lewis 、 Stephen Pfohl 、 Perry
Payne、Martin Seneviratne、Paul Gamble、Chris Kelly、Nathaneal Scharli、Aakanksha
Chowdhery、Philip Mansfield、Blaise Aguera y Arcas、Dale Webster、Greg S. Corrado、
Yossi Matias 、 Katherine Chou 、 Juraj Gottweis 、 Nenad Tomasev 、 Yun Liu 、 Alvin
Rajkomar 、 Joelle Barral 、 Christopher Semturs 、 Alan Karthikesalingam 和 Vivek
Natarajan 。 大 型 语 言 模 型 编 码 临 床 知 识 , 2022 年 。 URL
https://arxiv.org/abs/2212.13138。

Ankur Sinha 和 Tanmay Khandait。新闻对大宗商品市场的影响:数据集和结果。


CoRR, abs/2009.04202, 2020。URL https://arxiv.org/abs/2009.04202。

Shaden Smith 、 Mostofa Patwary 、 Brandon Norick 、 Patrick LeGresley 、 Samyam


Rajbhandari 、Jared Casper 、jun Liu、Shrimai Prabhumoye 、George Zerveas 、Vijay
Korthikanti、Elton Zhang、Rewon Child、Reza Yazdani Aminabadi、Julie Bernauer、
Xia Song、Mohammad Shoeybi、Yuxiong He、Michael Houston、Saurabh Tiwary、
Bryan Catanzaro。使用 deepspeed 和 megatron 训练大规模生成语言模型 megatron-
turing nlg 530b, 2022 年。URL https://arxiv.org/abs/2201.11990。

萨利赫·索尔坦、尚卡尔·阿南塔克里希南、杰克·g·m·菲茨杰拉德、拉胡
尔·古普塔、瓦埃尔·哈姆扎、海达尔·汗、查里斯·s·佩里斯、斯蒂芬·罗
尔斯、安德鲁·罗森鲍姆、安娜

53
Rumshisky, Chandan Prakash, Mukund Sridhar, Fabian Triefenbach, Apurv Verma,
Gokhan Tur, Premkumar Natarajan。Alexatm 20b:使用大规模多语言 seq2seq 模型进行
少样本学习。arXiV, abs/2208.01448, 2022。

Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid,
Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adri 'a Garriga- Alonso,
Agnieszka Kluska, Aitor Lewkowycz, Akshat Agarwal, Alethea Power, Alex Ray, Alex
Warstadt, Alexander W. Kocurek, Ali Safaya, Ali Tazarv, Alice Xiang, Alicia Parrish, Allen
Nie, Aman Hussain, Amanda Askell, Amanda Dsouza, Ameet An- nasaheb Rahane,
Anantharaman S. Iyer, Andrea Santilli, Andreas Stuhlmuller,Andrew M. Dai、Andrew D.
La、Andrew Kyle Lampinen、Andy Zou、Angela Jiang、Angelica Chen、Anh Vuong、
Animesh Gupta 、 Anna Gottardi 、 Antonio Norelli 、 Anu Venkatesh 、 Arash
Gholamidavoodi 、 Arfa Tabassum 、 Arul Menezes 、 Arun Kirubara- jan 、 Asher
Mullokandov 、 Ashish Sabharwal 、 Austin Herrick 、 Avia Efrat 、 Aykut Erdem 、 Ayla
Karakacs、Bridget R. Roberts、Bao Sheng loh、Barret Zoph、Bartlomiej Bo- janowski、
Batuhan Ozyurt 、Behnam Hedayatnia、Behnam Neyshabur、Benjamin Inden 、Benno
Stein 、 Berk Ekmekci 、 Bill Yuchen Lin 、 Blake Stephen Howald 、 Cameron Diao 、
Cameron Dour、Catherine Stinson、ceddrick Argueta、C 'esar Ferri Ram 'irez、Chandan
Singh、Charles Rathkopf、Chenlin 孟、Chitta Baral、Chiyu Wu、Chris callson - burch、
Chris Waites 、 Christian Voigt 、 Christopher D. Manning 、 Christopher Potts 、 Cindy
Tatiana Ramirez、Clara Rivera、Clemencia Siro、Colin Raffel、Courtney Ashcraft、
Cristina Garbacea、Damien Sileo、Daniel H Garrette、Dan Hendrycks、Dan Kilman、
Dan Roth、Daniel Freeman、Daniel Khashabi、Daniel Levy、Daniel gonzalez’alez、
Danny Hernandez 、 Danqi Chen 、 Daphne Ippolito 、 Dar Gilboa 、 David Dohan 、 D.
Drakard、David Jurgens、Debajyoti Datta、Deep Ganguli、Denis Emelin、Denis Kleyko、
Deniz Yuret 、 Derek Chen 、 Derek Tam 、 Dieuwke Hupkes 、 Diganta Misra 、 Dilyar
Buzan 、 Dimitri Coelho Mollo 、 Diyi Yang 、 Lee dongho 、 Ekaterina Shutova 、 Ekin
Dogus Cubuk 、 Elad Segal 、 Eleanor Hagerman 、 Elizabeth Barnes 、 Elizabeth P.
Donoway、Ellie Pavlick、Emanuele Rodol’a、Emma FC Lam、Eric Chu、Eric Tang,
Erkut Erdem, Ernie Chang, Ethan A. Chi, Ethan Dyer, Ethan J. Jerzak, Ethan Kim, Eunice
Engefu Manyasi, Evgenii Zheltonozhskii, Fan Xia, Fatemeh Siar, Fernando Mart 'inez-
Plumed, Francesca Happ 'e,恰兰 cois Chollet, Frieda Rong, Gaurav Mishra, Genta Indra
Winata, Gerard de Melo, Germ´an Kruszewski, Giambattista Parascandolo, Giorgio
Mariani, Gloria Wang, Gonzalo Jaimovitch-L’opez, Gregor Betz, Guy gure - ari, Hana
Galijasevic, Han Sol Kim, Hannah Rashkin, Hanna Ha- jishirzi, Harsh Mehta,Hayden
Bogar、Henry Shevlin、Hinrich Sch¨utze、Hiromu Yakura、张洪明、Hubert Wong、
Ian Aik-Soon Ng、Isaac Noble、Jaap Jumelet、Jack Geissinger、John Kernion、Jacob
Hilton、jaaehoon Lee、Jaime Fern’andez Fisac、J. Brooker Simon、James Koppel、
James Zheng 、 James Zou 、 Jan Koco’n 、 Jana Thompson 、 Jared Kaplan 、 Jarema
Radom 、 Jascha Narain Sohl-Dickstein 、 Jason Phang 、 Jason Wei 、 Jason Yosinski 、
Jekaterina Novikova、Jelle Bosscher、Jenni Marsh、Jeremy Kim、Jeroen Taal、Jesse
Engel、Jesujoba Oluwadara Alabi、许家诚、宋家明、Jillian Tang、Jane W Waweru、
John Burden、John Miller、John U. Balis、Jonathan Berant、Jorg Fro- hberg、Jos Rozen、
Jos´e Hern´andez-Orallo、Joseph Boudeman、Joseph Jones、Joshua B. Tenenbaum、
Joshua S. Rule、Joyce Chua、Kamil Kanclerz、Karen Livescu、Karl Krauth、Karthik
Gopalakrishnan、Katerina Ignatyeva、Katja Markert、Kaustubh D. Dhole、Kevin

54
金布尔、凯文·奥切恩·奥蒙迪、科里·Wallace Mathewson、克里斯汀·恰富洛、克
塞尼亚·什卡鲁塔、库马尔·施里达尔、凯尔·麦克唐纳、凯尔·理查森、拉里
亚·雷诺、Leo Gao、张莉、利亚姆·杜根、秦连华、利迪亚·孔德雷拉·奥尚多、路
易斯-菲利普·莫伦西、卢卡·莫斯切拉、卢卡·林、露西·诺布尔、路德维希·施密
特、何鲁恒、路易斯·奥利弗罗斯·科龙、卢克·梅茨、卢特菲·克里姆·切内尔、
马尔滕·博斯马、马尔滕·萨普、马尔特杰·特尔霍夫、马托·安德里亚、马欣·萨
利姆·法鲁奇、马纳尔·法鲁基、曼塔斯·马泽伊卡、马可·巴图兰、Marco Marelli、
Marco Maru、M Quintana、Marie Tolkiehn、Mario Giu- lianelli、Martha Lewis、Martin
Potthast、Matthew Leavitt、Matthias Hagen、M ' atyas Schubert、Medina Baitemirova、
Melissa Arnaud、Melvin Andrew McElrath、Michael A. Yee、Michael Cohen、Mi Gu、
Michael I. Ivanitskiy、Michael Starritt、Michael Strube、Michal Swkedrowski、Michele
Bevilacqua、Michihiro Yasunaga、Mihir Kale、Mike Cain、Mimee Xu、Mirac Suzgun、
Monica Tiwari 、 Mohit Bansal 、 Moin Aminnaseri 、 Mor Geva 、 Mozhdeh Gheini 、 T
MukundVarma、Nanyun Peng、Nathan Chi、Nayeon Lee、Neta Gur- Ari Krakover、
Nicholas Cameron、Nicholas S. Roberts、Nicholas doenighoff、Nitish Shirish Keskar、
Niveditha Iyer、Noah Constant、Noah Fiedel、Nuan Wen、Oliver Zhang、Omar Agha、
Omar Elbaghdadi、Omer Levy、Owain Evans、Pablo Antonio Moreno Casares、Parth
Doshi、Pascale Fung、Paul puliang、Paul Vicol、pegasah Alipoormolabashi、Peiyuan
Liao、Peter W. Chang、Peter Eckersley、Phu Mon Htut, Pi-Bei Hwang, P. Milkowski,
Piyush S. Patil, Pouya Pezeshkpour, Priti Oli, qizhu Mei, qingu, Rahel Habacker, Rabin
Banjade, Rachel Etta Rudolph, Raefer Gabriel, Rahel Habacker, Ram 'on Risco Delgado,
Rapha¨el Milli 'ere, Rhythm Garg, Richard Barnes, Rif A. Saurous, Arakawa Riku, Robbe
Raymaekers, Robert Frank, Rohan Sikand, Roman Novak, Roman Sitelew, Ronan Le Bras,
Rosanne Liu, Rowan Jacobs, Rui Zhang, Ruslan Salakhutdinov, Ryan Chi, Ryan Lee, Ryan
Stovall, Ryan Teehan,Rylan Yang、Sahib J. Singh、Saif M. Mohammad、Sa- jant Anand、
Sam Dillavou、Sam Shleifer、Sam Wiseman、Samuel Gruetter、Sam Bowman、Samuel
S. Schoenholz、Sanghyun Han、Sanjeev Kwatra、Sarah A. Casey、Sarik Ghazarian、
Sayan Ghosh、Sean Casey、Sebastian Bischoff、Sebastian Gehrmann、Sebastian Schuster、
Sepideh Sadeghi、Shadi S. Hamdan、Sharon Zhou、Shashank Srivastava、Sherry Shi、
Shikhar Singh、Shima Asaadi、shibh Shane Gu、Shubh Pachchigar、Shubham Toshni-
wal、Shyam Upadhyay、Shyamolima Debnath、Siamak Shakeri、Simon Thormeyer、
Simone Melzi、Siva Reddy、Sneha Priscilla Makini、Soo hwan Lee、Spencer Bradley
Torene、Sri- harsha Hatwar、Stanislas Dehaene、Stefan Divic、Stefano Ermon、Stella
Rose Biderman、Stephanie C. Lin、S. Prasad、Steven T. Piantadosi、Stuart M. Shieber、
Summer Mish- erghi、Svetlana Kiritchenko、Swaroop Mishra、Tal Linzen、Tal Schuster、
Tao Li 、Tao Yu 、 Tariq A. Ali 、Tatsuo Hashimoto 、Te-Lin Wu、 Theo Desbordes 、
Theodore Rothschild、Thomas Phan、王天乐、Tiberius Nkinyili、Timo Schick、t.n .
Kornev、Timothy Telleen-Lawton、Titus Tunduny、Tobias Gerstenberg、Trenton Chang、
Trishala Neeraj、Tushar Khot、Tyler O ' s Shultz、Uri Shaham、Vedant Misra、Vera
Demberg、Victoria Nyamai、Vikas Raunak、Vinay Venkatesh Ramasesh、Vinay Uday
Prabhu、Vishakh Pad- makumar、Vivek Srikumar、William Fedus、William Saunders、
William Zhang 、 W Vossen 、 Ren Xiang 、 佟 晓 宇 、 吴 昕 怡 、 沈 徐 东 、 Yadollah
Yaghoobzadeh、Yair Lakretz、杨松、Yasaman Bahri、Ye Ji Choi、杨益驰、郝一丁、陈
毅夫、Yonatan Belinkov、Yu Hou、Yu Hou、白云涛、Zachary Seid、赵馨然、赵卓业、
王梓福、Zijie J. Wang、王梓睿、吴子怡、Sahib Singh、Uri Shaham。除了

55
模仿游戏:量化和推断语言模型的能力。arXiv, abs/2206.04615, 2022。

苏建林、陆宇、潘生峰、艾哈迈德·穆尔塔达、温博、刘云峰。Roformer:具有旋转
位置嵌入的增强型变压器。arXiV 预印本 arXiV:2104.09864, 2021。

Ilya Sutskever, James Martens, Geoffrey E Hinton。用循环神经网络生成文本。在第 28 届


国际机器学习会议论文集(ICML-11)中,第 1017-1024 页,2011。

Mirac Suzgun, Nathan Scales, Nathanael Sch¨arli, Sebastian Gehrmann, Yi Tay, Hyung
Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed H. Chi, Denny Zhou,和 Jason Wei。
挑战大板凳任务以及思维链能否解决这些问题。CoRR, abs/ 2210.9261, 2022。doi:
10.48550 / arXiv.2210.09261。URL https://doi.org/10。48550 / arXiv.2210.09261。

奥伊温德·塔福德和彼得·克拉克。与 macaw 的通用问答。arXiV 预印本 arXiV:


2109.02593,2021。

阿隆·塔尔莫,乔纳森·赫齐格,尼古拉斯·劳里和乔纳森·贝兰特。
CommonsenseQA:针对常识知识的问答挑战。在 2019 年 6 月明尼苏达州明尼阿波利
斯市举行的计算语言学协会北美分会 2019 年会议论文集:人类语言技术,第 1 卷(长
论文和短论文),第 4149-4158 页。计算语言学协会(Association for Computational
Linguistics)。doi: 10.18653 / v1 / n19 - 1421。URL https://aclanthology.org/n19 - 1421。

Yi Tay、Mostafa Dehghani、Jinfeng Rao、William Fedus、Samira Abnar、Hyung Won


Chung、Sharan Narang、Dani Yogatama、Ashish Vaswani、Donald Metzler。高效规
模化:《变形金刚》预训练和微调的启示。arXiV 预印本 arXiV:2109.10686, 2021。

Yi Tay、Mostafa Dehghani、Samira Abnar、Hyung Won Chung、William Fedus、Jinfeng


Rao、Sharan Narang、Vinh Q Tran、Dani Yogatama、Donald Metzler。缩放定律 vs 模
型架构:归纳偏差如何影响缩放?arXiV 预印本 arXiV:2207.10551, 2022a。

Yi Tay、Mostafa Dehghani、Vinh Q. Tran、Xavier Garcia、Jason Wei、Xuezhi Wang、


Hyung Won Chung、Siamak Shakeri、Dara Bahri、Tal Schuster、怀秀 Steven Zheng、
Denny Zhou、Neil Houlsby、Donald Metzler。Ul2:统一语言学习范式,2022b。
URL https://arxiv.org/abs/2205.05131。

罗斯·泰勒、马尔辛·卡尔达斯、吉兰姆·库库尔、托马斯·夏洛姆、安东尼·哈茨
霍恩、埃尔维斯·萨拉维亚、安德鲁·波尔顿、维克托·克尔克兹、罗伯特·斯托尼
克 。《 卡 拉 狄 加 : 科 学 的 大 型 语 言 模 型 》。 arXiV, 11 年 2022 年 。 URL
http://arxiv.org/abs/2211.09085。

Romal Thoppilan、Daniel De Freitas、Jamie Hall、Noam Shazeer、Apoorv kulshshtha、


hengtze Cheng、Alicia Jin、Taylor Bos、Leslie Baker、Du Yu、李亚光、Lee Hongrae、
怀秀 Steven Zheng、Amin Ghafouri、Marcelo Menegali、黄延平、Maxim

56
Krikun 、 Dmitry Lepikhin 、 James Qin 、 Dehao Chen 、 Xu Yuanzhong Chen 、 Adam
Roberts、Maarten Bosma、Vincent Zhao、Yanqi Zhou、Chung-Ching Chang、Igor Kri-
vokon、Will Rusch、Marc Pickett、Pranesh Srinivasan、Laichee Man、Kathleen Meier-
Hellstern、Meredith Ringel Morris、Tulsee Doshi、Renelito Delos Santos、Toju Duke、
Johnny Soraker 、 Ben Zevenbergen 、 Vinodkumar Prabhakaran 、 Mark Diaz 、 Ben
Hutchinson、Kristen Olson、Alejandra Molina、Erin Hoffman-John、Josh Lee、Lora
Aroyo、Ravi Rajakumar 、阿 莱 娜 · 布 特里 纳 、马 修 ·拉 姆 、Viktoriya Kuzmina 、
乔 · 芬 顿 、 亚 伦 · 科 恩 、 Rachel Bernstein 、 Ray Kurzweil 、Blaise Aguera-Arcas 、
Claire Cui、Marian Croak、Ed Chi、Quoc Le。Lamda:面向对话应用的语言模型,
2022 年。URL
https://arxiv.org/abs/2201.08239 。

Erik F. Tjong Kim Sang 和 Fien De Meulder。CoNLL-2003 共享任务简介:独立于语言的


命名实体识别。在 hrt - naacl 2003 第七届自然语言学习会议论文集中,页 142-
147,2003。URL https://aclanthology.org/w03 - 0419。

Hugo Touvron、Thibaut Lavril、Gautier Izacard、Xavier Martinet、Marie-Anne Lachaux、


Timoth´ee Lacroix、Baptiste Rozi’ere、Naman Goyal、Eric Hambro、Faisal Azhar、
Aurelien Rodriguez、Armand Joulin、Edouard Grave、Guillaume Lample。LLaMA:开
放高效的基础语言模型,2023 年。URL https://arxiv.org/abs/2302.13971。

Tina Tseng, Amanda Stent 和 Domenic Maida。管理数据注释项目的最佳实践,2020


年。URL http://rgdoi.net/10.13140/RG.2.2.34497.58727。

Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan


N Gomez、L ukasz Kaiser、Illia Polosukhin。注意力就是你所需的一切在 I. Guyon、
U. Von Luxburg、S. Bengio、H. Wallach、R. Fergus、S. Vishwanathan 和 R. Garnett
主编的《神经信息处理系统的进展》第 30 卷中。Curran Associates, Inc., 2017 年。
URL https://proceedings.neurips.cc/paper/2017/file/
3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf。

王本、小松崎阿兰。GPT-J-6B:一个 60 亿参数的自回归语言模型。
https://github.com/kingoflolz/mesh-transformer-jax, 2021 年 5 月。

王玥、王伟士、Shafiq Joty、Steven C.H. Hoi。CodeT5:标识符感知的统一预训练编码


器-解码器模型,用于代码理解和生成。 《2021 年自然语言处理经验方法会议论文集》 ,
页 8696-8708,在线和蓬塔卡纳,多米尼加共和国,2021 年 11 月。计算语言学协会。
doi: 10.18653 / v1/2021.emnlp-main.685 。 URL https://aclanthology.org/2021.emnlp-
main.685。

Jason Wei、Maarten Bosma、Vincent Y. Zhao、Kelvin Guu、Adams Wei Yu、Brian


Lester、Du Nan、Andrew M. Dai、Quoc V. Le。微调语言模型是零样本学习者,
2021 年。URL https://arxiv.org/abs/2109.01652。

Jason Wei、Yi Tay、Rishi Bommasani、Colin Raffel、Barret Zoph、Sebastian Borgeaud、


Dani Yogatama、Maarten Bosma、Denny Zhou、Donald Metzler、Ed H. Chi、Tatsunori
Hashimoto、Oriol Vinyals、Percy Liang、Jeff Dean 和 William Fedus。应急能力

57
大型语言模型的。机器学习研究学报(TMLR), 2022a。doi: 10.48550 /
ARXIV.2206.07682。URL https://arxiv.org/abs/2206.07682。

Jason Wei、Xuezhi Wang、Dale Schuurmans、Maarten Bosma、brian ichter、Xia Fei、Ed


H. Chi、Quoc V Le、Denny Zhou。思维链的提示引出了大型语言模型中的推理。在
Alice H. Oh, Alekh Agarwal, Danielle Belgrave 和 Kyunghyun Cho 编辑的《神经信息处
理系统的进展》 ,2022b。URL https: //openreview.net/forum?id=_VjQlMeSB_J。

Laura Weidinger、John Mellor、Maribeth Rauh、Conor Griffin、Jonathan Uesato、posen


Huang、Myra Cheng、Mia Glaese、Borja Balle、Atoosa Kasirzadeh、Zac Kenton、
Sasha Brown、Will Hawkins、Tom Stepleton、Courtney Biles、Abeba Birhane、Julia
Haas、Laura rimel、Lisa Anne Hendricks、William Isaac、Sean Legassick、Geoffrey
Irving、Iason Gabriel。《语言模型的伦理和社会危害风险》,2021 年。URL https:
//arxiv.org/abs/2112.04359。

Laura Weidinger 、Jonathan Uesato、Maribeth Rauh、Conor Griffin、Po-Sen Huang、


John F. J. Mellor、Amelia Glaese、Myra Cheng、Borja Balle、Atoosa Kasirzadeh、
Courtney Biles、Sande Minnich Brown、Zachary Kenton、William T. Hawkins、Tom
Stepleton、Abeba Birhane、Lisa Anne Hendricks、Laura rimel、William S. Isaac、Julia
Haas、Sean Legassick、Geoffrey Irving、Iason Gabriel。语言模型所构成的风险分类。
2022 年 ACM 公平、问责和透明度会议,2022 年。

Johannes Welbl, Amelia Glaese, Jonathan Uesato, Sumanth daththri, John Mellor, Lisa Anne
Hendricks, Kirsty Anderson, Pushmeet Kohli, Ben Coppin, Po-Sen Huang。语言模型解
毒的挑战。《计算语言学协会的发现:EMNLP 2021》,页 2447-2469,多米尼加共和
国彭塔卡纳,2021 年 11 月。计算语言学协会。doi: 10.18653 / v1/2021。findings-
emnlp.210。URL https://aclanthology.org/2021.findings-emnlp.210。

吴世杰和 Mark Dredze。Beto、bentz、becas: BERT 惊人的跨语言有效性。2019 年自然语


言处理经验方法会议论文集和第九届国际自然语言处理联合会议(EMNLP-IJCNLP),
第 833-844 页 , 中 国 香 港 , 2019 年 11 月 。 计 算 语 言 学 协 会 (Association for
Computational Linguistics)。doi: 10.18653 / v1 / d19 - 1077。URL https://aclanthology。
org/d19 - 1077。

吴永辉、Mike Schuster、Z. Chen、Quoc V. Le、Mohammad Norouzi、Wolfgang Macherey、


Maxim Krikun、Cao Yuan、Gao Qin、Klaus Macherey、Jeff Klingner、Apurva Shah、
Melvin Johnson、Xiaobing Liu、Lukasz Kaiser、Stephan Gouws、Yoshikiyo Kato、工藤
卓、Kazawa Hideto、Keith Stevens、George Kurian、Nishant Patil、Wang Wei、Cliff
Young、Jason R. Smith、Jason Riesa、Alex Rudnick、Oriol Vinyals、Gregory S. Corrado、
Macduff Hughes、Jeffrey Dean。谷歌的神经机器翻译系统:弥合人类和机器翻译之间的
鸿沟。ArXiV, abs/1609.08144, 2016。

肖奕嘉、邱杰忠、李子昂、谢长宇、唐洁。利用大规模预训练语言模型对蛋白质进
行建模。CoRR, abs/2108.07435, 2021。URL https: //arxiv.org/abs/2108.07435。

58
Frank Z Xing, Erik Cambria, Roy E Welsch。基于自然语言的财务预测:一项调查。人工智能
评论,50(1):49 - 73,2018。

Albert Xu, Eshaan Pathak, Eric Wallace, Suchin Gururangan, Maarten Sap, Dan Klein。给
语言模型解毒有边缘化少数民族声音的风险。 《计算语言学协会北美分会 2021 年会
议论文集:人类语言技术》 ,第 2390-2397 页,在线,2021 年 6 月。计算语言学协会
(Association for Computational Linguistics)。doi: 10.18653 / v1/2021.naacl-main.190。
URL https://aclanthology.org/2021.naacl-main.190。

Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, Yejin Choi。HellaSwag:机器真的
能完成你的句子吗?在 2019 年 7 月,意大利佛罗伦萨,第 57 届计算语言学协会年会
论文集,第 4791-4800 页。计算语言学协会。doi: 10.18653 / v1 / p19 - 1472。URL
https: //aclanthology.org/P19-1472。

曾敖涵、刘晓、杜正晓、王梓涵、赖涵予、丁明、杨卓毅、徐一凡、郑文迪、夏晓、谭
翁林、马子萱、薛雨飞、翟继东、陈文广、张鹏、董雨霄、唐洁。Glm-130b:一种开放
的双语预训练模型。arXiV, 10 2022。URL http://arxiv.org/abs/2210.02414。

张盛,刘晓东,刘晶晶,高剑峰,杜凯文,本杰明·范德姆。记录:弥合人类和机器常
识阅读理解之间的差距。arXiV, abs/1810.12885, 2018。

Opt: 开 放 预 训 练 transformer 语 言 模 型 。 arXiV, 5 2022a 。 URL


http://arxiv.org/abs/2205.01068。

张一哲、孙思琪、Michel Galley、陈彦春、克里斯·布洛克特、高翔、高剑峰、刘晶
晶、比尔·多兰。DIALOGPT:会话响应生成的大规模生成性预训练。在计算语言学
协会第 58 届年会论文集:系统演示,第 270-278 页,在线,2020 年 7 月。计算语言学
协会。doi: 10.18653 / v1/2020。acl-demos.30。URL https://aclanthology.org/2020.acl-
demos.30。

张震、郑帅、王一达、Justin Chiu、George Karypis、Trishul Chilimbi、Mu Li、Xin


Jin 。 Mics: 在 公 共 云 上 训 练 巨 型 模 型 的 近 线 性 缩 放 , 2022b 。 URL
https://arxiv.org/abs/2205.00119。

59
附录 a 架构
格的符号

样式。无样式变量表示标量,粗体小写变量表示[列]向量,粗体大写变量表示矩阵。例
如,hi,j 可以是向量 hj 中的一个元素,而向量 hj 又可以是矩阵 H 的第 j 列。
命名函数以非斜体的常规字体输入,如 softmax(·)和 FFN(·)。
红色用于表示可训练参数,或被可训练参数参数化的函数,如 W 或 FFN(·)。

序列。序列(x1, . .), xn)的 n 个元素用{xi}ni=1 表示。我们将(列)向量序列视为一个矩阵,


即 X = {xi}ni=1∈Rm×n,其中每个 xi∈Rm。操作符。

•f: Rn→Rn:关于向量的函数,即 y = f(x)其中 x、y∈Rn 为 n 维实值向量。每当将这


样的函数应用到矩阵上时,它会按列应用:f(X) = {f(xj)}mj=1,X∈Rn×m。
•A B:矩阵或向量 A 和 B(形状相同)的元素级(或哈达玛)乘积。
•1(P):指示函数,如果谓词 P 为真,返回 1,否则返回 0。
•[n]:对于整数 n,到(包括)n 的所有正整数的集合,即{1,…n}。
•A + b:向量与矩阵相加定义为对每一列重复相加。

exp
•Softmax: Softmax (x) = (x) 其中 exp(·)按元素应用于向量。
我 exp
(xi)
•Dropout: dropp(x) = 1·m
1−p
x 其中,m
对于每一个例子的表示,随机变量 = [mi]ni=1>, mi ~Bernoulli(1−p)。
mi 都是独立绘制的。

A.1 完整架构

嵌入。让(x1,…, xt)= {xt}Tt=1∈V T 表示一个长度为 T 的输入序列,其中每个元素 xt 表


示来自词汇表 V = [|V|]的一个 token 的整数标识符。
初始输入表示法 H 0= {h0t}Tt=1 由

(1)
∀t∀
(2)

其中 W em∈RD×|V|为 token 嵌入矩阵,ex∈Rt |V|为 xt-th 标准基向量,LNem 为嵌入


LayerNorm 函数,将在以下几节中定义。
注意,由于不在场证明的工作原理,这里没有应用位置嵌入。

60
层。层表示 H '∈RD×T 为每个层' = 1,…, L 可以按顺序定义如下(这种计算有时被称为
“块”):

(3)
∀的
∀ (4)

其中 SA', FFN', LN ' 分别表示 self - attention, FeedForwardNetwork,和 LayerNorm 在


层'上的函数,如下面的小节所定义。红色表示函数依赖于可训练的参数。LN ' 通过指示 •

函数应用于什么而进一步参数化,例如应用于块时的 LNin

输入和 LNat ,当应用于注意力输出时。我们将它们分开指定
它们使用不同的(即未绑定)可训练参数。

分对 给定最终层表示 H L, logits Y∈R|V|×T 可得为:


数。
(5)

其 中 W em∈RD×|V| 是 我 们 在 嵌 入 部 分 使 用 的 相 同 的 嵌 入 矩 阵 , LNf 是 f 最 终 的
LayerNorm 应用。我们遵循 PaLM 方法省略了一个偏置项。
位置 j + 1 的 token 分布,以前缀(x1,…, xj),由

(6)

其中 yj 是 Y 的第 j 列。

A.2 self - attention with 不在场证明


(SA)

在‘,SA’层有不在场证明的自注意力:RD×T→RD×T 定义如下。
设 n∈{1,…, N}表示一个注意力头,其中 N 是头的总数。设 Dn 表示每个头的维数。
设 An, M∈RT×T 分别表示不在场证明矩阵和注意力掩模,后面会定义。
那么,Y =SA'(X)使得:

(7)

(8)
(9)

∀n (10)

∀n (11)

∀n (12)

(13)

61
其中 Wn`,q, Wn,`k, Wn,v`∈D×DR,n Un∈D`×DR,∀n 是可训练的权重参数,n
bn,q, bn,k, bn,v∈RD n,∀n, c'∈RD,是可训练的偏置参数,pat, ph∈[0,1)` ` `
为注意概率和隐藏单元退出概率。
不在场证明矩阵 An=[ani,j]i,j∈RT×T 构造为:

(14)

(15)

Ani,j = 2−n~N ·(i−j)·1(i < j) ~ 8
∀i, j∈[T], n∈[n](16)

而注意力掩模 M = [mni,j]i,j∈RT×T 构造为:


mi,j = 1(i≤j)−∞·1(i > j)∀i, j∈[T] (17)
这里我们遵循∞·0 = 0 的约定。

A.3 LayerNorm (LN)

LayerNorm, LNθ:RD→RD,定义如下:

y = LNθ(x) = p
X−µ(X)
γ θ + βθ (18)
σ2(x) + ?

在哪

µ(x) =
1 X
D
xi∈R (19)

σ2(x) =
1 X
(xi−µ(x))2∈R (20)
D

and, γθ, βθ∈RD 是可训练的增益和偏置参数,and ?∈R 是一个小常数。


θ 作为参数化变量,强调 LNem,LNf,和 LNin ', LN ',∀' at
具有不同的(未绑定的)γ 和 β 参数。
(21)
A.4 前馈网络(FFN)
(22)
前馈网络组件 FFN’:RD→RD 被定义为一个简单的多层 per-
ceptron。y =FFN'(x)使得:
0

其 中 gelu(x) = 0.5·x·(1+tanh(0.79788456·x·(1+0.044715·x2))) 按 元 素 应 用 ,
Wf`∈DR×0D, Uf∈`D×RD 是可训练的权重参数,bf '∈D, cfR '∈D 0 0R
为可训练的偏置参数,pf∈[0,1)表示该分量处的退出概率。
62
A.5 所有可训练参数列表

形状超参数列表及其值如下:

•L = 70(层数)
•N = 40(正面的数量)
•|V| = 131072(词汇量)
•D = 7,680(隐藏维度)
•Dn= 192,∀n∈[n](每个头的隐藏维度)
•D0= 4D = 30,720 (FFN 的隐藏维度)

初始化超参数如下:

•z = 0.006588≈1/ 3D 为默认范围(标准差)。

•z0= z·(1/ 2L)是 FFN 中第二层的缩放范围和 SA 中最终的线性映射。

所有参数及其大小和(元素级)初始化的列表:
范围 集团 参数 形状 大 总大小 初
小 始

W em D×|v 1006632960 1006632960 ∼N(0, z)
| 年 年
LNem γemβem 维 7680 7680 =1
维 7680 7680 =0
∈[70] LN 在 γ' inβ' in 维 7680 537600 =1
维 7680 537600 =0
∈[70], SA' W' n,问 D ×D 1474560 4128768000 ∼N(0, z)
W' n, k n 年 年
n∈[40] W' ∼N(0, z)
n、v Dn × D 1474560 4128768000
D ×D 年 年 ∼N(0, z)
n ∼N(0,z0)
1474560 4128768000
bn,问 D × Dn 年 年 =
U’ Dn 0
1474560 4128768000
” Dn 年 年 =
b'n, k 0
b' n、v Dn 192 537600
年 =
192 0
192 537600

537600

∈[70] SA' c' D 7680 537600 =
年 年 0
∈[70] γ′atβ′at 维 7680 537600 =1
维 7680 537600 =0
∈[70] FFN” Wf D ×d 0
U' f 235,929,600 16,515,072,000 ~ N(0, z)
男朋友 D×D 0
235,929,600 16,515,072,000 ~N(0,z0) =0
的 D0
cf 30,720 7,680 2,150,400 =0
D
537,600
LN f γ f βf 维 7680 7680 =1
维 7680 7680 =0
50558868480

63
标 问题

价格是否合 做 的 新闻 标题 说 关于 价格(?)
理 话
价格上 做 的 新闻 标题 说 关于 价格上涨(?)
涨 话
价格稳定 做 的 新闻 标题 说 关于 价格不变(?)

价格下降 做 的 新闻 标题 说 关于 价格下跌(?)

过去的价 做 的 新闻 标题 说 关于 过去的价格(?)
格 话
未来价格 做 的 新闻 标题 说 关于 未来价格(?)

过去一般 新闻标题谈论的是过去的一般事件(除了价格)吗?
未来的将军 新闻标题谈论的是未来的一般事件(除了价格)吗(?)
资产比较 新闻标题是否将黄金与其他资产进行比较(?)

表 18:每个标签的官方文档(Sinha and Khandait, 2020)。

附录 b 外部财务任务详情

FPB (Malo et al., 2014): Financial Phrasebank 数据集包括一个情感分类任务,该任务用英


语表达约 5000 个句子,这些句子取自 OMX 赫尔辛基上市公司的金融新闻。积极、消极、
中性的情绪注释都是从投资者的角度来判断的:任何可能对投资者有利/有害的消息都被认
为是积极/消极的,否则就是中性的。每句话都由 5 ~ 8 位具有足够金融知识的标注者进
行标注,而源句则由财经记者撰写。例如,有关营收萎缩的新闻会被标注为负面,公司
增长则会被标注为正面。虽然这个数据集有不同的配置,每个配置表示 anno- tators 之间
的百分比一致性(≥50%,≥66%,≥75%,100%),但我们选择使用≥50%的配置。由于
官方的训练-测试划分不可用,我们创建了自己的随机划分。我们的训练分割包含 3876
个句子,其中有 1086 个阳性句子,488 个阴性句子,和 2302 个中性句子,我们的测试集
包含 970 个句子,其中 277 个阳性句子,116 个阴性句子,和 577 个中性句子。我们选择
了 5 个镜头,并报告了支持度加权的 F1 分数。

FiQA SA (Maia et al., 2018):第二个情感分析任务是预测英语金融新闻和微博标题中的特


定方面情感,这是 2018 年金融问答和观点挖掘挑战赛的一部分。在原任务中,情感被标
注为[−1,+1]的连续尺度;标注任务的细节并不是现成的。为了使这个回归数据集适合于
少样本的 LLM 设置,我们将其转换为分类任务:负性(−1≤x <−0.1),中性(−0.1≤x <
+0.1),和正性(+0.1≤x≤+1),其中 x 是原始情感得分。我们基于对数据集的手工检查选
择了这种离散化。和 FPB 一样,我们结合微博和新闻创建了我们自己的随机分割。离散
化后,我们的训练集包含 938 个句子,其中 576 个阳性句子,287 个阴性句子,和 75 个
中性句子,我们的测试集包含 235 个句子,其中 141 个阳性句子,76 个阴性句子,和 18
个中性句子。我们选取了 5 个镜头,报告了加权的 F1 值。

标题(Sinha and Khandait, 2020):这是一个关于黄金商品领域的新闻标题是否包含某些信息


的二分类任务。这个人工标注的数据集由 2000 年至 2019 年的 11412 个英语新闻标题组
成,这些新闻标题与“黄金”有关,从路透社、《印度人报》、《经济时报》、彭博社和

64
来自聚合网站,如 Kitco 和 MetalsDaily。每一篇新闻文章都带有以下标签的子集:“价格与
否”、“价格上涨”、“价格下跌”、“价格稳定”、“过去价格”、“未来价格”、
“过去一般”、“未来一般”、“资产比较”。数据集是使用注释者共识创建的,每个类
别的 Cohen’s Kappa≥0.85,表明数据集是高质量的。和 FPB 一样,我们创建了自己的随
机分割。我们的训练集包含 9,129 个句子,分别包含 7,780、3,785、3,392、414、7,482、
299、1,285、67、1696 个“价格是否”、“价格上涨”、“价格下跌”、“价格稳定”、
“过去价格”、“未来价格”、“过去一般”、“未来一般”、“资产比较”类的例子。
同样,测试集包含 2283 个句子,包含 1,955、962、838、109、1,873、82、313、15、454 个
相同类别的例子。我们使用表 18 所示的每个标签上的官方文档,将每个标签用语言表达成
一个问题。我们使用了 5 个镜头,并报告了所有类别的平均加权 F1 分数。
NER (Salinas Alvarado et al., 2015):这是一项为信用风险评估收集的金融数据上的命名实
体识别任务。数据集由 8 个文档组成,约 55000 个文档
向 SEC 提交的财务协议词。注释的实体类型遵循标准 CoNLL 格式(Tjong Kim Sang 和 De
Meulder, 2003),并以 PER、LOC、ORG 和 MISC 进行注释。我们使用 Fin-5 作为上下文
采样的训练数据,并在 Fin-3 分割上进行测试。由于 MISC 不能单独定义,而是“名称
(那些)不已经在其他类别中”(Tjong Kim Sang 和 De Meulder, 2003),我们删除了所有具
有 MISC 类型的实体。此外,由于在少样本设置中学习预测空输出是很重要的,因此我
们删除不包含任何实体的句子。经过预处理,我们的训练集包含 504 个句子,每 168 个
句子,745 个 LOC 和 241 个 ORG,我们的测试集由 98 个句子,每 39 个句子,216 个
LOC 和 56 个 ORG 组成。我们发现,所有的模型都需要更多的镜头才能表现良好。因此,
我们选择了 20 个镜头,并报告了实体级别的 F1 分数。

ConvFinQA (Chen et al., 2022):给定一个包括文本和至少一个带有金融数据的表格的输


入,任务是回答需要对输入进行数值推理的对话问题。源数据是标准普尔 500 公司的盈
利报告,由 3,892 次对话组成,包含 14,115 个问题。这项任务需要数值推理,对结构化
数据和金融概念的理解,模型需要将后续问题与对话回合联系起来。为了解决这个任务,
我们使用“1 shot”,将整个黄金对话及其上下文输入到模型中。此外,当对话的每个
“回合”结束时,“回合”连同该回合的“黄金”答案被附加作为未来回合的上下文。
表格在上下文中被线性化(作者建议)为 Markdown 表格,我们用“-”替换了一个空条目。
报告的分数是模型产生的直接答案的精确匹配精度。由于测试集标签不能公开获得,我
们转而报告开发集上的结果。我们的训练集包含 11104 个对话和 45,888 个问题,我们的
测试集包含 1490 个对话和 5,932 个问题。

65

You might also like