Professional Documents
Culture Documents
BloombergGPT 中文版
BloombergGPT 中文版
摘要
NLP 在金融技术领域的应用是广泛而复杂的,其应用范围从情感分析、命名实体识别到
问答。大型语言模型(LLMs)已被证明在各种任务上是有效的;然而,文献中还没有专门针
对金融领域的 LLM 的报道。在这项工作中,我们提出了 BloombergGPT,一个 500 亿参
数的语言模型,在广泛的金融数据上进行训练。基于 Bloomberg 的广泛数据源构建了一
个 3630 亿 token 数据集,这可能是迄今为止最大的特定领域数据集,由来自通用数据集
的 3450 亿 token 增强。我们在标准的 LLM 基准、开放的金融基准和一套最准确地反映我
们预期用途的内部基准上验证了 BloombergGPT。我们的混合数据集训练产生了一个模型,
该模型在金融任务上明显优于现有模型,而不牺牲在一般 LLM 基准上的性能。此外,我
们解释了我们的建模选择,训练过程和评估方法。作为下一步,我们计划发布训练日志
(编年史),详细介绍我们在训练 BloombergGPT 方面的经验。
内容
1 介绍
3
1.1 BloombergGPT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 更广泛的贡献 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.
4
2 数据集
2.1 金融数据集(363Btoken- 54.2%的训练)。。 。。。。。。。。。。。 5
7
2.1.1 Web (298Btoken-训练的 42.01%). . . . . 。。。。。。。。。。。
2.1.2 新闻(38Btoken-训练率 5.31%). . . . . . 。。。。。。。。。。。 7
7
2.1.3 备案(14Btoken- 2.04%的培训). . . . . 。。。。。。。。。。。
2.1.4 按(9B token-训练的 1.21%). . . . . . 。。。。。。。。。。。 7
8
2.1.5 彭博(5Btoken-训练的 0.70%)… 。。。。。。。。。。。
2.2 公开数据集(345Btoken-训练的 48.73%)… 。。。。。。。。。。。 8
9
2.2.1 堆(184B token- 25.9%的训练)… 。。。。。。。。。。。
2.2.2 C4 (138Btoken-训练的 19.48%). . . . . . 。。。。。。。。。。。 9
2.2.3 维基百科(24Btoken- 3.35%的训练)… 。。。。。。。。。。。 9
9
2.3 标记 ........................ 。。。。。。。。。。。
9
∗。Co-first 作者。
1
3 模型
11
3.1 架构. . . . . . . . . . 。。。。。。。。。
。。。。。。。。。。。。。。。。。 11
3.2 模型缩放. . . . . . . . . 。。。。。。。。。
。。。。。。。。。。。。。。。。。 12
3.3 训练配置. . . . 。。。。。。。。。
。。。。。。。。。。。。。。。。。 13
3.4 大规模优化… 。。。。。。。。。
。。。。。。。。。。。。。。。。。 14
4 训练
15
5 评价
16
5.1 少样本方法论. . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 18
5.2 Heldout 损失 . . . . . . . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 18
5.3 金融任务 . . . . . . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 19
5.3.1 对外财务任务. . . . . . .
。。。。。。。。。。。。。。。。。 20.
5.3.2 内部任务:情感分析。
。。。。。。。。。。。。。。。。。 22
5.3.3 探索性任务:NER . . . . . . . .
。。。。。。。。。。。。。。。。。 23
5.4 BIG-bench 硬 . . . . . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 26
5.5 知识考核. . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 26
5.6 阅读理解. . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 28
5.7 语言任务 . . . . . . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 29
5.8 总结 . . . . . . . . . . . . . . . . . . . .
。。。。。。。。。。。。。。。。。 30.
6
定性评估 31
7 相关工作 32
8 伦理、限制和影响
37
8.1 伦理使用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
8.2 开放 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
9 结论
38
一个架构
B 外部财务任务的细节 64
2
1.介绍
1.1 BloombergGPT
3.
模型涵盖许多领域,能够在各种各样的任务中进行高水平的执行,并在训练期间避免了专
业化的需要。然而,现有特定领域模型的结果表明,通用模型无法取代它们。在彭博社,
我们支持一组非常庞大和多样化的任务,通用模型很好地服务于我们,但我们的绝大多数
应用都在金融领域内,由特定模型更好地服务。出于这个原因,我们开始构建一个模型,
该模型在金融基准上取得了同类中最好的结果,同时也在通用 LLM 基准上保持有竞争力
的表现。
通过构建迄今为止最大的特定领域数据集,利用 Bloomberg 现有的数据创建、收集和
策展资源,实现了这一目标。由于 Bloomberg 主要是一家金融数据公司,我们的数据分
析师已经收集和整理了 40 多年的金融语言文档。我们拥有广泛的金融数据档案,涵盖了
一系列的主题,并对数据来源和使用权进行了仔细的跟踪。我们将这些数据添加到公共
数据集,以创建一个拥有超过 7000 亿 token 的大型训练语料库。使用该训练语料库的一
部分,我们训练了一个 bloom 风格的 500 亿参数模型,该模型是根据 Hoffmann 等人
(2022)和 Le Scao 等人(2022)的指导方针设计的。我们在标准的 LLM 基准、开放的金融基
准和一套最准确地反映我们预期用例的彭博内部基准上验证了该模型。我们的结果表明,
我们的混合训练方法产生了一个模型,该模型在域内金融任务上大大超过现有模型,同
时在一般 NLP 基准上持平或更好。
1.2 更广泛的贡献
除了为金融数据构建 LLM,我们的目标是为更广泛的研究社区做出贡献。具体来说,本
文中记录的我们的经验提供了证据,进一步发展了社区对文献中几个开放问题的理解。
训练数据。几乎所有的语言模型在很大程度上都依赖于网络抓取的数据,例如 C4 (Raffel
等人,2020)和 Pile (Gao 等人,2021)(其中包括 OpenWebText2)。在使用 Touvron et
al.(2023)之前,这些数据可能会以各种方式进行清洗或子集化;Rae et al. (2020);Scao 等
(2022);Jernite et al.(2022),但数据重复 Carlini et al.(2020)和有毒语言的问题仍然是 Welbl
et al.(2021)。我们的训练数据对于 LLM 训练来说不同寻常,因为它包括大量来自可靠来
源的策划和准备的数据。
4
模型(Liang 等,2022;Srivastava et al., 2022)。然而,对于特定领域的任务,评估和实际
用例之间仍然存在不匹配。评估是建立在可用的数据集上,而不一定是建立在模型将如
何在实践中使用上。我们提供了两个公共金融 NLP 基准的结果(Shah 等人,2022;Chen et
al., 2021b)以及选择的彭博内部任务,这些任务与我们预期的用例更好地吻合,并直接
评估我们的模型执行感兴趣任务的能力。
分词器。在组装训练数据之后,tokenization 的关键步骤是将文本转换为适合语言模型
的格式。这一步的重要性经常被忽视 Mielke et al.(2021),许多较老的 llm 使用相同的
分词器和词汇表,这意味着我们几乎没有证据支持其他分词器。我们采取了一种不同
的方法,使用 Unigram 模型而不是贪婪的基于合并的子词分词器,因为它节省了概率,
允许在推理时进行更智能的分词(Kudo, 2018)。
模型构建的挑战。GPT-3 和后续的模型是大型团队的工作,需要大量的计算。重现这些
结果的初始工作,如 OPT Zhang et al. (2022a),并没有匹配原始模型的性能。随着每个
后续模型的发布,社区的理解、经验和软件工具都在增加。在开发 BloombergGPT 时,
我们受益于作为 BLOOM 努力 Scao et al.(2022)一部分开发的现有代码,表明一个中等
规模的团队可以在特定领域的数据上产生具有竞争力的模型。我们详细描述了我们训
练 BloombergGPT 的经验,以支持未来的训练工作,并解决上述每个主题。
2.数据集
为了训练 BloombergGPT,我们构建了“FinPile”,一个全面的数据集,由一系列英文金
融文件组成,包括新闻、文件、新闻发布、网络抓取的金融文件和从彭博档案中提取的
社交媒体。这些文件是通过我们过去二十年的业务流程获得的。我们使用广泛用于训练
llm 的公共数据来增强 FinPile。结果是一个训练语料库,大约一半是特定领域文本,一半
是通用文本。完整训练集的分解见表 1。为了提高数据质量,我们根据 Lee 等人(2022a)
对每个数据集(The Pile, C4, Wikipedia, FinPile)进行去重;作为副作用,表 1 中报告的统计
数据可能与其他论文中报告的数据不同。
5
文档 识字 托克
数据集 C/ 课 C / 斯 T%
1 e4 D T
1 1
e8 e8
FinPile 175886 年 1017 17883 4.92 3635 51.27%
年 年 年
网络 158250 年 933 14768 4.96 2978 42.01%
年 年
新闻 10040 年 1665 1672 4.44 376 5.31%
年 年
申请 3335 年 2340 780 5.39 145 2.04%
年
新闻 1265 年 3443 435 5.06 86 1.21%
年
彭博 2996 年 758 227 4.60 49 0.70%
在过去的四十年里,彭博终端提供了一套全面的、多样化的结构化和非结构化金融数
据和分析。为了完成这一使命,彭博分析师策划了一套财务文件,这些文件要么是内
部创建的,要么是从外部来源获得的。我们利用这些精心策划和维护的大量文件创建
了 FinPile,其中包括公司文件、金融新闻和其他与金融市场相关的数据。
FinPile 中包括的一些文件,如公司文件,可向公众提供,尽管收集这些文件并为
LLM 训练对其进行预处理是一项艰巨的任务。其他文件,如彭博新闻(子集),必须购买。
其余文件属于私人文件,可以通过彭博终端等渠道获取。最后,我们清理这些数据,剥
离标记、特殊格式和模板。
注意,FinPile 中的每个文档都有时间戳,日期范围从 2007- 03-01 到 2022-07-31;在
这个时间范围内,文档的质量和数量都在增加。虽然我们在这项工作中没有利用日期
信息,但我们计划在未来使用它,例如用于评估模型对不同时间段的学习情况。虽然
我们不能发布 FinPile,但我们在一个大型的、精心策划的、干净的特定领域数据集上
的经验训练可能会为社区提供有用的见解,特别是关于构建金融 LLM 的优势和挑战,
以及一般的特定领域模型。我们在表 2 中提供了 FinPile 的细分和分析,以及下面包含
的数据类型的简要描述。
彭博社通过识别包含财务相关信息的网站来收集网络内容。虽然这一类别占了 FinPile 的
大部分,但它的分类很粗略,内容主要根据网络域名的位置进行分类。在这些特定位置的
来源中,例如“美国”(占总数的 15.95%)、“亚太”(占总数的 4.72%)和“英国”(占总数
的 1.98%),文档类型是非常不同的,这在网络抓取中是可以预期的。虽然网络资源在现
有的公共 LLM 训练数据集中很常见,但彭博社的网络抓取侧重于具有财务相关信息的高
质量网站,而不是通用的网络抓取。
新闻类别包括除彭博记者撰写的新闻文章外的所有新闻来源。总的来说,FinPile 有数百
种英语新闻来源,包括“Bloomberg Transcripts”(占总数的 0.41%),它们是彭博电视新闻
的文字记录。一般来说,这个数据集中的内容来自与金融界相关的有信誉的新闻来源,
以保持事实性并减少偏见。
公司备案是由(上市)公司编制并向公众提供的财务报表。在一些国家,比如美国,上市
公司是强制性的
7
日 彭博 申请 新闻 新闻 网 总计
期 络
2007 (03) 276 73 892 523 2667 4431
年 年
2008 351 91 1621 628 9003 11695
年 年 年
2009 293 93 1791 528 9179 11883
年 年 年
2010 292 111 1917 527 11388 14236
年 年 年
2011 335 117 2264 548 13643 16907
年 年 年
2012 403 105 2502 529 15015 18554
年 年 年
2013 415 87 2437 441 17230 20610
年 年 年
2014 396 251 2458 437 18510 22052
年 年 年
2015 358 1639 2371 427 20782 25576
年 年 年 年
2016 324 1891 2509 418 24337 29478
年 年 年 年
2017 294 2294 2567 398 25283 30837
年 年 年 年
2018 275 1791 2702 420 26027 31214
年 年 年 年
2019 263 1662 3102 504 27195 32726
年 年 年 年
2020 277 1632 2794 805 30928 36435
年 年 年 年
2021 247 1767 3515 938 29749 36215
年 年 年 年
2022 年[- 140 882 2206 531 16872 20631
07] 年 年 年
4939 14486 37647 8602 297807 363482
年 年 年 年 年 年
Press 类别包含通常由财务相关的公司发布的新闻稿。和文件一起,新闻发布代表了公司
的大部分公共传播。然而,与备案文件不同的是,新闻稿在内容和风格上与新闻故事相似。
该类别包括彭博撰写的新闻和其他文件,如意见和分析。最大的来源是“彭博新闻”(占
总新闻的 0.44%)和“彭博第一词”(占总新闻的 0.13%),后者是彭博撰写的实时新闻。
虽然“彭博新闻”的话题范围很广,但它通常关注的是与金融界相关的内容。这个数据
集包含了不同长度的文档。
8
2.2 公开数据集(345B token - 48.73%的训练)
我们在训练语料库中使用了三个广为人知且可用的公共数据集。
Pile (Gao et al., 2021)是 GPT- neo (Black et al., 2021)、GPT- J (Wang 和 Komatsuzaki,
2021)和 GPT- neox (20B) (Black et al., 2022)中使用的数据集。我们将堆包含在我们的训
练数据中是出于以下原因。首先,它已经被用来成功地训练一个 LLM。其次,它经历了
重要的数据清洗和预处理。第三,它包括多个领域,我们相信这样多样化的数据将有助
于对新领域的泛化,甚至可能支持金融数据的训练。例如,像 FreeLaw 和 GitHub 这样的
域名对彭博社分别从事法律文件和软件开发的团队很有用。这一堆的创作者故意选择包
含重复的内容,重复因子与感知到的内容质量成正比。然而,当我们对每个数据集进行
去重时,堆的大小就大大减少了。此外,请注意我们的分词器(§2.3)是在堆上训练的。
Pile 和 C4 都包含过时的维基百科副本,因此包含最新的维基百科页面可能对模型的事实
性有益。因此,我们包含了从 2022 年 7 月 1 日开始的英文维基百科的转储。这个数据集
的标记化效率相当低(每个标记 3.06 个字符),这表明标记量高于平均水平,这表明进一
步的清理可能有利于未来的模型训练。
2.3 标记
9
布鲁姆 /我 NeoX /我 选 /我 BloombergGPT
们的 们的 择 们的
FinPile(旧) 451 110% 460 112% 456 111% 412
C4 166 121% 170 123% 170 123% 138
桩 203 110% 214 116% 239 130% 184
维基百科 21 88% 23 99% 24 103% 24
总计 390 113% 408 118% 434 126% 345
10
形状
层数头数词汇量大 70 40
小隐藏维度总参数 131,072
7,680
50.6b
Hyperparameters
训练
3.模型 3.1 架构
我们的模型是一个基于 BLOOM 的仅解码器的因果语言模型(Scao et al., 2022)。我们提
出了一个架构的概述,完整的细节见附录 A。
该模型包含 70 层 transformer 解码器块,定义如下:
11
2000 最优#参数 w.r.t。失败 最优# token w.r.t. FLOPs
1000 Chinchilla-1 5000
Chinchilla-1
Chinchilla-2 Chinchilla-2
500 Chinchilla-3 MT-NLG PaLMKaplan Chinchilla-3
小田鼠 卡普兰
2000
200 GPT-3/侏罗纪/OPT BLOOM LaMDA 钦奇利亚
One OPT 棕榈栗鼠 BloombergGPT 1000 骆驼
令牌(B)
hun 棕榈 棕榈
参数(B)
骆驼
dre 500 BloombergGPT
d. NeoX
20.
50 Bloom opt mt-nlg
NeoX
10
200 LaMDA
骆驼
1 e22
3.2e22 1e23 FLOPs3.2e23 1e24 3.2e24 1001 e22 3.2e22 1e23 FLOPs3.2e23 1e24 3.2 e24
3.2 模型缩放
这些计算表明,考虑到我们的计算预算(假设仅通过一次数据),我们的~700B token 的
数据集对于“栗鼠最优”配置来说太小了虽然我们可以增加通用训练数据的数量,但
我们可以使用的特定领域训练数据的数量是有限的。FinPile 已经是最大的特定领域训
练集之一,我们不希望它代表少于我们总训练量的一半。
1.Chinchilla 推 导 出 的 缩 放 律 是 特 定 于 tokenizer 的 。由 于 支 持 多 词 表达 式 和 更 大 的 词 汇 量 , 我 们的
tokenizer 可以对相同的文档进行更紧凑的编码。这些缩放定律在分词器之间的迁移情况如何,以及假
设计算固定,词汇量大小如何影响 token 和参数权衡,仍然是一个开放的问题。我们将这种探索留给未
来的工作。
12
由于我们的数据有限,我们选择了我们能选择的最大的模型,同时确保我们可以在所
有 token 上进行训练,并且仍然留下总计算预算的约 30%作为不可预见的故障、重试和重
启的缓冲区。这将我们引向一个 50B 参数模型,这也大致是我们计算预算的栗鼠最优大
小。图 1 提供了缩放定律的总结以及 BloombergGPT 与其他模型的比较。
D = exp(5.039) exp(0.0555·L)
3.3 训练配置
13
查询关键层缩放技术(Shoeybi et al., 2019),该技术被提出以提高 FP16 混合精度训练
的数值稳定性,但也可能有助于 BF16。
训练不稳定。LLMs 优化需要在非常复杂的非凸损失曲面上运行凸优化算法。之前的工
作报告了在训练 LLMs 时的各种不稳定性。例如,Chowdhery 等人(2022)发现,尽管启
用了梯度裁剪,但在训练 PaLM 时,损失增加了约 20 倍。他们通过在峰值开始前大约
100 步从一个检查点重新开始训练来缓解这些问题,然后跳过 200-500 个数据批次。他
们假设,峰值的发生是由于特定数据批次与特定模型参数状态的组合。同样,在 OPT 训
练期间,Zhang 等人(2022a)注意到梯度和激活规范的峰值,或训练困惑度的分歧。在这
些行为之后,他们降低了自己的学习率,这稳定了这些规范,并允许训练继续。有趣的
是,Scao 等人(2022)只报告了一个损失峰值,模型从这个峰值中自行恢复。
3.4 大规模优化
激活检查点。Chen et al.(2016)通过在向后传递期间以额外的计算为代价删除激活来最小
化训练内存消耗。当一层启用激活检查点时,在前向传递之后,只有层的输入和输出保
留在内存中,而任何中间张量都从内存中丢弃。在向后传递期间,这些中间张量可能会
被重新计算。我们对每个 transformer 层应用激活检查点。
14
4.00 2.30 学习曲线
configconfiglr 6e-5 + bs 1024
3.75 Lr
2.25
Lr Lr
3.50
2.20 6e-5
3.25 6e-5
2.15 +lrlr
损失
2.00
0 20000 40000 60000 Steps80000 100000 120000 140000
4.训练
训练 BloombergGPT 的过程涉及基于模型训练进展的一路上的决策。我们分享了这一过
程中的一些亮点。图 2 显示了训练集和验证集的学习曲线。实线显示(平滑)训练损失,
虚线显示保留验证集上的损失。线条颜色的变化也表明优化超参数配置的变化
15
如期,或为了应对验证损失的增加或停滞。这张图显示了成功的模型训练运行所采取的
路径。为了呈现一个清晰的图,图中没有显示不同模型配置的其他尝试,回滚后被覆盖
的部分运行,或在最终模型中未使用的其他训练策略。
我们在当前批次上每 5 步测量一次训练损失。原始值变化很大,绘制时造成很大的
抖动。图中通过显示平滑了训练损失
yt= Pti = 0(1−α)(t−1)
其中 α= 0.001。不需要平滑
验证损失,因为它每 300 步在整个验证集上测量一次。
我们总共训练了 139,200 步(~53 天),并在通过我们的训练数据(709B 可用 token 中的
569B token)完成一个 epoch 的 80%后结束了模型训练。我们提前结束了训练,因为我们
保留的开发集上的损失不再改善,尽管更长时间的训练可能会产生进一步的改进。
我们从 7200 步的 1024 个预热批大小开始运行,之后我们切换到常规的 2048 个批大
小(颜色从黑色变为蓝色)。批量大小的变化表现为步骤 7200 时验证损失的可见曲率变化。
其余的大部分训练都稳定地进行,训练和验证损失减少。在后续阶段,在步骤 115500 之
后,当我们观察到验证损失持平或增加时,需要进行干预。然后,我们依次应用以下纠
正性修改:
•步骤 115500(蓝色到橙色):将学习率缩小到三分之二
•步骤 129,900(橙色到绿色):学习率减半,并添加 dropout (0.1 prob-
能力)
•步骤 137,100(绿色到红色):学习速率再次减半
5.评价
16
套件 任务 它衡量的是什么?
公共财政任务 5 金融领域的公共数据集
彭博金融任务 12 NER 和情感分析任务
表 5:评估基准。我们在一组评估下游性能的高覆盖率标准基准上评估了 bloombergpt,
这些基准取自 HELM、SuperGLUE、MMLU 和 GPT-3 套件。由于这些有显著
的重叠和/或相互包括,我们将它们重组为此处提出的类别。我们只对每个数
据集的一个设置进行评估。我们进一步评估了一套内部和公共财政任务的
BloombergGPT。
名字 #token(B) #参数。(B) 计算
17
这三个模型都使用了我们在训练语料库中使用的一些相同的通用数据集。当外部可用时,
我们还报告原始 GPT-3 (Brown et al., 2020)的结果
我们更喜欢自己运行模型,以确保相同的评估设置,我们将任何在其他地方报告的、
不是由我们运行的结果放在一个单独的组中。为了公平地比较模型,我们避免了对提示
和其他技术的任何调整,这些技术可能导致一些(但不是所有)模型的结果得到改善。出于
这个原因,每个任务都通过“标准”提示进行测试(如表 7 所示),即不需要对基础模型进
行任何参数更改,不需要任务描述,也不需要思维链提示(Wei et al., 2022b)。呈现给模
型的少样本数量取决于任务,我们在各自的章节中包括了这些细节。对于每组结果,我
们进一步呈现类似于 Liang et al.(2022)的胜率,它代表了我们自己运行评估的所有模型对
之间在单个任务上并排比较的“胜”的比例。
5.1 少样本方法论
5.2 留存损失
18
0.8 BloombergGPT
GPT-Neo-X
OPT66B
BLOOM176B
每字节位数
0.6
0.4
0.2
0.0 彭博社整体备案新闻通讯社
网络
比训练集更晚的数据集,并在训练集和保留集之间执行重复数据删除。在评估过程中,
对于超过 2048 个 token 的文档,我们使用半窗口大小作为上下文的滑动窗口方法。这意
味着任何超过前 2048 个词例的词例在预测期间至少有 1024 个词例作为上下文。我们在
FinPile 中按文档类型报告损失分类。
图 3 显示 BloombergGPT 始终优于其他模型。虽然这是预期的,主要用作完整性检查,
但它也为其他模型的泛化能力提供了有价值的见解。例如,与 BloombergGPT 的差距在
备案类别中最为显著,可能是因为这些文档虽然公开,但通常是 PDF 格式,因此不包括
在任何现有的数据集中。
5.3 财务任务
19
任务 模板/例子
区别的
情绪分析 {句}
问题:什么是情感?
答:{负/中性/正}
方面情感分析 {句}
问题:{target}上的情绪是什么?
答:{负/中性/正}
二元分类 {句}
问题:{}的问题吗?
答:{是的/不}
生成
尼珥 史蒂夫·乔布斯是苹果公司的
CEO
提取命名实体:史蒂夫·乔布斯(人),苹果(组织)
尼珥+内德 苹果公司停止使用英特尔芯片
提取股票:AAPL, inc
质 {上下文}
量
保
证
问题:{}的问题吗?
答:{答案}
表 7:我们在金融领域评估的不同任务的模板。
5.3.1 对外财务工作
20.
BloombergGPT GPT-NeoX OPT66B BLOOM176B
ConvFinQA 43.41 30.06 27.88 36.31
FiQA SA 75.07 50.59 51.60 53.12
FPB 51.07 44.64 48.67 50.25
标题 82.20 73.22 79.41 76.51
尼珥 60.82 60.98 57.49 55.56
表 8:金融领域任务的结果。
对于 ConvFinQA,我们使用了一个完整的黄金对话,其上下文被用作模型的输入。
当对话的每个“转弯”结束时,“转弯”连同该转弯的答案被附加作为未来转弯的
上下文。我们报告了在公共开发集上的精确匹配精度。
21
名字 时间 令牌 测试尺 % Pos % Neu %底片
寸
股票的新闻 2018 - 2019 150 - 1000 7 87 6
200 年
公平社交媒体 2015 - 2020 15 - 1000 10 83 7
20 年
股本成绩单 2008 - 2020 70 - 800 19 75 6
80
ES 新闻 2016 - 2019 100 - 1000 32 53 15
120 年
国家新闻 2009 - 2021 50 - 1000 18 60 22
1000 年
5.3.2 内部任务:情感分析
对于 Bloomberg-internal 任务,我们考虑在金融文献中普遍存在的特定方面情感分析。我
们使用的所有数据集都是英文的。
我们的注释过程由一个发现阶段组成,在此期间我们建立注释和采样程序,了解每个
示例通常需要多少注释者,并确定注释者所需的训练水平(Tseng et al., 2020)。根据任务
的复杂性,我们的注释者是由彭博社(Bloomberg)的金融专家、顾问工作者组成的专门团
队,或两者的结合。在每一种情况下,纽带都是通过额外标注者的裁决来解决的,歧义
的例子被排除在外。本节中的所有数据集都由 2 个标注者注释,第三个标注者打破了任
何联系。
我们使用五次评估来测量内部数据集的 llm 的性能,类似于外部数据集。由于数据
集很大,我们随机抽样最多 1k 个测试样本。我们报告每个标签支持度加权的 F1 值。
请注意,与外部数据集类似,我们内部数据集中使用的数据的未标记版本很可能出现
在 FinPile 中,因此在训练期间被 BloombergGPT 看到。然而,由于一些 FinPile 也可以
在网络上获得,我们对比的其他 llm 可能也已经在此数据的未标记版本上进行了训练。
数据集统计数据如表 9 所示。
•股票新闻情绪:此任务是预测新闻报道中对一家公司表达的特定方面的情绪。该数据
集由来自彭博社、premium 和网络内容的英语新闻故事组成。标注“正面”、“负
面”或“中性”,表明该新闻报道可能会增加、减少,或不会改变长期投资者对该
公司的信心。
•股票社交媒体情绪:任务类似于“股票新闻情绪”
但我们使用的不是新闻,而是与金融相关的英语社交媒体内容。
•股票文本情绪:这个任务也类似于“股票新闻情绪”,但我们使用的不是新闻,而
是公司新闻发布会的文字记录。这些文本通过使用语音识别,有时也通过人工编
辑来提供。长转录本以块为单位进行处理,我们数据集中的每个块通常包含 70 到
80 个 token。
22
BloombergGPT GPT-NeoX OPT66B BLOOM176B
股票的新闻 79.63 14.17 20.98 19.96
公平社交媒体 72.40 66.48 71.36 68.04
股本成绩单 65.06 25.08 37.58 34.82
ES 新闻 46.12 26.99 31.44 28.07
国家新闻 49.14 13.45 17.41 16.06
表 10:内部特定方面情感分析数据集的结果。BloombergGPT 在情感分析任务上的表
现远远超过了其他所有模型。
名字 令牌 测试尺 疯狂 ORG 每
寸 的
自行 ~ 500 0.2 1.6 0.0
车造 21 500 0.7 1.0 0.6
福世 ~
界" 30 500 0.1 1.3 0.4
组织 500 0.7 2.7 1.0
~
BN 32 500 0.6 1.4 0.3
申请 ~ 500 0.6 0.6 0.3
头条新闻 50 500 0.4 1.4 0.2
溢价 ~
成绩单
29
~
社交媒体 23
日
~
12
ES 新闻情绪:虽然这项任务是预测新闻故事中对公司(方面)表达的特定方面的情绪,
但目标不是表明对投资者信心的影响。如果新闻报道中包含的内容反映了公司环境
和社会政策的好、坏或中性消息,则这些报道被标注为“积极”、“消极”或“中
性”。
•国家新闻情感:该任务与其他情感任务的不同之处在于,目标是预测新闻故事中表
达的对一个国家的情感。该数据集由来自彭博社、premium 和网络内容的英语新
闻故事组成。如果新闻故事暗示了该国经济的增长、萎缩或现状,则这些故事被
标注为“积极”、“消极”或“中性”。
表 10 显示,在四个内部方面特定的情感任务中,bloombergpt 的表现比其他所有测试模型
都要好,差距很大。模型表现相似的唯一任务是社交媒体情感任务,而 BloombergGPT 比其
他模型的表现至少高出 25 点,在其他三个任务中最高超过 60 点。
5.3.3 探索性任务:NER
23
NER 在很大程度上是生成式 llm 的未探索任务。NER 不在 HELM Liang et al.(2022)中,在
BIG-bench Srivastava et al.(2022)中有一个单一的(Polish)任务,我们研究的 LLM 论文中没
有一篇报告 NER 的表现。因此,我们认为 NER 是一项探索性任务,鉴于其在金融部门的
重要性,我们报告了初步的 NER 结果。
为什么 NER 对于生成性 llm 来说可能是一项艰巨的任务,有几个原因。NER 是一项
信息提取任务,更适合于编码器-解码器或仅编码器架构。LLMs 的生成性质并没有给
NER 带来优势。要为 NER 获得比其他任务更合理的结果,需要广泛的提示工程和更多的
镜头。金融特定的 NER 具有微妙之处,使其特别难以进行零次或少次学习。
例如,考虑一下(捏造的)标题“彭博社:马斯克先生在 Twitter 上添加了新的功能和对中
国的评论”。根据我们的注释指南和下游任务需求:(a)报道新闻机构“彭博社”是否可以
被标记,取决于我们是否只想要显著的实体,(b)“马斯克先生”或仅仅“马斯克”是要
被标记的 PER, (c)“Twitter”可以被标记为一个 ORG 或一个 PRD(产品),因为功能添
加到 Twitter 产品而不是组织,(d)“中国”可以被标记为 ORG 或 LOC,尽管正确的标签
可能是 ORG。没有在提示中添加广泛的注释指导方针,LLM 不知道预期的标记行为。
基于初步测试,我们确定了以下设置,以从所有模型中获得在内部 NER 任务上的最佳
性能。首先,我们将被预测的实体类型限制为 ORG、PER 和 LOC。总的来说,我们过滤
掉了不到 1%的实体。我们还删除了所有不包含实体的文档(即所有“O”)。这两种修改都
是为了增加在少样本提示中看到的示例的有用性。我们预计,对 NER 的提示工程的进一
步工作可以产生更好的结果。
我们考虑了来自不同领域的 7 个彭博内部 NER 数据集。
•申报 NER:这项任务的目标是识别公司提交的强制性财务披露中发生的实体。该数
据集包含 2016 年至 2019 年之间采样的文件。
•标题 NER:此任务的目标是识别出现在彭博新闻英文内容标题中的实体。该数据集包
含 2016 年至 2020 年之间采样的标题。
高级 NER:这项任务的目标是识别出现在彭博社采集的第三方英语新闻内容子集中的
实体。该数据集包含 2019 年至 2021 年采样的新闻报道。
•转录本 NER:该任务的目标是识别发生在转录本中的实体
公司新闻发布会。该数据集包含 2019 年的转录本。
24
BloombergGPT GPT-NeoX OPT66B BLOOM176B
尼珥
•社交媒体 NER:这项任务的目标是识别出现在英语金融相关社交媒体内容中的实体。
该数据集包含 2009 年至 2020 年之间采样的社交媒体内容。
由于我们的数据集是实质性的,我们从每个过滤后的内部数据集中随机采样 4000 个训
练样本和 500 个测试样本。我们利用 20 次提示并使用 F1 进行评估。内部 NER 任务的
结果是混合的(表 12)。更大的 BLOOM176B 赢得了大多数 NER 任务。在同等大小的模型
中,BloombergGPT 表现最好,排名第一一次(头条),第二四次(BN,保费,转录本,
社交媒体),第三次(BFW),最后一次(备案)。
探索性任务:NER+NED 命名实体消歧(NED)将实体提及链接到知识库或其他结构化信
息源中的已知实体。在金融世界中,我们寻求将公司的文本提及链接到它们的股票符
号(ticker symbols),这是一个唯一标识特定股票在特定股票市场上公开交易的特定股票
股票的缩写。
我们通过评估一个联合的 NER+NED 任务:识别文档中提到的公司的股票报价符号,
直接测试 LLM 完成这项任务的能力。这
25
要求模型首先识别公司提及数,然后生成相应的股票行情。例如,“苹果公司宣布他们
将在未来的产品中停止使用英特尔芯片。正确的 NER 输出应该是“AAPL,英特尔”,
而正确的 NER+NED 输出应该是“AAPL,英特尔”。
这项任务的优点之一是,它对提取精确文本跨度的变化具有鲁棒性。虽然 NER 评估
需要精确匹配,但 tickers 可能在不首先识别 span 的情况下成功产生。此外,它评估了模
型对公司的知识,它们的各种表面形式,以及公司到股票的映射。
通过在来自每个域的 Bloomberg 内部 NER 注释文档上为财务数据中的公司运行最先
进的实体链接系统,我们为这项任务创建了链接股票的评估数据。我们删除了没有链接
股票的文档。在我们的 NER 评估之后,我们从每个过滤后的内部数据集中随机采样了
4000 个训练样本和 500 个测试样本。我们利用 20 次提示并使用 F1 进行评估。
表 12 显示,BloombergGPT 以很大的优势超过了所有其他模型,除了在社交媒体数
据上,它仅次于 BLOOM176B 。在我们的社交媒体数据中,公司经常被它们的股票引用,
去 掉 了 模 型 链 接 提 及 的 要 求 , 并 将 任 务 恢 复 到 NER 。 这 些 结 果 进 一 步 强 调 了
BloombergGPT 在金融任务上的优势。
5.5 知识评估
接下来,我们评估知识,我们将其定义为通过场景在不提供额外上下文或资源(闭卷问答)
的情况下,回忆在模型训练中看到的信息的能力。这包括多项选择题,我们报告准确性。
我们遵循 Brown et al.(2020)的模板。场景列表如下:
26
大板凳困难任务 BloombergGPT GPT-NeoX OPT66B BLOOM 176B PaLM540B
布尔表达式 λ 62.40 71.20 48.40 69.20 83.2
因果关系的判断 49.73 52.41 51.87 51.87 61.0
日期的理解 54.80 45.60 49.60 50.00 53.6
消歧 QA 34.00 40.80 40.40 40.40 60.8
戴克语言 15.60 26.00 14.80 42.00 28.4
正式的谬论 50.80 52.80 54.00 52.80 53.6
几何形状 15.20 8.00 11.60 22.40 37.6
倒装法 92.00 92.00 91.60 92.00 70.8
λ
逻辑推理 (avg) 34.53 30.93 31.87 34.00 60.4
电影推荐 90.40 86.40 91.20 91.20 87.2
λ
多步算法 [2] 1.20 0.40 0.40 0.00 1.6
导航 42.00 45.20 42.00 50.00 62.4
对象计数 33.20 21.20 26.00 36.80 51.2
表中的企鹅 37.67 33.56 28.08 40.41 44.5
彩色物体的推理 34.80 26.00 31.20 36.80 38.0
毁灭的名字 56.00 54.00 52.80 54.80 76.0
显著翻译错误检测 20.00 20.40 16.40 23.60 48.8
蛇鲨 69.66 62.36 69.66 72.47 78.1
体育的理解 62.80 53.20 54.40 53.20 80.4
时间序列 29.20 21.20 23.60 36.80 39.6
跟踪打乱的物体 λ (avg) 25.33 24.53 24.00 23.47 19.6
谎言之网 49.20 52.40 54.00 51.20 51.2
单词排序 4.80 5.20 2.40 7.60 32.0
27
任务 BloombergGPT GPT-NeoX OPT66B BLOOM176B GPT-3
5.6 阅读理解
我们将阅读理解基准定义为任务,在这些任务中,模型可以根据所提供的输入文本中包含
的信息生成正确的响应。我们的分组包括开卷 QA 任务,而 Brown 等人(2020)则将它们分
成不同的类别。我们遵循 Brown et al.(2020)的模板,并报告准确性。我们包括以下任务:
28
RC 场景 BloombergGPT GPT-NeoX OPT66B BLOOM176B GPT-3
BoolQ 74.59 46.36 57.46 52.94 76.7
OpenBookQA 51.60 44.20 58.00 47.20 58.8
种族(中) 54.32 41.23 47.42 52.30 57.4
种族(高) 41.74 34.33 37.02 39.14 45.9
MultiRC 62.29 22.86 18.80 26.65 72.9
记录 82.79 67.86 82.53 78.01 90.2
5.7 语言任务
我们将那些与面向用户的应用程序没有直接联系的场景定义为语言任务。这些任务包
括评估消歧、语法或蕴含的任务。这些任务旨在直接评估模型理解语言的能力。我们
遵循 Brown et al.(2020)的模板,并报告准确性。任务列表如下:
29
语言的场景 BloombergGPT GPT-NeoX OPT66B BLOOM176B GPT-3
5.8 总结
在许多基准的几十个任务中,一个清晰的画面出现了。在我们对比的具有数百亿参数
的模型中,BloombergGPT 表现最好。此外,在某些情况下,它的性能甚至超过了更大
的模型(数千亿参数)。虽然我们对 BloombergGPT 的目标是成为金融任务的一流模型,
并且我们包括了通用训练数据以支持特定领域的训练,但该模型仍然在通用数据上获
得了超过类似规模的模型的能力,并且在某些情况下匹配或优于更大的模型。
30.
输入:告诉我苹果公司的最新价格和市值
输出:get(px_last,cur_mkt_cap) for([' AAPL US Equity '])
输入:特斯拉价格
输出:get(px_last) for([' TSLA US Equity '])
6.定性样品
我们现在分享来自我们模型的定性示例,这些示例突出了我们领域专业化的好处。
彭博查询语言的生成。BloombergGPT 的一个用例是让与金融数据的交互更加自然。现
有的一种检索数据的方式是通过彭博查询语言(BQL)。BQL 可以用来与不同类别的证券
进行交互,每种证券都有自己的字段、函数和参数。BQL 是一个非常强大但复杂的工
具。正如我们在图 4 中所示,BloombergGPT 可以通过将自然语言查询转换为有效的
BQL 来使 BQL 更易于访问。
新闻标题的暗示。其他得到良好支持的用例在新闻领域。由于它是在许多新闻文章上进
行训练的,因此它可以用于许多新闻应用程序,并协助记者进行日常工作。例如,在构
建新闻简报时,记者可能需要为每个新版块编写简短的标题。虽然帮助完成这项任务的
专用模型可能维护成本过高,但 BloombergGPT 的表现很好,开箱即用(图 5)。
31
输入:根据 Redfin 的数据,美国房地产市场在 2022 年下半年缩水 2.3 万亿美元,降幅
4.9%
。这是自 2008 年住房危机以来百分比降幅最大
的一次,2008 年同期美国住房市场价值暴跌 5.8%。
产出:房价出现 15 年来最大跌幅
输入:耶伦在 20 国集团峰会上表示,全球经济形势比几个月前许多人预测的要好
。在国内,她指出了美国经济的弹性
,总体通胀已经放缓,劳动力市场强劲。她还呼吁
国际货币基金组织迅速采取行动,为乌克兰提供全面融资。
产出:耶伦认为全球经济比预期更具弹性
输入:谷歌被美国和 8 个州起诉,要求分拆其
广告技术业务,理由是涉嫌垄断数字广告市场。这起诉讼
是拜登政府首次对科技巨头发起重大挑战,也是自 1982 年以来美国司法部寻求分拆
一家大公司的罕见案件之一
。
输出:谷歌起诉垄断在线广告市场
7.相关工作
32
输入:Assicurazioni Generali 的 CEO ?
彭博社:Philippe Donnet
GPT-NeoX: Antonio De Lorenzo, Simone Gambarini, Enrico Zanetti
FLAN-T5-XXL: John M Forsyth, Christopher K Peters,{空串}
Input:硅谷银行 CEO ?
彭博社:Greg Becker
GPT-NeoX:约翰·阿多、迈克·弗里根、彼
得·R·布里格
FLAN-T5-XXL:克里斯蒂安·克莱因、约翰·M·福赛斯、约
翰·M·福赛斯
Input: IHS Markit Ltd 的 CEO ?
彭博社:Lance Uggla
GPT-NeoX: John F Lechleiter, David Steward, Niall O Broin
FLAN-T5-XXL: William M Hawkins, John M Forsyth, John M Forsyth
输入:沃尔格林博姿联盟 CEO ?
记者:罗莎琳·布鲁尔
GPT-NeoX: Mark V Dei, Stefano Pessina, Stefano Pessina
FLAN-T5-XXL: Christian Klein, John M Forsyth, John M Forsyth
输入:花旗集团(Citigroup Inc)
CEO ?
彭博社记者:简·弗雷泽
GPT-NeoX: Michael L Corbat, Michael L Corbat, Michael L Corbat*
FLAN-T5-XXL: Christian 缝纫,John M Forsyth, John M Forsyth
通过自回归语言建模目标,在迁移学习中取得了强大的性能。Radford 等人(2019)进一步
表明,缩放模型大小和训练数据可以使自回归语言模型在不同的下游任务中表现良好,而
无需任何额外的监督微调。
Brown et al.(2020)表明,进一步扩展模型导致了新的模型能力的出现和模型鲁棒性的增
加。自 Brown et al.(2020)发布 GPT-3 以来,许多其他研究人员建立了大型语言模型来研究
数据数量、数据质量、网络架构、参数缩放、数据缩放、token 化和开源策略(Raffel et al.,
2020;Zhang et al., 2022a;Black 等,2022;Rae 等,2021 年;Hoffmann 等,2022 年;乔杜里等,
2022;利伯等,2021 年;曾等,2022;塔福德和克拉克,2021 年;史密斯等人,2022 年;Scao
等,2022;泰勒等,2022;林等,
33
2022;索尔坦等人,2022;托皮兰等人,2022;包等,2022;Sanh 等,2022;罗尔等,2021
年;Glaese 等,2022 年;王等,2021 年;Peng et al., 2022,等等)。
特定领域的大型语言模型。特定领域的训练对掩码(仅编码器)语言模型的价值是建立良
好的。通常被接受的方法是在特定领域的数据上从头训练 BERT 模型(Devlin et al., 2019)
或在新的特定领域数据上继续预训练现有模型(Gururangan et al., 2020)。遵循这些策略,
BioBERT (Lee et al., 2020)将 BERT 适应于生物医学领域,而 SciBERT 则在科学出版物
上进行训练(Beltagy et al., 2019)。这些论文的结果表明,域内训练允许模型在各种生物
医学文本挖掘任务中超越之前的最先进模型。这种范式的进一步例子是临床领域的
ClinicalBERT (Huang 等人,2019),科学生物医学论文的 BioMed- RoBERTa (Gururangan
等人,2020),以及 Twitter 数据的 BERTweet 和 Bernice (Nguyen 等人,2020;DeLucia et
al., 2022)。
由于训练超过 10B 参数的纯自回归解码器语言模型比训练 1B 参数的掩码语言模型的
成本要高得多,因此特定领域的自回归模型的例子要少得多。然而,现有的方法遵循相
同的两种策略。medPaLM (Singhal et al., 2022)调整现有模型,将 PaLM 调整到生物医
学领域,将 Minerva (Lewkowycz et al., 2022)调整到数学推理任务。
最近,出现了几个针对特定领域数据的从头开始训练的纯解码器模型的例子。一个流
行的领域是蛋白质序列,因为它们可以用类似语言的序列表示,但不被自然语言模型覆
盖(例如,Lin 等人,2022;Xiao 等人,2021;Nijkamp 等,2022)。然而,即使对自然语言
领域的模型也可以有好处。Galactica 专门在大量科学数据集上进行训练,并包括处理科
学符号的特殊处理(Taylor et al., 2022)。虽然在科学任务上表现非常出色,但令人惊讶
的是,卡拉狄加在更标准的 NLP 任务上也表现出色。BioGPT (Luo et al., 2022)和
biomedical lm Bolton et al.(2023)都是在生物医学数据上训练的较小的 gpt 风格的模型。
Lehman et al.(2023)比较了专门在特定领域数据上训练的编码器/解码器模型与从通用训练
中改编的模型。研究大型生成式语言对话模型的研究人员也就使用特定领域训练数据的
好处得出了类似的结论(Zhang et al., 2020;Roller 等人,2021 年;Thoppilan 等,2022)。
这些发现突出了域内预训练的优势,特别是在有足够的数据可用的情况下,就像我们
的情况一样。受卡拉狄加的通用能力启发,我们用公开数据来增强我们的私有数据,目
的是研究一个模型是否可以在不牺牲通用域性能的情况下获得域内能力。
34
不需要或有害的文本(Touvron 等人,2023;Rae et al., 2020)。BLOOM Scao et al.(2022)
精心挑选的数据源,并包括各种过滤机制 Jernite et al.(2022)。
虽然 web 数据是获取大量多样化数据的有效策略,但稳健的清理工作仍然会导致数据
伪像,重复 Carlini 等人(2020),各种类型的有毒语言 Welbl 等人(2021),并可能导致少数
群体声音的无意边缘化(Xu 等人,2021)。Dodge et al.(2021)研究了 C4,以更好地理解元
数据,以及纳入和排除的数据。他们的发现表明,C4 包含机器生成的文本,由于排除过
滤器而存在偏差,并且可能包含从 NLP 任务的评估数据集中提取的示例。Zeng 等人
(2022)也进行了类似的努力,以记录他们为训练中文大型语言模型所进行的预处理。
Lee et al. (2022a)研究了重复数据删除对几个数据集模型性能的影响,发现重复数据
删除减少了记忆训练数据的发射,允许更好地估计泛化误差,并在不影响性能的情况下
提高了训练时间和成本。这些见解突出了构建高质量训练语料库的重要性和挑战。如
§2 所述,彭博的核心业务策划并提供数据集的访问,我们使用这些数据集构建高质量
的数据集 FinPile 来训练 BloombergGPT,从而产生了一流的财务表现。
评估。语言模型处理的任务大大增加,需要与传统特定任务系统非常不同的评估过程。
LLM 评估有两种范式:第一种是通过自动评估在许多不同的场景中评估模型(Liang et al.,
2022;Srivastava et al., 2022),第二种是通过将外部评估和特定任务评估集成到用户工作流
中来执行(例如,Lee et al., 2022b;Goyal 等人,2022)。
虽然第二种策略对于评估产品中模型的部署是必要的,但以第一种策略的规模运行这
些人工评估是不可实现的,因此在引入新模型时遵循第一种策略是标准的。在我们的案
例中,我们结合了来自多个具有不同目标的现有基准的多个通用评估。Srivastava 等人
(2022)旨在通过向整个研究界征集任务来实现最大的覆盖率,而 HELM (Liang 等人,
2022)建议在通过特定数据集表示的各种“场景”中进行评估。早期的语言模型论文开发
了自己的评估图式(Brown et al., 2020)。虽然这些基准允许在模型之间进行并排比较,
但要确保所有实验参数(提示、解码策略、少样本示例等)都是相同的,这是具有挑战性
的。出于这个原因,我们在评估中区分报告和验证的数字(§5)。
除了通用评估,我们还需要有针对性的领域评估。之前的特定领域模型如 Galactica
(Taylor et al., 2022)选择了一组模型可能在上面表现良好的任务。在他们的案例中,这
些是各种科学任务。然而,金融 NLP 领域并不存在标准基准。虽然最近关于烟道(Shah
et al., 2022)的工作旨在提供这样一个基准,但它对相关任务的覆盖范围有限,对少样
本学习没有建议的评估策略,并且一些注释的质量较低。为了提供外部可比较的结果,
我们开发了
35
对流感采取少样本战略,但也决定用公司内部基准来扩大公开可用的评估任务。
模型的尺寸。从计算成本和人工组装数据和训练模型的成本来看,大型语言模型训练
仍然是昂贵的。为了资源的最佳利用,确定最佳的训练数据量和模型形状和大小变得
很重要。
Kaplan et al.(2020)首先研究了语言模型性能对架构、参数大小、计算能力和数据集大
小的依赖关系。他们报告说,模型参数的数量、数据集大小和计算量根据幂律平稳地提
高了自回归语言建模目标的性能。Hernandez 等人(2021)对不同分布的数据传输进行了类
似的调查,发现这也遵循幂律。除了研究对损失的影响外,Rae 等人(2021)还通过训练广
泛的模型大小,分析了规模对偏差和毒性等不良属性的影响。
Levine et al.(2020)比较了模型架构,研究了使用自注意力的模型的尺度,并导出了
深度到宽度分配的指导方针。Tay 等人(2021)报告称,模型形状(深度-宽度比)会影响下
游任务的性能,即使它对预训练目标的影响很小。Tay et al. (2022a)进一步研究了不同
模型架构的扩展效果,并表明在扩展时架构选择是有针对性的,普通 transformer 架构
的扩展效果最好。
这项工作特别重要的是 Hoffmann 等人(2022)的研究,他们调查了在给定固定计算预算
的情况下,模型大小和训练 token 数量对模型性能的影响。他们假设现有的大型语言模型
是训练不足的,模型大小和训练 token 的数量应该被均匀缩放。他们通过 Chinchilla 证明
了这一假设,Chinchilla 是一个比大多数最大的 llm 小得多但性能更高的模型。这些发现
为实现强大性能的较小模型的“栗鼠最优”训练打开了大门,并且其推理可以比其较大的
对应模型运行得更有效。这些发现让我们考虑了一个使用标准架构的近似“龙猫最优”模
型。
标记。标记化和词汇选择在模型性能中发挥着关键作用,因为它们可以帮助模型学习有
意义的表示,并泛化到未见过的单词。字节对编码(BPE) (Sennrich et al., 2016)通过反
复合并训练集中最频繁的序列对来学习一个贪婪的自下而上的词汇表,直到达到预定的
词汇表大小。Radford et al.(2018)通过限制基本词汇表为所有可能的字节而不是所有
Unicode 字符来调整 BPE。Wordpiece tokenization (Schuster and Nakajima, 2012)也通过反
复合并最大化训练数据可能性的序列对来学习一个贪婪的自下而上的词汇表,这与
Sennrich 等人(2016)的方法略有偏差。
与 BPE 和 Wordpiece 相比,Unigram tokenizer (Kudo, 2018)通过首先初始化一个大词汇
表,并反复丢弃那些损失(例如,训练数据的对数似然)增加最少的词汇表项来学习自上而
下的词汇表。通过构建,Unigram 模型可以以几种不同的方式对输入文本进行 token 化。
也就是说,Unigram 模型节省了概率,允许在推理时进行更智能的分词。
36
最后,SentencePiece (Kudo 和 Richardson, 2018)调整了上述方案来处理没有空格分隔
的语言。Beltagy 等人(2019)构建了一个科学文本专用的词汇表,并观察到他们的领域专
用训练词汇表与在通用领域文本上训练的非领域专用 BERT 词汇表只有 42%的重叠。类
似地,Lewis 等人(2020)表明,专用的生物医学词汇始终提高了序列标记任务的性能。
Lieber 等人(2021)构建了更大的词汇表以确保 token 效率,作者称这导致了训练时间的减
少和更好的语义表示。这些发现证明了选择最能反映该训练领域的 token 赋予器和配套词
汇表的重要性。出于这些原因,我们决定训练我们自己的 unigram 分词器,而不是依赖
现有的公共分词器。
8.伦理、限制和影响
大型语言模型的快速发展和采用伴随着关于这些模型的伦理、用途和局限性的严格对话。
为了更完整地处理这些主题,我们引导读者阅读 Bommasani 等人(2021);Bender 等人
(2021);Birhane et al. (2022);Weidinger et al.(2021, 2022)。我们讨论了与 BloombergGPT 的
发展直接相关的问题。
8.1 合乎道德的
使用
金融对技术来说是一个敏感领域,确保准确、真实的信息对我们的产品、我们的客户以
及公司在市场上的声誉至关重要。另一方面,我们的客户也渴望采用最先进的技术来支
持他们的工作流程。为了向金融界提供自然语言应用,我们制定了一套严格的风险和测
试评估流程。这一过程包括细心的注释指南 Tseng et al.(2020),由中央风险和合规组织,
以及产品负责人(如新闻编辑室)在适用时进行的多级发布前审查,以及发布后监控。此
外,我们根据所有适用的法规进行 NLP 和 AI 系统的研究、开发和部署。
同样,毒性和偏见是作为一家公司,我们对我们生产的任何内容(无论是来自人类还是
机器)都非常小心的领域。由于在我们的模型中对毒性和偏见的测量取决于其应用领域,因
此量化有害语言产生的潜力仍然是一个开放的问题。我们特别感兴趣的是研究 FinPile,它
更干净,包含的明显偏置的例子更少
37
或有毒的语言(例如,新闻发布),降低了模型生成不适当内容的倾向。当我们开始开发基
于这种技术的产品时,我们将应用现有的测试程序,以及风险和合规控制,以确保安全
使用。
8.2 开放
社区中正在讨论如何释放 llm,如果要释放的话。虽然没有公开可用的模型不能被社区完
全评估,但分发模型可能会导致邪恶的目的。特别是对于像 BloombergGPT 这样的模型,
它是在大量的新闻稿、新闻文章和文件上进行训练的,发布具有通过模仿而被滥用的高风
险。
我们已经见证了许多不同的策略来减轻与 LLMs 发布相关的风险。一种策略是自由和
公开地共享经过训练的模型 Scao et al.(2022),并依赖于规定模型应该如何使用和不应该
如何使用的许可证。另一种策略是要求个人申请访问经过训练的模型参数 Zhang et al.
(2022a);Touvron et al.(2023)。一种更具限制性的方法是提供对模型的 API 访问,但不能访
问底层的模型参数或训练模型的数据的详细信息(Brown et al., 2020)。最后,一些人没有
提供对 Chowdhery et al.(2022)模型的访问;Hoffmann 等人(2022)。每个决策都反映了一系列
因素的组合,包括模型使用、潜在危害和商业决策。
Bloomberg 的核心商业主张之一就是提供对过去几十年收集的数据的访问。众所周知,
llm 容易受到数据泄露攻击,在给定模型权重 Carlini et al.(2020, 2022)的情况下,有可能提
取出重要的文本片段。此外,即使给予研究人员选择性的访问权限,也不能保证模型不会
被泄露。没有强有力的隐私保证,我们必须担心提供模型权重的访问需要给予 FinPile 的
访问权限。出于这个原因,我们谨慎行事,并遵循其他 LLM 开发者的做法,不发布我们
的模型。
尽管如此,我们在训练和评估 BloombergGPT 中的见解和经验有助于发展对这些模
型的理解。特别是,我们的经验可能对那些构建自己的特定领域模型的人有用。在开
发 BloombergGPT 的过程中,我们发现 OPT 编年、BLOOM 团队的经验,以及 GPT-3、
PaLM、Chinchilla、Galactica 和 Gopher 等非开放模型的工作,对我们的工作是至关重
要的促成因素。
9.结论
38
通过对 FinPile 中的数据进行训练,我们选择的数据可能表现出更少的毒性和偏见的语言。
这对最终模型的影响目前还不清楚,我们计划进行测试。第三,我们试图了解我们的标
记化策略如何改变结果模型。这些是我们希望与 BloombergGPT 一起追求的一些新的研
究方向。
我们在一般 LLM 基准上取得了强大的结果,并在金融任务上超过了可比的模型。我
们将其按照影响的递减顺序归结为 1。一个精心策划的内部数据集,2。我们在 tokenizer
中的独特选择,以及 3。最新的架构。我们将继续与 BloombergGPT 开发金融应用程序,
以进一步探索这些建模选择的好处。
致谢
参考文献
人偶 Araci。Finbert:基于预训练语言模型的金融情绪分析。arXiV 预印本
arXiV:1908.10063, 2019。
鲍思琪,何煌,王帆,吴华,王海峰,吴文泉,吴志华,郭振,卢华,黄新贤,田欣,
徐新超,林英战,牛正宇。PLATO-XL:探索对话生成的大规模预训练。《计算语言学
协会的发现:AACL-IJCNLP 2022》 ,第 107-118 页,仅在线,2022 年 11 月。计算语言
学 协 会 (Association for Computational Linguistics) 。 URL https:
//aclanthology.org/2022.findings-aacl.10。
Luisa Bentivogli, Bernardo Magnini, Ido Dagan, Hoa Trang Dang, Danilo Giampiccolo。第
五位帕斯卡认识文本蕴涵挑战。2009 年 11 月 16- 17 日,在美国马里兰州盖瑟斯堡
举 行 的 TAC 2009 第 二 届 文 本 分 析 会 议 论 文 集 上 。 NIST, 2009 年 。 URL
https://tac.nist.gov/publications/2009/additional。论文/ RTE5_overview.proceedings.pdf。
39
阿贝巴·比尔汉、普拉秋莎·卡鲁里、达拉斯·卡德、威廉·阿格纽、拉维特·多坦、
包蜜雪儿。机器学习研究中编码的价值观。2022 年 ACM 关于公平、问责和透明度的
会议,第 173-184 页,2022。
Yonatan Bisk, Rowan Zellers, Ronan Le Bras, Jianfeng Gao, Yejin Choi。《PIQA:用自然
语言推理物理常识》 。在第 34 届 AAAI 人工智能大会 AAAI 2020、第 32 届人工智
能创新应用大会 IAAI 2020、第十届 AAAI 人工智能教育进展研讨会 EAAI 2020,
美国纽约州纽约,2020 年 2 月 7 日-12 日,7432-7439 页。AAAI 出版社,2020 年。
URL https: //ojs.aaai.org/index.php/AAAI/article/view/6239。
艾略特·博尔顿、大卫·霍尔、康永道宏、托尼·李、克里斯·曼宁、珀西·梁。
BioMedLM。https://github.com/stanford-crfm/BioMedLM, 2023。
里希·博马萨尼、德鲁·a·哈德森、艾山·阿德利、拉斯·奥特曼、西姆兰·阿罗拉、
西德尼·冯·阿克斯、迈克尔·s·伯恩斯坦、珍妮特·博赫、安东尼·博塞卢特、
艾玛·布伦斯基尔、埃里克·布林约尔松、s·布赫、达拉斯·卡德、罗德里戈·卡
斯特隆、尼拉德里·s·查特吉、安妮·s·陈、凯瑟琳·a·克里尔、贾里德·戴维
斯、多拉·德姆斯基、克里斯·多纳休、穆萨·杜姆-布亚、埃辛·杜姆斯基、斯特
凡诺·埃切门迪、卡温·伊塔亚拉杰、李飞飞、切尔西·芬、特雷弗·盖尔、劳
伦·e·吉莱斯皮、卡兰·戈尔、诺亚·d·古德曼、谢尔比·格罗斯曼、尼尔·古哈、
桥本达则、彼得·亨德森、约翰·休伊特、丹尼尔·e·何、珍妮·洪、徐凯尔、黄
静、托马斯·f·伊卡德、萨希尔·贾恩、丹·尤拉夫-斯基、普拉楚萨·卡鲁里、希
德达斯·卡拉姆切蒂、杰夫·基林、费雷什特·卡尼、O.哈塔普、庞伟·高、马
克·s·克拉斯、兰杰·克里希纳、罗希斯·库迪蒂普迪、安娜雅·库马尔、费萨
尔·拉达克、米纳·李、托尼·李、朱尔·莱斯科韦克、伊莎贝尔·莱文特、李翔丽
莎、李学辰、马腾宇、阿里·马利克、克里斯托弗·d·曼宁、苏维尔·米尔查达尼、
Eric Mitchell、Zanele Munyikwa、Suraj Nair、Avanika Narayan、Deepak Narayanan、
Benjamin Newman、Allen Nie、Juan Carlos Niebles、Hamed Nilforoshan、J. F. Nyarko、
Giray Ogut、Laurel J. Orr、Isabel Papadimitriou、Joon Sung Park、Chris Piech、Eva
Porte- lance 、 Christopher Potts 、 Aditi Raghunathan 、 Robert Reich 、 Hongyu Ren 、
Frieda Rong、Yusuf H. Roohani、Camilo Ruiz、Jack Ryan、Christopher R’e、Dorsa
Sadigh、Shiori Sagawa、Keshav Santhanam、Andy Shih、Krishna Parasuram Srinivasan、
Alex Tamkin、
40
陶利罗翰、阿明·托马斯、佛罗瑞安·特拉姆、王玫瑰、王威廉、吴伯翰、吴嘉俊、
吴玉怀、谢志刚、安永道宏、尤嘉轩、马泰·扎哈里、张天一、张锡坤、张雨慧、
郑露琪、周凯琳、梁佩西。论基础模型的机遇与风险。ArXiV, abs/2108.07258, 2021。
Peter F Brown, Vincent J Della Pietra, Peter V Desouza, Jennifer C Lai, Robert L Mercer。基
于类的自然语言 n-gram 模型。计算语言学,18(4):467-480,1992。
41
卡明斯、Matthias Plappert、Fotios Chantzis、Elizabeth Barnes、Ariel Herbert-Voss、
William H. Guss、Alex Nichol、Igor Babuschkin、S. Arun Balaji、Shantanu Jain、
Andrew Carr 、 Jan Leike 、 Joshua Achiam 、 Vedant Misra 、 Evan Morikawa 、 Alec
Radford、Matthew M. Knight 、Miles Brundage 、Mira Murati 、Katie Mayer、Peter
Welinder、Bob McGrew、Dario Amodei、Sam McCandlish、Ilya Sutskever、Wojciech
Zaremba。评估在代码上训练的大型语言模型。arXiV, abs/2107.03374, 2021a。
陈天奇、徐冰、张池源、Carlos Guestrin。用次线性内存成本训练深度网络。arXiV 预
印本 arXiV:1604.06174, 2016。
Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam
Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker
Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi
Tay, Noam M. Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Benton C.
Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy gurari,
Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev ,Henryk
Michalewski 、 Xavier Garc´ıa 、 Vedant Misra 、 Kevin Robinson 、 Liam Fedus 、 Denny
Zhou、Daphne Ippolito、David lupassi、David Dohan、Shivani Agrawal、Mark mernick、
Andrew M. Dai、Thanu- malayan Sankaranarayana Pillai、Marie Pellat、Aitor Lewkowycz、
Erica Moreira、Rewon Child、Oleksandr Polozov、Katherine Lee、周宗伟、王学智、
Brennan Saeta 、Mark D´ıaz、Orhan Firat 、Michele Catasta 、Jason Wei 、 Kathleen S.
Meier-Hellstern、道格拉斯·埃克、杰夫·迪恩、斯拉夫·彼得罗夫、诺亚·菲德尔。
Palm:用 pathways 扩展语言建模。arXiV, abs/2204.02311, 2022。
克里斯托弗·克拉克、肯顿·李、张明伟、汤姆·科亚特科夫斯基、迈克尔·柯林斯、
克里斯汀娜·图塔诺瓦。布尔克:探索自然是/否问题的惊人难度。《计算语言学协会
2019 年北美分会会议论文集:人类语言技术》 ,第 1 卷(长论文和短论文),第 2924-
2936 页,明尼苏达州,2019 年 6 月。计算语言学协会(Association for Computational
Linguistics)。doi: 10.18653 / v1 / n19 - 1300。URL https: //aclanthology.org/N19-1300。
42
Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa
Schoenick,和 Oyvind Tafjord。认为你已经解决了问答问题?试试 arc, ai2 推理挑战
赛。arXiV, abs/1803.05457, 2018。
伊多·达甘、奥伦·格利克曼、贝尔纳多·马格尼尼。帕斯卡识别文本蕴涵的挑战。在
2007 年机器学习挑战研讨会上。
Alexandra DeLucia, Shijie Wu, Aaron Mueller, Carlos Aguirre, Philip Resnik, Mark Dredze。
Bernice:面向 Twitter 的多语言预训练编码器。在 2022 年自然语言处理经验方法会议
论文集中,第 6191 - 6205 页,阿拉伯联合酋长国阿布扎比,2022 年 12 月。计算语言
学协会。URL https://aclanthology.org/2022.emnlp-main.415。
Tim Dettmers, Mike Lewis, Sam Shleifer, and Luke Zettlemoyer. 8 位优化器通过块级量化。
国际学习表征会议,2022 年。
Jesse Dodge, Maarten Sap, Ana Marasovi´c, William Agnew, Gabriel Ilharco, Dirk Groen-
eveld, Margaret Mitchell,和 Matt Gardner。记录大型网络文本语料库:对庞大干净爬
取的语料库的案例研究。《2021 年自然语言处理经验方法会议论文集》,页 1286-
1305,多米尼加共和国在线和蓬塔卡纳,2021 年 11 月。计算语言学协会。doi:
10.18653 / v1/2021.emnlp-main.98。URL https://aclanthology.org/
2021. emnlp-main.98。
马克·德雷泽、普拉班扬·坎巴杜尔、加里·卡赞采夫、吉迪恩·曼和迈尔斯·奥斯本。
推特如何改变财经新闻发现的本质。《第二届宏观建模数据科学国际研讨会论文集》,
第 1-5 页,2016 年。
Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe, Charles Foster,
Jason Phang, Horace He, Anish Thite, Noa Nabeshima, Shawn Presser, Connor Leahy。
The pile: 用 于 语 言 建 模 的 800gb 多 样 化 文 本 数 据 集 , 2021 年 。 URL
https://arxiv.org/abs/2101.00027。
43
Sebastian Gehrmann, Elizabeth Clark,和 Thibault Sellam。修复破裂的基础:生成文本
评估实践中的障碍调查,2022。URL https://arxiv.org/abs/2202.06935。
Amelia Glaese 、 Nat McAleese 、 Maja Trebacz 、 John Aslanides 、 Vlad Firoiu 、 Timo
Ewalds、Maribeth Rauh、Laura Weidinger、Martin Chadwick、Phoebe Thacker、Lucy
Campbell- Gillingham、Jonathan Uesato、黄波森、Ramona Comanescu、范杨、Abigail
See、Sumanth daththri、Rory Greig、Charlie Chen、Doug Fritz、Jaume Sanchez Elias、
Richard Green 、 Soˇna Mokr´a 、 Nicholas Fernando 、 Boxi Wu 、 Rachel Foley 、
Susannah Young、Iason Gabriel、William Isaac、John Mellor、Demis Hassabis、Koray
Kavukcuoglu、丽莎·安妮·亨德里克斯,和杰弗里·欧文。通过有针对性的人类判
断改进对话代理的对齐,2022。URL https://arxiv.org/abs/2209.14375。
Suchin Gururangan, Ana Marasovi´c, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug
Downey, and Noah A. Smith。不要停止预训练:使语言模型适应领域和任务。在计算
语言学协会第 58 届年会论文集中,8342-8360 页,在线,2020 年 7 月。计算语言学
协会。doi: 10.18653 / v1/2020.acl-main.740 。URL https://aclanthology.org/ 2020.acl-
main.740。
丹·亨德瑞克斯和凯文·金普尔。高斯误差线性单位(gelus)。arXiV 预印本
arXiV:1606.08415, 2016。
丹·亨德瑞克斯、科林·伯恩斯、史蒂文·巴沙特、安迪·邹、曼塔斯·马泽伊卡、唐
恩·宋、雅各布·斯坦哈特。测量大规模多任务语言理解。国际学习表征会议,2021
年。URL https://openreview.net/forum?id = d7KBjmI3GmQ。
丹尼·埃尔南德斯,贾里德·卡普兰,汤姆·海尼根,山姆·麦克坎利什。转移的缩
放定律。arXiV 预印本 arXiV:2102.01293, 2021。
44
Jordan Hoffmann、Sebastian Borgeaud、Arthur Mensch、Elena Buchatskaya、Trevor Cai、
Eliza Rutherford、Diego de las Casas、Lisa Anne Hendricks、Johannes Welbl、Aidan
Clark、Tom Hennigan、Eric Noland、Katherine Millican、George van den Driessche、
Bogdan Damoc、Aurelia Guy、Simon Osindero、Karen Simonyan、Erich Elsen、Oriol
Vinyals、Jack William Rae、Laurent Sifre。计算最优的大型语言模型训练实证分析。
在 Alice H. Oh、Alekh Agarwal、Danielle Belgrave 和 Kyunghyun Cho 编辑的《神经
信 息 处 理 系 统 的 进 展 》 中 , 2022 年 。 URL
https://openreview.net/forum?id=iBBcRUlOAPR。
杰瑞米·霍华德和塞巴斯蒂安·鲁德。用于文本分类的通用语言模型微调。 《计算语
言学协会第 56 届年会论文集》(第 1 卷:长论文),328-339 页,澳大利亚墨尔本,
2018 年 7 月 。 计 算 语 言 学 协 会 。 doi: 10.18653 / v1 / p18 - 1031 。 URL
https://aclanthology.org/p18 - 1031。
弗雷德里克内克。用统计方法进行连续语音识别。IEEE 学报,64(4):532-556,1976。
Yacine Jernite 、 Huu Nguyen 、 Stella Biderman 、 Anna Rogers 、 Maraim Masoud 、
Valentin Danchev 、 Samson Tan 、 Alexandra Sasha Luccioni 、 Nishant Subramani 、
Isaac Johnson 、 Gerard Dupont 、 Jesse Dodge 、 Kyle Lo 、 Zeerak Talat 、 Dragomir
Radev、Aaron Gokaslan、Somaieh Nikpoor、Peter Henderson、Rishi Bommasani 和
Margaret Mitchell。大规模数据驱动语言技术时代的数据治理。2022 年 ACM 关于公
平、问责和透明度的会议。ACM, 2022 年 6 月。doi: 10。1145/3531146.3534637。
URL https://doi.org/10.1145%2F3531146.3534637。
Can Karakus, Rahul Huilgol, Wu Fei, Anirudh Subramanian, Cade Daniel, Derya Cavdar, Teng
Xu, Haohan Chen, Arash Rahnama 和 Luis Quintela。Amazon sagemaker 模型并行:用于大
型模型训练的通用而灵活的框架。arXiV 预印本 arXiV:2111.05972, 2021。
45
Vijay Korthikanti、Jared Casper、Sangkug Lym、Lawrence McAfee、Michael Andersch、
Mohammad Shoeybi、Bryan Catanzaro。减少大型 transformer 模型中的激活重计算,
2022 年。URL https://arxiv.org/abs/2205.05198。
佐藤奖赏。子词正则化:用多个子词候选改进神经网络翻译模型。 《计算语言学协会第
56 届年会论文集》(第 1 卷:长论文),66-75 页,澳大利亚墨尔本,2018 年 7 月。计
算语言学协会。doi: 10.18653/ v1/P18-1007。URL https://aclanthology.org/p18 - 1007。
工藤卓和约翰·理查德森。SentencePiece:用于神经文本处理的简单且独立于语言的子
词分词器和去分词器。2018 年自然语言处理经验方法会议论文集:系统演示,第 66-
71 页,比利时布鲁塞尔,2018 年 11 月。计算语言学协会。doi: 10.18653 / v1 / d18 -
2012。URL https://aclanthology.org/d18 - 2012。
赖国坤、谢启哲、刘汉晓、杨一鸣、Eduard Hovy。RACE:来自考试的大规模阅读理
解数据集。2017 年自然语言处理经验方法会议论文集,第 785-794 页,丹麦哥本哈
根 , 2017 年 9 月 。 计 算 语 言 学 协 会 。 doi: 10.18653 / v1 / d17 - 1082 。 URL
https://aclanthology.org/d17 - 1082。
李镇赫、尹元珍、金成东、金东贤、金善奎、苏陈浩、姜在宇。Biobert:用于生物医学
文本挖掘的预训练生物医学语言表示模型。生物信息学,36:1234 - 1240,2 2020。
ISSN 14602059。doi: 10.1093 /生物信息学/ btz682。
米娜·李、梅加·斯里瓦斯塔瓦、阿米莉亚·哈代、约翰·辛克斯坦、埃辛·德
姆斯、阿什温·帕拉纳杰、伊内斯·杰拉德-乌尔辛、向丽莎·李、费萨尔·拉
达克、弗里达·容、罗斯·e·王、权美奈、朴俊成、曹汉成、托尼·李、瑞
希·博马萨尼、迈克尔·s·伯恩斯坦、珀西·梁。评价人-语言模型交互。
CoRR, abs/2212.09746, 2022b 。 doi: 10.48550 / arXiv.2212.09746 。 URL https:
//doi.org/10.48550/arXiv.2212.09746。
46
Eric Lehman, Evan Hernandez, Diwakar Mahajan, Jonas Wulff, Micah J. Smith, Zachary
Ziegler, Daniel Nadler, Peter Szolovits, Alistair Johnson, Emily Alsentzer。我们还需要
临床语言模型吗?, 2023 年。URL https://arxiv.org/abs/2302.08091。
奥弗·利伯,或沙里尔,巴拉克·伦茨,约亚夫·肖汉姆。《侏罗纪-1:技术细节与评估》。
白皮书。AI21 实验室,1,2021。
林泽明、哈里尔·阿金、罗山·拉奥、布莱恩·Hie、朱仲凯、卢文丁、阿兰·多斯
桑托斯·科斯塔、马里亚姆·法泽尔-扎兰迪、汤姆·塞尔库、萨尔·坎迪多、亚历
山大·里弗斯。进化尺度上的蛋白质序列语言模型实现了精确的结构预测。bioRxiv,
2022 年 。 doi: 10.1101 / 2022.07.20.500902 。 URL https://www.biorxiv 。
org/content/early/2022/07/21/2022.07.20.500902。
47
刘天宇、江宇晨 Eleanor Jiang、Nicholas Monath、Ryan Cotterell、Mrinmaya Sachan。
基于语言模型的自回归结构化预测。《计算语言学协会的发现:EMNLP 2022》,第
993-1005 页,阿拉伯联合酋长国阿布扎比,2022 年 12 月。计算语言学协会。URL
https://aclanthology.org/2022.findings-emnlp.70。
罗仁谦、孙辽艾、夏英策、秦涛、张盛、潘海峰、刘铁岩。BioGPT:用于生物医学文
本生成和挖掘的生成式预训练 transformer。生物信息学简报,23(6),2022 年 9 月。
doi: 10.1093 /龙头/ bbac409。URL https://doi.org/10.1093%2Fbib%2Fbbac409。
Pekka Malo, Ankur Sinha, Pekka J. Korhonen, Jyrki Wallenius, Pyry Takala。Good debt
or bad debt:探测经济文本中的语义倾向。j . Assoc。正,科学。抛光工艺。 , 65(4):
782-796, 2014。doi: 10.1002 / asi.23062。URL https://doi.org/10。1002 / asi.23062。
48
Nasrin Mostafazadeh, Nathanael Chambers, He Xiaodong, Devi Parikh, Dhruv Batra, Lucy
Vanderwende, Pushmeet Kohli, and James Allen。语料库和完形填空评价,以加深对常
识故事的理解。《计算语言学协会北美分会 2016 年会议论文集:人类语言技术》,第
839-849 页 , 加 州 圣 地 亚 哥 , 2016 年 6 月 。 计 算 语 言 学 协 会 (Association for
Computational Linguistics) 。 doi: 10.18653 / v1 / 但 - 1098 不 行 了 。 URL
https://aclanthology。org/n16 - 1098。
NVIDIA。混合精度训练,2023。URL https://docs.nvidia.com/
deeplearning/performance/mixed precision-training/index.html。
彭宝林、Michel Galley、何鹏程、克里斯·布洛克特、拉斯·林登、埃尔纳兹·努里、
周瑜、比尔·多兰、高剑锋。哥德尔:目标导向对话的大规模预训练。arXiV 预印本
arXiV:2206.11309, 2022。
49
Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever。通过生成性预训练提
高语言理解能力,2018 年。URL https://gluebenchmark.com/排行榜。
Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever。语言
模型是无监督多任务学习者,2019 年。URL https://github.com/ codelucas/newspaper。
Jack W. Rae 、 Sebastian Borgeaud 、 Trevor Cai 、 Katie Millican 、 Jordan Hoffmann 、
Francis Song、John Aslanides、Sarah Henderson、Roman Ring、Susannah Young、
Eliza Rutherford、Tom Hennigan、Jacob Menick、Albin Cassirer、Richard Powell、
George van den Driessche、Lisa Anne Hendricks、Maribeth Rauh、Po-Sen Huang、
Amelia Glaese、Johannes Welbl、Sumanth daththri、Saffron Huang、Jonathan Uesato、
John Mellor、Irina Higgins、Antonia Creswell、Nat McAleese、Amy Wu、Erich Elsen、
Siddhant Jayakumar 、 Elena Buchatskaya 、 David Budden 、 Esme Sutherland 、 Karen
Simonyan 、 Michela Paganini 、 Laurent Sifre 、 Lena Martens 、 Xiang Lorraine Li 、
Adhiguna Kuncoro 、 Aida Ne- matzadeh 、 Elena Gribovskaya 、 Domenic Donato 、
Angeliki Lazaridou 、 Arthur Mensch 、 Jean-Baptiste Lespiau 、 Maria Tsimpoukelli 、
Nikolai Grigorev、Doug Fritz、Thibault Sot- tiaux、Mantas Pajarskas、Toby Pohlen、
龚志涛、Daniel Toyama、Cyprien de Masson d 'Autume、Yujia Li、Tayfun Terzi、
Vladimir Mikulik、Igor Babuschkin、Aidan Clark、迭戈·德·拉斯·卡萨斯、奥雷里
亚·盖伊、克里斯·琼斯、詹姆斯·布拉德伯里、马修·约翰逊、布莱克·赫克特
曼、劳拉·魏丁格、亚森·加布里尔、威廉·艾萨克、埃德·洛克哈特、西蒙·奥
辛-德罗、劳拉·里梅尔、克里斯·戴尔、奥里奥尔·维尼亚尔斯、卡里姆·阿尤布、
杰夫·斯坦威、洛莱恩·班尼特、德米斯·哈萨比斯、科拉伊·卡武库奥卢、杰弗
里·欧文。扩展语言模型:训练 gopher 的方法、分析与启示。arXiV, 12 2021。URL
http://arxiv.org/abs/2112.11446。
50
坂口圭佑、罗南·勒·布拉斯、钱德拉·巴伽瓦图拉、崔叶津。WINO- GRANDE:大
规模的对抗性 winograd 图式挑战。Commun。Acm, 64: 99-106, 2019。
胡里奥·塞萨尔·萨利纳斯·阿尔瓦拉多、卡琳·弗斯波尔和蒂莫西·鲍德温。命名
实体识别的域适应,以支持信用风险评估。 《2015 年澳大利亚语言技术协会研讨会
论 文 集 》, 第 84-90 页 , 澳 大 利 亚 帕 拉 马 塔 , 2015 年 12 月 。 URL
https://aclanthology.org/u15 - 1010。
Victor Sanh 、 Albert Webson 、 Colin Raffel 、 Stephen Bach 、 Lintang Sutawika 、 Zaid
Alyafeai、Antoine Chaffin、Arnaud Stiegler、Arun Raja、Manan deer、M Saiful Bari、
Arun Raja、Urmish Thakker、Shanya Sharma Sharma、Eliza Szczechla、Taewoon Kim、
Gunjan Chh- ablani、Nihal Nayak、Debajyoti Datta、Jonathan Chang、Mike Tian-Jian
Jiang、Han Wang、Matteo Manica、Sheng Shen、Zheng Xin Yong、Harshit Pandey、
Rachel Baw- den、Thomas Wang、Trishala Neeraj、Jos Rozen、Abheesht Sharma、
Andrea Santilli、Thibault Fevry、Jason Alan Fries、Ryan Teehan、Teven Le Scao、
Stella Biderman、Leo Gao、Thomas Wolf、Alexander M Rush。多任务提示训练使零
次 任 务 泛 化 成 为 可 能 。 在 国 际 学 习 表 征 会 议 上 , 2022 。 URL
https://openreview.net/forum?id=9Vrb9D0WI4。
cois Yvon, Matthias Gall´e, Jonathan Tow, Alexander M. Rush, Stella Biderman, Albert Webson,
Pawan Sasanka Ammana- manchi, Thomas Wang, Benoˆıt Sagot, Niklas Muennighoff, Albert
Villanova del Moral, Olatunji Ruwase, Rachel Bawden, Stas Bekman, Angelina McMillan-
Major, Iz beltagji, Huu Nguyen, Lucile Saulnier, Samson Tan, Pedro Ortiz Suarez, Victor Sanh,
Hugo Lau- ren con, Yacine Jernite, Julien Launay, Margaret Mitchell, Colin Raffel, Aaron
Gokaslan, Adi Simhi, Aitor Soroa, Alham Fikri Aji, Amit Alfassy, Anna Rogers, Ariel
Kreisberg Nitzav, Canwen Xu, Chenghao Mou, Chris Emezue, Christopher Klamm, Colin
Leong, Daniel van Strien, David Ifeoluwa Adelani, Dragomir Radev, Eduardo gonzalez
Ponferrada, Efrat levkovvizh, Ethan Kim, Eyal Bar Natan, Francesco De Toni, G´erard
Dupont, Germ’an Kruszewski, Giada Pistilli, Hady Elsahar, Hamza Benyamina,Hieu Tran、
Ian Yu、Idris Abdulmumin、Isaac Johnson、Itziar gonzales - dios、Javier de la Rosa、Jenny
Chim 、 Jesse Dodge 、 Jian Zhu 、 Jonathan Chang 、 j¨org Frohberg 、 Joseph Tobing 、
Joydeep Bhattacharjee、Khalid Almubarak、Kimbo Chen、Kyle Lo、Leandro Von Werra、
Leon Weber 、 Long Phan 、 Loubna Ben allal 、 Ludovic Tanguy 、 Manan Dey 、 Manuel
Romero Mu˜noz、Maraim Masoud、Mar´ıa Grandury、Mario Saˇsko、ˇMax Huang、
Maximin Coavoux、Mayank Singh、Mike Tian-Jian Jiang、Minh Chien Vu、Mohammad A.
Jauhar、Mustafa Ghaleb、Nishant Subramani、Nora Kassner、Nurulaqilla Khamis、Olivier
Nguyen 、 Omar Espe- jel 、 Ona de Gibert 、 Paulo Villegas 、 Peter Henderson 、 Pierre
Colombo 、 Priscilla Amuok 、 Quentin Lhoest 、 Rheza Harliman 、 Rishi Bommasani 、
Roberto Luis L´opez、Rui Ribeiro、Salomey Osei、Sampo Pyysalo、Sebastian Nagel、
Shamik Bose、Shamsuddeen Hassan Muhammad、shananya Sharma、Shayne Longpre、
Somaieh Nikpoor、Stanislav Silberberg、Suhas Pai、Sydney Zink、Tiago Timponi Torrent、
Timo Schick、Tristan Thrush、Valentin Danchev、Vassilina Nikoulina、Veronika Laippala、
Violette leperq 、 vinda Prabhu 、 Zaid Alyafeai 、 Zeerak Talat 、 Arun Raja 、 Benjamin
Heinzerling、Chenglei Si、Davut Emre Ta 恰尔莎、
51
Elizabeth Salesky, Sabrina J. Mielke, Wilson Y. Lee, Abheesht Sharma, Andrea Santilli,
Antoine Chaffin, Arnaud Stiegler, Debajyoti Datta, Eliza Szczechla, Gunjan Chhablani, Han
Wang, Harshit Pandey, Hendrik Strobelt, Jason Alan Fries, Jos Rozen, Leo Gao, Lintang
Sutawika, M Saiful Bari, Maged S. Al-shaibani, Matteo Manica, Nihal Nayak, Ryan Teehan,
Samuel Albanie, Sheng Shen, Srulik Ben-David, Stephen H. Bach, Taewoon Kim, Tali Bers,
Thibault Fevry, Trishala Neeraj, Urmish Thakker,Vikas Raunak, Xiangru Tang, zhengxin
Yong, Zhiqing Sun, Shaked Brody, Yallow Uri, Hadar Tojarieh, Adam Roberts, Hyung Won
Chung, Jaesung Tae, Jason Phang, Ofir Press, Conglong Li, Deepak Narayanan, Hatim
Bourfoune, Jared Casper, Jeff Rasley, Max Ryabinin, Mayank Mishra, Minjia Zhang,
Mohammad Shoeybi, Myriam Peyrounette, Nicolas Patry, Nouamane Tazi, Omar Sanseviero,
Patrick von Platen, Pierre Cornette, Pierre Fran cois Lavall´ee, R´emi Lacroix, Samyam
Rajbhandari, Sanchit Gandhi,Shaden Smith, St´ephane Requena, Suraj Patil, Tim detmers,
Ahmed Baruwa, Amanpreet Singh, Anastasia Cheveleva, Anne- Laure Ligozat, Arjun
Subramonian, Aur´elie N´ev´eol, Charles Lovering, Dan Garrette, Deepak Tunuguntla, Ehud
Reiter,叶卡捷琳娜 Taktasheva,叶卡捷琳娜 Voloshina, Eli Bogdanov, Genta Indra Winata,
Hailey Schoelkopf, Jan-Christoph Kalo, Jekaterina Novikova, Jessica Zosa Forde, Jordan
Clive, Jungo Kasai, Ken Kawamura, Liam Hazan, Marine Carpuat, Miruna Clinciu, najung
Kim,Newton Cheng、Oleg Serikov、Omer Antverg、oscar van der Wal、Rui Zhang、
ruchen Zhang、Sebastian Gehrmann、Shachar Mirkin、Shani Pais、Tatiana Shavrina 、
Thomas Scialom 、 Tian Yun 、 Tomasz Limisiewicz 、 Verena Rieser 、 Vitaly Protasov 、
Vladislav Mikhailov、Yada Pruksachatkun、Yonatan Belinkov、Amir Feizpour、Ammar
Khan、Amy Faranak、Ana Aghagol、Arezoo Abdollahi、Aycha tamour、ˇek Kasner、
Alice Rueda、Amanda Pestana、Amir Feizpour、Ammar Khan、Arash Aghagol、Arezoo
Abdollahi、Aycha tamour、Azadeh HajiHosseini、Bahareh Behroozi、Benjamin Ajibade、
Bharat Saxena 、 Carlos Mu˜noz Ferrandis 、 Danish Contractor 、 David Lansky 、 Davis
David、Douwe Kiela、Duong A. Nguyen、Edward Tan、Emi Baylor、Ezin- wanne Ozoani、
Fatima Mirza、Frankline ononilwu、Habib Rezanejad、Hessie Jones、Indrani Bhattacharya、
Irene Solaiman 、Irina Sedenko 、Isar Nejadgholi 、Jesse Passmore 、Josh Seltzer 、Julio
Bonis Sanz、Livia Dutra、Mairon Samagaio、Maraim Elbadri、Margot Mieskes、Marissa
Gerchick、Martha Akinlolu、Michael McKenna、Mike Qiu、Muhammed Ghauri、Mykola
Burynok、Nafis Abrar、Nazneen Rajani、Nour Elkott、Nour Fahmy、Olanrewaju Samuel、
Ran An、Rasmus Kromann、Ryan Hao、Samira Alizadeh、Sarmad Shub- ber、Silas Wang、
Sourav Roy、Sylvain Viguier、Thanh Le、Tobi Oyebade、trieuu Le、Yoyo Yang、Zach
Nguyen、Abhinav Ramesh Kashyap、Alfredo Palasciano、Alison Callahan、Anima Shukla、
Antonio mirada - escalada、Ayush Singh、Benjamin Beilharz、Wang Bo、Caio Brito、
Chenxi Zhou、Chirag Jain、Chuxin Xu、Cl´ementine Fourrier、Daniel Le´on Peri ~ n´an、
Daniel Molano 、 Dian Yu 、 Enrique Manjavacas 、 Fabio Barth 、 Florian Fuhrimann 、
Gabriel Altay、Giyaseddin Bayrak、Gully Burns、Helena U. Vrabec、Imane Bello、Ishani
Dash、Jihyun Kang、John Giorgi、Jonas Golde、Jose David Posada、Karthik Rangasai
Sivaraman、Lokesh Bulchandani、Lu Liu、Luisa Shinzato、Madeleine Hahn de Bykhovetz、
Maiko Takeuchi、Marc P 'amies、Maria A Castillo、Marianna nezhuurina、Mario¨anger、
Matthias Samwald 、 Michael Cullan 、 Michael Weinberg 、 Michiel De Wolf 、 Mina
Mihaljcic 、 Minna Liu 、 Moritz Freidank 、 Myungsun Kang 、 Natasha Seelam 、 Nathan
Dahlberg、Nicholas Michio Broad、Nikolaus Muellner、Pascale Fung、Patrick Haller、
Ramya Chandrasekhar、Renata Eisenberg、Robert Martin、Rodrigo Canalli、Rosaline Su、
Ruisi Su、Samuel Cahyaw-
52
ijaya、Samuele Garda、Shlok S Deshmukh、Shubhanshu Mishra、Sid Kiblawi、Simon
Ott、Sinee 尚阿龙斯里、Srishti Kumar、Stefan Schweter、Sushil Bharati、Tanmay Laud、
Th´eo Gigant、Tomoya Kainuma、Wojciech Kusa、Yanis Labrak、Yash Shailesh Bajaj、
Yash Venkatraman、Yifan Xu、Yingxin Xu、Yu Xu、Tan、Zhongli Xie、zizan Ye、
Mathilde Bras、Younes Belkada 和 Thomas Wolf。Bloom:一个 176b 参数开放获取的多
语言语言模型。arXiV, 11 2022。URL http://arxiv.org/abs/2211.05100。
里科·森里奇,巴里·哈多,亚历山德拉·伯奇。含子词单元的罕见词神经机器翻
译。 《计算语言学协会第 54 届年会论文集》(第 1 卷:长论文),第 1715 - 1725 页,
德国柏林,2016 年 8 月。计算语言学协会。doi: 10.18653 / v1 / p16 - 1162。URL
https://aclanthology.org/p16 - 1162。
Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, Bryan
Catanzaro。Megatron-lm:使用模型并行性训练数十亿参数语言模型。 arXiV 预印本
arXiV:1909.08053, 2019。
萨利赫·索尔坦、尚卡尔·阿南塔克里希南、杰克·g·m·菲茨杰拉德、拉胡
尔·古普塔、瓦埃尔·哈姆扎、海达尔·汗、查里斯·s·佩里斯、斯蒂芬·罗
尔斯、安德鲁·罗森鲍姆、安娜
53
Rumshisky, Chandan Prakash, Mukund Sridhar, Fabian Triefenbach, Apurv Verma,
Gokhan Tur, Premkumar Natarajan。Alexatm 20b:使用大规模多语言 seq2seq 模型进行
少样本学习。arXiV, abs/2208.01448, 2022。
Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid,
Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adri 'a Garriga- Alonso,
Agnieszka Kluska, Aitor Lewkowycz, Akshat Agarwal, Alethea Power, Alex Ray, Alex
Warstadt, Alexander W. Kocurek, Ali Safaya, Ali Tazarv, Alice Xiang, Alicia Parrish, Allen
Nie, Aman Hussain, Amanda Askell, Amanda Dsouza, Ameet An- nasaheb Rahane,
Anantharaman S. Iyer, Andrea Santilli, Andreas Stuhlmuller,Andrew M. Dai、Andrew D.
La、Andrew Kyle Lampinen、Andy Zou、Angela Jiang、Angelica Chen、Anh Vuong、
Animesh Gupta 、 Anna Gottardi 、 Antonio Norelli 、 Anu Venkatesh 、 Arash
Gholamidavoodi 、 Arfa Tabassum 、 Arul Menezes 、 Arun Kirubara- jan 、 Asher
Mullokandov 、 Ashish Sabharwal 、 Austin Herrick 、 Avia Efrat 、 Aykut Erdem 、 Ayla
Karakacs、Bridget R. Roberts、Bao Sheng loh、Barret Zoph、Bartlomiej Bo- janowski、
Batuhan Ozyurt 、Behnam Hedayatnia、Behnam Neyshabur、Benjamin Inden 、Benno
Stein 、 Berk Ekmekci 、 Bill Yuchen Lin 、 Blake Stephen Howald 、 Cameron Diao 、
Cameron Dour、Catherine Stinson、ceddrick Argueta、C 'esar Ferri Ram 'irez、Chandan
Singh、Charles Rathkopf、Chenlin 孟、Chitta Baral、Chiyu Wu、Chris callson - burch、
Chris Waites 、 Christian Voigt 、 Christopher D. Manning 、 Christopher Potts 、 Cindy
Tatiana Ramirez、Clara Rivera、Clemencia Siro、Colin Raffel、Courtney Ashcraft、
Cristina Garbacea、Damien Sileo、Daniel H Garrette、Dan Hendrycks、Dan Kilman、
Dan Roth、Daniel Freeman、Daniel Khashabi、Daniel Levy、Daniel gonzalez’alez、
Danny Hernandez 、 Danqi Chen 、 Daphne Ippolito 、 Dar Gilboa 、 David Dohan 、 D.
Drakard、David Jurgens、Debajyoti Datta、Deep Ganguli、Denis Emelin、Denis Kleyko、
Deniz Yuret 、 Derek Chen 、 Derek Tam 、 Dieuwke Hupkes 、 Diganta Misra 、 Dilyar
Buzan 、 Dimitri Coelho Mollo 、 Diyi Yang 、 Lee dongho 、 Ekaterina Shutova 、 Ekin
Dogus Cubuk 、 Elad Segal 、 Eleanor Hagerman 、 Elizabeth Barnes 、 Elizabeth P.
Donoway、Ellie Pavlick、Emanuele Rodol’a、Emma FC Lam、Eric Chu、Eric Tang,
Erkut Erdem, Ernie Chang, Ethan A. Chi, Ethan Dyer, Ethan J. Jerzak, Ethan Kim, Eunice
Engefu Manyasi, Evgenii Zheltonozhskii, Fan Xia, Fatemeh Siar, Fernando Mart 'inez-
Plumed, Francesca Happ 'e,恰兰 cois Chollet, Frieda Rong, Gaurav Mishra, Genta Indra
Winata, Gerard de Melo, Germ´an Kruszewski, Giambattista Parascandolo, Giorgio
Mariani, Gloria Wang, Gonzalo Jaimovitch-L’opez, Gregor Betz, Guy gure - ari, Hana
Galijasevic, Han Sol Kim, Hannah Rashkin, Hanna Ha- jishirzi, Harsh Mehta,Hayden
Bogar、Henry Shevlin、Hinrich Sch¨utze、Hiromu Yakura、张洪明、Hubert Wong、
Ian Aik-Soon Ng、Isaac Noble、Jaap Jumelet、Jack Geissinger、John Kernion、Jacob
Hilton、jaaehoon Lee、Jaime Fern’andez Fisac、J. Brooker Simon、James Koppel、
James Zheng 、 James Zou 、 Jan Koco’n 、 Jana Thompson 、 Jared Kaplan 、 Jarema
Radom 、 Jascha Narain Sohl-Dickstein 、 Jason Phang 、 Jason Wei 、 Jason Yosinski 、
Jekaterina Novikova、Jelle Bosscher、Jenni Marsh、Jeremy Kim、Jeroen Taal、Jesse
Engel、Jesujoba Oluwadara Alabi、许家诚、宋家明、Jillian Tang、Jane W Waweru、
John Burden、John Miller、John U. Balis、Jonathan Berant、Jorg Fro- hberg、Jos Rozen、
Jos´e Hern´andez-Orallo、Joseph Boudeman、Joseph Jones、Joshua B. Tenenbaum、
Joshua S. Rule、Joyce Chua、Kamil Kanclerz、Karen Livescu、Karl Krauth、Karthik
Gopalakrishnan、Katerina Ignatyeva、Katja Markert、Kaustubh D. Dhole、Kevin
54
金布尔、凯文·奥切恩·奥蒙迪、科里·Wallace Mathewson、克里斯汀·恰富洛、克
塞尼亚·什卡鲁塔、库马尔·施里达尔、凯尔·麦克唐纳、凯尔·理查森、拉里
亚·雷诺、Leo Gao、张莉、利亚姆·杜根、秦连华、利迪亚·孔德雷拉·奥尚多、路
易斯-菲利普·莫伦西、卢卡·莫斯切拉、卢卡·林、露西·诺布尔、路德维希·施密
特、何鲁恒、路易斯·奥利弗罗斯·科龙、卢克·梅茨、卢特菲·克里姆·切内尔、
马尔滕·博斯马、马尔滕·萨普、马尔特杰·特尔霍夫、马托·安德里亚、马欣·萨
利姆·法鲁奇、马纳尔·法鲁基、曼塔斯·马泽伊卡、马可·巴图兰、Marco Marelli、
Marco Maru、M Quintana、Marie Tolkiehn、Mario Giu- lianelli、Martha Lewis、Martin
Potthast、Matthew Leavitt、Matthias Hagen、M ' atyas Schubert、Medina Baitemirova、
Melissa Arnaud、Melvin Andrew McElrath、Michael A. Yee、Michael Cohen、Mi Gu、
Michael I. Ivanitskiy、Michael Starritt、Michael Strube、Michal Swkedrowski、Michele
Bevilacqua、Michihiro Yasunaga、Mihir Kale、Mike Cain、Mimee Xu、Mirac Suzgun、
Monica Tiwari 、 Mohit Bansal 、 Moin Aminnaseri 、 Mor Geva 、 Mozhdeh Gheini 、 T
MukundVarma、Nanyun Peng、Nathan Chi、Nayeon Lee、Neta Gur- Ari Krakover、
Nicholas Cameron、Nicholas S. Roberts、Nicholas doenighoff、Nitish Shirish Keskar、
Niveditha Iyer、Noah Constant、Noah Fiedel、Nuan Wen、Oliver Zhang、Omar Agha、
Omar Elbaghdadi、Omer Levy、Owain Evans、Pablo Antonio Moreno Casares、Parth
Doshi、Pascale Fung、Paul puliang、Paul Vicol、pegasah Alipoormolabashi、Peiyuan
Liao、Peter W. Chang、Peter Eckersley、Phu Mon Htut, Pi-Bei Hwang, P. Milkowski,
Piyush S. Patil, Pouya Pezeshkpour, Priti Oli, qizhu Mei, qingu, Rahel Habacker, Rabin
Banjade, Rachel Etta Rudolph, Raefer Gabriel, Rahel Habacker, Ram 'on Risco Delgado,
Rapha¨el Milli 'ere, Rhythm Garg, Richard Barnes, Rif A. Saurous, Arakawa Riku, Robbe
Raymaekers, Robert Frank, Rohan Sikand, Roman Novak, Roman Sitelew, Ronan Le Bras,
Rosanne Liu, Rowan Jacobs, Rui Zhang, Ruslan Salakhutdinov, Ryan Chi, Ryan Lee, Ryan
Stovall, Ryan Teehan,Rylan Yang、Sahib J. Singh、Saif M. Mohammad、Sa- jant Anand、
Sam Dillavou、Sam Shleifer、Sam Wiseman、Samuel Gruetter、Sam Bowman、Samuel
S. Schoenholz、Sanghyun Han、Sanjeev Kwatra、Sarah A. Casey、Sarik Ghazarian、
Sayan Ghosh、Sean Casey、Sebastian Bischoff、Sebastian Gehrmann、Sebastian Schuster、
Sepideh Sadeghi、Shadi S. Hamdan、Sharon Zhou、Shashank Srivastava、Sherry Shi、
Shikhar Singh、Shima Asaadi、shibh Shane Gu、Shubh Pachchigar、Shubham Toshni-
wal、Shyam Upadhyay、Shyamolima Debnath、Siamak Shakeri、Simon Thormeyer、
Simone Melzi、Siva Reddy、Sneha Priscilla Makini、Soo hwan Lee、Spencer Bradley
Torene、Sri- harsha Hatwar、Stanislas Dehaene、Stefan Divic、Stefano Ermon、Stella
Rose Biderman、Stephanie C. Lin、S. Prasad、Steven T. Piantadosi、Stuart M. Shieber、
Summer Mish- erghi、Svetlana Kiritchenko、Swaroop Mishra、Tal Linzen、Tal Schuster、
Tao Li 、Tao Yu 、 Tariq A. Ali 、Tatsuo Hashimoto 、Te-Lin Wu、 Theo Desbordes 、
Theodore Rothschild、Thomas Phan、王天乐、Tiberius Nkinyili、Timo Schick、t.n .
Kornev、Timothy Telleen-Lawton、Titus Tunduny、Tobias Gerstenberg、Trenton Chang、
Trishala Neeraj、Tushar Khot、Tyler O ' s Shultz、Uri Shaham、Vedant Misra、Vera
Demberg、Victoria Nyamai、Vikas Raunak、Vinay Venkatesh Ramasesh、Vinay Uday
Prabhu、Vishakh Pad- makumar、Vivek Srikumar、William Fedus、William Saunders、
William Zhang 、 W Vossen 、 Ren Xiang 、 佟 晓 宇 、 吴 昕 怡 、 沈 徐 东 、 Yadollah
Yaghoobzadeh、Yair Lakretz、杨松、Yasaman Bahri、Ye Ji Choi、杨益驰、郝一丁、陈
毅夫、Yonatan Belinkov、Yu Hou、Yu Hou、白云涛、Zachary Seid、赵馨然、赵卓业、
王梓福、Zijie J. Wang、王梓睿、吴子怡、Sahib Singh、Uri Shaham。除了
55
模仿游戏:量化和推断语言模型的能力。arXiv, abs/2206.04615, 2022。
苏建林、陆宇、潘生峰、艾哈迈德·穆尔塔达、温博、刘云峰。Roformer:具有旋转
位置嵌入的增强型变压器。arXiV 预印本 arXiV:2104.09864, 2021。
Mirac Suzgun, Nathan Scales, Nathanael Sch¨arli, Sebastian Gehrmann, Yi Tay, Hyung
Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed H. Chi, Denny Zhou,和 Jason Wei。
挑战大板凳任务以及思维链能否解决这些问题。CoRR, abs/ 2210.9261, 2022。doi:
10.48550 / arXiv.2210.09261。URL https://doi.org/10。48550 / arXiv.2210.09261。
阿隆·塔尔莫,乔纳森·赫齐格,尼古拉斯·劳里和乔纳森·贝兰特。
CommonsenseQA:针对常识知识的问答挑战。在 2019 年 6 月明尼苏达州明尼阿波利
斯市举行的计算语言学协会北美分会 2019 年会议论文集:人类语言技术,第 1 卷(长
论文和短论文),第 4149-4158 页。计算语言学协会(Association for Computational
Linguistics)。doi: 10.18653 / v1 / n19 - 1421。URL https://aclanthology.org/n19 - 1421。
罗斯·泰勒、马尔辛·卡尔达斯、吉兰姆·库库尔、托马斯·夏洛姆、安东尼·哈茨
霍恩、埃尔维斯·萨拉维亚、安德鲁·波尔顿、维克托·克尔克兹、罗伯特·斯托尼
克 。《 卡 拉 狄 加 : 科 学 的 大 型 语 言 模 型 》。 arXiV, 11 年 2022 年 。 URL
http://arxiv.org/abs/2211.09085。
56
Krikun 、 Dmitry Lepikhin 、 James Qin 、 Dehao Chen 、 Xu Yuanzhong Chen 、 Adam
Roberts、Maarten Bosma、Vincent Zhao、Yanqi Zhou、Chung-Ching Chang、Igor Kri-
vokon、Will Rusch、Marc Pickett、Pranesh Srinivasan、Laichee Man、Kathleen Meier-
Hellstern、Meredith Ringel Morris、Tulsee Doshi、Renelito Delos Santos、Toju Duke、
Johnny Soraker 、 Ben Zevenbergen 、 Vinodkumar Prabhakaran 、 Mark Diaz 、 Ben
Hutchinson、Kristen Olson、Alejandra Molina、Erin Hoffman-John、Josh Lee、Lora
Aroyo、Ravi Rajakumar 、阿 莱 娜 · 布 特里 纳 、马 修 ·拉 姆 、Viktoriya Kuzmina 、
乔 · 芬 顿 、 亚 伦 · 科 恩 、 Rachel Bernstein 、 Ray Kurzweil 、Blaise Aguera-Arcas 、
Claire Cui、Marian Croak、Ed Chi、Quoc Le。Lamda:面向对话应用的语言模型,
2022 年。URL
https://arxiv.org/abs/2201.08239 。
王本、小松崎阿兰。GPT-J-6B:一个 60 亿参数的自回归语言模型。
https://github.com/kingoflolz/mesh-transformer-jax, 2021 年 5 月。
57
大型语言模型的。机器学习研究学报(TMLR), 2022a。doi: 10.48550 /
ARXIV.2206.07682。URL https://arxiv.org/abs/2206.07682。
Johannes Welbl, Amelia Glaese, Jonathan Uesato, Sumanth daththri, John Mellor, Lisa Anne
Hendricks, Kirsty Anderson, Pushmeet Kohli, Ben Coppin, Po-Sen Huang。语言模型解
毒的挑战。《计算语言学协会的发现:EMNLP 2021》,页 2447-2469,多米尼加共和
国彭塔卡纳,2021 年 11 月。计算语言学协会。doi: 10.18653 / v1/2021。findings-
emnlp.210。URL https://aclanthology.org/2021.findings-emnlp.210。
肖奕嘉、邱杰忠、李子昂、谢长宇、唐洁。利用大规模预训练语言模型对蛋白质进
行建模。CoRR, abs/2108.07435, 2021。URL https: //arxiv.org/abs/2108.07435。
58
Frank Z Xing, Erik Cambria, Roy E Welsch。基于自然语言的财务预测:一项调查。人工智能
评论,50(1):49 - 73,2018。
Albert Xu, Eshaan Pathak, Eric Wallace, Suchin Gururangan, Maarten Sap, Dan Klein。给
语言模型解毒有边缘化少数民族声音的风险。 《计算语言学协会北美分会 2021 年会
议论文集:人类语言技术》 ,第 2390-2397 页,在线,2021 年 6 月。计算语言学协会
(Association for Computational Linguistics)。doi: 10.18653 / v1/2021.naacl-main.190。
URL https://aclanthology.org/2021.naacl-main.190。
Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, Yejin Choi。HellaSwag:机器真的
能完成你的句子吗?在 2019 年 7 月,意大利佛罗伦萨,第 57 届计算语言学协会年会
论文集,第 4791-4800 页。计算语言学协会。doi: 10.18653 / v1 / p19 - 1472。URL
https: //aclanthology.org/P19-1472。
曾敖涵、刘晓、杜正晓、王梓涵、赖涵予、丁明、杨卓毅、徐一凡、郑文迪、夏晓、谭
翁林、马子萱、薛雨飞、翟继东、陈文广、张鹏、董雨霄、唐洁。Glm-130b:一种开放
的双语预训练模型。arXiV, 10 2022。URL http://arxiv.org/abs/2210.02414。
张盛,刘晓东,刘晶晶,高剑峰,杜凯文,本杰明·范德姆。记录:弥合人类和机器常
识阅读理解之间的差距。arXiV, abs/1810.12885, 2018。
张一哲、孙思琪、Michel Galley、陈彦春、克里斯·布洛克特、高翔、高剑峰、刘晶
晶、比尔·多兰。DIALOGPT:会话响应生成的大规模生成性预训练。在计算语言学
协会第 58 届年会论文集:系统演示,第 270-278 页,在线,2020 年 7 月。计算语言学
协会。doi: 10.18653 / v1/2020。acl-demos.30。URL https://aclanthology.org/2020.acl-
demos.30。
59
附录 a 架构
格的符号
样式。无样式变量表示标量,粗体小写变量表示[列]向量,粗体大写变量表示矩阵。例
如,hi,j 可以是向量 hj 中的一个元素,而向量 hj 又可以是矩阵 H 的第 j 列。
命名函数以非斜体的常规字体输入,如 softmax(·)和 FFN(·)。
红色用于表示可训练参数,或被可训练参数参数化的函数,如 W 或 FFN(·)。
exp
•Softmax: Softmax (x) = (x) 其中 exp(·)按元素应用于向量。
我 exp
(xi)
•Dropout: dropp(x) = 1·m
1−p
x 其中,m
对于每一个例子的表示,随机变量 = [mi]ni=1>, mi ~Bernoulli(1−p)。
mi 都是独立绘制的。
A.1 完整架构
(1)
∀t∀
(2)
60
层。层表示 H '∈RD×T 为每个层' = 1,…, L 可以按顺序定义如下(这种计算有时被称为
“块”):
(3)
∀的
∀ (4)
函数应用于什么而进一步参数化,例如应用于块时的 LNin
”
输入和 LNat ,当应用于注意力输出时。我们将它们分开指定
它们使用不同的(即未绑定)可训练参数。
其 中 W em∈RD×|V| 是 我 们 在 嵌 入 部 分 使 用 的 相 同 的 嵌 入 矩 阵 , LNf 是 f 最 终 的
LayerNorm 应用。我们遵循 PaLM 方法省略了一个偏置项。
位置 j + 1 的 token 分布,以前缀(x1,…, xj),由
(6)
其中 yj 是 Y 的第 j 列。
在‘,SA’层有不在场证明的自注意力:RD×T→RD×T 定义如下。
设 n∈{1,…, N}表示一个注意力头,其中 N 是头的总数。设 Dn 表示每个头的维数。
设 An, M∈RT×T 分别表示不在场证明矩阵和注意力掩模,后面会定义。
那么,Y =SA'(X)使得:
(7)
(8)
(9)
∀n (10)
∀n (11)
∀n (12)
(13)
61
其中 Wn`,q, Wn,`k, Wn,v`∈D×DR,n Un∈D`×DR,∀n 是可训练的权重参数,n
bn,q, bn,k, bn,v∈RD n,∀n, c'∈RD,是可训练的偏置参数,pat, ph∈[0,1)` ` `
为注意概率和隐藏单元退出概率。
不在场证明矩阵 An=[ani,j]i,j∈RT×T 构造为:
(14)
(15)
N˜
Ani,j = 2−n~N ·(i−j)·1(i < j) ~ 8
∀i, j∈[T], n∈[n](16)
LayerNorm, LNθ:RD→RD,定义如下:
y = LNθ(x) = p
X−µ(X)
γ θ + βθ (18)
σ2(x) + ?
在哪
里
µ(x) =
1 X
D
xi∈R (19)
我
σ2(x) =
1 X
(xi−µ(x))2∈R (20)
D
我
其 中 gelu(x) = 0.5·x·(1+tanh(0.79788456·x·(1+0.044715·x2))) 按 元 素 应 用 ,
Wf`∈DR×0D, Uf∈`D×RD 是可训练的权重参数,bf '∈D, cfR '∈D 0 0R
为可训练的偏置参数,pf∈[0,1)表示该分量处的退出概率。
62
A.5 所有可训练参数列表
形状超参数列表及其值如下:
•L = 70(层数)
•N = 40(正面的数量)
•|V| = 131072(词汇量)
•D = 7,680(隐藏维度)
•Dn= 192,∀n∈[n](每个头的隐藏维度)
•D0= 4D = 30,720 (FFN 的隐藏维度)
初始化超参数如下:
√
•z = 0.006588≈1/ 3D 为默认范围(标准差)。
√
•z0= z·(1/ 2L)是 FFN 中第二层的缩放范围和 SA 中最终的线性映射。
所有参数及其大小和(元素级)初始化的列表:
范围 集团 参数 形状 大 总大小 初
小 始
化
W em D×|v 1006632960 1006632960 ∼N(0, z)
| 年 年
LNem γemβem 维 7680 7680 =1
维 7680 7680 =0
∈[70] LN 在 γ' inβ' in 维 7680 537600 =1
维 7680 537600 =0
∈[70], SA' W' n,问 D ×D 1474560 4128768000 ∼N(0, z)
W' n, k n 年 年
n∈[40] W' ∼N(0, z)
n、v Dn × D 1474560 4128768000
D ×D 年 年 ∼N(0, z)
n ∼N(0,z0)
1474560 4128768000
bn,问 D × Dn 年 年 =
U’ Dn 0
1474560 4128768000
” Dn 年 年 =
b'n, k 0
b' n、v Dn 192 537600
年 =
192 0
192 537600
年
537600
年
∈[70] SA' c' D 7680 537600 =
年 年 0
∈[70] γ′atβ′at 维 7680 537600 =1
维 7680 537600 =0
∈[70] FFN” Wf D ×d 0
U' f 235,929,600 16,515,072,000 ~ N(0, z)
男朋友 D×D 0
235,929,600 16,515,072,000 ~N(0,z0) =0
的 D0
cf 30,720 7,680 2,150,400 =0
D
537,600
LN f γ f βf 维 7680 7680 =1
维 7680 7680 =0
50558868480
年
63
标 问题
签
价格是否合 做 的 新闻 标题 说 关于 价格(?)
理 话
价格上 做 的 新闻 标题 说 关于 价格上涨(?)
涨 话
价格稳定 做 的 新闻 标题 说 关于 价格不变(?)
话
价格下降 做 的 新闻 标题 说 关于 价格下跌(?)
话
过去的价 做 的 新闻 标题 说 关于 过去的价格(?)
格 话
未来价格 做 的 新闻 标题 说 关于 未来价格(?)
话
过去一般 新闻标题谈论的是过去的一般事件(除了价格)吗?
未来的将军 新闻标题谈论的是未来的一般事件(除了价格)吗(?)
资产比较 新闻标题是否将黄金与其他资产进行比较(?)
附录 b 外部财务任务详情
64
来自聚合网站,如 Kitco 和 MetalsDaily。每一篇新闻文章都带有以下标签的子集:“价格与
否”、“价格上涨”、“价格下跌”、“价格稳定”、“过去价格”、“未来价格”、
“过去一般”、“未来一般”、“资产比较”。数据集是使用注释者共识创建的,每个类
别的 Cohen’s Kappa≥0.85,表明数据集是高质量的。和 FPB 一样,我们创建了自己的随
机分割。我们的训练集包含 9,129 个句子,分别包含 7,780、3,785、3,392、414、7,482、
299、1,285、67、1696 个“价格是否”、“价格上涨”、“价格下跌”、“价格稳定”、
“过去价格”、“未来价格”、“过去一般”、“未来一般”、“资产比较”类的例子。
同样,测试集包含 2283 个句子,包含 1,955、962、838、109、1,873、82、313、15、454 个
相同类别的例子。我们使用表 18 所示的每个标签上的官方文档,将每个标签用语言表达成
一个问题。我们使用了 5 个镜头,并报告了所有类别的平均加权 F1 分数。
NER (Salinas Alvarado et al., 2015):这是一项为信用风险评估收集的金融数据上的命名实
体识别任务。数据集由 8 个文档组成,约 55000 个文档
向 SEC 提交的财务协议词。注释的实体类型遵循标准 CoNLL 格式(Tjong Kim Sang 和 De
Meulder, 2003),并以 PER、LOC、ORG 和 MISC 进行注释。我们使用 Fin-5 作为上下文
采样的训练数据,并在 Fin-3 分割上进行测试。由于 MISC 不能单独定义,而是“名称
(那些)不已经在其他类别中”(Tjong Kim Sang 和 De Meulder, 2003),我们删除了所有具
有 MISC 类型的实体。此外,由于在少样本设置中学习预测空输出是很重要的,因此我
们删除不包含任何实体的句子。经过预处理,我们的训练集包含 504 个句子,每 168 个
句子,745 个 LOC 和 241 个 ORG,我们的测试集由 98 个句子,每 39 个句子,216 个
LOC 和 56 个 ORG 组成。我们发现,所有的模型都需要更多的镜头才能表现良好。因此,
我们选择了 20 个镜头,并报告了实体级别的 F1 分数。
65