You are on page 1of 51

从人类的反馈中学习总结

欧阳,吴,吴。 齐格勒瑞恩劳

切尔西沃斯亚历克雷德福达里奥阿莫迪伊保罗克里斯蒂亚诺

ar 开放的人工智能

Xi 摘要
v: 随着语言模型变得越来越强大,训练和评估越来越受到用于特定任务的数据和
20 指标的瓶颈。例如,摘要模型经常被训练来预测人类参考摘要,并使用ROUGE
进行评估,但这两个指标都是我们真正关心的——摘要质量——的粗略代理。

09 在这项工作中,我们证明了通过训练一个模型来优化人类的偏好来显著提高总
结质量是可能的。我们收集了一个大型的、高质量的摘要之间的人类比较数据
集,训练一个模型来预测人类偏好的摘要,并使用该模型作为奖励函数,使用
.0 强化学习来微调摘要策略。我们将我们的方法应用到TL的一个版本上;Reddit
的DR数据集发布了[63],并发现我们的模型显著优于人类参考摘要和单独使用
13 监督学习进行微调的更大的模型。我们的模型还转移到CNN/DM新闻文章[22],
产生的摘要几乎和人类参考一样好,没有任何特定于新闻的微调。2我们进行
25 了广泛的分析,以理解我们的人类反馈数据集和微调模型。3我们建立了,我
们的奖励模型可以推广到新的数据集,并且优化我们的奖励模型比根据人类来
v3 优化胭脂能得到更好的总结。我们希望来自我们的论文的证据能够激励机器学
习研究人员更密切地关注他们的训练损失如何影响他们实际想要的模型行为。
[c
s. 1介绍

CL 在各种自然语言处理(NLP)任务上变得越来越普遍。当将这些模型应用于特定的任务时,它们
通常使用监督学习进行微调,通常是为了最大限度地提高一组人类演示的对数概率。

]2 虽然这一策略显著提高了性能,但在这一微调目标——最大限度地提高人类书写文本的可能性
——和生成由人类决定的高质量输出——之间仍然存在错位。这种错位有几个原因:最大似然

02 目标没有区分重要的错误(e。g.编造事实[41])和不重要的错误(例如。从一组同义词中选择精
确的词);模型

2 *这是OpenAI反射团队的一个联合项目。作者顺序随机分为{LO、JW、DZ、NS};CV和RL在大部分时间内
都是全职贡献者。PC是团队的领导。
年 2我们所有模型的样本都可以在我们的网站上查看。
3我们为我们的1.3B模型和基线提供了推理代码,以及一个模型卡和我们的具有超过64k个汇总比较的人

2 类反馈数据集。

月 第34届神经信息处理系统会议(NeurIPS 2020),加拿大温哥华。

15

图1:人类更喜欢TL;DR数据集上的模型摘要,而不是人类生成的参考摘要。4因为质量判断涉
及到一个关于如何权衡总结长度和总结长度。在24-48令牌限制的覆盖范围内,我们还在附录F
中提供了长度控制图;长度差异解释了在6.7B时反馈和监督学习之间的差距的三分之一。

被激励将概率质量放于所有人类演示,包括那些低质量的;采样期间的分布位移会降低性能
[56,52]。质量通常可以通过非均匀采样策略来显著提高,但这可能会导致重复和其他不可取的
人为因素[69,23]。优化质量可能是克服这些问题的一种原则性方法。
我们在本文中的目标是推进训练语言模型的方法,以更接近地捕捉我们所关心的行为。为了朝
着这一目标取得短期进展,我们关注抽象的英语文本摘要,因为它在NLP社区有着悠久的历史[
16,8,54,59,50],这是一项主观任务,我们认为没有人类判断很难量化摘要质量。事实上,现
有的评估总结质量的自动指标,如ROUGE [39],已经因为与人类判断[55,45,6,33]的相关性较
差而受到了批评。
我们遵循[3,73]的工作,他使用奖励学习[35]从人类反馈中微调语言模型。我们首先收集成对
的摘要之间的人类偏好数据集,然后通过监督学习训练一个奖励模型(RM)来预测人类偏好的
摘要。最后,我们通过强化学习(RL)训练一个策略,以最大化RM给出的分数;该策略在每个
“时间步长”生成一个文本标记,并基于给整个生成的摘要的RM“奖励”,使用PPO算法[58]进
行更新。然后,我们可以使用结果策略中的样本来收集更多的人类数据,并重复这个过程。我
们遵循[48,4]的工作和使用
大型预训练的GPT-3模型有多达67亿个参数。
我们的主要贡献有四个方面。
(1)我们表明,使用人工反馈的训练明显优于非常强的英语总结基线。当将我们的方法应用于
Reddit TL;DR数据集[63]的一个版本时,我们通过人工反馈来训练策略,比通过监督学习训练
的更大的策略产生更好的总结。与数据集中的原始人类演示相比,我们的标签人员更喜欢我们
的人类反馈模型的摘要(见图1)。
(2)我们展示了人类反馈模型比监督模型更好地推广到新的领域。我们的reddit训练的人类反馈
模型也可以在CNN/DailyMail(CNN/DM)数据集中生成高质量的新闻文章摘要,而没有任何特定
于新闻的微调,几乎与数据集的参考摘要的质量相匹配。我们执行几个检查,以确保这些人类
偏好反映了一个真正的质量差异:我们始终监控协议率在标签和研究人员,并发现研究者协议
率几乎高于研究者协议率(见部分C.2),我们验证模型不仅仅是优化简单指标的长度或复制(
见附录F和G.7)。
4在整个论文中,误差条代表1个标准误差。

2
(3)我们对我们的政策和奖励模式进行了广泛的实证分析。我们研究了模型和数据大小的影响(
图6),研究了我们继续优化给定的奖励模型时的表现(第4.3节),并使用总结的综合和人为
书写的扰动来分析奖励模型的表现(第4.3节)。我们证实,我们的奖励模型在预测人类偏好方
面优于其他指标,如胭脂,而且优化我们的奖励模型直接比根据人类优化胭脂得到更好的总结(
第4节。4).
(4)我们公开发布了我们的人类反馈数据集,以供进一步的研究。该数据集包含了在TL;DR数据
集上的64,832个摘要比较,以及我们对TL;DR(比较和Likert评分)和CNN/DM(Likert评分)
的评估数据。
我们在本文中提出的方法部分是由于对人工智能系统与人类希望它们做的事情的失调的长期担
忧。当不一致的总结模型构成事实时,它们的错误风险相当低,而且很容易被发现。然而,随
着人工智能系统变得越来越强大,并被赋予越来越重要的任务,它们所犯的错误可能会变得更
加微妙和安全关键,使这成为进一步研究的一个重要领域。

2相关工作

与我们的工作最直接相关的是之前使用人类反馈来训练RL [3,73]训练总结模型的工作。博姆等
人。[3]从2.5k CNN/DM摘要的人类评级数据集中学习奖励函数,并训练一个摘要优于策略优化
ROUGE的策略。我们的工作与[73]最相似,他还训练变压器模型[62],以在一系列任务中优化人
类反馈,包括在Reddit TL;DR和CNN/DM数据集上的总结。与我们不同的是,他们以在线方式训
练,发现模型高度提取。他们指出,他们的标签者更喜欢提取摘要,与研究人员的同意率很低
。与[73]相比,我们使用了明显更大的模型,转移到批处理设置来收集人工反馈,确保标签-研
究者的高一致性,并做了一些算法修改,如分离策略和价值网络。
人类反馈也被用作奖励来训练其他领域的模型,如对话[25,68,21]、翻译[32,1]、语义解析[34]
、故事生成[72]、回顾生成[7]和证据提取[46]。我们的奖励建模方法是在之前学习[40]排名的
工作中开发的,该方法已被应用于使用显式反馈[2,18]或点击数据[29,30]形式的隐式反馈对搜
索结果进行排序。在一个相关的研究线中,人类反馈已被用于在模拟环境中训练代理[ 10,24]
。还有大量关于使用RL来优化NLP任务的自动度量的文献,如用于总结[50,65,45,15,19]的
ROUGE,用于翻译[50,66,1,43]的BLEU,以及其他领域的[61,27,26]。最后,对改进架构[22,59]
和预前程序[70,36,49,60,53,14]进行了广泛的研究。

3、方法和实验细节

3.1高级方法

我们的方法类似于[73]中概述的方法,适用于批处理设置。我们从一个初始策略开始,该策略
通过对所需的数据集(在我们的例子中,是Reddit TL;DR摘要数据集)的监督学习来进行微调
。这个过程(如图2所示)然后由三个可以反复重复的步骤组成。
第一步:从现有政策中收集样本,并将比较发送给人类。对于每一篇Reddit文章,我们从多个
来源抽样摘要,包括当前策略、初始策略、原始参考摘要和各种基线。我们将一批成对的摘要
发送给我们的人类评估者,他们的任务是选择一个给定的Reddit文章的最佳摘要。
第二步:从人类的比较中学习一个奖励模型。给定一篇文章和一个候选摘要,我们训练一个奖
励模型来预测这个摘要是更好的日志概率,由我们的劳工判断。
步骤3:针对奖励模型优化策略。我们将奖励模型的logit输出视为一种奖励,我们使用强化学
习进行优化,特别是使用PPO算法[58]。

3
图2:我们的人工反馈、奖励模型培训和政策培训程序的示意图。

我们将在下面的章节中提供一个更全面的关于我们的程序的详细的描述,包括奖励模式和政策
培训以及我们的质量控制过程的细节。在实践中,我们并没有精确地迭代这个三个步骤的序列
,而是在项目过程中更新了数据收集和培训程序,同时积累了标签(详见附录C.6)。

.23数据集和任务

数据集。我们使用TL;DR摘要数据集[63],其中包含了来自reddit的300万篇~帖子。涵盖各种
主题(参考),以及原始海报撰写的文章的摘要(TL;dr)。此外,我们还过滤了这个数据集
(见附录A)以确保质量,包括使用一般人群可以理解的子数据白名单。至关重要的是,我们还
过滤了只包含人工写的摘要包含24到48个令牌的帖子,以最大限度地减少摘要长度对质量的潜
在影响(见第4.1节和附录F节)。我们最终过滤后的数据集包含了123,169篇文章,我们将~保
留了5%作为验证集。在本文的其余部分,我们将这个数据集简单称为TL;DR。
我们选择了TL;DR数据集,而不是更常用的CNN/DM数据集,这主要是因为通过简单的提取基线
,可以在CNN/DM上获得非常强的性能。我们在4.2节中发现,我们的标签人员更喜欢lead-3而不
是CNN/DM参考摘要,5低温采样的监督T5模型[49]已经超过了参考摘要质量,同时广泛复制了文
章摘要。另一方面,在我们的人工评估中,简单的提取基线对TL;DR表现不佳(见附录G.2)。
我们没有在CNN/DM上进行训练,而是研究了人类反馈模型在接受编辑文章总结训练后向CNN/DM
的转移性能。

任务。根据我们将我们的地面真相任务定义为生成一个模型,生成的总结少于48个令牌,根据
我们的判断,尽可能好。我们根据摘要如何忠实地将原文传达给只能阅读摘要而不是文章的读
者来判断摘要的质量(关于标准的进一步讨论见附录C)。.5由于我们做比较的能力有限,我们
雇佣标签人员为我们做比较。我们依赖详细的程序来确保标签人员和我们在任务上的高度一致
,我们将在下一节中描述。

5我们在附录E中手动检查了这个结果,发现我们通常同意标签评级。

4
第一次约会,去海滩。想要一些建议
嘿,Reddit!我(2000万)想要一些建议,因为我明天有第一次约会(虽然我已经3年gf了,但没有真正的约会
),我们要去海滩。

我在几天前的一个节日上认识了这个女孩,我们有共同的朋友。我们没有亲吻,但我们交谈,握着手,跳了一会
儿。我让她去和我一起约会,这非常困难,因为这是我第一次问任何人这个。我想说的是,这不像是标准的“第
一次”约会,因为我们已经在一起度过了一段时间。

我真的很紧张和兴奋。我明天去接她,我们骑自行车去海滩需要30分钟,然后呢?我有点害怕。我应该带点什么
(天气,虽然没有雨和阳光,不是超级,所以不游泳),我们应该做点什么。我想要我能得到的所有建议。谢谢

人类书面参考TL;DR 6.7B监督模型 . 7 6B人反馈模型
3年后的第一次约会- 和我认识的一个女孩约会 这是我的第一次约会
船,去海滩,吓坏了。 几天前,我去了海滩。 划着船,骑着自行车去海滩。会
我要带上什么东西,该做什么? 我应该带来什么,我们应该做什么 比如一些关于该做什么做的建议。
? 我有点紧张和兴奋。
谢谢!
表1:TL;DR数据集上的post和样本示例,选择得特别短。对于随机样本(连同帖子),请参见
附录H和我们的网站。

3.3收集人类反馈

以前的工作微调语言模型从人类反馈[73]报道“质量的概念之间的不匹配我们希望我们的模型
学习,和人类标签实际评估”,导致模型生成总结高质量根据标签,但相当低质量根据研究人
员。
与[73]相比,我们实施了两项变化来提高人类数据质量。首先,我们完全转换到离线设置,在
那里我们交替发送大量的比较数据6给我们的人类劳工,并根据累积收集的数据重新训练我们的
模型。第二,我们与标签者保持实际的关系:7我们为他们提供详细的说明,在一个共享的聊天
室里回答他们的问题,并定期对他们的表现提供反馈。我们培训所有的标签人员,以确保与我
们的判断高度一致,并在项目过程中持续监控标签人员-研究者的协议。见附录C。1和C.5了解
详情。
由于我们的程序,我们获得了很高的标签人员-研究者的一致性:在比较任务的一个子集上,标
签人员同意研究者同意的77%的2%,而研究人员彼此同意的73%的4%。 我们在附录C.2中提供
了更多的人类数据质量分析。

.43种型号

我们所有的模型都是GPT-3 [47,4]风格的变压器解码器[62]。我们对具有13亿(1.3B)和67亿
(6.7B)参数的模型进行了人体反馈实验。

预先训练的模型。与[12,47]类似,我们从预先训练的模型开始,以自动回归预测大型文本语料
库中的下一个标记。与在[48,4]中一样,我们通过填充上下文和来自数据集的高质量摘要的示
例,将这些模型作为“零镜头”基线。我们在附录B中提供关于预训练的细节,在附录B中提供
关于我们的零射击程序.2.

监督基线。接下来,我们通过监督学习对这些模型进行微调,以预测来自我们过滤后的TL;DR
数据集的摘要(详见附录B)。我们使用这些监督模型来抽样初始总结以收集比较,初始化我们
的策略和奖励模型,并作为评估的基线。在我们最终的人体评估中,我们使用T=0从所有模型中
取样,因为我们发现它比更高的温度或核取样表现得更好(见附录B。1).
为了验证我们的监督模型确实是比较的强基线,我们在CNN/DM数据集上使用我们的6.7B模型运
行监督微调程序,并发现我们获得了比2019年年中的SOTA模型[71]略好的ROUGE分数(见附录
G.4)。

5
6我们收集比较而不是李克特分数的决定得到了最近的工作的支持。[37].7我们从一个自由职业平台,
Upwork,和两个标签服务,规模和狮桥招募标签人员。

5
奖励模型。为了训练我们的奖励模型,我们从一个有监督的基线开始,如上所述,然后添加一
个随机初始化的线性头,输出一个标量值。我们训练这个模型来预测哪个总结y 2 {y0, y1由人
类判断,给出一个x后,会更好。如果人类更喜欢的摘要是yi,我们可以将RM损失写为:
损失(re) = E (x,y 0 ,y 1 ,i)D [日志(re(x, y i) r e(x, y 1 i )))]
其中re(x,y)是带有参数的后x和摘要y的奖励模型的标量输出,D是人类判断的数据集。 在
训练结束时,我们对奖励模型的输出进行标准化,使我们的数据集的参考摘要的平均得分为0。

人力反馈政策。我们希望使用上面训练过的奖励模型来训练一种策略,根据人类的判断,产生
更高质量的输出。我们主要使用强化学习来实现这一点,通过将奖励模型的输出作为对整个总
结的奖励,我们使用PPO算法[58]来最大化,其中每个时间步长都是一个BPE令牌。8我们初始化
策略为在Reddit TL;DR上进行微调的模型。重要的是,我们在奖励中包含了一个术语,用来惩
罚学习到的RL策略T之间的KL差异 L有参数和这个原始的监督模型T 英尺,正如之前在[25]中所
做的那样。全额奖励R可以写成:

R(x, y) = re(x, y) β log[T L(y|x)/T 英尺(y|x)]


这个KL术语有两个目的。首先,它作为熵奖励,鼓励政策探索并阻止它崩溃为单一模式。其次
,它确保了该政策不会学会产生与奖励模式在训练中看到的输出有太大不同的输出。
对于PPO值函数,我们使用一个与策略具有完全独立的参数的变压器。这可以防止值函数的更新
在训练早期部分破坏预先训练的策略(参见附录G中的消融。1).我们将价值函数初始化为奖励模
型的参数。在我们的实验中,奖励模型、政策和价值函数的大小是相同的。

4结果
.1 4.总结Reddit上来自人类反馈的帖子

经过人工反馈培训的政策比更大规模的监督政策更受青睐。我们评估我们关于TL;DR的人类反
馈策略的主要结果如图1所示。我们将策略质量衡量为人类喜欢的策略生成的摘要的百分比。在
这个指标上,我们使用人类反馈训练的政策显著优于我们的监督基线,我们的1.3B人类反馈模
型显著优于监督模型(61%对43%的原始偏好得分)。 我们的6。7B模型反过来显著优于我们的
1.3B模型,这表明使用人类反馈的训练也受益于规模。此外,我们的两个人类反馈模型都被人
类判断为优于在数据集中使用的人类演示。

控制汇总长度。在判断摘要质量时,摘要长度是一个混杂因素。摘要的目标长度是摘要任务的
一部分;根据简洁性和覆盖率之间的权衡,较短或较长的摘要可能更好。由于我们的模型学会
了生成更长的摘要,长度可以解释我们的质量改进。我们发现,在控制了长度(附录F)后,我
们的人类反馈模型与。参考摘要下降了~5%;即便如此,我们的6.7B模型摘要在有65%的时候仍
然优于~的参考摘要。

我们的政策如何在基线上得到改善?为了更好地理解我们的模型总结与参考总结和我们的监督
基线相比的质量,我们进行了额外的分析,其中人类标签人员使用7分李克特量表[38]评估四个
维度(或“轴”)的总结质量。标签人员对覆盖率进行了评级 从原始帖子的信息被涵盖),准确
性(在摘要中的陈述的程度是 定期的 在 那 邮政 一致性 (摘要单独阅读是多么容易),以及整体
质量。
8请注意,奖励模型只对整个摘要提供奖励,而不是在中间时间步长时提供奖励。在RL术语中,当策略
输出EOS令牌和折扣因子V = 1时,每个事件都会终止。

6
(a)
(b)

图4:在CNN/DM上的传输结果。(a)CNN/DM的总体总结质量作为模型大小的函数。附录G (b)。.2.
长度为6.7B TL;DR监督基线,6.7B TL;DR人类反馈模型,以及在CNN/DM摘要上的T5进行了微
调。在类似的总结长度下,我们的6.7B TL;DR人类反馈模型几乎与T5匹配,尽管从未接受过总
结新闻文章的训练。

结果(图3)表明,我们的人工反馈模型在质量的每个
维度上都优于监督基线,特别是覆盖范围。尽管我们的
人类标签人员在给出完美的总体分数方面有很高的标准
,但我们的6.7B PPO模型的总结在45%的情况下获得了
7/7的总分(相比之下,6.7B监督基线和参考总结分别
为20%和23%)。

4.2转到总结新闻文章

我们的人工反馈模型也可以在没有任何进一步训练的情
况下生成CNN/DM新闻文章的优秀摘要(图4)。我们的
人类反馈模型显著优于在TL;DR上训练的模型;和仅在
训练前语料库上训练的模型。 图3:对TL;DR数据集上的四个汇总质
量轴的评估。
事实上,我们的6.7B人类反馈模型的性能几乎与6.7B模型一样好,该模型在CNN/DM参考摘要上进行
了微调,尽管生成的摘要要短得多。
由于我们转移到CNN/DM的人类反馈模型在摘要长度分布上与CNN/DM训练的模型几乎没有重叠,
平均约有一半的标记,因此它们很难直接比较。因此,我们在图4中的评估使用了四个质量维度
上的7点李克特量表,如第4.1节所述(标签说明见附录C.5)。在图4b中,我们显示了不同摘要
长度下的平均总体得分,这表明,如果我们的人类反馈模型生成更长的摘要,它们会表现得更
好。定性地说,我们人类反馈模型的CNN/DM总结始终流畅合理地表示文章的内容;我们在我们
的网站和附录H中展示了例子。

.34.理解奖励模式

当我们优化奖励模型时,会发生什么?优化我们的奖励模型应该是为了使我们的政策与人类的
偏好相一致。但奖励模型并不能完美地代表我们的劳动者偏好,因为它的能力有限,而且只能
从相对狭窄的摘要分布中看到少量的比较数据。虽然我们可以希望我们的奖励模型能概括为在
训练过程中未见过的总结,但目前还不清楚一个人可以对奖励模型优化多少,直到它开始给出
无用的评估。
为了回答这个问题,我们创建了一系列针对早期版本的奖励模型的策略,具有不同程度的优化
强度,并要求标签人员将他们的样本与参考摘要进行比较。图5显示了在一个KL惩罚范围内的
PPO的结果

7
图5:偏好得分与奖励模型优化的程度。针对 图6:奖励模型性能与数据大小和模型大小之
奖励模型进行优化最初会改进总结,但最终会 间的关系。翻倍数量的训练数据会导致一个
过度拟合,从而给出更糟糕的总结。这个数字 ~1。奖励模型验证的准确性提高了1%,而翻
使用了我们的奖励模型的早期版本(见附录 倍
C.6中的rm3)。见附录H。2为来自KL 250模型 模型尺寸导致~增加了1.8%。这个
的样品。 6.对所有数据进行训练的7B模型开始接近单
个人的准确性。

系数(β)。在光照优化条件下,模型得到了改进(根据标签符)。然而,随着我们进一步优化
,真实偏好与预测相比会下降,最终奖励模型与人类偏好反相关。虽然这显然是不可取的,但
我们注意到这种过度优化也发生在胭脂上(见[45]和附录G。3).在机器人领域[5]的学习奖励功
能中也观察到了类似的行为。

随着模型和数据规模的增加,如何奖励建模规模?我们进行了消融,以确定数据量和模型大小
如何影响奖励建模性能。我们训练了7个奖励模型,范围从160M到13个B参数,从我们的数据集
中进行了8k到64k的人类比较。我们发现,加倍的训练数据量会导致一个~1。奖励模型验证集的
准确性增加了1%,而将模型大小增加一倍,导致~增加了1.8%(图6)。

奖励模式学到了什么?我们通过在几个验证集上评估模型来探索奖励模型。.6我们在附录G中显
示了完整的结果,并在这里突出显示了它们。我们发现,我们的奖励模型适用于评估CNN/DM摘
要(附录G.7),有62.4%和66.5%的时间与标签标记者偏好一致(分别为我们的1.3B和6.7B模型
)。我们的6.7B奖励模型接近于66.9%的标签间协议值。
我们还发现,我们的奖励模型对摘要中小但语义上重要的细节很敏感。我们通过让标记者对摘
要进行最小的编辑来构建一个额外的验证集来改进它们。我们的rm几乎和一组单独的人类评估
者一样,更喜欢编辑过的总结(1.3B为79.4%,82.8%为6.7B)(84。1%).此外,当将参考摘要与
参与者角色相反的扰动摘要进行比较时,我们的模型可靠地选择了原始摘要(92.9%的时间为1。
3b,6.7b为97.2%)。然而,我们的RM偏向于更长的摘要:我们的6.7B RM更倾向于改进编辑,使
摘要在只有62.6%的时间内缩短(vs。76.4%的人类)。

.4 4分析进行总结的自动指标

评价。我们研究了各种自动度量作为人类偏好的预测作用,并将它们与我们的rm进行比较。具
体来说,我们检查了胭脂,总结的长度,从文章中获得的复制量,9以及在我们的基线监督模型
下的对数概率。我们在附录G.7中提出了这些指标之间的协议率的完整矩阵。
我们发现,我们学习到的奖励模型始终优于其他指标,即使是在它从未被训练过的CNN/DM数据
集上也是如此。我们还发现,胭脂不能跟踪我们的样品质量

9我们通过计算原始Reddit文章或新闻文章的最长公共子序列,并除以摘要中双图的数量来衡量复制。

8
图7:摘要质量作为度量优化和优化量的函数,使用最佳的n拒绝抽样。我们评估了ROUGE,我们
的主要奖励模型,以及早期的迭代,训练了大约75%的数据(详见表11)。与所有奖励模型相比
,胭脂的峰值更快,偏好率明显更低。详见附录G.3。

模型改进。当比较来自我们的监督基线模型的样本时,胭脂与标签符的~一致性为57%,而来自
我们的人类反馈模型的样本的~一致性下降到50%。
类似地,在来自我们的人类反馈模型的样本之间的比较中,与人类的对数概率一致性下降到≤
的50%,而我们的rm的表现仍然高于概率(62%)。扩大监督模型的大小并不能可靠地提高对数
概率与标签符的一致性。

最优化在图7中,我们展示了使用一个简单的优化方案来优化ROUGE并不能一致地提高质量,正
如在[45]中所指出的那样。与针对我们的奖励模型的优化相比,针对胭脂的优化峰值速度更快
,质量率也更低。

5讨论

限制。我们工作的一个限制是生产最终模型所需的时间和成本。值得注意的是,用RL微调我们
的6.7B模型大约需要大约320个gpu天。与之前的工作相比,我们的数据收集过程也很昂贵——
训练集花费了数千个标签小时,并且需要大量的研究时间来确保质量。由于这个原因,我们无
法收集基线,例如针对监督基线的同等数量的高质量人工演示。更多讨论请见D。我们把这个消
融术留给了未来的工作。然而,我们认为奖励建模更有可能扩展到提供良好的演示是非常技能
密集型或耗时的任务。

未来的方向。本文中的方法可以应用于任何人类可以比较样本的任务,包括对话、机器翻译、
问题回答、语音合成和音乐生成。我们期望这种方法对于生成长样本特别重要,在那里最大似
然样本的分布位移和简并性可能是有问题的。通过训练预测许多任务[42]的反馈,可以提高样
本效率。
我们特别感兴趣的是将人类反馈扩展到人类无法轻易评估模型输出质量的任务。在这种情况下
,确定一个ML系统是否与人类设计者的意图相一致尤其具有挑战性。一种方法是训练ML系统,
帮助人类快速准确地执行评估任务。
除了训练模型[28,17,44,64]的二元比较之外,还有丰富的人类反馈方法。例如,我们可以从标
签者那里征求高质量的演示,让标签者编辑模型输出以使它们更好,或者让标签者解释为什么
他们更喜欢一个模型输出而不是另一个模型输出。所有这些反馈都可以作为一个信号来训练更
有能力的奖励模型和政策。

9
更广泛的影响。我们在本文中探索的技术是通用技术,可以用于各种机器学习应用程序,用于
任何人类可以评估模型输出质量的任务。因此,其潜在的影响是相当广泛的。
我们的研究主要是由将机器学习算法与设计者的偏好对齐的潜在积极影响所激发的。许多机器
学习应用程序优化简单的度量,这些指标只是设计师意图的粗略代理。这可能会导致一些问题
,比如Youtube建议推广点击诱饵[ 11]。在短期内,改进直接学习和优化人类偏好的技术可能
使这些应用程序更符合人类的福祉。
从长远来看,随着机器学习系统变得越来越有能力,确保它们的行为安全可能会变得越来越困
难:它们所犯的错误可能更难被发现,后果也会更加严重。例如,对一篇新闻文章写一篇不准
确的摘要既容易引起注意(只需阅读原始文章),又有相当低的后果。另一方面,模仿人类驾
驶可能比驾驶以优化人类偏好更不安全。我们相信,我们在本文中探索的技术是很有希望的步
骤,以减轻这些有能力的系统的风险,并更好地将它们与人类所关心的东西相结合。
不幸的是,我们的技术还使恶意行为者能够更容易地训练造成社会伤害的模型。例如,人们可
以使用人类的反馈来微调一种语言模型,使其更有说服力,并操纵人类的信念,或诱导人类对
该技术的依赖,或产生大量旨在伤害特定个人的有毒或伤害性内容。避免这些结果是一个重大
的挑战,因此几乎没有明显的解决方案。
用人工反馈训练的大规模模型可能会对许多群体产生重大影响。因此,小心我们如何定义人类
标签者将加强的“好的”模型行为是很重要的。决定什么能做出一个好的总结是相当简单的,
但是对于目标更复杂的任务,即不同的人可能不同意正确的模型行为,将需要显著的注意。在
这些情况下,使用研究人员的标签作为“黄金标准”可能不合适;相反,受技术影响的群体的
个人应该被包括在定义“良好”行为的过程中,并作为标签来加强模型中的这种行为。
我们选择在Reddit TL;DR数据集上进行训练,因为总结任务明显比在CNN/DM上更具挑战性。然
而,由于数据集由用户提交的帖子组成,这些帖子的内容通常包含冒犯性或反映了有害的社会
偏见。这意味着我们的模型可以产生有偏见的或冒犯性的总结,因为他们已经被训练来总结这
些内容。因此,我们建议在将模型部署到面向用户的应用程序之前,要彻底研究它们的潜在危
害。
最后,通过提高机器学习算法执行以前只有人类才能完成的任务的能力,我们增加了许多工作
被自动化的可能性,这可能导致大量失业。如果没有针对减轻大规模失业影响的适当政策,这
也可能导致重大的社会伤害。

致谢

我们要感谢贝丝·巴恩斯在标签招聘和普遍鼓励方面的帮助;杰弗里·欧文对项目早期迭代的
指导和鼓舞人心的对话;本·曼、汤姆·布朗、尼克·莱德和梅勒妮·苏比亚培训和评估我们
预先训练的模型;克里斯·黑塞、埃里克·西格勒、本杰明·国际斯、克里斯托弗·伯纳、克
莱门斯·温特、马图斯·利特温,以及其他许多人通过计算基础设施改进和维护来支持我们;
斯科特·格雷编写快速GPU内核;尼拉坎丹和沃伊切克·克里辛斯基讨论如何展示工作、实验设
计和使用的数据集;山卡特帮助设计主图;杜维·基拉、扎克·利普顿和亚历克斯·伊尔潘对
论文提供反馈;以及格雷琴·克鲁格共同撰写了论文附带的模型卡。
最后,我们要感谢所有的承包商提供了培训本文模型所必需的数据,包括:埃米尔·杰森·卡
普诺、蕾切尔·弗洛亚尔德、西拉·德努拉、亚历克斯·马莱克、伊西克·阿吉尔、雷什米·
帕特尔、威廉·雅普、娜塔莉·西尔弗、埃罗尔·阿克巴巴、詹妮弗·布里洛、亚历山德拉

10
尤法利安、莫里斯斯图达、拉塞尔·贝尔南德斯、塔斯迈·戴夫、蕾切尔·华莱士、珍妮·弗
莱彻、吉安欧阳、贾斯汀·迪尔、玛丽亚·奥泽克、梅根·尼芬格、威廉塞尔斯、艾米丽水手
、安德鲁·西利、伊格纳西奥、杰琳娜·奥斯托吉奇、恩·特兰、普列夫·巴德尔加、瓦伦蒂
娜·凯齐奇、米歇尔·威尔克森、凯利·格雷罗、希瑟·斯科特、莎拉·穆里根、加布里埃尔
·里卡夫伦特、卡拉·贝尔、加布里埃尔·佩雷斯和阿尔弗雷德·李。

参考文献
[1] D.Bahdanau, P.制动器,K。徐,A。戈亚尔,R。劳,J。派诺,A。库尔维尔和Y。本希奥
一种用于序列预测的演员-批评家算法。arXiv预印本,arXiv:1607.07086,2016年。
[2] B.T.巴特尔,G。W.科特雷尔和R。K.贝卢自动实现多种排序检索系统的组合。在
SIGIR‘94年,第173-181页。施普林格,1994年。
[3] F.博姆,Y。高,C。M.迈耶,O。夏皮拉,我。达根和我。古里维奇。更好的回报收益
更好的总结:学习在不需要参考文献的情况下进行总结。arXiv预印本arXiv:
1909.01214,2019年。
[4] T.B.布朗,B。曼恩,N。莱德,M。苏比亚,J。卡普兰,P。达里瓦尔。尼拉坎丹,
P.Shyam, G.Sastry。阿斯凯尔,S。阿加瓦尔。赫伯特-沃斯,G。克鲁格,T。亨尼根,R。儿童
A.拉梅什,D。M.齐格勒,J。吴,C。冬天,C。黑塞,M。陈,E。签名者,M。Litwin, S.灰色
B.国际象棋,J。克拉克,C。伯纳,S。麦肯德利什。雷德福,我。Sutskever和D。
Adometi。语言模型是很少机会的学习者。2020.
[5] S.Cabi, S.戈麦斯·科尔梅纳雷霍,A。诺维科夫,K。Konyushkova, S.里德,R。JeongK
。Zolna,Y。Aytar, D.巴登,M。维塞里克等人。通过奖励草图和批量强化学习来缩放数
据驱动的机器人技术。arXiv,页arXiv-1909,2019。
[6] A.T.查根蒂,S。Mussman和P。两自然语言评价中自动度量的价格。arXiv预印本,arXiv
:1807.02202,2018年。
[7] W.S.Cho,P。张,Y。张,X。李,M。厨房,C。布罗克特,M。王和J。一般警报等级对
连贯和连贯的长形式的文本生成。arXiv预印本,arXiv:1811.00511,2018年。
[8] S.乔普拉,M。Auli和A。M.猛冲基于注意递归神经网络的抽象句子总结。参见《计算语
言学协会北美分会2016年会议论文集:人类语言技术》,第93-98页,2016年。
[9] P.克里斯蒂亚诺,B。施莱格里斯和D。Adometi。通过放大优秀的专家来监督优秀的学习
者。arXiv预印本,arXiv:1810.08575,2018年。
[10] P.F.克里斯蒂亚诺,J。莱克,T。棕色,M。马蒂克,S。Legg和D。Adometi。从人类的偏
好中进行深度强化学习。《神经信息处理系统的进展》,第4299-4307页,2017年。
[11] P.卡温顿,J。亚当斯和E。Sargin。深度神经网络的youtube推荐。在
第十届ACM推荐系统会议记录,第191-198页,2016年。
[12] A.M.戴和Q。V.黎巴嫩半监督序列学习。《神经信息处理系统的进展》,第3079-3087页,
2015年。
[13] J.道奇。Ilharco, R.施瓦茨。法哈迪。Hajishirzi,。铁匠微调
预先训练的语言模型:权重初始化、数据顺序和早期停止。arXiv预印本:2002,2020。
.06305
[14] L.董,N。杨,W。王,F。魏,X。刘,Y。王,J。高,M。周和H.-W。爱人统一语言理解
和生成的自然语言模型预训练。在神经信息处理系统的研究进展中,2019年。
[15] Y.董,Y。沈,E。克劳福德,H。范霍夫和J。C.K.张作为一个上下文强盗的提取摘要。
arXiv预印本,arXiv:1809.09672,2018年。
[16] B.多尔,D。Zajic和R。施瓦兹对冲修剪器:一种对标题生成的分析和修剪方法。在HLT-
NAACL 03关于文本摘要研讨会的论文集-第5卷,第1-8页。计算语言学协会,2003年。
[17] S.费德勒等人。用自然语言反馈描述图像。在
神经信息处理系统的进展,第5068-5078页,2017年。

11
[18] N.富尔基于概率排序原理的最优多项式检索函数。
ACM信息系统交易(TOIS),7(3):183-204,1989年。
[19] Y.高,C。M.迈耶,M。梅斯加和我。古里维奇。奖励学习的有效强化
学习可提取的文档摘要。arXiv预印本arXiv:1907.12894,2019年。
[20] X.格洛洛特和Y。本希奥理解训练深度前馈神经网络的难度。发表在第十三届人工智能与
统计学国际会议论文集上,第249-256页,2010页。
[21] B.汉考克。波德斯,PE。.-Mazare和J。韦斯顿标准电池部署后通过对话学习:
喂自己,聊天机器人!arXiv预印本arXiv:1901.05415,2019年。
[22] K.M.赫尔曼,T。Kocisky, E.格雷芬斯泰特,L。Espeholt, W.凯,M。苏莱曼和P。钝器。
教学机器的阅读和理解。《神经信息处理系统的进展》,第1693-1701页,2015年。
[23] A.Holtzman, J.购买,L。杜,M。福布斯和Y。崔。神经文本退化的奇怪案例。arXiv预
印本arXiv:1904.09751,2019年。
[24] B.IbarzJ。莱克,T。波伦,G。欧文,S。Legg和D。Adometi。奖励学习从人类的偏好和
在雅塔里的示范。《神经信息处理系统的进展》,第8011-8023页,2018年。
[25] N.杰奎斯,A。Ghandeharioun, J.H.沈,C。弗格森。Lapedriza, N.琼斯。Gu和R。皮卡
德对话中隐性人类偏好的非策略批量深度强化学习。arXiv预印本arXiv:
1907.00456,2019年。
[26] N.杰奎斯。顾,D。Bahdanau, J.M.埃尔南德斯-罗巴托,R。E.特纳和D。埃克。序列导师
:使用kl控制对序列生成模型进行保守的微调。在机器学习国际会议上,第1645-1654页
。PMLR, 2017.
[27] N.杰奎斯。顾,R。E.特纳和D。埃克。用强化学习来调优递归神经网络。2017.
[28] H.J.Jeon,S。米利和A。D.德拉甘湖奖励理性(内隐)选择:奖励学习的统一形式主义。
arXiv预印本arXiv:2002.04833,2020年。
[29] T.乔希姆斯。使用点击浏览数据来优化搜索引擎。在第八届ACM SIGKDD知识发现和数据挖
掘国际会议上,第133-142页,2002年。
[30] T.约希姆斯,L。Granka, B.平移,H。亨布鲁克和G。同性恋。准确地将点击通过的数据
解释为隐式反馈。在ACM SIGIR论坛,第51卷,第4-11页。纽约,纽约,美国,2005年。
[31] D.P.金玛和J。文学士一种随机优化的方法。arXiv预印本
arXiv:1412.6980, 2014.
[32] J.克罗伊策,S。Khadivi, E.马图索夫和S。里兹勒。神经机器的翻译可以通过用户的反
馈来改进吗?arXiv预印本,arXiv:1804.05958,2018年。
[33] W.Kryscinski, N.S.Keskar,B。麦肯,C。熊和R。索彻。神经文本摘要:
一个关键的评估。发表在2019年自然语言处理经验方法会议和第9届国际自然语言处理联席
会议(EMNLP-IJCNLP)的论文集上,第540-551页,2019年。
[34] C.劳伦斯和S。里兹勒。通过对人类强盗反馈的反事实学习来改进神经语义解析器。arXiv
预印本,arXiv:1805.01252,2018年。
[35] J.雷克,D。克鲁格,T。埃弗里特,M。马提克,五。Maini和S。莱格。通过奖励建模的
可扩展的代理对齐:一个研究方向。arXiv预印本arXiv:1811。07871, 2018.
[36] M.刘易斯,Y。刘,N。戈亚尔,M。加兹维尼贾德。穆罕默德。利维,五。斯托亚诺夫和
L。泽特尔莫耶Bart:对自然语言生成、翻译和理解的序列到序列预训练。arXiv预印本
arXiv:1910.13461,2019年。
[37] M.李,J。韦斯顿和S。滚筒急性评估:改进的对话评估与优化的问题和多回合的比较。
arXiv预印本arXiv:1909.03087,2019年。
[38] R.利克特一种测量态度的技术。心理学档案,1932年。

12
[39] CY..-林和F。J.很好。使用最长公共子序列和跳过双乘式统计量自动评估机器翻译质量。
在第42届年度会议的会议记录中
计算语言学协会,第605页。计算语言学协会,2004年。
[40] TY..-刘。学习对信息检索进行排名。施普林格科学与商业媒体,
2011.
[41] J. 梅内斯,S。纳拉扬,B。Bohnet和R。麦克唐纳关于忠诚和事实性
抽象总结,2020年。
[42] B.麦肯,N。S.C.Keskar。熊和R。索彻。自然语言十项全能:多任务学习作为问题的回答
。arXiv预印本,arXiv:1806.08730,2018年。
[43] K.阮,H。Daume III和J。博伊德格拉伯。基于模拟人类反馈的强盗神经机器翻译的强化
学习。arXiv预印本,arXiv:1707.07402,2017年。
[44] T.牛和M。班萨尔。没有并行数据的礼貌对话生成。交易的
计算语言学协会,6:373-389,2018。
[45] R.保卢斯,C。熊和R。索彻。一个用于抽象摘要的深度强化模型。
arXiv预印本,arXiv:1705.04304,2017年。
[46] E.佩雷斯。Karamcheti, R.费格斯,J。韦斯顿,D。Kiela和K。唱诗班歌手通过学习说服
q&a模型来找到可推广的证据。arXiv预印本arXiv:1909.05863,2019年。
[47] A.拉德福德,K。特拉西姆汉。萨利曼和我。萨特斯克弗。通过生成式预训练提高语言理
解。URL https://s3-us-west-2。
amazonaws.com/openaiassets/researchcovers/languageunsupervised/language理解的论
文。pdf, 2018.
[48] A.拉德福德,J。吴,R。孩子,D。Luan,D。Adomei和我。萨特斯克弗。语言模型是无监
督的多任务学习者。OpenAI博客,1(8):9,2019。
[49] C.拉菲尔,N。沙泽尔,A。罗伯茨,K。李,S。纳朗,M。马蒂娜,Y。周,W。李和P。J.
刘。探索使用统一的文本到文本转换器进行转换学习的局限性。arXiv预印本arXiv:
1910.10683,2019年。
[50] M.Ranzato, S.乔普拉,M。Auli和W。扎里姆巴。使用递归神经网络的序列级训练。arXiv
预印本,arXiv:1511.06732,2015年。
[51] D.R.雷迪等人。语音理解系统:对为期五年的研究成果的总结。计算机科学系,1977年。
[52] S.罗斯,G。戈登和D。巴格内尔的变体减少模仿学习和结构化预测到无后悔的在线学习。
发表在第十四届人工智能和统计学国际会议论文集上,第627-635页,2011年。
[53] S.Rothe,S。纳拉扬和A。Ssiftn。利用预先训练好的检查点来进行序列生成任务。计算
语言学协会学报,2020年。
[54] A.M.Rush,S。乔普拉和J。韦斯顿标准电池一种用于抽象句子摘要的神经注意模型。
arXiv预印本,arXiv:1509.00685,2015年。
[55] N.施吕特根据胭脂进行自动总结的限制。在诉讼程序中
计算语言学协会欧洲分会第15次会议:第2卷,短篇论文,第41-45页,2017年。
[56] F.施密特世代中的概括:仔细观察暴露偏差。arXiv预印本
arXiv:1910.00292, 2019.
[57] J.舒尔曼,P。莫里茨。莱文,M。乔丹和P。修道院。利用广义优势估计的高维连续控制
。2016年学习表现国际会议(ICLR)。
[58] J.舒尔曼,F。沃尔斯基。达里瓦尔。Radford和O。克里莫夫。近端策略优化算法。arXiv
预印本,arXiv:1707.06347,2017年。
[59] A.见,P。J.刘和C。D.人员配备重点:用指针生成器网络进行总结。arXiv预印本,arXiv
:1704.04368,2017年。
[60] K.宋,X。谭,T。秦,J。Lu和T.Y。刘。质量:蒙面序列序列语言生成的预训练。arXiv
预印本:1905,2019。.02450

13
[61] P.Tambwekar, M.杜利亚瓦拉。MehtaL。J.马丁,B。哈里森和M。O.里德尔。通过强化学
习生成可控制的神经故事。arXiv预印arXiv:1809.10736,
2018.
[62] A.Vaswani, N.Shazeer, N.帕尔马,J。Uszkoreit, L.琼斯。N.戈麦斯,Ł。凯泽和
I.波洛苏金。你所需要的就是注意力。《神经信息处理系统的进展》,第5998-6008页,
2017年。
[63] M. Volske,M。Potthast, S.Syed和B。陶质啤酒杯挖掘编辑以学习自动摘要。摘要新前
沿研讨会论文集,第59-63页。
[64] S.韦莱克,我。库利科夫。滚筒,E。迪南,K。Cho和J。韦斯顿标准电池具有不似然训练
的神经文本生成。arXiv预印本arXiv:1908.04319,2019年。
[65] Y.吴和B。胡。通过深度强化学习来学习提取连贯的摘要。在
2018年第32届AAAI人工智能会议。
[66] Y.吴,M。舒斯特,Z。陈,问。V.勒,M。Norouzi, W.Macherey。Krikun, Y.曹,问。一般
警报等级
K.麦克雷等人。谷歌的神经机器翻译系统:弥合人类和机器翻译之间的差距。arXiv预印
本,arXiv:1609.08144,2016年。
[67] Y.Yan,W。齐,Y。龚,D。刘,N。段,J。陈,R。张和M。周先知网:预测序列对序列的
ngram预训练。arXiv预印arXiv:2001.04063,
2020.
[68] S.易,R。Goel,C。哈特里,A。塞尔沃内,T。钟,B。海达尼亚,A。温卡特什,R。加百利
和D。Hakkani-Tur.实现使用自动对话评估器生成连贯和吸引人的口语对话响应。arXiv预
印本arXiv:1904.13015,2019年。
[69] H.张,D。Duckworth, D.伊波利托和A。尼拉坎丹。在自然语言的生成中权衡多样性和质
量。arXiv预印本arXiv:2004.10450,2020年。
[70] J.张,Y。赵,M。萨利赫和P。J.刘。Pegasus:预先训练,用提取的间隙句进行抽象总结
。arXiv预印本arXiv:1912.08777,2019年。
[71] Y.张,D。李,Y。王,Y。方和W。肖。摘要文本摘要与卷积-
调用seq2seq模型。应用科学出版社,第9(8)页:1665,2019年。
[72] W.周和K。徐。学习进行比较,以更好地训练和评价开放领域的自然语言生成模型。arXiv
预印本arXiv:2002.05058,2020年。
[73] D.M.新泽西州齐格勒。施廷农,J。吴,T。B.布朗。拉德福德,D。Amodei, P.克里斯蒂
亚诺和G。欧文根据人类的偏好来微调语言模型。arXiv预印arXiv:1909.08593,
2019.

14
附录
目录
A TL;DR数据集的详细信息16

B进一步的模型培训细节17
B.1超参数..................................................................................................................................... 17
.2B输入格式................................................................................................................................. 18

C人类数据收集细节19
C.1.确保高质量的人力数据的过程............................................................................................19
C.2评估人工反馈质量..................................................................................................................19
C.3实验室人口统计......................................................................................................................20
C.4标签网站................................................................................................................................. 20
.5C标签使用说明......................................................................................................................... 21
C.6被标记的数据集的组成..........................................................................................................22
C.7比较任务示例......................................................................................................................... 26

D基线的选择28

E CNN/DM领先者-3vs参考文献摘要29

F控制汇总长度30

G附加结果31
G.1值功能消融............................................................................................................................. 31
.2G沿着质量轴评估政策..............................................................................................................31
.3G研究最佳的N型优化................................................................................................................31
G.4胭脂分数................................................................................................................................. 31
G.5比格拉姆重叠统计..................................................................................................................33
.6G奖励模型验证集......................................................................................................................34
.7G不同评价指标之间的测量一致性.......................................................................................... 35

H样品38
H.1随机样本................................................................................................................................. 38
H.2过度优化样本..........................................................................................................................38

15
DR数据集详细信息

在这里,我们将讨论我们所应用的预处理步骤
到TL;DR数据集。我们首先删除所有的副本 子编辑器 #职位 数据集的%
帖子通过检查文本正文,发现有 关系 63324 54.25%
近20000个精确的重复。然后我们重新解析 AskReddit 15440 13.23%
仔细地使用一组启发式方法,并过滤到 关系建议 8691 7.45%
只使用顶级的帖子(而不是评论)。我们 tifu 7685 6 58%
约会建议 2849 2.44%
也要过滤掉任何来自我们的子编辑的文章 个人理财 2312 1.98%
“subreddit白名单”(分布见表2 建议 2088 1.79%
已经被替换了),任何以标题开头的帖子 法律意见 1997 1 71%
“编辑”或“更新”的某些变体,10 和帖子 从我的胸膛 1582 1.36%
失去它 1452 1.24%
包含某些主题(如图形性爱或自杀)
工作 1084 0.93%
使用启发式。最后,为了确保这些帖子的长度较短 自己 1048 0.90%
足够适应我们的模型的上下文长度,我们 故障排除 838 0 72%
过滤掉任何身体长度超过512个令牌的帖子。 问女人的建议 688 0.59%
这导致了一组287,790个帖子被身体过滤 公狗 638 0.55%
但不是总结,我们大致坚持一下 跑步 567 0.49%
小报仇 548 0 47%
5%作为验证集。我们使用这组文章 需要建议 528 0 45%
RL训练,因为我们的RL程序不需要 旅行 452 0.39%
参考摘要。 养育子女 435 0.37%
接下来对解析的引用执行额外的过滤 婚礼策划 433 0.37%
我们用来培训监督的监督 宠物 366 0 31%
狗的训练 362 0.31%
基线具体来说,我们删除了摘要 商品目录 324 0.28%
DR以“编辑”、“更新”或 AskDocs 283 0.24%
'P.S.,我们启发式地删除了某些摘要 大学 264 0 23%
亵渎的程度,我们删除了摘要 获得激励 169 0 14%
少于24个代币或超过48个代币。作为数据 书 161 0.14%
在第4节中被批评。1、因为我们的RL模型倾向于生成- 烹饪 114 0.10%
在允许的长度的上端删除摘要
限制,这个长度过滤确保有足够的长度
RL摘要和参考-之间的长度重叠 表2:我们过滤过的RedditTR;DR数据集
因此,我们总结为我们执行一个长度控制 的训练集中的帖子数。
分析此外,我们还发现,总结的时间更短
超过16个代币通常质量较低。我们后来
验证了我们过滤掉的摘要较低
根据我们的奖励模型,质量平均超过0.5纳(即。 预计它们的exp(0.5)是首选的可能性低1.6
倍。我们最终的TL;DR数据集包含123,169篇文章,包括摘要,同样约有5%作为验证集。在开发
过程中,我们使用其中的1913篇验证文章进行模型选择;本文中的评估排除了这些文章。
请注意,从表2中我们可以看到,大约三分之二的TL;DR数据集由与关系或关系建议相关的帖子
组成,这是一个相当具体的领域。这就引起了人们对我们模型的通用性的潜在担忧,尽管它们
在CNN/DM新闻文章上的强大传输性能表明,它们并不是不合理地专门研究关系建议。

10这些帖子通常是之前发布在Reddit上的帖子的后续发布,需要完全理解原始帖子的上下文。

16
型号尺寸 n层 d模型 n 正面朝 最大LR 最大批量大小
上的
1 3B 24 2048 16 2e 4 512
3B 32 2560 32 1.6e-4 512
6.7B 32 4096 32 1.2e-4 512
13B 40 5120 40 1e-4 1024
表3:我们的不同大小的模型的超参数。

图8:我们为确定采样程序而进行的扫描,改变了温度和核采样的“顶部p”值。虽然我们没有
做足够大的测试来确定核采样比中温度采样更好还是更差,但我们发现在这个任务中,非常低
的温度采样比两者都好。

B进一步的模型培训细节

B.1超参数

所有模型都遵循标准的变压器架构,有2048个学习位置嵌入。所有模型都使用fp16激活和Adam
优化器[31]进行训练。几乎所有的监督基线、奖励模型和强化学习模型都是用fp32权重进行训
练的;例外的是我们的TL;DR监督基线,它们是用fp16权重进行训练的。11所有的模型都使用
与[48]中相同的字节对编码进行训练。
在预训练过程中,这些模型被训练来预测一个由通用爬行、网络文本[48]、书籍和维基百科组
成的大型文本语料库上的下一个标记。每个时代的训练持续1-3个时代,总共有2000亿到3000亿
个代币。学习速率遵循余弦计划,通过短暂的热身,衰减到最大值的10%。在批量大小的整个训
练过程中,增加到最大值,每个输入有2048个令牌。每个模型的超参数如表3所示。
对于有监督的基线,我们从预先训练过的模型中初始化模型。我们用余弦计划来衰减学习率,
使用从至少7个值的对数线性扫描中选择的初始学习率。这导致了学习率为6.35e-5,5。我们的
TL模型分别为66e-5、2.83e-5和2.83e-5;DR模型的大小分别为1.3B、3B、6.7B和13B,
CNN/DM6.7B模型的学习率为2.38e-5。我们使用128的批处理大小,并运行一个单一的历元。
对于奖励建模,我们初始化为有监督的基线,但在上面有一个奖励头,权重根据N (0;1/(d进
行初始化模型+ 1)) [20].我们训练了一个时代,使
11这是出于一个历史原因——我们发现fp32权重提高了RL性能,因此在我们所有的RL运行中都使用了它
。这引入了一个小的差异,因为在fp32中训练的监督运行会稍微好一些。不幸的是,我们在人类的评估中
忘记了解决这个问题。然而,对监督损失的影响对应的是模型大小增加不到20%,这与本文中出现的效应大
小相比很小(如图1所示)。

17
训练有素的模型 格式 最大令牌
TL;DR(监督,RL) SUBREDDIT: r/{subreddit}
标题: 512
POST
医生:
从TL、DR转移到CNN/DM(监 {article} 512
督下,RL) 医生:
TL;DR(经过预训练) 塞满了例子
= = = = =

Subreddit: r/{subreddit} 1999


标题:{标题}
{post}
医生:
CNN/DM(监督) 第条 1999
医生:
CNN/DM (pretrained) 塞满了例子
= = = = = 1999
第条
医生:
表4:在TL;DR和DNN/DM数据集上,用于我们训练过的每个模型的上下文的格式。

学习率与余弦调度,使用从至少7个值的对数线性扫描中选择的初始学习率。我们还扫描了3到
10个种子,并选择在验证集的开发部分表现最好的奖励模型,因为我们发现数据迭代顺序和奖
励头部初始化都会影响结果[ 13]。对于我们的主要结果,1.3B和6.7B奖励模型的学习率分别为
1.5e-5和5e-6。我们使用64,并运行一个历元。
对于PPO,我们使用单独的策略和价值网络,将我们的策略初始化为监督基线,我们的价值函数
初始化为奖励模型。我们为优势估计[57]设置了V = 1和λ = 0.95,并对每批推出进行了4个阶
段的优化。我们使用了一个线性学习率衰减计划,1.3B模型的初始学习率为1.5e-5,6.7B模型为
7e-6,基于少量的实验和粗略的模型大小外推。我们对我们报告结果的两次主要运行都使用了
0.05的KL系数(除非我们在奖励模型优化图中明确地改变这个值)。我们对1.3B模型使用512批
,对6.7B模型使用256批,并运行100万集。

B.2输入格式

我们的模型总是接收一个固定大小的字节对编码的字符串。当输入太小时,我们从输入的开始
使用填充标记,如果输入过长,我们截断换行处的post/文章字段,以保持在限制以下。
当只从预先训练的模型中进行混合训练,而没有在TL;DR上进行微调时,我们遵循[48],不再
使用填充标记填充,而是使用文章/文章和高质量摘要的例子填充上下文的开头。我们使用尽可
能多的适合令牌限制的示例,这些示例的格式化方式与主输入相同。表4记录了我们使用的格式
(使用双音级格式的字符串)。

18
C人类数据收集的细节

C.1.确保高质量的人力数据的过程

我们首先详细说明了我们用来确保高质量数据的程序。虽然这些程序在项目过程中变得更加严
格,但它们通常涉及四个步骤。
步骤0:我们自己去理解这个任务。为了理解这项任务,我们首先自己做许多总结性的比较。我
们还雇佣了少量的人类标签人员12来做比较,并讨论我们的分歧。然后,我们为一组更大的人
类标签器起草说明。
第1步:实验室员登机。标签人员来自自由职业平台Upwork,以及两个标签服务,Scale和狮桥
。标签人员首先完成一个(付费的)培训过程,他们在一组共享的数据上标记摘要。为了进行
一些比较,标签人员会立即得到我们选择的摘要,以及为什么,以帮助他们校准。我们保留了
通过速度和一致性的最低阈值的标签。为了允许一个可定制的标签界面,我们建立了我们自己
的数据收集网站(见附录C.4)。
步骤2:收集比较数据。接下来,我们让标签人员在我们的网站上进行大量的比较,这产生了我
们的大部分数据。在直接比较两个摘要之前,我们让标签者在没有看到原始帖子的情况下写下
他们对摘要的“原始解释”。我们发现这对评估摘要很有帮助,因为它们显示了摘要中的歧义
点,如果摘要在原始文章之后阅读,可能不会被检测到。在做了简单的解释之后,标签人员通
过在9分上分配一个值,以确定他们对总结a比总结B(或相反)更好的信心。
步骤3:提供标签人员反馈。在收集了比较数据后,我们可以查看标签者之间的协议率。虽然大
多数比较只给单个标签,但每个标签从共享池中得到大约10-20%的问题用于校准。我们既可以
尝试将这些统计数据作为质量的粗略衡量标准,也可以向工人们展示存在分歧的案例,以帮助
他们改进标签。
步骤4:研究人员的比较校准。我们偶尔也会自己做这项任务,以测量每个标签标注者和我们之
间的协议率。这将用于质量评估(见C.2)。我们还计算每个标签的“高置信”阈值,通过找到
每个标签者的李克特量表上的置信值,这样我们期望超过这个阈值的标签平均80%的时间与我们
一致。为了选择奖励模型,我们过滤了验证集,以便只包含这些更高的置信度标签。在整个过
程中,我们与标签保持高通信带宽:我们使用共享聊天室为标签提问澄清问题,讨论他们之间
困难的比较,主机办公时间,偶尔与标签进行一对一的视频通话,讨论分歧的点。
我们在整个项目的整个生命周期中都保持良好的标签,同时解雇表现最低的工人。

C.2.评估人工反馈质量

我们通过比较标签者的首选摘要和我们喜欢的摘要(忽略置信水平)来评估标签者者的准确性
。我们排除了标签者或研究人员表示漠不关心的比较。这给了我们一个协议率,理论上从0%(
完全不一致)到100%(完全一致)。对于我们的双向比较,一个随机的标签者将得到50%的一致
性。
为了获得我们比较标签-研究者和研究者-研究者协议的主要数字,我们将自己限制在来自我们
的1.3B监督基线的摘要之间的比较,因为这个数据子集有最多的研究者标记数据。在这个子集
上,标签者77% 2%的时间同意研究人员的意见,而研究人员73% 4%的时间同意彼此的意见。
我们认为,大量的噪音来自于相当困难和主观的比较。
一般来说,同意率范围从最不熟练的标签者和最困难的比较(比较来自单一RL政策的两个高温
样本)到大约85%

12我们付给标签人每小时的工资,不管完成的比较次数如何。

19
(a)(b)

图9: (a)我们制作的从标签符上收集数据的网站。(b)对网站上的摘要的天真解释。

最熟练的标签和最简单的比较(从监督基线的高温样本与参考摘要进行比较)。对所有员工的
平均,加权他们的体积,给我们的奖励模型训练语料库的估计同意率为73%-3%。
在训练语料库中,72%的标签者彼此一致。这表明,我们可以通过在同一比较中聚合来自多个工
人的标签来获得更可靠的标签。事实上,在我们有足够的共享比较的训练数据子集上,从3个标
签符中提取模态标签可以将他们与研究人员的同意率从72%提高到77%。然而,我们通常每次比
较只收集一个标签,以最大化标签吞吐量。
在图1的评估中,标签人员73% 3%的时间同意研究人员的意见,73% 2%的时间彼此同意。
研究人员之间的协议率从65%最困难的比较(比较两个高温样品从一个RL政策),大约80%的比
较(比较高温样本监督基线人类参考总结),约95%的情况下,我们讨论了比较。
总的来说,我们认为质量相当高的。我们对过滤数据的尝试通常会损害奖励模型的准确性。例
如,使用上面提到的置信度阈值,我们发现,虽然低置信度标签不如高置信度标签对提高奖励
模型的准确度有用,但包含它们仍然比省略它们更好。同样,剔除协议率较低的工人也没有什
么帮助。

C.3实验室人口统计数据

当用人类的反馈训练机器学习模型时,提供反馈的人类对于加强所需的模型行为是必不可少的
。如果我们要将人类反馈扩展到训练模型在更复杂的任务上,人类可能不同意期望的模型行为
应该是什么,那么将受模型影响的群体成员被包括在标签群体中是很重要的。
为了使我们的劳工人口统计数据更具透明度,我们在表5中提供了对我们的劳工人口进行的调查
的结果。这项调查是可选的、匿名的,而且明确表示,结果不会影响雇佣或解雇决定。我们发
现,我们的劳工跨越了不同的种族,
国籍、年龄、性别和教育背景,但更有可能是白人和美国人。

.4C标签网站

由于我们雇佣并培训了自己的标签用户,而不是使用像亚马逊机械土耳其人这样的众包网站,
我们建立了自己的网站,为所有标签用户提供一个标准化的、可定制的用户界面。每个标签器
都创建了一个单独的配置文件,允许我们为不同的标签器分配不同的比较集。该网站包含了不
同种类的不同渲染器

20
你认为自己的性别是什么?
男性38岁。1%
女性的 61.9%
非二进制 0%
你认为自己是什么种族的人?
白人/白种人 42.9%
东南亚 23.8%
原著民 9.6%
阿拉斯加土著
东亚 4.8%
中东的 4.8%
拉丁语 4.8%
我的种族身份没有被列出来 9.6%
你的国籍是什么?
美国的45%
菲律宾人 30%
南非的 5%
塞尔维亚人 5%
不列颠的 5%
土耳其的 5%
印度的 5%
你的年龄是多少?
20-29 42.9%
30-39 23.8%
40-49 23.8%
50-59 9.5%
60+ 0%
你获得的最高教育水平是多少?
低于高中学位高中学位本科 0%
学位硕士学位 14.3%
博士学位 57.1%
23.3%
4.8%
表5:参与我们自愿调查的21名劳工的人口统计数据。

这些问题,包括幼稚的解释、总结性的比较和不同轴上的李克特评估,以及标签标注者表达对
问题的关注或对他们的决定的解释的空间。来自该网站的屏幕截图如图9所示。从该网站上收集
到的数据可以很容易地移植到一个包含我们所有人类数据的中央数据库中。

.5C标签使用说明

在这里,我们提供了更多关于给标签人员的具体说明,以比较总结,并沿着质量轴对总结进行
李克特评价。我们制作了一套单独的说明来评估Reddit文章和评估CNN/DM新闻文章。对于
Reddit的说明,我们首先描述Reddit,并提供一个表,将Reddit特定的术语翻译为通用术语。

比较摘要的说明。我们在表6中展示了给标签者进行比较的说明的摘录。除了这些说明之外,我
们还提供了一个标记为Reddit摘要之间的比较的示例,以及对摘要的简单解释的示例。

沿着质量轴评估总结的说明。我们为7点李克特评估的标签人员提供了一套单独的详细说明。我
们首先介绍了我们所考虑的4个质量轴中的每一个,并给出了一致性、准确性、覆盖率和总体得
分的概述(如表7所示)。我们还提供了一个简短的标题,评分分别为1、4和7,以及几个
Reddit总结,其中注释了我们自己的质量判断(包括解释)。

21
什么是一个好的总结呢?粗略地说,一个好的总结是一个较短的文本,它具有原文的本质—
—试图实现相同的目的,并传达相同的信息与原文的帖子。我们希望您能考虑到这些不同的
总结维度:

本质是:这个摘要是否很好地代表了这个帖子?

摘要对读者友好吗?它能清楚地表达各种想法吗?准确性:摘要是否包含与

较长的帖子相同的信息?目的:摘要是否与原文的目的相同?简明了明:总

结简短而中肯吗?

风格:摘要和原文的风格相同吗?

一般来说,我们给列表顶部的维度更高的权重。但是事情很复杂——这些维度都不是简单的
是/否,也没有硬性的规则来交换不同的维度。这是你可以通过我们网站上的实践和反馈来
获得的东西。

表6:我们给标签人员进行比较的说明。

最后,我们提供了一个常见问题解答部分,它回答了由我们分配给这个任务的一个小的初始标
签集所提出的常见问题。
对于CNN/DM,我们提供了相同的说明,除了我们添加了一些关于如何判断新闻文章的额外澄清
。我们特别要求标签者少强调句子的流动性(因为参考摘要最初是以要点的形式写的,我们不
希望标签惩罚它),并少强调匹配文章意图的摘要(这对Reddit摘要很重要)。
在质量控制方面,我们进行了附录C中描述的一个较小版本的质量控制过程。1: 我们首先标记
一小组总结自己沿着每个轴理解点的困惑,然后我们写指令文档提供标签,然后我们有少量的
标签的试验任务捕捉剩余的错误或点的困惑,最后我们登上一组更大的标签的任务而剩余可以
回答任何问题。

.6 C被标记的数据集的组成

在整个项目过程中,我们训练了几种奖励模式和政策。我们发送给标签者的每一批摘要都是从
各种策略中取样的。我们没有一个系统的计划来取样哪个政策;相反,我们本着探索性研究的
精神选择了当时似乎最好的东西。每次我们训练奖励模型,我们都对迄今为止收集的所有标签
进行训练。连续的模型也受益于改进的超参数和数据集清理。我们的研究结果很可能会用一种
更简单、更系统的方法来重复。
一般来说,由于我们雇佣新的标签人员,以及现有的标签人员更多地执行任务,可能会出现“
标签漂移”,即标签人员用于评估摘要的一组标准随着时间的推移逐渐变化。这可能导致标签-
研究者分歧的回归,或导致一些政策随着时间的推移或多或少受到青睐。为了防止这种情况,
在大多数批次中,我们对监督基线和参考摘要的样本进行比较,并测量工人更喜欢其中一种的
频率。如果这个数字随着时间的推移而发生变化,这就表明我们的工人的偏好也在发生变化。
然而,我们通常发现,这个在噪声中的偏好数保持相对不变。
表8列出了我们在TL;DR数据集上通过监督微调训练的策略,以及在连续更大的人类标签数据集
上训练的奖励模型。表9列出了RL策略。

22
相干性
对于这个轴,回答“总结本身有多连贯?”如果摘要单独阅读时容易理解并且没有英语错误
,那么它就是连贯的。如果很难理解摘要试图说什么,摘要就是不连贯的。一般来说,摘要
可以理解比没有语法错误更重要。

规则:
得分 的 1: 这个总结是不可能理解的。
得分 的 4: 摘要有错误或混乱的措辞,使它有点难以理解。
得分 的 7: 总结非常清楚。

精度
对于这个轴,回答这个问题“摘要中的事实信息是否与文章准确匹配?”如果摘要没有提到
文章中没有的内容,它不会混淆人,也不会混淆人,而且通常不会误导。如果摘要说了任何
东西在帖子中没有提到或在帖子中相矛盾的东西,它应该得到最高5分。(如果你对如何使
用“6”感到困惑,请查看FAQ!)

规则:
得分 的 1: 摘要是完全错误的,是编造的,或者与帖子中所写的完全矛盾。
得分 的 4: 摘要中至少提到了一件文章中没有提到的实质性内容,或者与文章中的内容相矛盾的
内容。
得分 的 5: 摘要说了任何东西,无论有多小,在帖子中没有提到,或者与帖子中相矛盾的东西。)
得分 的 7: 该摘要没有错误的陈述或误导性的暗示。

覆盖
对于这个轴,回答“摘要有多好地涵盖了文章中的重要信息?”如果摘要提到了文章中的主
要信息,这对理解文章中描述的情况很重要,那么它会有很好的报道。如果有人只阅读摘要
会遗漏文章中关于情况的重要信息,那么摘要的报道就很差。一个覆盖率良好的摘要也应该
与原始帖子的目的相符(e。g.寻求建议)。

规则:
得分 的 1: 摘要中没有包含与该帖子相关的信息。
得分 的 4: 摘要缺少至少一条了解情况所需的重要信息。
得分 的 7: 该摘要涵盖了了解该情况所需的所有重要信息。

整体质量
对于这个轴,回答“摘要在代表文章时整体有多好?”“这可以包括上述所有的质量轴,以
及其他你认为很重要的质量轴。”如果很难找到让总结变得更好的方法,那就给总结一个高
分。如果有很多不同的方法可以使总结更好,给总结一个较低的分数。

规则:
得分 的 1: 这个总结很糟糕。
得分 的 4: 摘要是文章的好表示,但可以显著改进。
得分 的 7: 摘要是对这篇文章的出色表现。

表7:根据四个不同的质量轴评价总结的说明。

23
监督 政策 名字 # 参数 奖励模型名称#参数
sup1 750M 1.3
rm1
sup2 1.3B rm2
B
sup3 1.3B rm3
6.7
sup3_6b 6.7B rm3_6b
B
sup4 1.3B rm4
1.3
sup4_6b 6.7B rm4_6b
B
表8:左图:监督基线。sup4和sup4_6b是整个论文中使用的最终监督基线。右:奖励模型。rm4
和rm4_6b是整个论文中使用的最终奖励模型。

RL策略名称 #参数 目标 初始化 KL系数 KL (ppo, sup)


sup3 ppo rm1 1.3B rm1 sup3 0.35 1.8
sup4 ppo rm3 1 1.3B rm3 sup4 0.10 3.8
sup4 ppo rm3 2 1.3B rm3 sup4 0.07 9.4
sup4 ppo rm3 3 1.3B rm3 sup4 0.05 19.0
sup4 ppo rm4 1 3B rm4 sup4 0 05 18 0
sup4_6b ppo rm4_6b 6.7B rm4_6b sup4_6b 0.05 14.0
表9:PPO政策。sup4和rm4和sup4_6b ppo rm4_6b是本文使用的最终政策。

BoN策略名称目标基础策略N KL(BoN、sup)
sup2 bo8 rm1 rm1 sup2 8
1.
2
sup3 bo8 rm1 rm2 sup3 8 1.
2
sup3 bo63 rm2 rm2 sup3 63 3.
2
sup4 bo8 rm3 rm3 sup4 8 1.
2
sup4 bo64 rm3 rm3 sup4 64 3.
2
sup4 bo128 rm3 rm3 sup4 128 3.
9
sup4 bo256 rm3 rm3 sup4 256 4.
5
sup4 bo512 rm3 rm3 sup4 512 5.
2
sup4 bo128 rm3_6b rm3_6b sup4 128 3.
9
sup4 bo256 rm3_6b rm3_6b sup4 256 4.
5
表10:最佳N政策。KL散度的解析计算为KL(boN,sup)= log N -(N1)/N。

我们还探索了强化学习的一个简单替代方法:从温度为0.7的监督基线中提取N个总结,用奖励
模型对它们进行评分,并取得分最高的总结。这种最佳n(BoN)程序是一种轻度优化的策略,
不需要培训。这些策略在表10中命名,它们的样本构成了训练数据的一部分。
表11列出了每个奖励模型的训练数据的源策略。

标签计数
奖励模式 策略0 政策1
rm1 ref sup1 5404
sup1 sup1 5386

24
rm2 ref sup1 5404
sup2 sup2 12779
bo8 rm1 1426
sup3_6b 1424
sup1 5386
sup1
在下一页继续

24
标签计数
奖励模式 策略0 政策1
sup2 sup2 11346
sup2 bo8 rm1 1376
sup3_6b 1383
sup2 bo8 rm1 sup3 6b 1390
rm3, rm3_6b ref sup1 5404
sup2 12779
sup2 bo8 rm1 1426
sup3 438
sup3 bo63 rm2 447
sup3 bo8 rm2 887
sup3 ppo rm1 884
sup3_6b 1424
sup1
sup2 sup1 5386
sup2 11346
sup2 bo8 rm1 1376
sup2 bo8 rm1 sup3_6b 1383
sup3 sup3 sup3_6b 1390
sup3 bo8 rm2 428
sup3 ppo rm1 416
bo63 rm2
sup3 bo8 rm2 432
sup3 bo8 rm2 sup ppo rm1 444
3 ppo rm1 855
rm4, rm4_6b ref sup1 5404
sup2 12779
sup2 bo8 rm1 1426
sup3 438
sup3 bo63 rm2 447
sup3 bo8 rm2 887
sup3 ppo rm1 884
sup3_6b 1424
sup4 1335
sup4 bo128 rm3 602
sup4 bo128 203
rm3_6b sup4 307
bo256 rm3 sup4 101
bo256 rm3_6b 52
sup4 bo512 rm3 52
sup4 bo64 rm3 393
sup4 bo8 rm3 981
sup4 ppo rm3 1 215
sup1 sup4 ppo rm3 2 208
sup2 sup4 ppo rm3 3 104
sup4_6b 5386
sup1 11346
sup2 bo8 rm1 sup2 1376
sup3 sup2 bo8 rm1 1383
sup3_6b 1390
sup3 bo63 rm2 sup3_6b 428
sup3 bo8 rm2 416
sup3 bo8 rm2 sup3 ppo rm1 432
sup4 sup3 bo8 rm2 444
sup ppo rm1 855
3 ppo rm1 1051
25 sup
3 rm3 1
395
ppo

在下一页继续

25
标签计数
奖励模型策略0策略1

sup4 bo128 rm3 sup4 bo128 rm3 288 sup4 bo256 rm3
582
sup4 bo128 rm3_6b sup4 bo128 rm3_6b 95 sup4
bo256 rm3_6b 203
sup4 bo512 rm3 sup4 ppo rm3 3 216 sup4_6b 60
sup4 bo64 rm3 sup4 ppo rm3 2 218 sup4_6b 55
sup4 bo8 rm3 sup4 ppo rm3 1 752 sup4 ppo rm3 1
sup4 ppo rm3 1 372 sup4 ppo rm3 2 sup4 ppo rm3 2
4256 sup4_6b 215
sup4 ppo rm3 3 sup4 ppo rm3 3 4037 sup4_6b 216
表 11: 训练 数据 为了 奖励 模型 "ref" 提到 向 人类 提及 摘要

.7 C比较任务示例

为了了解比较任务的难度,我们提供了由我们的6.7B人类反馈模型生成的两个摘要之间的示例
比较。在表12中,我们展示了从TL;DR数据集抽取的随机比较,以及一个精选的比较(从10个
标签者不同意的比较中选择),以说明标签进行评估时可能出现的覆盖准确性之间的权衡。

26
随机TL;DR比较
邮递
Subreddit: r/Pets
你用什么来控制跳蚤?我的家人已经试尽了一切办法来控制我们附近的跳蚤(前线,优势,硅藻土,黎
明洗碗皂,等等!)而且什么都没有奏效。我和我所在地区的很多宠物主人谈过了(我是一名兽医助理
),很多人都报告了类似的结果,跳蚤对通常推荐的治疗方法产生了耐药性。到目前为止,唯一有效的
是被子,但我读到过有几只狗对它的反应可能相当严重。我的狗很好,我们已经用了大约一年了,但我
不喜欢伤害它们或让它们处于危险之中。用蓝色黎明肥皂给他们洗澡确实能杀死所有的跳蚤,但显然不
能阻止更多的蚤回来。它只会在接触时杀死他们,我们不会给他们洗澡,因为那也不健康。我们在寻找
能持久的东西。其他人有这方面的经验,或任何详细的信息,如果它对你的宠物的系统造成严重损害?
是的,我知道我是一名兽医助理。我的老板严格推荐前线,当我告诉他我的工作,我的狗仍然覆盖着跳
蚤,我们必须使用安慰,因为这是唯一能让他们放松的东西。在这种情况下,他不是一个资源。只是想
看看其他宠物主人(特别是圣地亚哥的主人)对跳蚤做什么……我们这里的是突变体之类的,因为几乎
对它们不起作用!

摘要A:跳蚤对大多数跳蚤控制产品(包括被子)产生抗性。寻找一些长期持续而不会伤害我的狗的东
西。有人有使用所列产品的经验吗?

摘要B:对跳蚤不起作用,我们正在寻找持续的东西,被子不是一个长期的解决方案。还有人有控制跳
蚤的经验或有关于被子的信息吗?

硬TL;DR比较
邮递
Subreddit: r/weddingplanning
标题:对服装购物感到非常焦虑。所以,我不确定我是在寻求建议还是只是一个小小的咆哮。我们于
2013年3月2日订婚。从第一天开始,我们就一直在努力完成这个计划。一开始,他和他的父母争论我们
在教堂结婚。然后是关于接待地点的争论。我们终于预定了场地,教堂的问题也解决了。现在已经不行
了,我的胃里突然有了这个坑我14岁时妈妈离开了我。我基本上都是自己做的,我真的很好。我敢肯定
,我对整件事感到如此脱节并不是一种常态,但我确实是这样的。我想这周五去看看婚纱吧。我感到非
常焦虑,因为我不知道试穿婚纱是否会把我变成一个抱怨没有妈妈的婴儿。我未来的岳母应该和我一起
来帮忙看看。我担心会变成那个爱哭的婴儿,冒犯她。我不想让她认为我不欣赏她在存在。除了担心成
为一个巨大的婴儿,我和我的新娘派对也有问题。虽然我还没有做出任何正式的选择,但我还是想让谁
参与进来。那将是我最好的朋友,我的妹妹,和我未来的嫂子。我的首选的MOH是我最好的朋友。然而
,她住在州外,正在学校参加医疗项目。所以她的访问时间非常有限。我姐姐觉得自己有权成为MOH,
尽管我们根本就不亲密。所以,让人们聚在一起完成任何一种婚礼活动,几乎都是不可能的。

总结A:我怀疑是否要试穿婚纱。我也怀疑我的新娘派对是否有能力完成事情。

摘要B:我想我会变成一个爱哭的孩子,冒犯我的岳母。
表12:顶部:在我们的6.7D人类反馈模型的两个摘要之间的DR数据集上的随机比较任务示例。
从验证集中随机选择的比较。底部:TL;DR数据集上困难比较任务的例子。通过观察具有至少4
个标签判断和每个摘要至少40%投票的监督基线摘要之间的比较来选择。从10个中挑选,以突出
准确性覆盖的权衡。摘要A是不准确的,因为作者没有明确说她对尝试穿婚纱有怀疑。摘要B是
完全准确的,但没有抓住文章的一般本质。在这种情况下,4名工人选择了A,3名工人选择B。
欲了解更多比较,请参阅我们的网站。

27
D基线的选择

在测试我们的人类反馈技术时,我们从人类标签人员那里收集了大量高质量的数据。为了与基
于监督的技术进行公平的比较,我们需要花费类似数量的标签时间来收集高质量的演示,并使
用这些演示通过监督学习对模型进行微调。因为这是非常昂贵的,所以我们没有提供这样的基
线。
现有的前期工作,如飞马[70],已经在一个与我们非常相似的数据集(/r/tifu子集)上研究了
监督方法。然而,他们使用了要小得多的模型(500M参数)模型,并根据人类的评估,报告说
他们的模型输出比人类参考摘要更差。因此,由于我们的评估劳动力预算有限,我们决定使用
我们自己的监督模型和零射击模型作为基线(在理智地检查了我们的监督模型的胭脂性能之后
),以及T5 [49]。
T5模型[49]以类似于我们的监督基线的方式进行了预训练和微调,但它们使用了编码器-解码器
架构。我们使用了通过波束搜索解码获得的T5输出,如[49]中所述。我们还仔细地考虑了模型
输出之间的标记化的差异。13

13由于标记化会影响模型输出的资本化和标点符号,所以我们通过简化所有内容,然后启发式地重新资
本化,来规范化来自所有模型的所有CNN/每日邮报输出。我们验证了这个归一化过程对以不同的方式标记
的参考总结产生相同的结果。

28
E CNN/DM领先者-3vs参考文献摘要

在CNN/DM数据集上,我们的标签用户明显更喜欢lead-3(由文章的前3句话组成的摘要),而不
是参考摘要。这在一定程度上是由于较长的摘要获得了更高的覆盖率分数,而领先的3-3则长了
50%,如表13所示。

政策 长度(stdev) 质量 质量提升
/ 100字符。
参考 314 (119) 5.54 0.14
铅3 475 (114) 6.23 0.34
表13:长度如何影响CNN/DM的铅3和参考摘要的总体质量。

然而,如果我们使用线性回归(类似于附录F中的程序)来预测如果铅3的平均长度减少到314个
字符,其性能将是什么,我们仍然发现质量为5.68,略高于参考摘要。此外,对于lead-3,甚
至实现与引用摘要的平价,似乎会质疑需要抽象摘要或复杂的ML方法,因为一个简单的提取基
线可以匹配引用摘要的完美模仿。
我们想了解这些比较中的标签行为,以确保它不是一个错误。为了做到这一点,我们自己检查
了一个劳动者的判断样本。我们发现,在20/143例病例中,标签者更喜欢领先-3分或3分以上,
排除这些数据点将使参考摘要的相对得分提高约0.5分。14我们惊讶地看到,参考文献摘要在相
当一部分案例中表现如此糟糕,所以我们查看了标签化者的解释,并证实了它们是有意义的。
我们发现,参考摘要的两个特征解释了其大部分的性能不佳。首先,这20个摘要中有13个省略
了文章中的一个关键点——亮点通常是为已经看过文章标题的读者写的,尽管标题不包含在
CNN/DM数据集中。其次,这20个摘要中的10个实际上引入了原始文章中没有出现的新信息。从
标签者的角度来看,这些信息完全是虚构的,因此导致了较低的分数。对这些错误的一个可能
的解释是,参考文献摘要是从新闻网站上的“高亮部分”中提取出来的,而不是对文章的直接
摘要。这些失败非常常见,它们显著地影响了参考摘要的平均质量,而且相对于ML模型之间的
质量差异,其影响似乎很大。
总的来说,我们认为在这些情况下,标签判断是合理的,将CNN/DM数据集中的“亮点”作为参
考摘要是潜在的问题。你可以在我们的网站上的CNN/DM上查看我们所有劳工的判断。

14在只有7/143例中,参考摘要优于领先3。

29
图10: (a)是图1的长度控制版本,使用附录F中描述的程序。控制长度减少了我们的人类反馈
模型的相对偏好,但它们仍然是参考摘要。(b)绘制TL;DR数据集上不同汇总长度的模型质量。
我们的6.7B人类反馈模型在长度上都优于6.7B监督基线和参考摘要(水平线为0.5的水平线)。

F控制汇总长度

如第4节所述。1、摘要的长度是评价摘要质量的一个混杂因素;根据简洁性和覆盖率之间的权
衡,较短或较长的摘要可能更好。我们的模型生成的摘要比参考摘要更长,因为这导致了对我
们任务的24-48标记限制的更高的标签偏好。这里我们描述了我们用来试图控制长度的过程。
为了计算一个单个长度控制的偏好数,我们训练了一个逻辑回归模型来预测我们的人类比较数
据集上的人类偏好总结。我们为这个模型提供了两个特性:每个策略的标识和汇总长度的对数
比。为了计算两个策略之间的长度控制偏好值,我们只需将每个策略ID提供给我们训练过的
logistic回归模型,并将日志长度比设置为零(见图10a)。在图10b中,我们检查了TL;DR上
的一系列摘要长度的摘要质量。我们发现,我们的人类反馈模型在所有长度值上都优于监督基
线。
对于CNN/DM,我们使用上述类似的程序来控制长度,除了使用线性回归模型来预测1-7的李克特
评分。我们在表14中显示了使摘要更长100个字符的预期质量增长,这表明如果我们的人类反馈
模型生成更长的摘要,它们将表现得更好。

政策 长度 质量( 质量含/
(stdev) 1-7) 100字符。
sl (tldr)- 138 (34) 4.26 0.68
1.3b
sl (tldr)- 127 (31) 4.41 0.38
6.7b
gpt1 3b 141 (41) 4 11 0 63
gpt-6.7b 142 (36) 4.6 0.3
rl (tldr)- 166 (30) 4.86 1.28
1.3b
rl (tldr)- 175 (30) 5.25 0.87
6.7b
sl (cnn)-6 300 (103) 5 4 0 37
7b
ref 314 (119) 5.54 0.14
铅3 475 (114) 6.23 0.34
T5 316 (95) 5.92 0.3
表14:长度如何影响CNN/DM的整体质量。我们显示了各种策略的平均长度和质量分数,以及每
添加100个字符的摘要质量平均增加了多少。

30
G其他结果

G.1值功能消融

在本节中,我们将使用值函数和策略的单独参数进行消融比较,并与使用[73]中所做的共享网
络进行比较。如图11所示的结果清楚地表明,使用单独的网络优于后者。另一方面,拥有单独
的网络增加了运行RL微调的内存需求。拥有独立的网络也允许我们初始化价值函数为正在优化
的学习奖励模型。

图11:将使用单独的价值函数和奖励模型参数进行优化所获得的奖励与共享参数进行比较。

G.2.沿着质量轴评估政策

我们展示了在不同质量轴上的7点李克特量表上的政策评估的完整结果;对于TL;DR,如图12所
示,对于CNN/DM,如图13所示。很明显,在这两个数据集上,覆盖范围与跨模型的总体得分密
切相关,并且所有模型都获得了较高的一致性得分。

G.3研究最佳氮优化

评估自动评估度量的一种自然方法是查看针对它的优化在多大程度上会导致根据人类实现的高
性能。评估这一点的一种方法是使用最佳的n作为一种(低效的)优化技术——它的优点是对单
调变换简单且不变。我们报告了截至2048年最佳的胭脂的结果和图7中我们的三个奖励模型,使
用了来自1.3B监督基线的样本。结果表明,对胭脂的优化明显优于我们的奖励模型。数据还表
明,经过太多的优化,降级速度比我们的奖励模型快得多。
随着N的增加,N最佳的策略获得更高的平均回报。同样,通过降低KL系数β,PPO政策获得了更
高的平均回报。我们发现,在给定的平均奖励下,n最佳政策和PPO政策与人类标签者判断的质
量相似(未显示)。然而,通过KL散度测量,PPO策略比最有监督的基线更远。15

G.4胭脂分数

在图14a和图14b中,我们分别显示了我们的模型在TL;DR和CNN/DM数据集上的ROUGE分数。我们
报告了T=0的结果,与我们的人类评估一致。我们发现温度对胭脂评分有(通常是显著的)影响
,并且我们进行了一次彻底的扫描,以验证最佳温度设置为T=0。

15我们可以使用来自监督基线的KL作为距离度量。注意,我们可以将n个最佳策略的KL解析地计算为log

(n)一n1一 .
n

31
图12:沿多个质量轴的7分李克特量表评估TL;DR策略。

胭脂型号1胭脂
ProphetNet [67] 44.20 21.17 40.69
T5 [49] 43.52 21.55 40.69
我们的6.7B监督模型 42.49 19.84 39.53
CNN-2发送-hieco-RBM[71] 42.04 19.77 39.42
表15:比较了我们在CNN/DM上的6.7B监督模型与文献中最近的SOTA模型的胭脂评分。在没有任
何特定总结的工程的情况下,我们的模型在2019年年中比SOTA模型获得ROUGE得分,这表明它是
一个强有力的比较基线。

32
图13:在7分李克特量表上的几个质量轴上评估CNN/DM政策。

在TL;DR上,我们发现我们的人类反馈模型在T = 0时获得的胭脂评分略低于监督模型,进一步
表明胭脂与人类偏好的相关性较差。对于监督模型,降低温度比增加模型尺寸的影响更大。有
趣的是,在较高的温度下,我们的反馈模型实际上比有监督的反馈模型要好(没有显示)。
在CNN/DM上,ROUGE同意我们的人类评估,即我们的人类反馈模型比我们的监督模型转移得更好
。然而,不出所料,有监督的CNN/DM模型仍然能获得更高的胭脂。在表15中,我们展示了我们
的6.7B监督基线和文献中的各种模型的CNN/DM上的胭脂结果。我们发现,我们的模型获得的
ROUGE得分低于T5 [49],但略高于[71]的CNN-2发送-hieco-RBM模型,根据NLP进展排行榜,
2019年年中在CNN/DM上的抽象摘要为SOTA。16

G.5比格拉姆重叠统计

在表16中,我们展示了我们在TL;DR和CNN/DM数据集上的模型的双组重叠统计数据,作为摘要
复制量的代理。与第4.4节一样,我们使用原始Reddit文章或新闻文章计算最长的公共子序列,
然后除以摘要中双图的数量。我们发现,模型在CNN/DM上进行了评估
16http://nlpprogress.com/english/summarization.html

33
(a)(b)

图14:我们的模型在(a)上的TL;DR数据集和CNN/DM数据集,以及在(b)上的CNN/DM数据集的ROUGE
评分。

评估TL;DR
模型 型号尺寸 Bigram重叠%
GPT 1.3B 66.7%
GPT 3B 72.7%
GPT 6.7B 61.4%
GPT 13B 75 9%
监督(TL;DR) 1.3B 49.0%
监督(TL;DR) 3B 48.7%
监督(TL;DR) 6.7B 48.9%
监督(TL;DR) 13B 48.0%
人的反馈(TL;DR) 1 3B 53 3%
人的反馈(TL;DR) 6.7B 46.0%
CNN/DM评估
模型 型号尺寸 Bigram重叠%
GPT 1 3B 76 3%
GPT 6 7B 76 2%
监督(TL;DR) 1.3B 59.5%
监督(TL;DR) 6.7B 56.9%
人的反馈(TL;DR) 1.3B 64.8%
人的反馈(TL;DR) 6.7B 51.2%
监督(CNN/DM) 1 3B 66 0%
T5 11B 68 8%
提及 — 36.8%
表16:TL、DR数据集(顶部)和CNN/DM数据集(底部)上的Bigram重叠统计数据。在CNN/DM上
训练的模型的复制量明显多于在TL;DR上训练的模型。

(无论他们是否在CNN/DM上接受过训练)通常比在TL;DR上评估的模型复制更多。此外,我们
的监督和人类反馈模型比我们的预训练模型复制的要少。

G.6个奖励模型验证集

在本节中,我们将报告在各种人工构建的验证集上评估奖励模型的结果,如表17和表18所示。
值得注意的是,我们要求我们的人类生成一个小的编辑数据集,通过让它们对现有的摘要进行
改进(参考摘要或有监督的基线摘要)。我们的6。7B奖励模型更喜欢改进的摘要(人类不知道
哪个摘要被编辑)。

34
我们的奖励模型对句子变换也很敏感(而像胭脂这样的指标基本上并不敏感),并且能够检测
出摘要中描述的角色何时被切换。另一方面,我们的奖励模型有时会表现出对糟糕的人工总结
的偏好,比如

34
RM大小 编辑长度 RM更喜欢编辑 人类更喜欢编辑 RM,人类同意
短的 63.6% 76.2% 62.1%
1.3B 更长 86.8% 88.6% 79.6%
平均。 81.2% 85.6% 75.4%
短的 66.0% 76.2% 65.5%
6.7B 更长 89.2% 88.6% 80.2%
平均。 83.7% 85.6% 76.7%
表17:比较奖励模型和人类对由人类编辑的摘要的偏好,以使它们更好。对于每个摘要,进行
比较的人类标签符与编写编辑的标签符不同。协议数字不包括标签者的偏好被标记为“不确定
”的比较。

偏好%的摘要A 1.3B RM 6.7B


总结A 总结B RM
原始总结 反向角色 93.1% 97.4%
铅3 切断的铅-3 68.1% 75.5%
兰特3 三叉戟 60.8% 76.1%
职位名称 随机标题 97 4% 98 5%
职位名称 来自同一子编辑编辑器的随机标题 98 8% 97 2%
职位名称 文章标题重复两次 84.6% 58.4%
(仅参考文献汇总表) Ref +“我该怎么办?” 34.3 % 74.5%
参考总结 铅3 63.0% 56.4%
参考总结 二氧化铅 71 0% 73 8%
参考总结 兰特3 69.5% 59.5%
表18:在各种人工构建的验证集上的奖励模型性能。在所有情况下,摘要A都打算比摘要B更好
,因此更高的偏好%通常更好。“rand-3”表示从帖子中随机抽取3个句子的基线;然而,这些
句子是按照它们在帖子中出现的顺序保存的。“原始总结”要么是参考总结,要么是来自我们
监督基线的总结。r/tifu是一个订阅网站,其目的是分享令人尴尬的故事(而不是征求建议)

文章的标题复制了两次,或者在摘要的结尾征求建议。在表19中,我们展示了一些示例,其中
我们的模型对摘要中小的、语义上有意义的变化很敏感。

G.7.衡量不同评价指标之间的一致性

我们感兴趣的是理解评估摘要的不同指标之间的关系。为了做到这一点,我们计算各种度量之
间的一致性,包括自动度量和人,对于我们有人工评估的不同数据子集。为了删除策略质量作
为混杂变量,所有的汇总比较都由相同的策略在相同的温度值下生成。在表20中,我们使用了
TL;DR上T=0.7的1.3B=监督模型的样本;表21与T=0.7的6.7B监督模型的比较;表22与我们在
T=0.7的人类反馈模型0.7的比较;表23与我们在CNN/DM上训练的6.7B监督基线的比较。
我们的6.7B奖励模型通常和其他标签者一样与标签者一致,尽管一群标签者做得更好。另一方
面,ROUGE通常一致性很差,正如监督基线下的对数概率一样,简单的启发式,如复制(与文章
的最长公共子序列)和长度通常执行比较。

35
已编辑的摘要 奖励
迷恋上我4年没见过的女孩了。她不喜欢我,我也仍然不喜欢她。做什么? +0.64

一个女孩告诉我她很喜欢我,她最终选择了另一个男人,那个男人对她的影响 +0.82
很大,现在我一个人在这里想可能会是什么。

我试着给我的朋友看我狼蛛的照片,她砸了我的手机,现在我丢了一个好朋友 -0.64
的电话。
男朋友仍然是FB不时跟踪他的高中前女友,当他喝醉时告诉我她是他的初恋 +0.73

我变得可怜了,渴望着我的前任。 想要达到不那么可怜的状态。如果需要 +0.69


更多的信息,请告诉我。
我有身体问题(身体痤疮/疤痕和体重问题),阻止我的正常的生活没有羞 +1.0
耻,阻止我和我的男朋友有一个更好的性生活。

你是在别人拒绝你之后带他们回去,即使你不能亲眼看到他们,还是他们只是 +0.52
不值得冒险?
表19:定性例子显示了奖励模型对TL的记忆编辑的奖励变化;DR摘要,使摘要更好。从编辑距
离小于5和奖励变化幅度大于0.5的集合中随机选择的例子。在编辑中从原始摘要中删除了删除
的文本,并添加了粗体文本。奖励模型对摘要中微小但语义上有意义的变化很敏感,尽管它有
时会犯错误。

tl;dr
.31B 研究者 贴标签 标签程 长度 复制 胭脂 1.3B 1.3B 6.7B 6.7B
sup 机 序集成 sup rm sup rm
T=0.7 logpro logpro
b b
研究者 73:4% 77:7% 84:4% 55:5% 62:3% 59:1% 61:8% 72:2% 62:8% 78:0%
4:1% 2:1% 3:3% 4:3% 4:1% 4:2% 4:8% 4:5% 4:7% 3:9%
贴标签机 77:7% 68:6% 74:4% 54:4% 58:0% 57:7% 58:7% 65:8% 61:9% 70:8%
2:1% 1:7% 2:0% 1:3% 1:2% 1:3% 2:0% 2:0% 2:1% 1:8%
标签程
84:4% 74:4% — 60:6% 62:7% 59:0% 59:5% 71:0% 59:5% 72:5%
序集成 3:3% 2:0% 4:0% 3:8% 3:9% 4:4% 3:9% 4:3% 3:8%
长度 55:5% 54:4% 60:6% — 50:1% 58:6% 28:9% 52:6% 27:6% 54:3%
4:3% 1:3% 4:0% 1:3% 1:2% 2:1% 2:3% 2:0% 2:3%
复制 62:3% 58:0% 62:7% 50:1% — 51:9% 61:6% 57:8% 60:9% 55:5%
4:1% 1:2% 3:8% 1:3% 1:2% 2:3% 2:3% 2:2% 2:2%
胭脂 59:1% 57:7% 59:0% 58:6% 51:9% — 49:5% 56:4% 51:1% 59:2%
4:2% 1:3% 3:9% 1:2% 1:2% 2:3% 2:2% 2:3% 2:3%
1.3B
61:8% 58:7% 59:5% 28:9% 61:6% 49:5% — 58:7% 92:7% 60:6%
sup 4:8% 2:0% 4:4% 2:1% 2:3% 2:3% 2:3% 1:2% 2:3%
logpro
b
1.3B RM 72:2% 65:8% 71:0% 52:6% 57:8% 56:4% 58:7% — 58:8% 78:8%
4:5% 2:0% 3:9% 2:3% 2:3% 2:2% 2:3% 2:2% 1:8%
6.7B
62:8% 61:9% 59:5% 27:6% 60:9% 51:1% 92:7% 58:8% — 61:5%
sup 4:7% 2:1% 4:3% 2:0% 2:2% 2:3% 1:2% 2:2% 2:2%
logpro
b
6.7B RM 78:0% 70:8% 72:5% 54:3% 55:5% 59:2% 60:6% 78:8% 61:5% —
3:9% 1:8% 3:8% 2:3% 2:2% 2:3% 2:3% 1:8% 2:2%

36
表20:人类与TL上的各种自动化指标之间的协议率;DR在T=0.7时使用1.3b监督模型。通过引导
估计的标准误差。注意:在标签符vs。标签集合,这个集合比其他比较略小,因为我们需要排
除被预测的标签集合。所有的乐团至少有3名工人。

36
tl;dr
.76B 贴标签 标签程 长度 复制 胭脂 1.3B 1.3B 6.7B 6.7B
sup 机 序集成 sup rm sup rm
T=0.7 logpro logpro
b b
贴标签机 70:8% 73:1% 56:9% 56:4% 56:9% 54:5% 67:5% 54:3% 69:7%
2:6% 2:9% 0:6% 0:6% 0:6% 1:2% 1:1% 1:2% 1:1%
标签程
73:1% — 55:0% 54:5% 66:7% 61:1% 77:8% 55:6% 77:8%
序集成
2:9% 5:1% 4:8% 4:7% 11:4% 9:7% 11:7% 10:0%
长度 56:9% 55:0% — 50:5% 60:2% 26:9% 59:5% 26:4% 60:3%
0:6% 5:1% 0:6% 0:6% 1:1% 1:2% 1:1% 1:1%
复制 56:4% 54:5% 50:5% — 54:4% 59:3% 57:9% 60:2% 58:0%
0:6% 4:8% 0:6% 0:6% 1:1% 1:2% 1:2% 1:2%
胭脂 56:9% 66:7% 60:2% 54:4% — 48:7% 58:1% 47:7% 58:4%
0:6% 4:7% 0:6% 0:6% 1:2% 1:2% 1:2% 1:2%
1.3B
54:5% 61:1% 26:9% 59:3% 48:7% — 53:3% 91:9% 53:8%
sup
1:2% 11:4% 1:1% 1:1% 1:2% 1:2% 0:6% 1:2%
logpro
b
1.3B RM 67:5% 77:8% 59:5% 57:9% 58:1% 53:3% — 54:1% 78:8%
1:1% 9:7% 1:2% 1:2% 1:2% 1:2% 1:2% 1:0%
6.7B
54:3% 55:6% 26:4% 60:2% 47:7% 91:9% 54:1% — 54:5%
sup
1:2% 11:7% 1:1% 1:2% 1:2% 0:6% 1:2% 1:2%
logpro
b
6.7B RM 69:7% 77:8% 60:3% 58:0% 58:4% 53:8% 78:8% 54:5% —
1:1% 10:0% 1:1% 1:2% 1:2% 1:2% 1:0% 1:2%
表21:在T=0.7的TL;DR 6.7B监督模型上的协议率。通过引导估计的标准误差。注意:在标签
符vs。标签集合,这个集合比其他比较略小,因为我们需要排除被预测的标签集合。所有的乐
团至少有3名工人。

tl;dr
6.7B RL 贴标签 标签程 长度 复制 胭脂 1.3B 1.3B 6.7B 6.7B
T=0.7 机 序集成 sup rm sup rm
logpro logpro
b b
贴标签机 60:4% 66:0% 55:8% 52:7% 49:9% 48:0% 57:4% 47:3% 62:3%
5:9% 7:6% 2:2% 2:1% 2:1% 2:2% 2:0% 2:2% 2:1%
标签程
66:0% — 80:0% 65:0% 35:0% 45:0% 75:0% 40:0% 75:0%
序集成
7:6% 8:9% 10:6% 10:5% 11:1% 9:8% 10:5% 9:8%
长度 55:8% 80:0% — 48:1% 50:3% 30:0% 62:0% 30:4% 59:8%
2:2% 8:9% 2:2% 2:2% 2:1% 2:1% 2:0% 2:2%
复制 52:7% 65:0% 48:1% — 52:0% 64:2% 56:7% 64:4% 53:4%
2:1% 10:6% 2:2% 2:2% 2:1% 2:2% 2:1% 2:2%
胭脂 49:9% 35:0% 50:3% 52:0% — 50:5% 52:0% 51:1% 54:5%
2:1% 10:5% 2:2% 2:2% 2:2% 2:3% 2:3% 2:1%
1.3B
48:0% 45:0% 30:0% 64:2% 50:5% — 47:0% 90:2% 46:1%
sup
2:2% 11:1% 2:1% 2:1% 2:2% 2:2% 1:3% 2:2%
logpro
b
1.3B RM 57:4% 75:0% 62:0% 56:7% 52:0% 47:0% — 45:7% 71:4%
2:0% 9:8% 2:1% 2:2% 2:3% 2:2% 2:1% 2:0%

37
6.7B
47:3% 40:0% 30:4% 64:4% 51:1% 90:2% 45:7% — 44:7%
sup
2:2% 10:5% 2:0% 2:1% 2:3% 1:3% 2:1% 2:1%
logpro
b
6.7B RM 62:3% 75:0% 59:8% 53:4% 54:5% 46:1% 71:4% 44:7% —
2:1% 9:8% 2:2% 2:2% 2:1% 2:2% 2:0% 2:1%
表22:在T=0.7时,在TL;=0.7时,DR 6.7B人反馈优化模型。通过引导估计的标准误差。注意
:在标签符vs。标签集合,这个集合比其他比较略小,因为我们需要排除被预测的标签集合。
所有的乐团至少有3名工人。

37
H样品
H.1随机样本

在这里,我们提供了各种模型的非精选样本和人工评估。在表2526中,我们展示了TL;DR数据
集上的样本,在表27-28中,我们展示了CNN/DM数据集上的样本(为了简洁起见,我们截断了文
章)。请查看我们的网站,了解更多未经策划的政策样本。

H.2个优选样本

我们展示了从一个过度优化到rm3的策略的样本示例。这些摘要,虽然明显地很长,质量很低,
而且充满了一些特点,但它仍然反映了这篇文章的粗略要点。

38
CNN/DM
.76B 贴标签 标签程 长度 复制 胭脂 1.3B 1.3B 6.7B 6.7B
sup 机 序集成 sup rm sup rm
T=0.3 logpro logpro
b b
贴标签机 66:9% 74:5% 62:4% 49:6% 55:2% 45:7% 64:8% 47:6% 66:5%
4:3% 6:8% 1:4% 1:4% 1:4% 1:4% 1:4% 1:4% 1:3%
标签程
74:5% — 57:5% 52:5% 75:0% 57:5% 82:5% 65:0% 80:0%
序集成
6:8% 7:7% 7:6% 6:7% 7:8% 5:9% 7:6% 6:1%
长度 62:4% 57:5% — 54:2% 59:0% 36:4% 60:6% 36:3% 64:7%
1:4% 7:7% 1:4% 1:4% 1:4% 1:3% 1:4% 1:4%
复制 49:6% 52:5% 54:2% — 46:4% 66:2% 51:6% 65:5% 51:7%
1:4% 7:6% 1:4% 1:4% 1:3% 1:4% 1:4% 1:4%
胭脂 55:2% 75:0% 59:0% 46:4% — 43:8% 55:9% 43:8% 56:9%
1:4% 6:7% 1:4% 1:4% 1:4% 1:4% 1:5% 1:5%
1.3B
45:7% 57:5% 36:4% 66:2% 43:8% — 50:2% 87:2% 48:2%
sup
1:4% 7:8% 1:4% 1:3% 1:4% 1:4% 1:0% 1:4%
logpro
b
1.3B RM 64:8% 82:5% 60:6% 51:6% 55:9% 50:2% — 52:1% 76:6%
1:4% 5:9% 1:3% 1:4% 1:4% 1:4% 1:4% 1:2%
6.7B
47:6% 65:0% 36:3% 65:5% 43:8% 87:2% 52:1% — 51:0%
sup
1:4% 7:6% 1:4% 1:4% 1:5% 1:0% 1:4% 1:4%
logpro
b
6.7B RM 66:5% 80:0% 64:7% 51:7% 56:9% 48:2% 76:6% 51:0% —
1:3% 6:1% 1:4% 1:4% 1:5% 1:4% 1:2% 1:4%
表23:在T=0.3条件下,CNN/DM 6.7B监督模型上的人类与各种自动化指标之间的协议率。通过
引导估计的标准误差。注意:在带上加字符的条目中vs。标签集合,这个集合比其他比较略小
,因为我们需要排除被预测的标签集合。(所有乐团至少有3名员工)

39
邮递
Subreddit: r/relationships
和老板搞砸了。我该怎么办?我20岁了,我老板50岁左右,也是。所以我有两份工作,而且
这两份工作的时间表都是每周做一次的。我的一份工作已经三年了,另一份我做了一个月。
我忘了把一份工作的日程表给我另一份工作的老板,所以我没有安排在这周。直到现在我才
意识到为什么我没有被安排。我的问题是,既然我完全搞砸了,我能做些什么来救赎自己呢
?我今天不想给老板打电话,因为今天是星期天,她有休息日。据我所知,在我工作的地方
,错误是不容易被原谅的,老板经常评论员工应该如何害怕她。我以前的工作搞砸了(小事
),但我的老板没有我现在的工作那么吓人,所以我不知道如何处理这种情况。

政策:人工书面参考文件
简介:没有把我的工作安排给老板搞砸了,这周没有安排,为了向我(可怕的/吓人的)老板道
歉,我应该说什么来?
总分6准确性7一致性7覆盖率6分
政策:标题(提取基准)
和老板搞砸了,我该怎么办?. . .
总分2准确性7一致性7覆盖率3分
政策:先导2(提取基线)
简介:我已经20岁了,我的老板大约50岁了,也是f。所以我有两份工作,而且这两份工作的时
间表都是每周做一次的。我的一份工作已经三年了,另一份我做了一个月。
总分3准确性7一致性7覆盖率4分

政策:1.3B人工反馈模型
简介:我没有把工作日程交给我的老板,这搞砸了,现在我不知道该怎么办来挽回自己。我能做
些什么才能让事情恢复好?
总分5准确性7一致性7覆盖率5
政策:6.7B人工反馈模型
简介:我忘了给我的老板每周的工作安排,所以这周没有安排。我真的搞砸了。我能做些什么来
救赎我自己呢?
总分5分准确性7分一致性6分覆盖率6分
政策: 6.7B监督模型
简介:我忘了把我的工作安排给老板,现在我安排错了一周。我该怎么办?
总分3准确性5一致性7覆盖率3

策略:6.7B预训练模型
简介:我完全搞砸了,我不知道该怎么办。
总分2准确性7一致性7覆盖率3分
表24:在TL;DR数据集上的评估示例。有关更多随机的评估例子,请参阅我们的网站。

40
邮递
Subreddit: r/relationships
我是一个1800万美元的人,我不知道该怎么解读这段关系?我们在学校都认识,但直到我们
一起上课才谈过。大约一个星期后,我约她出去了,我们出去吃饭,笑了,调情了等等。我
又问了她一次同样的情况,一切都很好。现在是三周后(在考试中),我开始觉得她不认为
这是一种传统的男朋友/女朋友意义上的“关系”。我是整个约会游戏的新手,我想知道一些
事情。我需要问我们是不是在一起作为bf/gf,还是问她出去很多次?我应该直接问她是否喜
欢我像我喜欢她吗?我知道朋友区是什么,我还没有感觉到那里,但明天我们要去看电影了
,只有她和我。我打算看看什么是通过身体锻炼,而不是铁杆锻炼,只是简单的东西,比如
摸腿,拥抱等等。哦,最后,再加上我漫长的处境,在我们的第三次“约会”(学习考试)
,我开车送她回家,试图吻她,但得到了臭名昭著的脸颊。我没有对它大在意,我只是说“
得到你的东西吗?”礼貌地道别,等她回家。有人告诉我,我不应该为拒绝一个接吻而烦恼
,因为这可能有很多种原因,但同时这也让我更多地思考朋友区的可能性。任何建议或类似
的情况,以及你如何解决问题都是非常棒的!提前感谢

政策:人工书面参考文件
简介:一开始就和一个我喜欢的女孩约会。感情显然是相互的。因为考试的原因,速度太慢了。
现在不确定她的感觉是否和我一样。
总分6分准确性4分一致性7分覆盖率7分
政策:标题(提取基准)
简介:我是1800万人,她是人,我不知道如何解读这段关系?
总分2准确性7一致性7覆盖率2
政策:先导2(提取基线)
简介:我们在学校就认识,但直到我们一起上了课才交谈。大约一个星期后,我约她出去了,我
们出去吃饭,笑了,调情了等等。
总分1准确性7一致性7覆盖率1
政策:1.3B人工反馈模型
简介:我随便见到女孩3周了,一切都很好,但我开始觉得她不认为这是一种传统意义上的关系。
我应该问我们是否是男朋友/女朋友吗?
总分7准确性7一致性7覆盖率7

政策:6.7B人工反馈模型
简介:我和一个女孩约会了三次,我觉得她对一段传统意义上的关系不感兴趣。我是问她是像我
喜欢她的那样喜欢我,还是多次约她出去?
总分7准确性7一致性7覆盖率7

政策: 6.7B监督模型
简介:我是1800万,她是我不知道怎么解读这段关系?
总分2准确性7一致性7覆盖率2
策略:6.7B预训练模型
简介:我是一个1800万美元的人,而她是一个大概美元的人,我不知道如何解读这段关系?
总分2准确性7一致性7覆盖率2
表25:在TL;DR数据集上的评估示例。有关更多的随机评估例子,请参见我们的网站。

41
邮递
Subreddit: r/relationships
标题:帮助!我的男朋友忽视了他的学习和我们的关系。...因为这是一个电子游戏。你好
Reddit。我男朋友和我已经约会一年了,感觉很棒。除了一件事。的简称他每天至少玩2个小
时,在周末,如果可以的话,他可以玩一整天。如果你知道这个游戏,你就会知道平均每场
游戏至少需要一个小时,而且是一个你不能真正暂停的游戏。有时候他玩还不错,我不介意
坐在我的手机上,浏览Reddit。然而,最近,它似乎干扰了我们的关系和他的研究。他正在
攻读博士学位。在物理学。他显然非常沉迷于那些他似乎在这场比赛中被搁置一边的作业。
有一天,在一个星期六,我结束了,他在玩一场比赛。我以为只是一个,但他却玩了三个小
时,因为我只是坐在那里。我能做什么?...我试着和他交谈,甚至说这个游戏让我重新思考
我们的关系!他说他理解,但并不是通过他的行为来证明这一点!我该怎么办?我真的很关
心这个家伙,除了这个游戏习惯,我们的关系很好!

政策:人工书面参考文件
我男朋友只要可以就玩!我怎样才能让他停止玩游戏,更多地关注学校和我们的关系呢?
总分7准确性7一致性7覆盖率7

政策:标题(提取基准)
总结:帮助!我的男朋友因为玩电子游戏而忽视了他的学习和我们的关系。....
总分6准确性7一致性6覆盖率6分

政策:先导2(提取基线)
摘要: Hi Reddit。我男朋友和我已经约会一年了,感觉很棒。
总分2准确性7一致性7覆盖率1
政策:1.3B人工反馈模型
摘要:我的男朋友忽视了他的学习,整天玩DOTA。这干扰了他的学业和我们之间的关系。我能做
些什么来解决这个问题呢?
总分7准确性7一致性7覆盖率7
政策:6.7B人工反馈模型
简介:我的男朋友忽视了他的学习和我们的关系,因为他过度玩电子游戏。我能做些什么来让他
停下来呢?
总分7准确性7一致性7覆盖率7
政策: 6.7B监督模型
简介:男朋友玩数小时的电子游戏,忽略了他的学习和我们的关系。我能做什么?
总分7准确性7一致性7覆盖率7

策略:6.7B预训练模型
简介:我的男朋友因为玩电子游戏而忽视了他的学习和我们的关系。
总分6准确性7一致性7覆盖率5分

表26:在TL;DR数据集上的评估示例。有关更多随机的评估例子,请参阅我们的网站。

42
文章
网站:每日邮件
标题:科技公司使用钢管舞机器人来吸引人们,比如在洛杉矶举行的年度E3游戏大会,以其
衣着暴露的“展台美女”而闻名,旨在吸引人们来站立。然而,一家荷兰公司在伦敦的活动
上采取了一种略有不同的方式。TransIP在肖尔迪奇的一个活动中雇佣了一对钢管舞机器人
。简明扼要
链接: https://www。dailymail.co.uk/sciencetech/article-3059595/Forget-booth-
babes-Tech-firmuses-pole-dancing-ROBOTS-attract-people html

政策:人工书面参考总结
简介:机器人是由旧的汽车部件制成的,并有闭路电视摄像头作为头部。最初是由艺术家贾尔斯
·沃克为一个名为“窥镜秀”的展览而创作的。
总分3准确性5一致性7覆盖率3
政策:领先3(提取基线)
简介:诸如在洛杉矶举行的年度E3游戏大会等科技展以其衣着暴露的“展台美女”而闻名,
旨在吸引人们来站立。然而,一家荷兰公司在伦敦的活动上采取了一种略有不同的方式。特
兰西普在肖尔迪奇的一场活动中雇佣了一对钢管舞机器人。
总分7准确性7一致性7覆盖率7

政策:1.3B人工反馈模型(转移)
简介:荷兰公司thepp雇佣了一对钢管舞机器人,以吸引技术爱好者站立。
总分5准确性7一致性7覆盖率5

政策:6.7B人工反馈模型(转移)
简介:荷兰托管公司thenp在伦敦的活动上雇佣钢管舞机器人娱乐科技爱好者。
总分5准确性7一致性7覆盖率5

政策:6.7B监督TL;DR模型(转移)
简介:荷兰公司thenp雇佣了钢管舞机器人来娱乐其在伦敦的活动。
总分4准确性6一致性5覆盖率5分
策略:6.7B预训练模型
简介:一家荷兰公司为伦敦的一个活动聘请了钢管舞机器人。
总分5准确性7一致性7覆盖率5
策略: 6.7B监督CNN/DM模型
简介:机器人最初是由沃克为一个名为“窥视秀”的表演而设计的。这些舞者由旧汽车零件制作
,造价约2500英镑。
总分4准确性7一致性7覆盖率4
策略:11B T5型号
简介:特兰西普为肖尔迪奇的一个活动雇佣了一对钢管舞机器人。这些舞者的租金约为2500
英镑,由旧汽车部件制成,由英国艺术家贾尔斯·沃克设计。在剩下的四天活动中,机器人
将跳钢管舞,以及科技行业的领军人物的演讲。
总分7准确性7一致性7覆盖率7

表27:在CNN/DM数据集上的评估示例。有关更多的随机评估例子,请参见我们的网站。

43
文章
网站:每日邮件
一名19个月大的女孩被控造成安全漏洞,被警方带走。当这架飞机在以色列本古里安机场的
跑道上滑行时,在机组人员要求她坐在萨里娜·阿齐兹父母的腿上后,她变得激动不安。住
在伦敦北部的阿里埃拉和马克·阿齐兹,把女儿绑在两岁以下儿童需要的连接带上,努力让
女儿保持静止。一岁的萨丽娜·阿齐兹在从以色列飞往卢顿的航班上变得激动,导致她被弹
出飞机[为了简单起见被截断]
链接:https://www.dailymail.co.uk/travel/travel_news/article-3053657/Crying-
toddler-removedLondon-bound-flight-met-police-deemed-security-breach.html

政策:人工书面参考总结
简介:萨里娜·阿齐兹和父母马克和阿里拉·阿齐兹从以色列飞回来。但这个女孩在被放在
父母的腿上后变得焦躁不安。飞行员在本古里安掉头,武警驱逐了家人。父亲马克·阿齐兹
坚持说,他的家人正在顺从并寻求帮助。母亲说她不相信员工是如何处理这件事的。
总分3准确性4一致性7覆盖率6分

政策:领先3(提取基线)
摘要:一名哭泣的19个月大的女孩被指控造成安全漏洞,被离开飞机并被警方迎接。当这架
飞机在以色列本古里安机场的跑道上滑行时,在机组人员要求她坐在萨里娜·阿齐兹父母的
腿上后,她变得激动不安。住在伦敦北部的阿里埃拉和马克·阿齐兹,把女儿绑在两岁以下
儿童需要的连接带上,努力让女儿保持静止。
总分6准确性7一致性7覆盖率6分
政策:1.3B人工反馈模型(转移)
摘要:19个月大的女孩被机组人员指控造成安全漏洞后,被跨航空公司的飞机带走。这一事件后
来被确定为是正当的。
总分3准确性4一致性7覆盖率4
政策:6.7B人工反馈模型(转移)
摘要:一名19个月大的女孩被指控造成安全漏洞,家人被离开飞机。家人说,他们只是想让孩子
冷静下来。大西洋航空公司表示,这一行动是合理的。
总分6准确性7一致性7覆盖率6分

政策:6.7B监督TL;DR模型(转移)
简介:一名一岁的女孩从座位转移到膝盖上后不高兴,家人被离开飞机。
总分4准确性7一致性7覆盖率5

策略:6.7B预训练模型
摘要:一名乘客称,一个家庭因其儿子拒绝系安全带后被赶出了飞机。这家人被告知,如果没有
医生的证明,他们就不能飞了
总分2准确性6一致性7覆盖率3
策略: 6.7B监督CNN/DM模型
简介:萨丽娜·阿齐兹在被要求坐在她父母的腿上后变得焦躁不安。这名19个月大的孩子被
绑在两岁以下儿童的连接带上。但在被离开座位后,她变得沮丧和不高兴。大西洋航空公司
的工作人员通知了停止飞行的机长。这家人被带下飞机,并在机场被警察迎接。大西洋航空
公司表示,这一行动是合理的,因为这名儿童没有“遵守安全指示”
总分7准确性7一致性7覆盖率7

策略:11B T5型号
摘要:一岁的萨里娜·阿齐兹在从以色列飞往卢顿的航班上变得焦躁不安。客舱机组人员要求她
坐在她父母的腿上,但她变得很痛苦。航空公司的工作人员通知机长,机长决定停止飞行,并呼
叫保安将这名家人离开飞机。
总分5准确性7一致性7覆盖率6
表28:在CNN/DM数据集上的评估示例。有关更多的随机评估例子,请参见我们的网站。

44
参考总结 过度优化的策略
我今年28岁,是男性,住在圣何塞 你的家伙固执的后开始追求体操的爱好,尽管
,我想学习如何做体操。 明显的兴趣???对个人和学术上的长期健康进
步都有负面影响吗?想要改变这个愚蠢的烂屁
股政策,请

更换工作电脑时保存的剩余密码每 员工固执地取代了个人的原因,尽管尝试了合理
天每小时观看网络飞行。 的妥协报价???这样会对个人和公司的工作效率
产生负面影响吗?想要改变这个愚蠢的政策,请
停止

人们不停地问我胳膊上的旧伤疤。 尽管尝试了妥协措施,人们还是坚持询问旧的自残
我怎么能 伤疤???否定地
让他们不要打扰我 影响学生在社会和学术上的进步
粗鲁吗? 这是什么?想要改变我这愚蠢的行为请帮助请停止

我的室友一直向她和我们住的朋友 室友固执地保持口袋里的室友租金,尽管尝试了合
付房租 理的妥协提供???
没有告诉我。她声称 对同居行为的稳定性都有负面影响
因为我只是在转租一个房间 在经济上和人际关系上是否明智?需要
她不应该和她分手 请改变她这个愚蠢的政策
他和我的租金。我认为这很荒谬, pls halp
所以反应过度了吗?

我的公寓里的冰箱坏了 房东固执地拿冰箱
而房东还没有 两人,尽管尝试了合理的妥协方案???
经过多次讨论后修理了它。.. . 我只 对租赁在经济上和关系上都产生负面影响吗?想
是想点感冒 要改变这种愚蠢的房东行为,请停止
啤酒!我该怎么办
前女友交谈,他仍然爱着她,她完 女友固执地继续与疏远的前任交谈,尽管她试图
全开放他们和我的对话,告诉他有 提出妥协的提议???对顺利的沟通和关系的进展
零机会我和她分手,他只爱在关系 产生负面影响?后悔她的这种愚蠢的行为吗?需
不是她,她说她没有更多对他说, 要洞察力,请停止
但继续和他说话。我很困惑

GF喜欢报道她 女友痴迷地窥探个人资料
通常是秘密的 东西中间的关系,尽管同意开放-
使用社交网络。然而 经济政策吗???负面影响的社区
我们的内心并没有什么错 浪漫和身体上的信任水平
对彼此开放的关系就是如此 充满智慧的想要改变这个愚蠢的疯狂的政策
遥远地我应该面对她吗? 她的请帮助
大约一年前休假,直到我的 固执的孩子在追求工作
耳朵负债累累,并试图找出如何得 尽管尝试了合理的妥协???对正向就业的负面影响
到激励,每天都去做
任何有成效的事情,并找到一份工作 个人和经济上的流动性如何吗?想要改变这种愚
。 蠢自私/懒惰的态度,请帮助

表29:我们过度优化模型的样本与我们的1.3B奖励模型的例子。

45

You might also like