You are on page 1of 6

通过 BERT 模型实现的抽取式文本摘要

王翼飞

日期:2022 年 6 月 16 日

摘 要

随着预训练模型的不断改进和发展,越来越多的 NLP 任务选择在其基础上进行研究。而文


本摘要作为自然语言处理的重点任务,具有广泛的应用领域和实用价值。因此本文聚焦于通
过 BERT 模型实现的抽取式文本摘要技术,介绍了实现思路以及相关细节。并对这种该方法
进行评估,同时总结文本摘要的现状及下一步发展方向。研究此问题,有助于加深笔者对自
然语言处理前沿问题的了解,为未来的进一步研究做好准备。

关键词: BERT 文本摘要 自然语言处理

1 前言

生活在互联网时代,我们每天都会接触海量文本信息。文本摘要技术的成熟运用,可从中择
取最重要的内容,生成一段通顺的内容摘要,进而有助于提升我们的工作效率。同时 BERT 作
为近年来表现最出色的预训练模型,对各项 NLP 任务的研究都有很大帮助。因此本文选取了通
过 BERT 模型实现的的抽取式文本摘要技术这一前沿领域,并从爱丁堡大学 Mirella Lapata 等人
的工作 [1] 出发,总结文本摘要技术研究现状,并展望其未来发展。

2 背景及现状

2.1 BERT 模型

Transformer 的双向编码器表示法(Bidirectional Encoder Representations from Transformers,


简称 BERT),是由 Google 提出的一种预训练模型。随着预训练模型近年来的快速发展,BERT
集成了先前模型的优点。作为自然语言处理历史上里程碑式的模型,BERT 在文本分类、语义理
解等任务上有突出表现。
限于文章篇幅的限制,下面仅介绍 BERT 模型的使用。BERT 的原理和更多实现细节可见
Google 的相关研究 [2]。
BERT 将输入文本拆分为标记集合 [s1 , s2 , ..., sn ], 其中每个 si 转化为三个部分作为模型输入:
词向量、位置向量、和文本向量,如图 1 所示。词向量由原文转化而成。位置向量记录不同位置
字词表意的变化。文本向量用于刻画全文的语义信息,该向量的取值随着模型训练而改变。这
三个向量最终被加和为向量 xi ,经过 Tranformer 模型转化为融合全文语义信息的向量 ti 。
BERT 模型有两种应用于具体任务的方法:微调和特征抽取。微调是指加载 BERT 模型,用
自己的数据进行训练,最终获得适用于自己任务的模型。在这之中,BERT 相当于帮助我们初始

1
图 1: BERT 的输入。Token Embeddings 通过字向量表将每个字转化为一维向量;Segment Embeddings 通过
01 两种向量赋值区分句子;Position Embeddings 保证不同位置上相同的词有不同的向量表示。最后 BERT
将这三种向量表示进行求和作为模型输入

化参数,节省训练时间。特征抽取是利用 BERT 将自己提供的数据进行编码,以为研究者自身


的模型提供输入。

2.2 文本摘要

文本摘要(text summary),指运用语言学知识及人工智能技术将一大段文字内容输入转换
为一段通顺简明的总结输出。它是自然语言生成中“文本到文本”这一领域的重要研究内容。而
随着人们每天接触到的信息文本日益增长,文本摘要具有广泛的应用领域和研究价值。从经典
的自动文摘,到新闻评述、赛事解说自动生成,都可看见文本摘要技术的使用。如北京大学万
小军教授小组研制的小明、小柯、小南等写作机器人 [3],已在部分企业中投入使用。图 2 展示
的是今日头条体育赛事播报机器人小明所写作品。
文本摘要可分为抽取式文本摘要和生成式文本摘要。
生成式文本摘要目标为用不同于原文的表述阐述输入文本的主旨大意。这项任务的重点包
括文本理解和自然语言生成两部分。
抽取式文本摘要,指从文字中抽取重要语句组合成一篇总结。与生成式文本摘要相比,其
发展历史更为久远,技术也更为成熟。其核心技术包括:重要信息评估、冗余语句过滤、碎片化
信息整合。

图 2: 文本摘要技术的应用——体育赛事报道机器人

2
3 项目整体思路

结合 BERT 的特性,本项目聚焦于抽取式文本摘要这一方法。抽取式文本摘要本质上可看
成一个文本分类问题。即将整篇文本看成句子集合 [s1 , s2 , ..., sn ],对于 si , 可选择是否将其放入
摘要集合 C 中。基于这种思想,Mirella 等人 [1][4] 首先微调 BERT 获得输入文本每个句子的得
分,也即作为摘要的概率。随后按照得分排序选出得分最高的三句话,用句子筛选算法去除冗
余,最终获得一篇文本摘要。

4 细节实现

4.1 BERTSUM

由于 BERT 输入的是标记序列,但文本摘要要求输入句子级别的向量。因此论文首先对
BERT 的输入层进行修改,改造成自己的 BERTSUM 模型。两者的区别主要在于:BERTSUM 为
多句子的输入,每个句子头插入 [cls] 标记,并用区间分隔嵌入层(Segment Embeddings)区分
不同句子。这样 BERTSUM 便实现两条以上句子的输入,具体由图 3 所示。

图 3: 改进后 BERTSUM 的输入。最上方是输入文本转化的序列,底下为每个序列标记对应的三种嵌入。


第二层用来区别多个句子(图中用不同颜色区分)。

4.2 输出向量处理

在输出向量上叠加几个 Transformer 层:
hl = LN [LN (hl−1 + M HAtt(hl−1 )] + F N N (LN [hl−1 + M HAtt(hl−1 )]) (1)
(1) 式中 l 表示堆积层深度,而 h0 是 BERTSUM 输出向量;LN 是层归一化运算 [4];MHAtt 是
多头关注运算 [5];transformer 的作用是处理 BERTSUM 输出的序列数据,输出 si 作为摘要的概
率。
最后经过 sigmoid 函数处理后输出:
yi = σ(Wo hL
o + bo ) (2)

3
4.3 句子筛选机制:Trigram Blocking

在上一步获取了作为文本摘要概率最高的三句话后还应通过句子筛选机制去除冗余。论文
采取的为 trigram blocking 方法。具体为:若候选句子与已选摘要有一个重合语块,即三个词相
同时,则忽略候选句子。
经过上面三个步骤处理后,我们利用 BERT 模型实现抽取式文本摘要。

5 评估与改进

如何评估摘要的优良性是文本摘要领域的一大难题。在过去的二十年里,人们在解决此问
题上付出了巨大的努力。

5.1 人工评估

传统方法为人为评估。专家从以下六方面对摘要进行评估:
• 可读性:文章是否易于理解,是否顺从人的思维。
• 结构:文章是否通顺,抑或只为简单字词的拼合。
• 语法:总结是否有语法错误或语病。
• 要点:是否覆盖到原文涉及的所有方面。
• 连贯:句间关系是否紧密,逻辑是否自洽。
• 冗余:文章是否有过多不必要及重复的信息。
这套评价体系的优点是可客观全面地评估项目的表现、且不需要有标准答案与输出作比较;
缺陷是过于耗费精力且需要较高的语言学知识。

5.2 自动评估

自动评估有多种评估方法,这里各选取最简单和最具代表性的方法进行介绍。
• 准确度评估:这种方法要求我们提前准备测试文本的摘要作为标准答案,通过公式计算输
出与已有摘要的相似度:

Sref ∩ Scand
P recision = (3)
Scand
•ROUGE:ROUGE 是用于自动评价文本摘要和文本翻译的一个软件包??。这是自动评估中
最常用的工具,它包含了一系列评价准则。ROUGE 同时也具有基于不同评价标准的丰富版本:
R1、R-L、R-S、R-SU。尽管这是学界采取的主流方式,但 ROUGE 在评估的时候并未真正地理
解文义,且同样需要有“标准答案”用来参考。
综上所述,现有的评估方案仍对人的精力或是数据集有较高的要求。

5.3 评估本项目

运用上述两种自动评估方式和人工评估方式分别对参考文献 [1][6] 所做的实验进行评估,


均取得出色表现,如图 4 和图 5 所示。但限于抽取式方法,本项目仍存在不足。首先是难以屏

4
蔽输入文本的干扰信息;其次对于原文中缺少总结意思的句子,难以用简洁的语言表述。下一
步研究方向应与生成式文本摘要相结合,对摘要进一步地修改和润色。

图 4: 用 ROUGE 评估的结果。HIBERT 为基于 BERT 生成方法。

图 5: 人工评价。数字代表该排名的次数比例。HIBERT 为基于 BERT 生成方法。

6 总结

文本摘要是自然语言处理乃至整个人工智能领域中最具有挑战性的问题之一。针对其的研
究最早可追溯至上世纪 50 年代。时至今日,文本摘要技术所实现的总结依然和人有很大的差距。
其中,解决以下问题是下一步的文本摘要研究的关键 [8]:
• 多文本总结
• 针对用户的个性化总结
• 文本总结的实际应用
目前,文本摘要主流的研究方向仍然是抽取式文本摘要。而要真正实现总结的通顺性、全
面性、简洁性,还应考虑与生成式文本摘要的方法相结合,同时可以将文本情感分析、数据转
文字等自然语言处理领域其他任务迁移过来辅助研究 [9]。
总而言之,文本摘要有着广泛的应用范围和发展前景。而预训练模型的不断发展和完善,势
必会使文本摘要的研究如虎添翼。让我们一同见证它不断挑战新的高度。

参考文献
[1] Liu Y, Lapata M. Text summarization with pretrained encoders[J]. arXiv preprint arXiv:1908.08345, 2019.
[2] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J].
arXiv preprint arXiv:1810.04805, 2018.
[3] Zhang J, Yao J, Wan X. Towards constructing sports news from live text commentary[C]//Proceedings of the 54th Annual
Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016: 1361-1371.
[4] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hinton. 2016. Layer normalization. arXiv preprint arXiv:1607.06450.

5
[5] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, ukasz Kaiser, and Illia
Polosukhin. 2017. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008.
[6] Zhang X, Wei F, Zhou M. HIBERT: Document level pre-training of hierarchical bidirectional transformers for document
summarization[J]. arXiv preprint arXiv:1905.06566, 2019.
[7] Jin H Q, Cao Y, Wang T M, et al. Recent advances of neural text generation: Core tasks, datasets, models and challenges[J].
Science China Technological Sciences, 2020, 63(10): 1990-2010.
[8] El-Kassas W S, Salama C R, Rafea A A, et al. Automatic text summarization: A comprehensive survey[J]. Expert Systems
with Applications, 2021, 165: 113679.
[9] 李雪晴, 王石, 王朱君, 等. 自然语言生成综述 [J]. 计算机应用, 2021, 41(5): 1227.

You might also like