You are on page 1of 79

中圈斜孽艘求大誊

硕一士学I位论文
III I I I I II III I I I I f
Y3564577

论文题目 基于深度神经网络的文本生成方法研究

陈雪雯
作者姓名
计算机应用技术
学科专业
李金龙副教授
导师姓名
二O一九年五月
完成时间

万方数据
中圈绅孽艘求大誊

硕士学位论文

基于深度神经网络的文本生成方法研究

作者姓名: 陈雪雯

学科专业: 计算机应用技术

导师姓名: 李金龙副教授

完成时间: 二。一九年五月二十九日

万方数据
University of Science and Technology of China

A d issertation for master’S deg ree

A Stu dy Deep Neural


on

N etwork・-based TeXt Generation


Method

Author:Xuewen Chen

Speciality:Computer Application Technology

Supervisor:Associate Prof.Jinlong Li

Finished time:May 29,20 1 9

万方数据
中国科学技术大学学位论文原创性声明

本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的
成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰
写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了
明确的说明。

作者躲氆宝墨 蝴期:丛!牲;/

中国科学技术大学学位论文授权使用声明

作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学
拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送
交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入《中国
学位论文全文数据库》等有关数据库进行检索,可以采用影印、缩印或扫描等复
制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一
致。
保密的学位论文在解密后也遵守此规定。

囡公开口保密(——年)

作者签名: 导师签名:

签字日期:

万方数据
摘 要

摘 要
近年来,深度学习的兴起为基于深度神经网络的文本生成方法的发展提供
了新的契机。作为文本生成问题中的代表性任务,自动文本摘要和自动文本简化
旨在提取出原始文本的核心内容,并生成一段可读性强且易于理解的文本,是应
对信息过载、阅读困难等实际问题的高效解决方案。目前主流的神经网络方法多
采用基于循环神经网络的编码器.解码器框架,存在原始文本表示欠佳、生成句
与原始文本语义相关性不高、生成句子冗余、集外词生成困难等诸多问题。
针对这些问题,本文探究了基于深度神经网络的文本生成方法,在自动文本
摘要和文本简化等任务上开展了研究工作,设计并实现了一种基于改进集束搜
索的生成式摘要生成方法和一种基于子词单元的端到端文本简化方法,分别在
多个数据集上进行了实验,实验结果表明了模型在任务上的有效性。
本文的主要贡献具体包括:
(11设计并实现了一种基于改进集束搜索的生成式摘要方法,其中包括:一
种新型混合编码器结构,利用循环神经网络学习输入文本序列中的时序信息和
长距离依赖,同时利用卷积神经网络捕获输入序列的上下文信息;两种用于摘要
解码的集束搜索算法,即得分函数结合了语言模型和语法形式惩罚策略的语法
增强集束搜索算法和引入了一个惩罚因子的多样性集束搜索算法;一种基于关
键短语的重排序机制,利用候选句与原始文本中重合关键短语的重要性得分对
候选句进行排序。在CNN/Daily Mail等多个数据集上的实验表明了该模型在文
本摘要任务上的有效性。
(21设计并实现了一种基于子词单元的端到端文本简化方法,利用字节对编
码算法提取子词单元并构建词表,减小词表规模以提升序列到序列模型的效率,
利用子词单元关联形态相近的词语,解决罕见词训练及集外词生成问题。将该模
型应用到PWKP和WikNet等数据集上,实验结果与词语级方法相对比表明了本
模型的有效性。

关键词:自动文本摘要;自动文本简化;文本表示;集束搜索;子词单元;深度
神经网络

万方数据
Abstract

ABSTRACT

Recently,the blossom ofdeep learning has facilitated the development oftext gen_

eration.As the typical tasks of text generation,automatic text summarization and au-

tomatic text simpl ification have drawn on intense research interests.Automatic text

summarization and automatic text simplification aim at extracting the core content of

the source text and generating a version easier to read and understand,and are efficient

methods of dealing with information overload and reading disabilities.At present,most

mainstream neural network methods adopt sole recurrent neural network as the encoder

or decoder.Such practice tends to cause issues including poor text presentation for the

source text,low semantic relevance between the generated sentence and the source text,

word redundancy,and the out—of-the-vocabulary(oov)problem.

To address the aforementioned issues,this dissertation aims to study the text gen—

eration method based on deep neural network.There are mainly two text generation

tasks including text summarization and text simplification.The main contributions are

listed below.

(i)We design and implement an abstractive neural text summarization model.First,

we devise a novel type of hybrid encoder,which leverages the global and local contex—

tual features by combining the structure of both recurrent neural network(RNN)and


convolutional neural network(CNN)to learn a joint representation for the source text,

two modi—
thus generating text representation of higher quality.Besides,we introduce

fled diverse beam search,one ofwhich features the language model and the grammatical

soundness in the scoring function.The other beam search aims to foster the diversity in

the generated sentences during decoding by introducing a penalty term.Moreover,we


ranks the hypothesis sentences
propose a
keyphrase reranking mechanism,which gener-

ated from beam search according to its saliency score which measures the CO。occurrence

text.Such reranking mechanism promotes the semantical


ofkeyphrases with the source

relevance between the source text and the generated sentence.We conduct experiments

on various datasets such as CNN/Daily Mail.The results on both tasks show that our

proposed model contributes to promising improvement in performance compared with


the state.of-the.art baselines.

(iil We propose a subword units-based end—to—end way of sentence simplification

model.Aiming at addressing the problems of rare word training and OOV word gener-

ation in text simplification,a subword unit extraction method based


on byte pair encod-

III

万方数据
AbstraCt

ing algorithm is proposed.This method divides the text and extracts the subword units

tO construct the vocabulary,which can effectively reduce the vocabulary scale,thus

increasing the efficiency of the sequence-tO—sequence model.At the same time,the

method effectively associates words with similar morphology and can cover more rare

words and OOV words.We apply the model tO different datasets including PWKP and

WikNet.The experimental results show that the model has significantly outperformed

the word-level methods.

Key Words:Automatic Text Summarization;Automatic Text Simplification;Text Rep-

resentation;Beam Search;Subword Units;Deep Neural Network

万方数据
目 录

目 录

第1章绪论................................. 1

1.1 研究背景及意义 ............................

1.2研究现状................................ 2

1.2.1文本摘要研究现状・.・・・・・・・・.・・・・・・.......... 2

1.2.2文本简化研究现状・.....・・・....-・・・.......... 6

1.3文本生成问题面临的挑战....................... 7

1.4本文主要内容及贡献.......................... 8

1.5本文组织结构.............................. 9

第2章基于改进集束搜索的生成式摘要方法............11
2.1 引言......-............................ 1l

2.2文本摘要问题形式化描述.......................1l
2.3相关研究工作・・............................12
2.3.1基于神经网络的文本表示 .・・・・...-・・・・..........

12

2.3.2集束搜索・・・・・・・・・・・・・...・・・・・.......... 15

2.3.3文本摘要自动评价指标 ..・.・・......・・..........

16

2.4结合注意力机制的序列到序列文摘模型................19
2.4.1混合神经网络编码器..........................20

2.4.2基于覆盖度的解码模块 ・・・・・・・・・・・・・・..........2l

2.4.3摘要候选语句生成・.............-.・..........22

2.5实验...................................27
2.5.1数据集及实验设置...........................27

2.5.2模型训练・・・・・・・-・・・・・・・・-・・・・..........30

2.5,3实验结果及分析・・.....・....................30

2.6本章小结................................36

第3章基于子词单元的端到端文本简化方法............39
3.1 引言...................................39

3.2相关研究工作..............................40
3.2.1细粒度文本表示............................40

3.2.2文本简化自动评测标准 ・・・・・....・・・・・..........42

3.3基于子词单元的端到端句子简化模型.................44
3.3,1编码器.解码器框架..........................44

万方数据
目 录

3.3.2文本的子词单元表示・・.・・・.・・.................45

3.4实验・.-・・..............................47
3.4.1数据集预处理・・...........................47

3.4.2实验设置・・・・-・...・.....................49

3.4.3实验结果及分析・...........................50

3.5本章小结・・・.・...........................54

第4章总结与展望............................55
4.1本文的主要贡献与特色.........................55
4.2研究展望....・...........................56

参考文献....................................57

致谢.......................................65

在读期间发表的学术论文与取得的研究成果.............67

万方数据
插图清单

插图清单
1.1信息摘要的范畴示意图.......................... 2

2.1循环神经网络结构示意图........................12
2.2长短记忆单元结构示意图........................13
2.3门限循环单元结构示意图........................14
2.4卷积神经网络结构示意图........................15

2.5自动摘要评价指标pyramid示意图...................19
2.6基于改进集束搜索的自动摘要模型结构.................20
2.7混合神经网络编码器结构........................2l
2.8两种集束搜索算法的比较........................25

2.9数据集CNN/Daily Mail上的集束宽度选择...............28

2.10数据集BBC和Inspec上的集束宽度选择...............29
2.1 l模型生成的摘要句样例.........................35

3.1句子简化实例...............................39
3.2典型的序列到序列模型..........................40
3.3词级处理中难以处理的单词.......................40
3.4字符及子词实例.............................4l

3.5字节对编码算法处理子词单元实例...................41
3.6指标SARI与其他文本生成指标的比较.................43
3.7基于神经网络的端到端句子简化模型..................44
3.8字节对编码算法在给定词表上的合并操作...............47
3.9数据集PWKP中的高频词........................48

3.10数据集WikNet中子词切分处理前后对比...............49

ⅥI

万方数据
表格清单

表格清单
2.1数据集详细信息.....・.......-.・..・....・-・・・. 27

2.2数据集CNN/Daily Mail上的ROUGE分数(R一1、R-2及R.L均为F—
score值)・-・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・ 3 l

2.3数据集CNN/Daily Mail上的METEOR分数・・・・・・・・・・・・・・ 32

2.4数据集BBC和Inspecx上的ROUGE分数(R-l、R-2及R-L均为F-
score值)・・・・・・・・・・・・・-・・・・・・・・・・・・・・・・・・・・ 33

2.5数据集BBC和Inspec上的METEOR分数....-..-.・・.・・. 34

3.1数据集PWKP统计信息・・.・・..・.・・・・・・・・・・・・・・・・ 48

3.2数据集WikNet划分方式・・..・....・・・・・・・・・・・・・・・・ 49

3.3数据集WikNet统计信息...........・..・....・・・・・. 49

3.4模型相关参数设置.............・・..・..・.・・・・・・ 50

3.5模型词向量维度及编码器方向性测试............・...・. 50

3.6数据集PWKP上的BLEU分数及SARl分数・..・..・.・・・・・. 52

3.7数据集WikNet上的BLEU分数及SARl分数.......・・.・・. 52

3.8相同训练语料中词语统计结果................・・.... 53

IX

万方数据
第1章绪 论

第1章绪 论

1.1研究背景及意义

当今时代,互联网技术快速发展更迭,云计算技术已经成熟,下一代移动通
信网络5G技术迎来了发展元年,人们获取信息的途径变得更加丰富并趋于移动
化。世界各地每时每刻发生的事件,如社会头条、科技新闻、体育资讯、财经讯
息等,都能通过计算机、各种手持移动终端以及其他传统媒体传送到我们面前,
传统的时间和空间障碍被现代通信和传播技术所克服,全球的信息共享和交互
已经实现,世界被更进一步地联结为一体Ill。然而,与之俱来的问题不容忽视:
人们正面临着前所未有的“信息爆炸”带来的挑战。面对浩如烟海的海量信息,
如何从中迅速而准确地获取自己所需要信息变得非常困难,人们有时会感到无
所适从。同时,在这种情况下,个人往往会产生只能浅层吸收或难以吸收信息的
一种心理恐慌,这种信息焦虑也是个人分析、处理、理解信息能力较差的一种表
现[21。这些问题给人类社会带来了负面效应和潜在危机。如何更有效地利用文本
信息资源,提高其质量,从而帮助人们快速处理信息和准确获取信息已经成为一
个亟待解决的问题。

为了解决这个问题,研究者们做出了一些探索工作。信息检索和搜索引擎技
术通过对海量数据进行过滤,可以在一定程度上满足人们查询特定信息的要求,
然而限于技术等多方面的原因,现有的搜索引擎尚不能有效解决信息过载的问
题,存在的弊端是查询的结果中往往包含大量冗余、片面、或杂质信息。相比之
下,信息摘要技术旨在对海量数据内容进行提炼,将用户所关注的主要内容以一
种简洁直观的形式呈现出来,达到方便用户快速了解与浏览海量内容的目的。信
息摘要技术能够避免通过搜索引擎进行检索可能产生过多冗佘片面信息的问题,
其能够处理的数据范畴包括文本、关系数据库、图像、音频、视频等,如图1.1所
示。这些信息作为输入进入摘要系统中,将根据用户不同的要求输出特定的摘
要。

在复杂多样的信息组成形式中,文本信息作为一种主流的数据存在形式,其

数量增长同样呈现出指数级态势,如何从海量文本数据中快速而准确地定位有
效信息加以利用,已经成为了文本信息抽取领域一个刻不容缓的研究问题。显
然,使用人工手段进行文本摘要是不切实际的,因为这要求工作人员具备充分的
领域知识且需要耗费大量时间和精力去进行相关文档阅读,更重要的是,人工摘
要无法满足实时处理的客观需求。这表明了自动文本摘要技术的必要性和紧迫
性。自动文本摘要(Text Summarization)技术是指从一个或多个文档中自动生成
高度浓缩、通顺流畅、忠实于原始文本内容并保留其关键信息的摘要,其目标是

万方数据
第1章绪 论

图1.1信息摘要的范畴示意图

用较短的一段话对原始文本的重要内容进行概括,使读者能够通过阅读这段摘
要文字快速感知原始文本的内容梗概,从而判断该信息的效用并决定是否深入
阅读,以提高浏览和处理信息的效率。

作为自动文本摘要技术的重要组成部分,文本简化(Text Simplification)也得
到了很多研究者的关注。文本简化旨在将原始文本转化成为其简化版本以增加
其可读性和可理解性,除了作为文本摘要等自然语言处理任务的预处理程序,其
在其他方面也有广泛的应用。例如,通过将文本进行压缩以适配屏幕相对较小的
移动设备【31,实现信息浏览和人机交互新方式;将篇幅较长且用词复杂的文字转
化为简单易读的文字,方便孩童和第二语言学习者的阅读【4】等等,这些应用显
示文本简化可以为人类读者带来直接便利。

本文对自动文本摘要方法和文本简化方法进行研究,这两个任务均属于文
本生成问题。对于一个良好的文本生成系统来说,既要能够对其输入的原始文本
进行深入理解,捕捉原始文本的核心语义信息并加以合理表示,同时需要具备根
据其语义表示生成可读性强、信息量充分且相对简明的句子的能力【51。

1.2研究现状

1.2.1文本摘要研究现状

自动文摘的研究始于上世纪五十年代初期【61,自其首次被提出至今,在六十
多年来的研究与发展中诞生了许多摘要方法,这些方法大致分为两类。第一种是
抽取式方法,基本过程通常包括对原始文档中旬子的重要程度进行评估并利用

万方数据
第l章绪 论

各种打分排序算法选出候选句,最后按照一定的组合策略连接形成摘要。另一种
方法被称为生成式方法,最大的特点是可以使用原始文本中没有出现过的新词,
这些词通常是对原始文本的改写。相较之下,抽取式方法生成的摘要通常是文档
中一些重要句子的简单拼凑,不仅包含了大量的冗余信息,且句子与句子之间缺
少一定的关联性,从而导致了信息的碎片化和歧义性,而生成式方法则日t-匕k够很好
地克服这些缺点。生成式摘要方法的发展得益于近年来深度学习研究的逐渐深
入,尤其是机器翻译领域首创的序列到序列模型【7】,其意义在于无须依赖人工先
验知识,如词性标注、句法分析、篇章结构分析【5】等。这类方法的特征完全从数
据中学习出来,并且可以得到更好的效果。根据原始文档的数量,文本摘要问题
可以被划分为单文档摘要和多文档摘要【8】。这里我们主要讨论单文档摘要问题,
下文将综合上述分类将自动文本摘要技术分为两部分进行讨论,包括抽取式摘
要和生成式摘要。
(1)抽取式摘要方法
抽取式摘要方法,顾名思义,就是依据特定的摘要比例,从原始文本中抽取
出相对重要的句子,依据其重要性对其进行组合排序,并采用一些基于语言学
规则的转换进行指导,从而生成一段流畅可读的摘要。这种方法的关键技术包
括句子的重要信息评估、冗余信息的过滤、碎片化信息的聚合以及多源信息的
篇章组织等等,一般来说,单文档摘要的关键主要集中于句子的重要信息评估,
而较少涉及后三个方面的技术。这种“复制——粘贴”的方法由于直接使用了原
始文本中的词句,鲜少出现语法错误,具有很强的鲁棒性。抽取式摘要方法大致
上可以分为非监督式和监督式两类,非监督式方法通常将文本摘要转化为挑选
有代表性的句子并对其进行排序的任务;而监督式方法则将摘要任务视作一个
二分类(Binary Classification)问题,即将原始文本中的语句分为摘要语句和非摘
要语句两类,这类方法需要训练数据及其对应的标注信息,其中较为著名的包
括朴素贝叶斯分类器(Naive Bayes Classifier)[91、高斯混合模型(Gaussian Mixture
Model,GMM)[10】、隐马尔科夫模型(Hidden Markov Model,HMM)[11】、支持向

量机(Support Vector Machines,SVM)和条件随机场(Conditional Random Fields,

CRF)112】等。
下面本文将给出四种典型的抽取式摘要方法的介绍。

①基于特征的模型(Feature.based)
这种模型抽取出句子的若干特征并对其重要性进行分析,设定特征权重,依
此来对句子重要性进行得分计算。这类工作的代表算法包括Jagadeesh等人提出
的模型【”1、Jolo Balbin提出的TextTeaser①等。常用特征包括句子长度、句子位
置、句子中是否包含标题词、句中动词、命名实体标识、词频统计等[141,这类非

①https://github.com/MojoJolo/textteaser

万方数据
第1章绪 论

监督方法无需训练数据且执行速度快,然而由于评分函数是人工构建的,只能采
取部分主要特征,权重的设定亦需要人工调试,效果一般。

②基于主题的模型(Topic.based)
这种模型首先通过聚类或语义块分析等手段计算出文本的主题,然后根据句
子所包含的主题对原始文本中各句进行评估,抽取句子来构造摘要句。潜语义分
析(Latent Semantic Analysis,LSA)、概率潜语义分析(Probability Latent Semantic

Analysis,PLSAl等方法【15郴】均属于这一类别。
③基于语法的模型(Grammer-based)
Kristian Woodsend等人【19】提出对文本进行文法分析并构建其语法结构树,
然后对其子结构进行选择及重新排序,根据重新生成的语法结构树得到摘要句
子。另外,Gregory Silber和Kathleen F.McCoyl20】及Barzilay等人【21】的工作提出
利用WordNet等语料库中的同义词及近义词信息,分析原始文本中相邻句子的
语义相似性以判断文章主题,依据最长的词汇链来构建摘要句子的集合。

④基于图的模型(Graph.based)
Mihalcea与Tarau于EMNLP’04提出TextRank[22】模型用于关键词抽取及文

本摘要,该模型受启发于PageRank算法123】,其思想非常简单:通过词之间的相
邻关系构建原始文本的网络,将词语视为网络的节点,并定义节点之间的关系作

为网络连边,然后用PageRank迭代计算每个节点的rank值,通过对rank值排序
得到关键词。TextRank模型被应用到文本摘要任务上的具体做法是:将原始文
本分解成若干单元(如句子等),每个句子作为一个节点,若两个句子间存在相似

性,则认为这两个句子对应节点间存在一条无向有权边。通常根据公式(1.1)来
衡量两个句子S,S,间的相似性:

…洲以鹕,=躞希鬻铲 ∽・,

其中,叫。表示句子中的词,分子部分刻画了句子墨,S,间重合的词语个数。为
避免长句优势,分母部分进行了正则化操作。

任意两个节点的相似度均能根据此公式进行计算,根据阈值去掉相似度较
低的两节点连边,构建出原始文本的图,然后计算出TextRank值,排序并选出
值最高的节点对应的句子作为文本的摘要。
综合来说,抽取式摘要方法的实现普遍比较简单,其中多数无监督方法不需
要训练数据,效果上能够保证句子的可读性。然而,由于抽取式方法生成的句子
通常是原始文本中重要句子的简单组合拼接,这往往会导致生成的摘要包含大
量冗余信息,且句子与句子之间的关联性得不到保证,在句中包含代词的情况下
尤其会出现指代不明的困境,导致信息的碎片化和歧义性【51。

万方数据
第l章绪 论

(2)生成式摘要方法
与抽取式自动文本摘要技术不同,生成式文本摘要方法的目标是在完全理
解原始文本内容之后,根据其核心思想和中心内容来重新组织一段语法正确且
具有可读性的摘要文字。这种方法不必拘泥于原始文本中的语言,因此具有更高
的灵活性,也更贴近人类进行文本摘要的过程。一般来说,生成式摘要方法需要
运用更为复杂的自然语言处理技术(例如语义理解、文本转述、句子缩写、同义
替换等)来实现文本的表征与生成,且受限于以往计算力难以满足复杂模型训练
的情况,过去主流的研究并未集中在生成式摘要方法上,但这并不表示生成式方
法逊色于抽取式摘要方法。
近年来,深度神经网络的研究推动了自然语言理解领域多项任务的发展,机
器翻译任务首创的序列到序列模型【7】尤其令人瞩目,其出现打破了统计机器翻
译的局限性,通过构建一个编码器到解码器的黑盒系统在平行语料库中进行训
练,模型自身可以学习如何翻译,而无须依赖语言学家设计的规则及调整步骤繁
多的统计模型。受到机器翻译技术的启发,深度神经网络的方法被应用于文本摘

要任务上的生成式摘要方法,并取得了相当不错的成果。
其中较为有代表性的工作包括:Lopyrev 124】提出两种不同的注意力机制,复
杂机制中的注意力权重由编码器中每个词的最后一层隐层表示与当前解码出的
最新词最后一层隐层表示做点乘,并进行归一化处理得到;简单机制将编码器部
分在每个词最后一层隐层表示分为两块,其中一小块用于计算注意力权重,另一
大块保留为编码器表示,用于导入softmax进行输出预测。两种方法被应用于循
环神经网络模型下的新闻标题生成任务,在Gigaword数据集上的实验表明简单
注意力机制取得了更好的效果。该工作对注意力机制的探索启发了后来研究者
在文本摘要任务上的工作。同年,Rush等人【25】尝试使用了三种不同的编码器:
词袋模型(Bag-of-Word)、有条件的卷积编码器和基于注意力机制的编码器,并利
用前馈神经语言模型(NNLM)126】作为解码器,首次实现了在大量平行句对上的
神经网络训练,成为后续文本摘要研究的基础。次年,同研究组的Chopra等人【27】
对Rush的工作进行了扩展,将解码器由前馈神经网络替换为循环神经网络,并
改变了编码器结构,同时为输入词及其所在位置学习词嵌入向量,利用卷积计算
当前位置的上下文表示以作为解码过程中注意力权重计算的依据,在Gigaword
语料上和DUC.2004文本摘要任务上取得了更优的结果。Nallapti等人【28】引入了
大词汇表技术(Large Vocabulary Trick,LVT)[29】到文本摘要问题上,解决了由于
解码器词汇表过大而造成的softmax层的计算瓶颈,同时使用两个双向循环神经
网络来分别捕捉词语级别和句子级别的特征,在两个数据集上均取得了超越前
文Rush等人所提出模型的表现。
另一方面,研究者注意到基于神经网络的方法在解决文本摘要上也存在某

万方数据
第1章绪 论

些不足,例如生成重复的词语、出现事实性错误、集外词(Out.of-the.vocabulary,
oov)问题(即难以生成重要的低频词汇)等。当原始文本中含有某些重要的专有
名词(如人名、地名、机构名、年份等)时,为了保障摘要能提供充足的信息,这
些专有名词也应被合理地包含在摘要文字中。基于这种想法,研究者们提出一种
抽取式和生成式方法的折中方案,其中的典型工作梳理如下:Gu等人【30】提出一
种拷贝网络(CopyNet),摘要生成时下一个单词的预测由一个生成模式g和拷贝
模式c的混合概率共同决定,模型中除了通常意义的高频词词汇表之外还建立了
一个用于支持拷贝模式的词汇表,保存输出原始文本中的实体或日期等难以被

解码“还原”出来的信息。相似地,See等人I”】提出一种基于指针网络(Pointer
Network)132】的模型,称为指针.生成网络(Pointer-Generator Network),该模型一
方面通过序列到序列模型保持其抽象生成预定义词表中单词的能力,另一方面

通过指针网络直接从原始输入文本中拷贝难以生成的词语,缓解了集外词问题。

针对词语重复问题和事实性错误问题,Tu等人【33】提出覆盖度机制(Coverage
Mechanism),其要点在于维护一个覆盖度向量用于记录模型已关注的部分,从而
避免出现注意力持续关注某几个词的情形。Chen等人【34】提出一种注意力分散机

制(Distraction Mechanism),训练过程中在生成最后的内容向量时,通过引入历

史内容向量的惩罚机制生成更多样的内容向量,同时在注意力权值上引入历史
信息,鼓励多样性生成,避免内容上的重复。

1.2.2文本简化研究现状

文本简化是计算语言学中非常重要的一个任务,旨在将原始文本转化成为

其简化版本以增加其可读性和可理解性。其应用场景包括教育科技、目标内容生
成、语言学习等领域,且能够在很大程度上造福文化水平不高的人群【35],如孩
童和非母语人士【4】以及患有自闭症或阅读障碍的特殊人群[36~3 1。

文本简化不仅能够为人类读者带来直接便利,其作为多项自然语言处理任
务的预处理程序,更是扮演着不容忽视的角色。事实上,文本简化任务被提出的

最初动机就是为了帮助更好地完成语法分析和翻译任务【381,因为复杂的长难句
往往会给这些任务带来极大的挑战,而经过简化的句子则能够在很大程度上助
益后续任务处理。在二十多年的研究历程中,语句简化在包括文本摘要【39】、句
子融合【401、语义标注1411、问答系统142】和生物医学信息抽取【43】等多个任务上都
发挥了积极作用。

文本简化通常从两个不同的语言学角度入手136]:(1)词汇方面,即通过将原
始文本中复杂的词语替换成简单的同义词实现简化:(2)句法方面,将句子固有
的层次结构进行改变以达到句子简化的目的。这两种类型的简化需要借助一系
列更细化的操作实现,包括对句子进行分割、删除词语、重新排序和替换某些词

万方数据
第1章绪 论

语等。句子分割是将长句划分为几个较短的句子以减少长句的复杂度;词语删除
操作的对象是不影响句子含义的较为不重要的词语;接下来对分割后的句子【删
或句中的部分短语1351进行重新排序操作;最后把句中较难的短语或单词替换为
其对应的简化同义词。不难看出,为了最大化文本简化的效果,上述列举的四个
简化操作缺一不可,即文本简化过程应该可以视为不同操作的组合问题。然而,
现有的模型大多仅考虑其中一个方面。Siddharthan[441和Petersen等人【451的工作
重点关注在句子分割;Filippova和Strube[40】的工作则侧重于利用词语删除方法
开发了一个句子压缩系统。在词汇简化方面,研究者通常借助基于词频的语料库
WordNet[36】中的简单同义词对复杂单词进行替换。

早期的文本简化工作的重点放在简化问题的单一方面,例如句法方面,仅利
用语法规则对句子进行分割[36,38,41,44],而其他系统则仅专注于词汇方面的简化,
将原始文本中较难的词语替换为其简单同义词或对其做语义解释[37,46-47】。

最近的研究大多借鉴统计机器翻译的思想,将文本简化视为一种单语的
(Monolingual)文本到文本的生成任务。一般来说,简化重写方式是从网络语料
库(如常规维基百科及简单维基百科)中抽取得到的复杂.简单句子对中自动学习
而来。其中有代表性的工作梳理如下:Zhu等人【48】从基于句法的机器翻译中得
到启发,提出一种在前人研究【49】之上额外进行句子简化操作(如句子分割)的模

型。Woodsend和Lapata[50J提出在准同步语法框架下【51】进行文本简化任务,并
使用整数线性规划对生成的候选翻译句及简单句子进行打分。Wubben等人[521
提出一个两阶段模型,在第一阶段,利用复杂.简单句子对训练一个标准的基于
短语的机器翻译模型(phrase—based machine translation,PBMT);在推理阶段,该
翻译模型得到的K个分数最高的候选句再根据其与输入的复杂句的不相似程度

进行重新排序。相似地,Narayan和Gardent的工作【53】也提出了一个两阶段的方
法,首先利用概率模型对Boxer工具处理过的句子进行分割和删除操作,然后将
这些句子进一步简化作为最终结果。Xu等人【“】在Ganitkevitch等人所建立的大

规模语料库PPDB[55】上训练了一个基于句法的机器翻译模型,设计出一个新的
目标函数以鼓励更简单的句子输出。

1.3文本生成问题面临的挑战

综合近年来的研究成果来看,尽管序列到序列模型和注意力机制的大规模
应用使得文本生成方法有了长足的进步,但是该领域依然存在很多关键问题亟
待解决,例如如何对较长的文本进行建模,获得良好的文档语义表示,并以此为
基础生成通顺流畅的简要文本等。
我们对当前基于深度神经网络序列到序列框架的文本生成问题存在的主要

万方数据
第1章绪 论

问题列举如下:

(11已有的生成式摘要方法所采用的基于单一循环神经网络或卷积神经网络的
序列到序列模型对于较长的文本的学习表示效果不佳。

(2)源文档和生成的摘要在语义相似度上表现欠佳,生成的摘要句子可能在形式
上通顺流畅,却无法真实反映源文档的语义。
(3)文本生成问题的解码过程中,每一时刻预测生成的词语受限于固定大小的词
典,其中的低频词无法训练得到较好的词向量表示,而未被包含在词典中的

集外词则被统一映射为<UNK>(unknown)符号,影响文本质量。
(4)当前主流摘要系统生成的句子存在不同程度的词语重复,导致冗余问题,对
可读性造成影响。句子中可能出现事实性错误,如将实体名称完全替换成了

另外不相关的实体。

1.4本文主要内容及贡献

本工作探究了基于深度神经网络的文本生成方法,主要任务是生成式文本
摘要和文本简化,设计并实现了一种基于改进集束搜索的生成式摘要生成方法
和一种基于子词单元的端到端文本简化方法,分别在多个数据集上进行了实验,
实验结果表明了模型在任务上的有效性。
针对文本摘要问题,本文的创新点和主要贡献包括如下三个方面:

(1)对于原始文本的语句表示学习,提出了一种结合卷积神经网络和深度循环神
经网络的混合编码器结构。该结构通过卷积操作将序列上下文信息进一步加
强,同时利用循环神经网络学习时序信息和长距离依赖,捕获了局部和全局
信息,学习得到高质量的原始文本向量表示。

(2)为解决摘要生成问题,提出了两种改进的集束搜索算法用于解码过程,第一
种称作语法增强的集束搜索算法,其得分函数结合了语言模型和语法形式惩
罚策略,约束生成更多语法形式合理的句子;第二种称为多样性集束搜索算
法,其在第一种算法基础上引入一个惩罚因子,降低生成的候选句之间的相
似性,鼓励生成更多样化的句子。

(31为提高摘要句和原始文本的语义相似度,提出了一种基于关键短语的重排序
机制,对集束搜索过程产生的候选句子,根据其与原始文本中重合的关键词
的重要性得分对其进行重新排序,选择最终生成的摘要句。
针对文本简化问题,本文的创新点和主要贡献包括:
(1)针对文本简化中的罕见词及集外词问题,提出使用字节对编码算法对文本进
行切分,提取出子词单元并构建词表,在减小词表规模的同时关联了形态上
相近的词语,覆盖更多的罕见词和集外词。

万方数据
第1章绪 论

1.5本文组织结构

本文共分为四个章节,其内容结构安排如下:
第一章为绪论,首先介绍了包括文本摘要和文本简化在内的文本生成问题
的研究背景与研究意义,并详尽论述了该问题的国内外研究现状。以单文本摘要
问题的发展概况为代表,按照抽取式方法和生成式方法两个类别对文本摘要任
务的研究现状做出了梳理;对于文本简化任务,根据从词汇和从句法出发两个角
度对研究现状做出了介绍,并比较了早期研究工作和现有方法。接着提出了文本

生成研究领域目前面临的挑战,并据此确定了本文的研究内容,最后提出了本工
作的主要贡献。
第二章主要介绍了一种基于改进集束搜索的生成式文本摘要方法。首先介
绍了现有文本摘要方法需要解决的语义表示和语言生成问题,并给出了文本摘
要问题的形式化描述。接着对本文相关的研究工作进行了大致介绍,包括常用的
基于神经网络的文本表示模型、集束搜索算法和文本摘要的自动评价标准。然后
详细阐述了本文方法,即结合注意力机制的序列到序列文摘模型,其中包括一种
全新的混合神经网络编码器,用以获得高质量原始文本表示。在对模型结构介绍
完毕后,我们提出了两种用于提升摘要生成质量的改进集束搜索算法,并介绍了
模型的训练方式。在实验部分,我们分别在句子摘要任务和标题生成任务上验证
了本文方法的有效性,并对摘要生成实例进行了分析。
第三章主要介绍了一种基于子词单元的端到端文本简化方法。首先对文本
简化任务中存在的问题做出了分析,在此基础上介绍了字符级和子词级的文本
表示的相关研究工作和该任务的自动评价标准。接着,我们提出一种神经网络端
到端的文本简化模型,利用字节对编码算法对文本进行子词单元提取以构建新
的词表并提升模型训练效率。在实验部分,我们对文本简化任务的数据集及预处
理做出了详细说明,并对本文模型与基准模型的表现做了详细的比较分析。
第四章是总结与展望,该章节对全文的工作进行了归纳,阐述了本文的创新
点,并对未来可能的改进方向做出了初步探讨。

万方数据
万方数据
第2章基于改进集束搜索的生成式摘要方法

第2章基于改进集束搜索的生成式摘要方法
2.1 引言

文本摘要的自动生成需要解决两个重要问题,分别为原始文本的语义表示
和摘要句的语言生成。近年来,深度学习在自然语言处理任务上应用广泛,神经
网络模型在文本的语义表示上表现出了优异的性能,因此,基于深度神经网络
的编码器.解码器框架被用于解决文本摘要的自动生成问题。然而,以往研究中
的编码器结构往往基于单一神经网络计算单元,语义表示能力较为受限,不能
充分捕捉原始文本中的特征,导致生成的摘要句在语义上与原始文本并不相似。
另一方面,摘要解码(生成)过程中集束搜索的广泛应用虽然大大减小了搜索空
间,提高了搜索效率,然而这种贪心算法也带来了新的研究问题,即生成的多个
候选句之间的差异性很小,甚至出现趋同的现象,即排名靠前的候选句表达的都
是相似的意思,这无疑会带来计算力上的浪费,给后续的候选句排序和选择带来
不便。同时,我们观察到传统集束搜索生成的摘要句有时难以涵盖原始文本的关
键信息,这并不符合我们对于文本摘要功能的预期。

针对现存的问题,本文提出一种基于改进集束搜索的生成式摘要方法,该
方法在编码器一解码器框架下解决文本摘要的语义表示和语言生成问题。本章的

组织安排如下,首先介绍两种常用的神经网络模型,包括循环神经网络(Recur-
rent Neural Network,RNN)t56-57】和卷积神经网络(Convolutional Neural Network,

CNN)t58.591,基于此,本文提出一种混合神经网络的编码器结构以获得更好的原
始文本语义表示。其次,本章提出两种摘要生成过程中的搜索算法,包括语法增
强的集束搜索和多样化集束搜索,这两种搜索算法受益于我们提出的基于关键
短语的重排序机制,能够提高生成的摘要句内容的质量。在对模型进行完全阐述
后,本章在2.5节详细介绍了实验数据集及实验设置,并给出了模型的训练目标
和训练方式,其后,分别给出了两种搜索算法对应的模型实现在两个不同摘要任
务上的实验结果及分析。

2.2文本摘要问题形式化描述

为了阐述的方便,我们首先给出文本摘要问题的形式化描述,给定的原始文

本可表示为x=(x1,x2,…,Xn),而生成的摘要句子可表示为Y=(.yl,Y2,…,y。),
分别由其各自的单词序列组成,,l和m分别表示两者的长度,满足约束条件
n》m。用y表示原始文本的词典,由语料库中频度最高的N个单词组成。一
11

万方数据
第2章基于改进集束搜索的生成式摘要方法

般来说,文本自动摘要问题的目标函数可以表示成:

arg max P(YIX)


y∈y

,n

P(YIX)=n P(YtI(Yl'.”,Yt-1),x;。)
,=l

其中。表示训练过程中学习到的参数。从上式中,我们不难看出,摘要

句中t时刻预测的单词Y,是基于原始文本x以及t时刻之前生成的所有单
词(y1,Y2,…,Yt-1)而产生的,一般来说,Yt出自词典V。根据统计语言模型【26】,
P(YIX)求解的是字符串(yl,y2,…,乃一1)的联合概率,利用贝叶斯公式进行链式
分解可以写作该连乘形式,文本摘要的目标则是最大化条件概率P(YIX)。

2.3相关研究工作

2.3.1 基于神经网络的文本表示

在自动文本摘要中,首先面临的一个问题就是原始文本的表示问题,良好的
文本表示是后续生成高质量的摘要句的基础。文本表示是指将自然语言符号转
换成数学形式,便于计算机能够理解并运算,这种数学形式通常是稠密低维的实
数向量。在自然语言中,词语是句子的基本组成单元,而句子构成了文档,在研
究者们尝试合理表示词向量的同时,也有很多模型被提出用于建模句子和文档,
尤其在近年深度学习大发展的背景下,基于深度神经网络模型的语句表示研究
工作大量涌现,其优势在于其自动学习特征的表达能力,从而免于繁杂的特征工
程。目前较为主流的语句表示模型主要包括两种,即循环神经网络和卷积神经网
络。本节将对这两种模型进行具体的介绍。

@宁
图2.1循环神经网络结构示意图

12

万方数据
第2章 基于改进集束搜索的生成式摘要方法

(1)循环神经网络
循环神经网络RNN是一类以序列数据为输入,在序列的演进方向进行递归
且所有节点(循环单元)按链式连接的递归神经网络,也就是说,网络中每个循环
单元当前时间步的状态由该时间步的输入和上一个时间步的状态同时决定。如
图2.1所示,循环神经网络是同一结构的多次复制,右侧图案是其展开形式,t时
刻的状态h,不仅依赖于t时刻的输入x,,还依赖于f一1时刻的状态h川,而t-1
时刻的状态又依赖于t-1时刻的输入和t-2时刻的状态,如此递归。时序上的依
赖使循环神经网络在某时刻输出时可以充分考虑历史信息,在理论上能够对任
意长度的序列进行建模,尤其适合文本数据的处理。然而,在经典的循环神经网
络结构中,损失的梯度经过多个时间步的反向传播后容易出现极端的非线性态

势,即梯度消失问题(Gradient Vanishing Problem)1601,换言之,当序列的长度比


较大时,迭代后期梯度在反向传递到较早时刻时趋向于零,导致梯度弥散,对模
型参数的更新非常弱。
为了解决经典的循环神经网络在训练过程中存在的上述问题,研究者们对
其循环计算单元进行重新设计,提出了不同的变体,其中较为流行的循环神经网
络模型是长短记忆单元(Long Short Term Memo吼LSTM)[61-62】和门限循环单元
(Gate Recurrent Unit,GRU)1631。

图2.2长短记忆单元结构示意图

长短记忆单元LSTM是一种特殊的循环神经网络,其优势在于学习长距离
依赖信息的能力,相比于朴素循环神经网络只有一个传递状态h,,LSTM有两个
传输状态q和h,,其内部结构如图2.2所示。可以看到,LSTM结构的循环计算
单元包含了四个组成部分,分别是输XI'-J(Input Gate)i,、遗忘门(Forget Gate)工、
记忆单元(cell)c,以及输出f-j(Output Gate)0,,对于f时刻的输入,LSTM根据计
算公式(2.1-2.5)得到其对应的隐状态输出J}l,:
1 3

万方数据
第2章基于改进集束搜索的生成式摘要方法

if=仃(I嵋f■+Whjh,一1+bj) (2.1)

六=仃(w乞,_+W'hfhf一1+bf) (2.2)

cf 2‘o Ct_l+if o tanh(14ZxcX,+rvhch卜l+bc) (2.3)

0t=盯(1吒D■+VehDhf—l+bo) (2.4)

hf=0f o tanh(ct) (2.5)

其中。表示将两个向量中对应元素相乘得到新的向量,仃(.)表示Sigmoid激活函
数,tanh(・)是双曲正切函数。-表示t时刻的输入,bi,b,,b。,b。表示偏置项,不
同的肜分别表示权值矩阵。

.,/x

h}』

----◆h

图2.3门限循环单元结构示意图

门限循环单元GRU是另外一种应用广泛的循环神经网络变体,相较于长短
记忆单元,GRU的优势在于其结构比较简单、易于实现、收敛速度快。标准的

GRU单元结构如图2.3所示,其通过重置门(Reset Gate)rt和更新门(Update Gate)

Z,来保证模型对较长句子信息的记忆能力。根据t时刻的输入向量x,和t一1时
刻的隐状态hf_l,GRU循环计算单元根据公式(2.6-2.9)计算当前时刻的输出,

rt=仃(彬xXr+Wrhhf一1+br) (2.6)

hI=tanh(Wxf+Ver(r,o hf—1)+b^) (2.7)

2f=盯(w乞xXf+l吒_Il^f一1+bz) (2.8)

hf=(1一zf)o h卜l+Zr o hf (2.9)

其中。表示将两个向量中对应元素相乘得到新的向量,仃(・)表示Sigmoid激活函

数,tanh(・)是双曲正切函数。b,,b^,b:表示偏置项,不同的缈分别表示权值矩
阵。

14

万方数据
第2章基于改进集束搜索的生成式摘要方法

64 1024 S12

采样层 全连接层

图2.4卷积神经网络结构示意图

通过上述计算对各时刻输入的字符进行编码后可以得到其特征向量,最终
得到原始文本的中间语义表示,进而通过解码逐一生成摘要句中的词语。

(2)卷积神经网络

卷积神经网络CNN同样可以用于实现文本表示。不同于上节介绍的循环神
经网络能够直观地应用于文本数据,捕捉文本序列中的时序依赖,CNN最初只
被用于图像任务。CNN通过事先设定大小的卷积核从图像中提取出特征,间隔
地对特征作用最大池化操作,得到不同层级的、由简单到复杂的特征,如线、面、

复杂图形模式等,如图2.4所示。
显然,CNN的特点在于其能对层次特征进行提取,且能够实现卷积操作的
高效并行。为了在文本任务中利用这个优势,研究者提出【64】使用词嵌入方法获
得文本中词语Id3,的分布式词向量表示X,,则长度为L的句子可以表示为矩阵
A=[X。,X,,...,XtiT,在这种情况下,句子矩阵可以被作为图像处理,使用CNN
在其上通过设定窗口大小的滤波器进行卷积操作,获得局部特征序列。
在摘要任务中,现有的用于文本表示的编码器多采用单一神经网络结构,而
循环神经网络和卷积神经网络各有其局限性【65】,因而我们提出一种混合神经网
络结构,旨在对两者优势进行结合,学习时序信息的同时捕获局部特征。

2.3.2集束搜索

集束搜索(Beam Search)算法【66.67】是一种启发式图搜索算法,被广泛应用于
机器翻译、文本摘要、语音识别等系统中,该算法通过在每一步扩展时将质量较
差的节点进行剪枝,仅保留一定数目的高质量解,以达到减少搜索过程所占用的
时间和空间的目的,提高搜索效率。然而在实际应用中,集束搜索生成的句子并
非毫无瑕疵,这是由于这种算法是不完全的,可能存在最优解被丢弃的情况。另
外,我们观察到最后保留的候选句往往从同一得分较高的节点扩展而来,使得生
成结果趋向于同质化,差异性比较小,可能会出现候选句均与原始文本语义无关
1 5

万方数据
第2章基于改进集束搜索的生成式摘要方法

的情况,这无疑会导致计算力的浪费。

近年来针对集束搜索的研究工作大致可分为两类,一方面是从增进句子的
多样性入手,另一方面则旨在提高生成句的质量。其中比较有代表性的研究包

括:Vijayakumar等人【68】等人在目标函数中加入一个额外项用于衡量候选句之间
的差异性,与之类似,Freitag和A1.Onaizan等人[691通过限制从同一个根节点中
扩展出来的候选句对同质化现象进行避免。最近的研究中,多样性集束搜索已经
被应用到了自然语言处理的多个任务中[70-71】,然而,这些研究仅着眼于生成多
个形态上有区别的句子,并不能保证其语法结构上的合理性。为了解决这个问
题,我们提出两种改进的集束搜索算法,旨在通过设计一种新的得分函数对生成
句子的可读性与连贯性进行增强,从而生成更高质量的候选摘要句。同时,我们
观察到在解码过程中加入一定的额外信息[72-751能够有效指导生成句的选择,提
升语言生成质量,这启发我们利用关键短语以增强原始文本与生成的摘要句之
间的语义相似性。

2.3.3文本摘要自动评价指标

评价方法对于一个研究领域非常重要,是牵引这个领域向前发展的首要因
素,也就是说,高质量的评测方法和文档摘要技术的进步是相辅相成的。早期的

部分工作依赖人工对生成的摘要进行评价,具备领域知识的专家对摘要句进行
分析,从中寻找关键点并计算要点的覆盖率,根据覆盖率对句子打分。这种基于
人工评价的方法可信度和灵活度较高,因为人类可以推理、复述并识别意义相近
但形式上不同的文本单元,然而这种方法在一定程度上依赖于主观判断,且受
限于较低的效率,花费的时间成本过高,不适用于大规模自动文摘数据的评价。
因此,如何合理地、有效地对生成的摘要进行评价成为了自动文本摘要的一个
重点和难点。在自动文本摘要漫长的研究历程中,研究者们制定出了许多相对

可行的自动评测方法,这些方法可以大致分为两大类,即内部评价标准(Intrinsic
Methods)和外部评价标准(Extrinsic Methods)。内部评价标准的应用比较广泛,在
实现上需要借助参考摘要,通过将模型生成的摘要句与参考摘要进行不同粒度
上的比较,吻合程度越高则表示生成摘要的质量越理想。外部评价标准则是通过
将系统生成的摘要应用到某项具体的任务中,根据该摘要对这项任务完成度的
贡献大小来考量其生成质量。总体上来说,这两类方法都需要决定原始文本中最
重要的部分并在生成的文摘中对该部分进行识别,同时基于文摘句子的语法和
连贯性对其进行可读性的考量。本节将对几种常见的评价标准作出介绍。

(1)外部评价标准

这种方法不需要借助参考摘要对生成摘要的质量进行判断,而是在某些具
体的文本相关的应用(例如,文本分类、文本聚类、文本检索等)中将原始文本替
16

万方数据
第2章基于改进集束搜索的生成式摘要方法

换成为系统生成的摘要,用于任务的执行,在这种情况下,如果该应用的性能得
到了提升,则认为生成的摘要是高质量的摘要。
(2)内部评价标准
①Edmundson
Edmundsont76】评价方法于上世纪六十年代末被提出,是一种较为简单的方
法,既可以通过客观比较生成的摘要与参考摘要的句子重合率的大小来对其进
行评价;也可以由专家进行主观评估,通过比较生成的摘要与参考摘要所包含的
有效信息,对待评估的摘要句子进行等级评分,将其划分为:完全不相同、基本
相近、十分相近等类别。
Edmundson方法以句子作为基本单元对生成摘要和参考摘要进行比较,且
参考摘要均由专家从原始文本中抽取且严格按照原文顺序排列得到。具体的重
合率P计算方法由公式(2.10)给出:

口=一X
Ar

p:』土!竺生×100% (2.10)1
IZ.

Ate{erence

其中,Ⅳm叭^表示重合的句子数目,Ⅳr。,e,删。表示参考摘要的句子总数目。
则每个生成摘要的重合率为根据n个专家分别给出的参考摘要计算得到的

重合率P,,f∈{l,2….,甩)的平均值卢,可由公式(2.11)得到:

卢=∑pf肌100%
f=l
(2.11)

②ROUGE

ROUGE(Recall.Oriented Understudy for Gisting Evaluation)[77】是一种基于召


回率的相似性度量方法,当前被广泛应用于DUC(Doeument Understanding Con.

ferenee)会议①的自动文本摘要测评任务中。其基本思想是将系统生成的摘要和

给定的参考摘要的门元共现统计量作为评价根据,本质上相当于比较系统生成
结果和参考答案之间在连续若干个词上的匹配程度,然后对生成的摘要句子进
行打分。根据语义单元的不同,ROUGE指标有多种变体,其中最常用的衍生指
标包括下列几种:

・ROUGE—L:该指标表示生成的摘要句和参考摘要的最长公共子序列(Longest
Common Subsequence,LCS)的相似度。生成摘要和参考摘要的LCS越长,
则其质量越高。

・ROUGE.W:这里的W表示Weighted,是对最长公共子序列相似度的加权
比较。

①http://duc.nist.gov/

17

万方数据
第2章基于改进集束搜索的生成式摘要方法

・ROUGE—S-这里的S表示skip.bigram,即允许bigram中的两个单词不相
邻,例如“I feel goodtoday”中“feel today”可视为skip—bigram,却不能称
其为bigram。
・ROUGE—SU:是对ROUGE—S的补充,在考虑skip.bigram的同时加入了
unigram,即允许bigrarn的两个词之间插入另外的词。
・ROUGE-N:该指标比较句子在n.gram粒度的共现召回率,n.gram表示n
元词,可由公式(2.12)计算得到。

R。uGE一Ⅳ=—Z{S五e{r;ef:er石enc:e:sum:m:::::ari:= es}:Z_g∑ra:mn=:::eS:C了。石u磊ntm磊a石tch而(gramn)(2.12)
Z—S∈{陀厂已,已一ce sHmm口一esl厶譬,口卅.∈S、7 L,“¨‘\5’“,,‘H,

其中,S表示参考摘要句,该摘要句中总的n—gram数目用Count(gram。)表示,生
成的摘要句与参考摘要之间匹配的n-gram数目则用Countm耐。^(gram。)表示。
在这一指标簇中,ROUGE.1和ROUGE.2最为常用,ROUGE.1计算单词

(unigram)的召回率,并不考虑词序,例如“pencil case”和“case pencil”有相同


的ROUGE.1得分;而ROUGE.2计算双连词(bigram)的召回率,在这种情况下
“pencil case”与“case pencil”并不匹配。

③Pyramid
Pyramid是一种基于摘要内容选择单元(Summary Content Units,SCU)178]的

方法。SCU表示不长于一个从句的核心内容,由不同参考摘要中表达同一语义
的贡献者集合、唯一的索引、权重和自然语言标签组成。SCU被越多参考文摘
要所包括,则其权重越大。所有的SCU按照权重进行排序,相同权重的排列在
同一行中,由上至下重要程度递减【79】。

对于给定的n篇参考摘要,SCU权重的最大值可以取n,最小值为l。SCU
按照权重可以分为n个类别,一般来说,SCU的数目将随权重值的增大而减小,
即权重越大的类中包含的SCU越少,因此,类别从n到l的SCU的构成呈现一

个金字塔(pyramid)形态,如图2.5所示,w表示权重。
设第正层的SCU个数为l正I,待评测的系统摘要中出现在正层的SCU数

目为q,则待评测系统摘要中SCU的总权重为d=∑:l D,,而含有x个SCU
的最优摘要的SCU权重可由公式(2.13)计算:

M口 X = × 正 + × Y 一 互 f2.13)
。∑卅 。∑__i}
其中J=maxf(∑:j I墨I≥x),为从上往下累加pyramid各层的SCU个数时,
第一个满足累加个数大于等于x的层号。摘要的pyramid评测分数为D与Max
的比值【801。

18

万方数据
第2章 基于改进集束搜索的生成式摘要方法

=1

图2.5 自动摘要评价指标pyramid示意图

Pyramid方法与人工评价的一致性较高,但其局限性在于进行人工标注的成
本较高,且各个语义核心单元的大小并不固定,难以自动生成。
④METEOR
METEOR评价指标由Denkowski和Lavie于2014年提出【8l】,该方法从匹配
(Exact)、词干(Stem)、同义词(Synonym)和释义(Paraphrase)四个方面对生成的
系统摘要和参考摘要进行比较,在计算METEOR得分前需要预先给定一组基于
WordNet同义词语料的校准(alignment),这一校准的实现则需借助最小化对应摘
要句中的语句块。可以认为METEOR分数是待测评系统摘要和给出的参考摘要
之间的准确率和单字召回率的加权调和平均,解决了仅基于精度的评价指标(如
BLEU)中固有的缺陷,与人工评测结果的一致性较高。

2.4结合注意力机制的序列到序列文摘模型

本文所提出的基于改进集束搜索的自动文摘模型如图2.6所示。给定一段原
始文本作为输入,我们首先将该序列中的单词映射到连续的词向量空间得到其
向量表示,并使用结合卷积神经网络和循环神经网络的混合神经网络编码器编
码得到其隐状态。在原始文本被编码完成后,我们利用基于覆盖度并结合注意力

机制的解码器逐字生成摘要。在解码过程中,本模型提出了两种改进的集束搜索
算法,分别从语法增强的角度和文本多样化角度对生成的候选摘要句进行约束,
得到其初始分数;接着引入一个基于关键短语的重排序模块对这些候选句进行
再处理,同时考虑其原始得分和所包含的关键短语的重要性得分,最后选择得分
最高的候选句子作为生成的摘要。
1 9

万方数据
第2章基于改进集束搜索的生成式摘要方法

越合编码器

图2.6基于改进集束搜索的自动摘要模型结构

2.4.1 混合神经网络编码器

为了解决文档表示问题,本文提出了一种全新的编码器形式,该编码器结合
了卷积神经网络和深度循环神经网络的结构特点,显式地利用卷积层来捕获目
标词汇单元及其邻近单词之间的上下文关系,强化了语境的作用,是对传统的基
于单一循环神经网络的编码器结构的一个很好的补充。基于此,本编码器既能学

习到循环神经网络所擅长的时序信息和长距离依赖,同时能检测到局部时序无
关的特征,从而得到高质量的原始文本的表示,为摘要生成打下基础。

如图2.7所示,我们采用了双向LSTM作为编码器的基本计算单元,因为双
向建模方法可以更完整地捕捉序列中各单元之间的关联。具体来说,输入的原始

文本序列(xl,X2,…,h)被映射为前向隐状态向量西l,葛2,…,葛。)和后向隐状态向
量(J}21,无2,…,万。),每一时刻的前后向隐状态按照公式(2.14)进行拼接作为该时
刻的整体隐状态表示:

h,=[hi;hf】 (2.14)

为了实现多层神经网络间的梯度传递,我们在两层循环神经网络之间使用
了残差连接【82】以便于其训练,残差连接能够帮助构建更深的网络,缓解梯度消
失等问题。具体地,每一时刻底层LSTM的输入被添加到其输出,其总和作为
输入被馈送到第二层LSTM,如图2.7中红色箭头所指示。在循环神经网络之上,
我们级联了一层无池化操作的卷积神经网络,其目的是利用卷积层对相邻状态
之间的局部特征进行抽取,如公式(2.15)所示,第i个输入的隐状态h,由卷积网
络窗口内其前后相邻隐状态共同决定。
20

万方数据
第2章基于改进集束搜索的生成式摘要方法

hi=a(o・h(i一(埘一1)/2):(f+(彬一1)/2)-I-6) (2.15)

其中猁表示卷积神经网络的滤波器窗口,我们将其大小设置为3。盯表示Sigmoid
激活函数,b则表示公式的偏置项。

卷秧厶:

炳丘;)议I:qLsT^I

图2.7混合神经网络编码器结构

2.4.2基于覆盖度的解码模块

本模型的解码器由一层单向LSTM组成,其中每一时刻的隐状态勺由其前
一时刻的隐状态s卜l和前一时刻的输出巧一1共同决定,其计算如公式(2.16)所
示:

s』=LSTM(sj一1,乃一1) (2.16)

我们利用注意力机制来刻画在J时刻目标输出隐状态勺与其相关的原始文
本之间的软对齐,也就是说,注意力机制旨在对输出与输入的词建立一种权重关
系以使解码器决定当前输出的词与哪个输入词的关系更密切。解码器按照公式
(2.17)动态地计算每一时刻的上下文向量cj,而非使用~个固定的值,这样能确
保摘要句能够捕获到原始文本中的重要信息。

= ^
勺 口 (2.17)
n∑Ⅲ
其中,%』是按照公式(2.18—2.20)计算得到的归一化结果,用于反映原始文本中
2l

万方数据
第2章基于改进集束搜索的生成式摘要方法

各状态在摘要生成时的注意力分布。

exp(k0)
(2.18)
%5聂鬲而
ku=vTa tanh(Uahj+比s卜l+K勺一1) r2.19)

ed=∑% (2.20)

其中k,,反映了输入i时刻状态与输出.7时刻状态的匹配程度,如公式(2.19)所
示。e,则是覆盖度向量,它通过将J时刻之前原始文本中的单词x,的注意力得分
进行累加,如公式(2.20)所示,用以衡量其在摘要生成过程中被利用的程度。为
了达到使模型更多地注意原始文本中当前未被利用部分的目的,覆盖度向量被
作为一个额外的输入加入传统的注意力得分计算公式中,该做法能够有效地减

少摘要生成中的词语重复问题。这一修改的动机在于,在文本摘要生成过程中,
如果原始文本中的某个单词与当前时刻将要生成的内容高度相关,则该单词在
此时刻会被赋予一个较高的注意力得分,出于对人类书写摘要习惯的模仿,自然
地,该单词对接下来生成过程的贡献将在很大程度上减小。
此外,为了缓解语言生成过程中的集外词问题,本模型在解码过程中采用拷

贝网络(CopyNet)的方法,其功能可以看作是对抽取式和生成式摘要生成方法的
结合。如图2.5所示,解码器模块在每一时刻产生两个独立的概率值,即lf,,和
悱。生成模式下,在预测的每一步动态计算一个生成概率lf,,如公式(2.21)所示,
该单词来自预定义的词汇表y。

(2.21)
%。p(乃2忌%,蚋)2曩exp(丙e。9
0n=嵋%一1+%cn+w3sH (2.22)

其中0。可由公式(2.22)计算得到,M,%,比则是可训练的权值矩阵。
另一方面,拷贝模式下,模型通过公式(2.23)计算词表外词语直接来自原始

文本的概率虬,这种模式可视作一种对抽取式摘要方式的融合,其中肜同样是
可训练的权值矩阵,而b。则表示偏置项。

虬=p(yj=xf)=tanh(17Vchj+bc) (2.23)

2.4.3摘要候选语句生成

模型在预测阶段没有参考摘要的指导,解码器的工作过程是:接收编码器的
<eos>(end of sentence)作为开始解码的信号,生成一个字符后将其作为下一时刻
的输入,重复这个过程直到生成的句子达到设定长度或生成<eos>符号则解码
22

万方数据
第2章 基于改进集束搜索的生成式摘要方法

结束。预测的目标是根据当前模型选择概率最大的字符作为输出,然而得到这个
最优解的复杂度一般非常高,在实际应用中,为了减小搜索空间,我们通常采用
集束搜索的策略进行近似求解。
(1)传统集束搜索
集束搜索是在使用维特比解码算法的精确搜索和使用贪心思想的近似搜索
之间的一种折中方案,为了减少搜索范围降低问题复杂度,在每一步深度扩展的
时候,仅保留毋个最高得分的输出,而对质量较差的节点进行剪枝,最后从B
个输出结果中选择得分最高的句子作为最终的输出。这里的B被称为集束宽度
(Beam Width),而每一步扩展的评分函数则是当前时刻为止生成的各个单词的对
数似然的总和,如公式(2.24)所示。

IXI

姗厂P(Y_l,Y,Ix)=∑logp(ytlY<,,x)
f=l
(2.24)

其中x表示原始文本中的字符,Yt表示当前时刻生成的单词,X一1表示到t--1时
刻为止扩展得到的候选句子序列,即V一1={ylY2…肼一1 l。
集束搜索的伪代码表示如算法2.1所示,值得注意的是,在生成式摘要方法
中,模型训练阶段的解码过程中并未使用集束搜索,该算法仅在测试推理阶段的
解码过程发挥了作用,其步骤描述如下:
①输入训练好的模型参数o,设定的集束搜索宽度B及句子扩展的最大步
长丁:

②使用一个队列日存放从起始到第t步未扩展完全的句子,句子扩展时使
用的词典是原始文本使用的词典,由语料库中频度最高的Ⅳ个单词组成:
从f=1到丁执行循环:
③从日中选出B个分数最高的作为待扩展句存入S:
④对候选句进行扩展得到B×B个新候选句存入S 7;

⑤对S’中新生成的句子按照公式(2.24)进行评估;
⑥将S’中的句子存入候选句子队列日;
⑦若日中候选句句末扩展生成<eos>符号的个数达到B个,则跳出当前
循环;

⑧扩展达到了最大步长丁时循环结束;
⑨选择日中分数最高的句子作为生成的摘要句。
不难看出,这种做法将单词级的概率之和与序列级的概率简单地等同起来,
而忽略了n.gram(耳P序列级别)的特征,并不能保证所生成句子的可读性和信息
性。另外,这种搜索打分方式明显会带来与评估之间的不匹配,因为用于评价的
ROUGE指标更倾向于对序列级别的同现打出高分。这些问题证明了对传统的集
23

万方数据
第2章基于改进集束搜索的生成式摘要方法

算法输入:B÷_beam width;//设定的集束宽度
日卜empty hypothesis queue;//空候选句子队列
丁÷-max steps;//扩展最大步长
算法输出:X//生成的摘要句子
l for t=1_丁d0


S÷_pop best B unfinished hyps from H;//从队列中选择丑个未扩展完
全的句子:
3 S’÷-expand S to get B×B new hyps;H将上一步中得到的丑个句子进
行扩展得到B×B个新的候选句子:
4 Evaluate scores
ofhyps in S’with Eq.(2.24);//对这些候选按照公式
(2.24)进行打分;
S Push S’into H;//将这些句子压入候选句子队列中;
6 if#(finished hyps in日)≥B then

7 break//若队列中扩展完全的候选句数目达到B个则跳出该循环,
或达到最大扩展步长时循环结束
8 end

9 E÷_best finished hyp in H//选择得分最高的候选句作为最后生成的


摘要句
10 end

算法2.1:集束搜索伪代码

束搜索算法进行修改的合理性。

(2)改进的搜索算法I:语法增强的集束搜索

首先,本文针对集束搜索设计了一种新的评分函数,该评分函数部分保留了
传统的评分函数(见公式(2.24)),因为每个字符的对数似然之和在一定程度上反
映了序列中字符间的依赖关系。除此之外,为了确保语法的合理性,我们在评分
函数中加入了一些额外的指标以检查当前字符的生成是否将导致低质量的候选

句序列。低质量序列的特征包括:包含未知字符、包含重复的n.gram或重复的
实体(例如,重复出现连续的三个词或相同的词仅由逗号分隔)等。另外,候选
句序列若以冠词或介词等只能提供低语义信息的词作为结尾或者呈现出较差的
语法结构(例如,序列中含有奇数个双引号或者括号不能配对等)时也会受到惩
罚,我们用malformedscore(score。)来描述上述不合要求的句子特征。此外,我
们观察到在生成模式下产生的字符(即并非直接从原始文本中拷贝的字符)往往
具有较低的对数似然值,我们在评分函数中添加了额外的得分abstractive score

(score。)对这种生成方式进行奖励。综上,本模型利用修改后的集束搜索的评分
24

万方数据
第2章基于改进集束搜索的生成式摘要方法

函数来获得生成的候选序列的原始得分(scorep),如公式(2.25)所示,

IyI

姗r勺=∑,。gP(YtIY<,,x)一五姗,.em+心。,.%
I=1
(2.25)

其中A和∥分别是两个附加得分的权重,我们将其初始值设置为O.25,然后在
训练集上进行动态调整。
(3)改进的搜索算法II:多样性集束搜索

Beam Search
*cwtⅣB c“”,¥oⅢ m
A steam engine train trayelling down train tracks
m A steam engine train travelling down tracks.
* ‰ m m ・
A steam engine train trayelling through a forest.
。 +一兰…A steam engine train travelling through a lush green forest.
;一M…黔狮。 髀A steam engine train travelling through a lush green countryside
A train on a train track with a sky background.

Diverse Beam Search

4。。。。。P。三?8:‘AA ssteateamm ee嘲nginnee tratra…vellⅢingedl{lonawnthrotrai:0篇琵高.


。。。。。一一。嘲筠、 AAi doldd i:ii:ee㈣nginn;黑rai:裟raveemlli;n鬻:粥ow“n岛!hraain嗡traec§k£?。
№ ” A black train is on the tracks in a wooded area.


n*t 。 m A blackIralnis onthetracksin a ruraI area.

图2.8两种集束搜索算法的比较

上述搜索算法虽然在语法上进行了改进,然而通过实验,我们观察到应用传
统集束搜索生成的多个候选句子之间往往差别并不显著,在句式以及每一时刻
生成的词语上都相当趋同,排名靠前的几句话表达的都是相似的语义,这对后续
的排序选择提出了不小的挑战。为了解决这个问题,我们在语法增强的集束搜索
算法的基础上提出一种多样化集束搜索(Diverse Beam Search),在得分函数中引
入一个惩罚因子,旨在降低生成的候选句之间的相似度,得到更加多样化的生成
序列。
本文提出的多样化集束搜索的具体做法介绍如下:在t时间步,解码器保留了

B个待扩展的候选句子,可表示为K1,X2….,×B,其中妒=(y:,.y!,y:….,谚},b∈
{1,2….,B)。以砷为例,当其扩展时,它保留得分最高的B个词语,我们将这些
词表示为y兰,b∈{1,2….,jEi),b’∈{1,2….,B】。因此,新扩展的候选序列可以表
示为【砖,蝶】。该序列的多样化集束搜索得分DBS(Yt6,ybr+l,bI lx)按照公式(2.26)
进行计算:

DBs(p,蟛Ix)=∑z。gp(删IY,6,x)一y67 (2.26)

其中,y表示多样性比率,通常将其设定为0.15,b’表示当前候选序列在所有与

25

万方数据
第2章基于改进集束搜索的生成式摘要方法

其从同一节点扩展而来的候选序列中的得分排名。容易看出,排名越靠后,则惩

罚项y6 7越大,即实现了对从同一节点扩展而来的得分较低的序列的剪枝。
接下来,基于这个多样化得分,我们融合了提出的第一种改进集束搜索,根

据公式(2.27)计算得到生成的候选序列的原始得分sc。r勺(妒,删I.x):
sc。,.ep(v6,yrb+,blt Ix)=DBS(Yt6,y搿Ix)一Asc。,.em+∥sc。,.e口 (2.27)

其中的超参数与公式(2.25)设置相同。传统集束搜索和多样性集束搜索算法生
成候选句的比较如图2.8所示,容易看出,传统集束搜索生成的候选句在形式和
语义上区别并不明显,而多样性集束搜索则能够鼓励生成句式更灵活的候选句,
在更大程度上覆盖原始文本的核心内容。
(4)基于关键短语的重排序机制

本文提出通过一种基于关键短语的重排序机制对集柬搜索得到的候选序列

进行最佳摘要句子的选择。具体来说,这种机制根据序列的原始得分score。与
其和原始文本中重合的关键短语的重要性得分对生成的候选序列进行重新排序,
选择其中得分最高的作为最后的摘要。直观上来说,关键短语中包含了可用于构
建简明摘要的代表性实体,能够很好地捕获原始文本中的要点,因此我们认为,
摘要候选序列与原始文本中关键短语的重叠越多,表示该摘要包含的信息量越
大,后文中的定性分析证实了这一假设。
总的来说,基于关键短语的重排序机制主要分为三个步骤。首先,我们使
用基于图的无监督排名模型Tex爪ank算法从原始文本中提取出关键短语。具体

地,原始文本的每个词汇单元被视为图的节点,而图中的连边则指示了预先设定
好的窗口大小内的词汇单元之间的共现关系,连接节点K和K的边的初始权重
W,,被随机赋初始值,然后根据公式(2.28)迭代计算节点K的重要性得分直到收
敛。

s(K)=(1-d)+d木∑ s(巧) (2.28)


VjEadj(Vi )∑K∈口dJ(5)Wjk

其中d表示阻尼因子,通常被设置为O.85,adj(V)表示节点y的邻居节点。
第二,在图模型构建完毕后,将通过一个语法过滤器提取原始文本中的关
键短语。我们设置语法过滤器为(JJ)★(NNP NNPS NNS NN),其
中JJ表示形容词或序数,NNP和NN分别表示专有名词和普通名词,NNPS
和NNS是它们的复数形式。可以看到,该过滤器主要由名词组成,这是因为名
词短语在捕捉文本主题的能力上较其他词性的短语有更强的优势,而其他词性
的短语在神经网络端到端模型更易生成。我们设定符合条件的关键短语七p的得
26

万方数据
第2章 基于改进集束搜索的生成式摘要方法

分是它所包含的词汇单位y的重要性得分的总和,可根据公式(2.29)计算得到,
其中len(kp)表示关键短语的长度。

sc。,.ec七p,=黼
最后,给定一个候选序列K,我们利用其原始分数及其对应的关键短语得分
c2.29,

共同表示其与原始文本的相关性。另外,为了避免此得分函数对长句的偏好,我
们将该得分除以候选序列的长度len(Yt)以达至U I)t--化的目的。因此,最终得分
score(Y1)由公式(2.30)给出:

姗似驴墨譬器掣
经过关键短语重排序模块处理,我们将得到各候选序列的分数,然后选择得
亿3。,

分最高的候选序列添加到摘要句子中。

2.5实验

在本节中,我们介绍了上文所提出的两种改进集束搜索算法在包括句子摘
要(Document Summarization)和标题生成(Headline Generation)在内的两个摘要
任务上的表现,并将其与多个当前最先进的系统在常用数据集上的摘要生成结

果进行对比,实验结果表明了本模型的优越性。我们使用KEGBS(Keyphrase En.
hanced Grammar Beam Search)表示第一种基于关键短语的语法增强集束搜索算
法,KEDBS(Keyphrase Enhanced Diverse Beam Search)表示第二种基于关键短语

的多样性集束搜索。

2.5.1 数据集及实验设置

表2.1数据集详细信息

首先我们对本实验两个任务中所采用的数据集分别做出介绍,其详细信息
如表2.1所示。

27

万方数据
第2章基于改进集束搜索的生成式摘要方法

CNN/Daily Maill28】数据集中包含了大量长篇新闻文章及其由多句话组成的
摘要句。我们沿用了与之前工作【3l】相同的数据集划分方式,训练集、验证集和
测试集中的文章.摘要对的数量分别为287226,13368,11490。该数据集衍生于
篇章问题回答任务【83】数据集,属于多句摘要。
BBCl84】包含来自BBC新闻网站的2225篇中等长度的文章及其摘要,对应
了2004至2005年间五个主题下的新闻文档,其对应的摘要实际上是新闻标题。
由于本文中的实验设置与新闻主题无关,我们将这些文档随机打乱并分为三个

部分:训练集(1 100篇),验证集(625篇)和测试集(500篇)。

Inspec[ss]是一个科学期刊摘要数据集,由2000个简短文档组成,其标题被
视为摘要。我们使用1000篇文档作为训练集,在由500篇文档组成的测试集上

对模型进行评估。

矮。山oflo芷 o

图2.9数据集CNN/Daily Mail上的集束宽度选择

我们使用深度学习框架tensorflow框架实现了此模型。在编码器部分,由于
硬件条件所限,我们选择了两层双向循环神经网络LSTM,其中每个门的隐藏单
元设置为200,卷积层没有进行池化操作,窗口大小设置为3,解码器部分则是
一层隐藏单元为400的单向LSTM。词向量维度设置为200,区别于之前的模型,
我们没有使用预先训练的词向量对其进行初始化,而是在训练过程中进行学习。
关于优化器的选择,我们使用了Adam优化器并采用了其默认超参数设置:学习

率口=0.01,卢I=0.9,皮=0.999,e=le一8。其他参数在【-0.1,0.1】的范围内
进行了随机初始化。为了减轻解码器在训练阶段和生成阶段所输入数据的概率
分布不一致的问题,我们以0.2的概率采样模型的输出并返回,将其用作同一批
2R

万方数据
第2章基于改进集束搜索的生成式摘要方法

次的第二次训练迭代的输入。此外,验证集上的损失被用于实现提前停止(early
stopping)以防止过拟合。
在CNN/Daily Mail数据集上,原始文本和目标摘要间共享词汇表,大小为
50k。批次大小设置为16,最大编码步长设置为350,最大解码步长则为80。在
GTX.1080 GPU显卡上训练历时3天8小时,共经历了148168次迭代(约8个

epochs)至收敛。在测试时,我们将集束宽度设置为3到12,实验发现其值取5
时能够得到最优结果,如图2.9所示,其纵坐标是集束宽度不同时各项指标得分
与其平均数之差。

L.。。。.到
5尸■≯孓■——_ ,

卜一4、、_一+t、、\孓、
\、\

。} i,、心、 I
蓍|

岂|

一、1‘≮~。一氘j
、一、≮≮二~~:。
\瓦
\文
一点”j

芷.5} \、 j

国丰
、滏、、l

1o L—————————————————。—————-—————・—————————————————————一

(b)Inspcc

图2.10数据集BBC和Inspec上的集束宽度选择

29

万方数据
第2章 基于改进集束搜索的生成式摘要方法

在BBC和Inspec数据集上,由于摘要长度较短,我们将词汇表大小设置为
9k,最大解码步长分别设置为8和15。由于数据集规模小,训练时间相对较短,
平均能够在15分钟左右(13 epochs)收敛。如图2.10所示,BBC和Inspec数据集
上集束宽度分别取5和4时模型能得到最优ROUGE分数。

2.5.2模型训练

对于模型的训练,我们采用最大似然估计(Maximum Likelihood Estimation,

MLE)策略在给定原始文本X和参数0的情况下最大化每个目标词的条件概率,
该方法等效于按照公式(2.31)求解每一时刻目标单词的负对数似然作为损失函
数:
1 ”
£一斋艺log(p(ylx,目))
o—o
Q,功∈D
(2・3 1)

其中D表示训练数据集,(x,y)表示原始文本.摘要句子对。
在训练过程中,模型将参考摘要(即目标序列)中的真实字符作为解码时下
一时刻的输入,然后最大化下一个字符的概率。然而在模型预测阶段由于参考摘
要的缺失,我们只能将前一时刻模型生成的字符作为输入,生成下一个字符。不
难发现,解码器在训练阶段和生成阶段所输入数据的概率分布并不一致,这就导
致所生成的序列可能受到误差累积的不良影响。为了解决这个问题,我们在模型

训练时使生成的字符以一定的概率对解码器可见,具体来说,在对同一批次的数
据进行第二次迭代时我们以0.2的概率使当前时刻生成的字符输入到解码器中

指导下一时刻的字符生成,这样即使前面生成错误,但模型的训练目标依然是最
大化真实目标序列的概率,增强了模型的容错能力。
另外,我们可以看出上述训练目标旨在减小词级损失,然而实际评估过程却
是对生成的摘要进行序列级的度量。这种不一致可以通过本文提出的基于关键
短语的重排序机制得到解决。

2.5.3实验结果及分析

(1)句子摘要任务

在句子摘要任务上,我们采用常用的CNN/Daily Mail数据集,对比的基准
模型包括多种先进的生成式摘要方法和一种抽取式摘要方法。
对其简单介绍如下:
ABS&ABS+【251以卷积词袋模型为编码器,将具有局部注意力机制的神经语

言模型作为解码器。ABS+模型与ABS模型的不同在于其加入了一些额外n.gram
特征对输出进行调整。words.Ivt2k.temp.art[28】的特点是其利用一个结合时序注意
力机制的双向GRU作为编码器,同时加入词性等特征,解码器部分是一个单向

30

万方数据
第2章基于改进集束搜索的生成式摘要方法

GRU,该模型为了解决计算瓶颈,采用了大词表技术。PGNet&PGNet+coveragel31】
采用指针生成网络旨在解决词表外词语问题,PGNet+coverage模型与PGNet模
型相比,增加了覆盖度机制模块,能够在一定程度上缓解词语重复生成的问题。
KIGN&ⅪGN+P【86】最大的亮点在于其提出一个关键信息网络,将其融入到原始
文本的编码表示中,KIGN+P与KIGN的区别在于前者增加了一个预测机制指导
句子生成。SummaRuNNer[87】是一个先进的抽取式摘要系统,与上述生成式方法

不同,它能够将原始文本中的片段直接粘贴到摘要句中,故而在基于n.gram同
现的自动评价指标上有很大的优势,比较难以超越。

我们采用ROUGE指标评估所生成摘要的质量,其变体用于衡量参考摘
要和生成摘要的n.gram同现情况。我们利用pyrouge包①计算得到ROUGE—l,
ROUGE.2和ROUGE.L得分,直观上来看,ROUGE.1得分代表了自动摘要的信
息量,ROUGE.2得分则评估了自动摘要的流畅性,而ROUGE—L可视为摘要对
原文的涵盖率。表2.2展示了不同模型在CNN/Daily Mail数据集中上述指标的
得分,其中基准模型的得分均来自其对应研究工作中的报告结果。为了检验我们
所提出的混合神经网络编码器的效果,KEGBS.和KEDBS.表示模型的编码器采
用经典的两层双向LSTM作为对照,KEGBS和KEDBS则分别是对应两种基于
关键短语的改进集束搜索的完全实现。

表2.2数据集CNN/Daily Mail上的ROUGE分数(R_1、R-2及R-L均为F-score值)

注:R是ROUGE的简写。根据官方ROUGE代码,计算得到的ROUGE分数的置
信水平是95%。

①https://github.com/bheinzerling/pyrouge

3l

万方数据
第2章 基于改进集束搜索的生成式摘要方法

如表2.2所示,我们的KEDBS模型在三个指标上均获得了最高分。在生成式
方法的范畴内,KEDBS模型显示出了压倒性的优势,与目前最优的PGNet+coverage
模型相比,三个指标均有不同程度的提高(+0.50ROUGE.1,+0.24ROUGE.2,+O.32
ROUGE.L)。我们注意到ROUGE.1和ROUGE.L分数的增加比ROUGE.2更显著,

这主要是因为关键短语重排序模块中语法过滤器模式的设置使得从CNN/Daily
Mail数据集中提取出的关键短语鲜有二元词组(bigram),而其中大量存在的n.
gram(n≥3)在很大程度上提升了最长公共子序列同现的性能。另外,值得注意
的是,我们的四种模型实现不仅超过了最先进的生成式方法,更是取得了优于抽
取式模型SummaRuNNer的实验结果,其中最好的表现来自KEDBS模型(+0.43
ROUGE.1,+1.32 ROUGE.2,+1.40 ROUGE.L】,ROUGE.2和ROUGE.L分别取

得了4%和8%的提升。这一点是很难得的,因为抽取式模型相较于生成式模型
有着固有的优势,其ROUGE指标很难被击败,这三个指标上得分的提高有力地
地证明了本文方法的有效性。
此外,通过比较KEDBS.和KEDBS模型的得分(或KEGBS.和KEGBS模型

的得分),可以验证我们提出的混合神经网络编码器结构的有效性。显然,这两
组对照模型中ROUGE得分的提升应归功于将KEDBS.和KEGBS.中传统的双向
LSTM编码器替换为KEGBS和KEDBS中编码器的LSTM和CNN级联结构,我

们可以推断,这种混合神经网络结构捕捉到了原始文本中更多的特征,得到了更
好的原始文本表示,从而提升了摘要句的生成质量。

表2.3数据集CNN/Daily Mail上的METEOR分数

注:+stem/syn/para表示完全模式,该模式下除了精确匹配(exact match)外,额外
奖励stem,synonyms和paraphrases的匹配。

除了ROUGE指标,我们提出用另一个自动测评指标METEOR对生成的

32

万方数据
第2章基于改进集束搜索的生成式摘要方法

摘要质量做进一步评估。METEOR指标需要预先给定一组基于WordNet同义词
库的校验(alignment),能够奖励生成句子和参考摘要之间的精确(exact)、词干
(stem)、同义词(synonym)和复述(paraphrase)匹配。在本文中,我们采用了两种
METEOR模式,包括精确匹配(exact match)模式和完全(+stem/syn/para)模式。
在完全模式中,我们借鉴前人研究经验④将exact,stem,synonyms和paraphrases
的权重分别设为1,0.5,0.5,0.5。各模型的METEOR得分如表2.3所示。可以看
到,我们的模型在这两种模式下均取得了优于其他基准模型的得分,其中最好的

表现同样来自KEDBS模型,与PGNet+coverage基准模型相比在exact match和
+stem/syn/para两种模式下的分数提升分别为1.22和1.52,这显示出我们整个模
型基于关键短语的出发点与METEOR指标所考量的点非常契合。

(2)标题生成任务
标题生成任务与句子摘要任务的不同之处在于生成的摘要句子的长度比较
短,一般不超过20字。我们在BBC和Inspec数据集上对本文模型进行了训练
和评估。前者是从新闻网站上爬取的涵盖各主题的中等长度报道文章及其标题,
标题平均长度在8个字符左右,后者为科学期刊数据集,文章长度较短,标题长
度一般在12字符。考虑到这两个数据集的文本长度,我们将词汇表的大小设置
为9k,解码的最大步长设置为l 5。除此之外,实验设置与句子摘要任务相同,包
括词嵌入维度、神经网络隐藏单元数目等。

表2.4数据集BBC和lnspeex上的ROUGE分数(R-l、R-2及R-L均为F-score值)

注:R是ROUGE的简写。根据官方ROUGE代码,计算得到的ROUGE分数的置
信水平是95%。

首先,我们对基于关键短语重排序机制的有效性进行了测试,使用传统的

①http://www.CS.cmtl.edu/~alavie/METEORJ

33

万方数据
第2章 基于改进集束搜索的生成式摘要方法

表2.5数据集BBC和lnspec上的METEOR分数

注:+stemlsyn/para表示完全模式,该模式下除了精确匹配(exact match)外,额外
奖励stem,synonyms和paraphrases的匹配。

两层双向LSTM作为编码器,结合提出的两种改进集束搜索算法,分别称其为

KEGBS.和KEDBS.,将它们与PGNet+coverage做对照,以验证我们模型中重排
序机制对摘要句选择的指导效果。接下来,我们将使用混合神经网络编码器且利
用改进集束搜索的两种模型KEGBS和KEDBS分别与其不完整版本模型对比,
验证编码器结构的作用。

在这两个数据集上,我们采用的对比模型是经典的seq2seq模型①和当前最
先进的PGNet模型②及其coverage变体。seq2seq模型采用两层双向LSTM作为
编码器,单层单向LSTM作为解码器;PGNet模型则在序列到序列框架中结合
指针生成网络,在每一时刻动态计算词语生成的模式,可直接拷贝原文中单词。

coverage技术指在模型中增加覆盖度机制模块,能够在一定程度上缓解词语重复
问题。

实验结果分别如表2.4和表2.5所示,展示了我们的模型和基准模型在ROUGE
指标和METEOR指标上的得分比较。我们观察到:

(i)在Inspec数据集中,KEGBS.和KEGBS模型都以ROUGE得分平均高出
3分的优势击败了PGNet+coverage,KEDBS一和KEDBS模型相较表现最好的生
成式模型PGNet+coverage平均有2分的提升;
(ii)在BBC数据集上,我们观察到,尽管我们所提出模型的最佳表现在
ROUGE.2和ROUGE—L指标上分别超过基准模型PGNet+coverage得分0.55和
O.25,该基准模型在ROUGE.1指标上仍存在微弱的优势;

①https://github.com/harvardnlp/seq2seq.attn

②https://github.com/abisee/pointer-generator

34

万方数据
第2章基于改进集束搜索的生成式摘要方法

(iii)在METEOR指标上,我们的模型在BBC和Inspec数据集上较基准模型
而言表现出相似的压倒性优势,这显示我们的方法在一定程度上增强了同义词
等模式的匹配,提高了生成句质量。

从第(i)点和第(ii)点来看,两个数据集在ROUGE指标上呈现出不同的得
分特点,我们认为这种不一致是由两个数据集之间的摘要长度的差异造成的。
鉴于我们所提出的基于关键短语的重排序机制旨在利用摘要中包含的与原始文
本相重合的关键短语指导摘要选择,而BBC数据集的摘要平均长度过短(详见
表2.11,使得关键短语发挥作用的余地比较小,在一定程度上限制了该功能。尽
管如此,新的混合神经网络编码器结构能够捕捉文本序列中的局部特征和全局

长距离依赖特征,在增强二元词组(bigram)和最长公共子序列(LCS)同现方面
起到了重要作用,对性能的提升有所助益。在Inspec数据集中,由于其摘要长
度中等,利用我们所提出的基于关键短语的重排序机制可以在生成的摘要中捕
获更多关键短语,因此其评价指标上得分的提高更加显著。另外,与句子摘要任
务不同,我们发现在标题生成任务中ROUGE指标上采用多样性集束搜索算法
的模型(KEDBS.和KEDBS.)表现略逊色于采用语法增强的集束搜索算法的模型
(KEGBS.和KEGBS.),这是因为这两个数据集的摘要长度较短,集束搜索的步
长相应较短,多样性发挥作用的空间比较受限。
(3)实例分析

原始文本:The author considers obfuscation options for protecting.net code.Many

programs won’t need obfuscation because the loss caused by lIcversc eng^i.1eeri zlg

will be nonexistent.Numerous obfuscators are already available for the.net plat-

form,ranging from a basic renaming obfuscator to a fully functional obfuscator

that handles mixed ill/native code assembl ies created in any managed language,

including Microsoft’S C++with managed extensions.An obfuscator simply makes

your application harder to reverse engineer.It does not prevent reverse engineer-

ing.However,the cost of obfuscation is insignificant when compared to the cost

of a typical software development project.If you feel like an obfuscator provides

you any benefit at a11.it’S probably wonh the price.

关键短语:obfuscation,.1】et code,application

参考摘要:.net obfuscation and intellectual property.

PGNet+coverage:software project for typical handles for l’eVCFSC eligilleel4ing.

KEDBS:application of obfuscation options for.1iet code protection.

图2.1l模型生成的摘要旬样例

35

万方数据
第2章 基于改进集束搜索的生成式摘要方法

在图2.1l中,我们展示了KEDBS方法和基准模型PGNet+coverage在Inspec
数据集上生成的摘要样例,将它们与参考摘要进行比较,并用不同的颜色对摘要
中不同的特征加以区分和说明。容易看出,基准模型的摘要句中包含了一些与原
始文本在语义相差较远的词(以绿色标识)且生成的某些词语呈现出重复的趋势
(以洋红色标识)。KEDBS模型生成的摘要则很好地捕捉了与原始文本中高度重
合的关键短语(以红色标识)且表现出了很好的改写能力(以蓝色标识】。

由于Inspec文档长度是所使用的三个数据集中最短的,因此我们将其关键
短语的过滤模式放松到重要的单词,从原始文本中提取的关键短语数上限设置
为5,这就对生成的摘要与原始文本中关键短语匹配提出了更高的要求。但从实
验结果来看,我们的模型很好地命中了从原始文本中提取的所有关键短语,且表

现出了一定的改写能力,将原始文本中的“protecting”转化成“protection”以适
应标题要求,而这种不一味对原文字词进行复制粘贴的能力正是生成式摘要方

法的重要特征。另一方面,尽管PGNet+coverage模型生成的摘要中包含了与原
始文本出现过的短语“reverse engineering”,但整体语义上与原始文本的主旨相

去甚远。我们还观察到,PGNet+coverage摘要中有一些重复的单词,破坏了整个
句子的连贯性和可读性。相比之下,KEDBS摘要由于关键短语的指导,表现出
了良好的可读性。

2.6本章小结

本章提出了一种生成式摘要方法,本方法基于序列到序列的框架,针对语句
表示学习问题,我们设计了一种全新的基于深度卷积循环神经网络的编码器结
构,以提高文本表示质量,作为解码的基础。此外,我们针对传统集束搜索算法
中存在的问题,设计提出了两种改进的集束搜索算法,用于生成更符合语法规范
更具备多样性的候选摘要句。同时,我们在搜索算法中集成了一个基于关键短语
的重排序模块,能够指导摘要句的选择,有助于提高生成的摘要与原始文本之间
的语义相关性。实验结果表明,我们的方法在不同文档长度的数据集上的表现都
优于目前最先进的文摘系统。在后续的工作中,我们会尝试将此方法应用到除英
文之外的其他语言的数据集上。

本章工作的创新之处包括以下几点:

(1)为了提高生成摘要句子的内容质量,我们提出了两种改进的集束搜索算法,
包括语法增强的集束搜索和多样性集束搜索。同时提出一种基于关键短语的
重排序机制,利用原始文本和生成的摘要句之间的关键短语同现,赋予这些
关键短语不同的重要性得分,然后对集束搜索生成的候选句子进行重新排序,
旨在增进生成的摘要句与原始文本之间的语义相似性。
36

万方数据
第2章基于改进集束搜索的生成式摘要方法

(2)研究了基于神经网络模型的文本表示方法,提出一种混合神经网络编码器结
构,该结构是卷积神经网络和循环神经网络的级联,通过捕捉原始文本的局
部特征和全局上下文特征,学习得到原始文本的一种高质量联合表示,输入
到解码器端。

(3)在CNN/Daily Mail等不同文档长度的三个数据集上的句子摘要任务和标题
生成任务中,我们所提出的模型均取得超越当前最优秀的摘要系统的表现,
我们对实验结果做了详尽的定量和定性分析,表明了本文方法的有效性。

37

万方数据
万方数据
第3章 基于子词单元的端到端文本简化方法

第3章基于子词单元的端到端文本简化方法
3.1 引言

输入一段文字,希望系统输出一小段核心语义不变、但更为简洁的表达。这
样的改写称为文本简化(Text Simplification)。下面给出一些英文句子简化的实例,
如图3.1所示。可以看到,例l中的简化句子与原始句子相比,进行了一些次要
信息的删减和缩写,在字数上有明显的减少。但需注意到,句子简化并不一定意
味着字数的缩减,对复杂单词进行含义解释或使用更通俗易懂的同义词对其进
行替换同样可以达到简化的目的。例2中两句话虽然在字数上差别不大,但原始

文本中较为高阶的动词短语”split into”被改写成为更为浅显的there be句型用于


表达分类,没有损失重要信息,且改写后的语句通顺可读,更容易理解。

例1
原始句子:
At Comell,Dryden led his team,the Cornell Big Red,to the 1 967 National Colle-

giate Athletic Association championship and three consecutive ECAC tournament

championships.

简化句子:
At Comell,Dryden led his team to the 1 967 NCAA championship and three con—

secutive ECAC tournament championships.

例2
原始句子:
Since the 20th century,the field of professional astronomy spln into observational

and theoretical branches.

简化句子:
Since the 20th century there have been two main types of astronomy,observational

and theoretical astronomy.

图3.1句子简化实例

近年来深度学习技术被广泛应用于多种自然语言处理任务,我们认为文本
简化任务的特点亦适用于端到端的处理,不需要手动提取特征或语法。典型的序
列到序列模型中(如图3.2),文本的处理基本上建立在词语级的粒度上,即根据
语料库中词语出现频度建立一个固定规模的常用词词典,原始文本序列经过分
39

万方数据
第3章 基于子词单元的端到端文本简化方法

W X Y Z

A B C (p> W X Y Z

图3.2典型的序列到序列模型

词作为不同时刻编码器的输入A、B、C,最后将文本表示传递到解码器端,解
码每一时刻生成的单词X、Y、Z亦从该词典中产生。在实际任务中,这种词级
的处理带来了不少问题:

(1)预处理中建立的高频词词典中往往会出现同一词根(1exeme)下不同形态的词
语,如go,goes,going,gone等同时存在,这些词语在词向量空间各自对应
不同的词向量,但却共享同一个词根,如图3.3,词形或组词规则提供的信息
未被有效利用。

(2)存在罕见词(rare word)问题和集外词(OOV)问题。罕见词问题指词典中的
某些低频词由于在训练集中出现次数过少,导致稀疏问题,无法训练得到很

好的词向量表示。集外词问题则是指某些词语在语料库中出现频度过低未被
收录在词典中,后期生成时往往被标记为<LINK>。罕见词和集外词大多是
人名或地名等具有实际意义的词或新出现的词汇,对于文本生成质量至关重
要。

(3)预定义的词典大小一般设置为50k或30k,解码时会用softmax进行概率输
出,从该词典中挑选出合适的单词,由于搜索空间过于庞大导致计算量过大,
影响效率。

同根词: like,dislike;health,healthy;care,careful
时态或单复数变形: go,goes,gone;love,loved

新词: chillax;turducken;bargainous

图3.3词级处理中难以处理的单词

3.2相关研究工作

3.2-1 细粒度文本表示

在英文单词中,词性或语义信息在多数情况下可以从单词的形态上进行推
断。基于这种特点,研究者们探索将词语转换为更细的粒度,在序列到序列框架
下进行字符级或者子词级别的建模,即采用比单词更细粒度的表示单元,而不再
40

万方数据
第3章 基于子词单元的端到端文本简化方法

将单词作为词典的组成部分,图3.4中给出了字符(character)或子词(subword)的
例子:

图3.4字符及子词实例

对于输入文本采用字符级或子词等形式的表示,可以带来的益处包括:(1)
有效减小词典的规模;(2)减少罕见词及集外词问题;(3)将形态上相近的词语进
行有效关联。在实际任务中,Mikolov等人【88】及Sutskever等人[62】的工作基于

字符的序列训练了一个循环神经网络语言模型(RNN.LM),后者的工作证实了
通过在模型中每一时刻简单对字符进行取样能够生成合理的文本序列。Zhang等
人【89】和Xiao等人【90】则分别利用卷积神经网络和循环神经网络成功在不分词的
前提下实现了字符级的文本分类任务。
近年来,针对细粒度文本表示的研究主要集中在神经机器翻译领域【91-93】,机
器翻译模型需要将文本分割至单词级别以下进行处理,我们将此级别的符号称
为子词单元(subword units),其核心思想是认为将命名实体、同根词、组合词等
罕见词拆分为子词单元能够从中学习到组合能力,有效地产生罕见词且缓解集
外词问题。
本文选择了两种比较有代表性的子词级别的处理方法介绍如下:
(1)字节对编码方法

字节对编码(Byte Pair Encoding,BPE)1941是一种简单的数据压缩算法,该


算法迭代地使用一个未使用的字节将序列中出现次数最多的字节对进行替换。
Sennrich等人【95】首先将这种压缩方法引入到了翻译模型中,将源端文本中最
频繁的字符或字符序列进行合并,在解码时,每个单词首先被分成字符序列,
接着利用训练过程中学习到的操作将字符合并成为更长的已知符号。在BPE
方法中,还需要使用一个特殊符号对合并位置进行指示,例如在图3.5中,词语

superabundance被分为两个子词单元,则前一个子词单元后会附加一个特殊的后
缀“@@’’,而模型的翻译结果中也会包含该后缀,这有利于我们将这个单词进
行恢复。

图3.5字节对编码算法处理子词单元实例

4l

万方数据
第3章基于子词单元的端到端文本简化方法

(2)WPM方法

词切片模型(Wordpiece Model,WPM)最初被提出【96】是为了解决语音识别系
统中日语/韩语的分割问题,该方法的特点是完全数据驱动,能够在不关注语义
的情况下最大化训练数据语言模型的概率。该模型采用一种贪心算法自动从语
料库中的大量文本对单词的子词单元进行增量学习。其算法步骤描述如下:

①初始化词库
利用基本Unicode字符及所有ASCII码对词库进行初始化。

②初始化词库
使用上一步骤中建立的词库在训练数据集上训练得到一个语言模型。

③生成新的词语单元
通过在当前词库中选择两个词语单元并将其进行结合,得到一个新的词语
单元,该词语单元在满足能使该语言模型的似然函数最大的条件下则被加入到
词库中。

④继续扩充词库或词库学习完成
词库学习的停止条件是其中的词语单元数量达到了预定义的上限或模型的
对数似然的增量小于阈值,不满足该条件则跳转至步骤二。

文本简化实际上可以被视为一种单语(Monolingual)的句子到句子的操作,
与机器翻译有着相似的特征,这启发我们采用比词语级更细粒度的方法对原始
文本中的词语进行表示,以更好地利用单词内部信息,在一定程度上达到解决文
本简化任务上的罕见词及集外词问题的目的。

3-2.2文本简化自动评测标准

在本章节中,我们将对文本简化任务中常用的两种自动评测标准做出介绍:
(1) BLEU

BLEU(BiLingual Evaluation Understudy)指标【97】最早应用于机器翻译领域,

和上文中提到的ROUGE指标类似,该指标奖励n.grams的精确匹配,而不考虑
语义与句子结构。区别在于,ROUGE基于召回率,而BLEU是一种基于准确率
的相似性度量方法,其计算公式如公式(3.1)所示:

厶S∈{n“,pHI senfPncPJ Cj。石u瓦nt磊ma石tch可(gramn)


B上Eu=—E乏S6二{oiutp==:ut:seInte:nc:=:es:==}Zi乏gr:am:=::.E:S
J厶grd,,IH∈S L7u“¨‘~占’“,,‘n,
(3.1)

其中,S表示生成的简化句子,Count(gram。)表示该简化句中总的n-gram数
目,Count。眦^(gram。)表示生成的简化句与参考简化句之间匹配的n-gram数目,
n可取1,2,3,4等。
42

万方数据
第3章基于子词单元的端到端文本简化方法

(2)SA刚

SARI(Compare System Output Against References and Against the Input Sen-

tence)指标【54】是一个从词汇角度衡量简化的评估标准,该指标衡量简化模型增
加(add)、删除(delete)或保持(keep)某些词语对句子带来的影响。具体来说,SARI
将系统的输出与多个参考简化句以及原始输入的复杂句子进行比较,而大多数现
有文本生成(主要指机器翻译)指标并不将待评估句子与原始文本进行比较,如
图3.6所示。在效果上,SARI与人类对简单性增益的判断具有高度相关性,是目
前用于评估句子简化模型的主要度量方法。

输入文本巾与系统输蹬蘑合
但不在参考文本.:l=l的部分

所有三部分之阀的蘑疆

可能不正确的系统输出

参考文本中的内容

图3.6指标SARI与其他文本生成指标的比较

SARI指标的计算如公式(3.2)所示:

SARI=dl艺削+d2疋P印+如岛。, (3.2)

其中d1=d2=d3=;,而cdd,最。印及岛。,则可根据公式(3.3—3.5)进行计算:

%…。。=瓦1∑Pope删泐(门)
n=t1,...,七J
(3.3)

R删砌=i1∑,.咄删伽(n) n2i1,...,划
(3.4)

一 2×PopPr4rf。n×Ro阳rnrfo打
,op舢,fDH
3■Fope—rat_ion干瓦o—perfl_IlOll
一 一I
(3.5)

其中operation∈[del,keep,add】,k则是最高的n-gram阶数,本实验中设置为4。

关于p卵删rfD。及rope删咖的计算公式这里略去不表,详见Xu等人的研究工作‘541。
43

万方数据
第3章 基于子词单元的端到端文本简化方法

3.3基于子词单元的端到端句子简化模型

3.3.1 编码器一解码器框架

本文采用结合注意力机制的编码器.解码器框架,以原始文本作为编码器输
入,通过解码器输出其简化版本的句子,其整体结构如图3.7所示。

编码器 解码器

图3.7基于神经网络的端到端句子简化模型

我们将原始文本表示为X=【x1,X2….,xr],其中疋表示序列长度。编码时
使用双向LSTM将每一时刻原始文本映射为其隐状态,前向网络根据公式(3.6)

对f时刻输入字符的词向量表示ex(-)进行处理得到葛,,同理,后向网络根据公
式(3.7)得到瓦,则该时刻的隐状态h,是两者的拼接,如公式(3.8)所示。其中咖
表示循环神经网络中的激活函数。

h,=qb(ex(xI),h,-1) (3.6)

hI=咖(ex伍f),h卜1) (3.7)

hI=【hf,hf】 (3.8)

编码完成后可以得到整个文本的上下文表示集合C=(,11,h2….,hT},解码
器的LSTM根据公式(3.9)更新r’时刻隐状态Sff.

Sf,=咖(ey(yr,一1),SH-I,cf,) (3.9)

44

万方数据
第3章基于子词单元的端到端文本简化方法

其中er(Yt,)表示目标词语的词向量表示,上下文向量c,,可以根据神经机器翻译
模型中的软对齐机制(一种注意力机制)计算得到,如公式(3.10)所示:

cf,=f(ev(Yt,-1),sf,一l,C) (3.10)

这种注意力机制按照上下文表示集合c中的各个向量与已经生成的文本的
相关性,赋予其一定的权值,每个向量h,的权值可以根据公式(3.11)计算得到:

eg(ey(Yl,-j)^,_I'啊) (3.11)
口f,f,=弓1

Z=∑eg(er(Yl,_I),Sd_I,hk’ (3.12)

七=1

其中g(・)的作用是在给定乃,_1和&,-l的情况下计算原始文本中隐状态h,的原
始得分,而z则用于对其进行归一化,计算方法如公式(3.12)所示,在这里我
们使用一个前馈神经网络对其进行模拟。该过程可以理解为利用注意力机制对
原始文本中t时刻的输入词语及简化文本中t’时刻的目标词语进行关联程度概
率的计算。

根据解码器端的隐状态s,,及前一时刻生成的词语M,-1和动态计算得到的
上下文向量c,,,模型可以对f’时刻解码器循环神经网络的条件概率进行计算,如

公式(3.13)所示:

P(Yf,IY<,,'X)仪eg(er(Yt,-1)^,'c,’’ (3.13)

3.3.2文本的子词单元表示

为了实现词表大小和文本长度的平衡,我们提出利用字节对编码算法对词

表中单词进行子词分割,即将其分割成n—gram。相较于字符级分割,字节对编码
算法能够表示较短的子词序列,因而模型可以使用注意力机制应对变长的单元,
从而尽可能覆盖罕见词和集外词,有效减小词表大小,提升序列到序列模型的效

率。我们对本模型中基于子词单元的词语表示方法介绍如下:

字节对编码算法又称连字编码(digram coding),即文本序列被分割为字符串
序列,将其中最常见的一对双连字用未出现过的符号进行替换,层层迭代进行。
基于字节对编码算法的子词单元提取伪代码如算法3.1所示。
利用字节对编码算法对文本进行子词提取的具体步骤描述如下:
(1)对符号词表进行初始化,将单词拆分后的字符添加到符号词表中并对所
有单词的词尾加入结束符<~》。该标识符用于解码时单词的扩展还原。
(2)对词表中所有的符号进行迭代计数,获得词汇中所有的字符对,找出其
中出现最频繁的连字序列,如(一a,~b),用’ab’替换。
(3)每次的合并过程均会产生新的符号,该符号代表着单词中出现次数较多

的子词,即n—gram。
4S

万方数据
第3章 基于子词单元的端到端文本简化方法

算法输入:D;//文本数据集
算法输出:矿;∥包含子词单元的词表
1 while数据集D未读取结束do
2 将下一个文本r读入缓冲区;
3 将所有词都切分成字符,把所有字符加入词表;
4 对所有的符号进行计数,存入哈希表中;
s while能够进行字符对压缩do
6 找出出现次数最多的字符对(口,6);
7 将该字符对用新的子词符号口6进行替换;
8 if该替换向缓冲区中增加了新子词符号then
9 l该子词符号在哈希表中对应的计数是原字符对的出现次数
m end

n if该替换从缓冲区中删除了原字符对then
:! l将其对应的哈希表中计数删除
B end

H 将新的符号写入词表y中并重新对符号对计数
:。 end

“ 对词表y进行合并

3.1:子词单元提取算法伪代码

(4)合并过程最终产生的子词(或者完整的单词),将被加入到词表中。词表
的大小则为初始大小与合并次数之和。

假设我们的原始词表为{’h i g h e r</w>’:2,’h O t t e s t</_w>’:5,’h i g h

</w>’:4,’b e s t</w>’:3),其中的关键字是词表的单词分割成字符加上结尾符,
键值则是该单词出现的频数,则整个过程模拟如图3.8所示。

至此,我们找出了该词表中出现频次最高的相邻字符,并将其合并得到了子
词单元,最终形成了更为合适的词表。通过子词单元的提取,我们将词语的含义
与其形态分开,能够有效减少词表大小。

46

万方数据
第3章基于子词单元的端到端文本简化方法

原始词表:{’h ig h e r</w>’:2,’h 0 t t e s t</w>’:5,’h i g h</w>’:4,’b e s t</w>’:

3)

出现最频繁的序列:(一S,’t’):8
合并该序列后的词表:{’h i g h e r</w>’:2,’h 0 t t e st</w>’:5,’h i g h</w>’:4,

’b e st</w>’:3)

出现最频繁的序列:(一e,’st’):8
合并该序列后的词表:{’h i g h e r<^^》’:2,’h 0 t t est</w>’:5,’h i g h</w>’:4,

’b est</w>’:3)

出现最频繁的序列:(’h’,’i’):6
合并该序列后的词表:{’hi g h e r</w>’:2,’h 0 tt est</_w>’:5,’hi g h</w>’:4,’b

est</w>’:3)
出现最频繁的序列:(’hi’,’g’):6
合并该序列后的词表:{’hig h e r</w>’:2,’h O tt est<加,>’:5,’big h</_w>’:4,’b

est</W>’:3)
出现最频繁的序列:(’hig’,’h’):6
合并该序列后的词表:{’high e r<~,>’:2,’h O t t est</w>’:5,’high<,、Ⅳ>’:4,’b est

</w>’:3,

图3.8字节对编码算法在给定词表上的合并操作

3.4实验

3.4.1 数据集预处理

(1) W汛rKP

PWKP(Parallel Wikipedia Simplication Corpus)数据集【48】是从简单维基百科

(Simple Wikipedia)①和维基百科(Wikipedia)②中抽取词条文章并进行句子配对而

构建得到的。该数据集中包含108,016个句子对,其中来自维基百科中的句子称

为复杂句(complex),与之对应,来自简单维基百科中的句子被视为简化后的句
子(simple)。我们将该数据集划分成三部分,训练集大小为107,416个句子对,验
证集大小为300,测试集大小为300。我们使用自然语言工具库nltk③对这两种来

源的句子进行词频统计,得到句子的平均词语数(tokens/sentence)、词语的平均
字符数(chars/tokens)以及语料中词语总数(unique tokens)如表3.1所示,高频词
如图3.9所示。

①http://simple.wikipedia.org

②http://en.wikipedia.org

@https://www.nltk.org

47

万方数据
第3章 基于子词单元的端到端文本简化方法

表3.1数据集PWKP统计信息

母尹,芦芦萨≯,,,≯穸,

图3.9数据集PWKP中的高频词

可以看到,词语平均字符数指标上两者大致相同,而维基百科中的句子平均
词语数比简单维基百科中长30%左右,这一点是符合句子简化直觉的,但需要
注意的是,句子简化在某些情况下并不一定意味着句子长度的减小。在PWKP
数据集中,复杂句和简单句是一一对应的,该数据集可以从TU Darmstadtc①下

载得到。我们利用字节对编码算法对复杂句和简单句的原始词表分别做了10000
次合并操作,处理得到词表的大小分别为10296和10289,词表规模有了明显的
缩减。
(2) Wil0Net

WikNet数据集[98】是Hwang等人针对句子对齐任务构建的一个公开数据
集,可从其提供的链接②进行下载。该数据集中的句子对根据其中复杂旬(tom-

plex)(来自维基百科)和简单句(simple)(来自简单维基百科)的匹配程度被分为完
全匹配(good)、大体匹配(good partial)、部分匹配(partial)和不良匹配(bad)四种
类别,我们采用相似度值大于O.45的完全匹配(150k)和大体匹配(130k)的句子
对,将其随机打乱并划分为训练集、验证集和测试集三个部分,各部分包含句子

对的数目如表3.2所示。句子的平均词语数(tokens/sentence)、词语的平均字符数
(chars/tokens)以及词表中单词数(unique tokens)如表3.3所示。同样的,经过字节
对编码算法对复杂句和简单句的原始词表的10000次合并操作,处理得到词表
的大小分别为134760和79150,词表规模有了明显的缩减。我们将这些经过切
分得到的子词单元应用到训练集中对原有单词进行替换,得到句子前后对比如

①https://www.informatik.tu.darmstadt.de/ukp/research_6/data/sentence—simplification/index.en.jsp

②http://ssli.ee.washington.educ/tial/projects/simplification/

48

万方数据
第3章 基于子词单元的端到端文本简化方法

图3.10所示。

表3.2数据集WikNet划分方式

表3.3数据集WikNet统计信息

复杂句:The failure rate of a system usually depends on time,with the rate


varying

over the life cycle of the system.

子词处理后的复杂句:The fail@@ure rate ofa system usually depend@@S on time,

the life cycle of the system.


with the rate var@@ying over
简单句:Failure rate is usually time dependent,and an intuitive corollary is that the rate

changes over time versus the expected life cycle of a system.

子词处理后的简单句:Fail@@ure rate is usually time depend@@ent,and an int@@


u@@itive cor囝@oll@@ary
\√、√、√、-,\-一\√ 一
is that the rate changes over time vers@@US
一 一
the ex一

pected life cycle of a system.

图3.10数据集WikNet中子词切分处理前后对比

3.4.2实验设置

我们采用OpenNMT框架④实现此模型,分别使用双层LSTM结构和单层
LSTM作为编码器和解码器,隐状态大小设置为500,LSTM每个门的隐藏单元
设置为128。为了防止过拟合,以O.25的概率随机将神经网络单元从网络中丢
弃。我们采用批量随机梯度下降(Stochatic Gradient Descent,SGD)方法对模型进
行优化,每个批量大小设置为64,训练6个epoch后我们将学习率减半。模型中
相关参数设置如表3.4所示,我们设定了搜索范围并根据实验结果给出了推荐值,
其他参数则在【_0.1,0.1]的范围内进行了随机初始化。

①hrtp://opermmt.net/

49

万方数据
第3章 基于子词单元的端到端文本简化方法

表3.4模型相关参数设置

3.4.3实验结果及分析

(1)维度及方向性实验

本实验旨在对编码器的种类以及词向量的维度进行测验,选择出最佳组合。
我们将词向量的维度设置分别为128,200或300,编码器中采用的LSTM则分
别选择单向或双向,将其两两组合,在分别对语料中复杂句和简单句的词表进行
子词单元提取的subword模型下测试了词向量维度和编码器方向两个因素对生
成句子的质量的影响。因硬件条件及训练时间成本所限,我们暂时无法进一步提
升词向量的维度。

表3.5模型词向量维度及编码器方向性测试

注:Uni.LSTM表示单向LSTM,Bi.LSTM表示双向LSTM

subword模型在PWKP数据集上的实验结果如表3.5所示。可以发现,在使
用同种类编码器的情况下,词向量维度增大均能对模型表现提升带来助益,这与
直觉是相符的,在利用神经网络学习序列信息时,更高维的向量能够呈现出更丰
富的文本特征信息。另外,使用同样的词向量维度时,双向LSTM编码器带来
的效果均优于单向LSTM,这启示我们,在生成句子时,使用双向LSTM能够
获得更多的上下文信息,有利于提高文本质量。在后续实验中,我们将使用双向
LSTM编码器并设置词向量维度为300以期获得最佳实验效果。

50

万方数据
第3章基于子词单元的端到端文本简化方法

(2)对比实验
为了验证子词单元切分对序列到序列模型性能的作用,我们同时实现了一
个传统词语级处理的模型作为对比,词表大小设置为30k,其他实验设置均与本
文提出的方法相同,将其称为seqseq(word)。在基于子词单元的模型中,我们尝
试了两种模式,即分别对语料中复杂句和简单句的词表进行子词单元提取,用
subword表示;或在复杂句和简单句之间进行词表的共享,在整个语料中的词表
中进行BPE操作,用subword-joint表示。另外,我们探究了利用预训练词向量
进行初始化是否会对句子简化结果产生影响,subword—w2v和subword-joint.w2v
表示模型首先利用原始语料训练了word2vec词向量,并将其应用到后续训练过
程中,词向量的维度大小设置为300。我们将PWKP数据集和WikNet数据集上
的实验结果分别展示在表3.6和表3.7中。
两个表格中的其他对比模型分别简要介绍如下:

TSM[48】是由传统机器翻译模型衍生而来的基于树结构的统计模型,包含句
子分割等操作;DRESS和DRESS—LS[991模型建立在序列到序列框架下,且采用
了强化学习策略进行优化,DRESS—LS显式融合了词汇的简化;NSELSTM.S【100】
模型采用融合记忆矩阵的神经网络语义编码器和LSTM解码器对句子进行建模;
PMEPGtl01】模型将序列到序列模型结合了指针拷贝机制,并利用多任务学习来
提高简化性能;UNSUPll02】模型利用基于语义的句子分割和词语简化实现句子
简化,是一个非监督模型;RevILPll03]模型是一种基于准同步语法的数据驱动模
型,通过捕捉文本结构不匹配和复杂重写操作进行句子简化。
Hybrid[53J方法结合了简化模型和一个单语的机器翻译模型,利用概率模
型对Boxer工具处理过的句子进行分割和删除操作,然后将句子进一步简化;
SEMosesll04】模型利用语义解析器对句子进行分割预处理,随后利用神经机器翻
译方法进行句子简化操作;DMASS+DCSS[105】模型则基于一种多层多头注意力
的结构,并结合了外部释义知识库以学习简化规则;SBSMT+PPDB+SARI[54】方
法衍生于统计机器翻译模型,利用从双语文本和小规模人工简化数据学习得到
的释义规则帮助实现文本简化;NTS+SARI[106】利用词语粒度的序列到序列模型
进行处理,同时实现词语简化和内容缩减。

通过对实验结果的分析,我们可以发现:
(i)在两个数据集上,使用BPE方法将复杂句或简单句中词语进行子词单元提
取的方法与传统词语级处理方法seq2seq(word)相比,均有明显的指标提升,
PWKP数据集上至少提高了2.84 BLEU值与3.43 SARI值,WikNet数据集
上至少提高5.6 BLEU值和4.61 SARI值。
(ii)比较subword-joint模式和subword模式在两个数据集上的表现,在语料中
使用共享的词表能够在一定程度上提升模型性能,在PWKP数据集分别提
51

万方数据
第3章 基于子词单元的端到端文本简化方法

表3.6数据集PWKP上的BLEU分数及SARl分数

注:空白栏表示该模型原文中并未给出对应得分

表3.7数据集WikNet上的BLEU分数及SARl分数

注:空白栏表示该模型原文中并未给出对应得分

52

万方数据
第3章基于子词单元的端到端文本简化方法

高2.94 BLEU值和0.64 SARI值,SARI数据集上则更加显著,分别提高了


3.37 BLEU值和2.87 SARI值。

(iii)比较两个数据集上subword和subword.w2v模式,以及subword-joint和
subword-joint-w2v模式下模型表现,我们得出结论,使用预训练的词向量对
句中词语或子词单元进行初始化可以提升序列到序列模型表现,平均能够
提升约4.88 BLEU值和1.23 SA刚值。

(iv)本文进行了五组实验,发现两个指标上得分最高的模式均为subword-joint-
w2v,我们将该表现分别与PWKP数据集和wiI烈et数据集上当前表现较为
优秀的文本简化方法进行比较。在PWKP数据集上,我们的方法在BLEU
指标上超越了四种基准模型,并与当前最优系统得分十分相近,SARI指标
上则领先于列出的所有模型己知的实验结果。在WikNet数据集上,我们的
方法在SAPd指标上得分高于六种基准方法,与当前最优的模型仅有I.36
分的微小差距,在BLEU指标上则击败了四种基准模型。

(3)集外词分析
本文对subword模式下两个数据集的训练语料中集外词进行了统计,以
PWKP数据集为例,其词语统计信息如表3.8所示,源端表示来自维基百科中
的复杂句子,目标端表示来自简单维基百科中的简单句。

表3.8相同训练语料中词语统计结果

从表中可以观察到,通过BPE方法对语料进行子词单元提取能够极大减小
词表的规模,这将有效提高模型的训练效率。同时,比较seq2seq(word)模型与
两种子词单元模型(subword和subword-joint)中集外词的数目,我们发现,经过
子词提取后的词表可以涵盖所有训练单词,集外词的数目由seq2seq(word)系统
中源端的151824和目标端的l 19926减少到0。由于测试集的规模远远小于训练
语料的规模,我们认为在测试阶段,源端中出现集外词的可能性较小,因而句
子简化的结果中出现<UNK>符号的可能性较小。我们对生成的句子进行随机查
验,验证了这一想法。

53

万方数据
第3章基于子词单元的端到端文本简化方法

3.5本章小结

本章提出了一种基于子词单元的文本简化方法,考虑到文本简化任务中存
在的罕见词和集外词问题,本文提出在基于神经网络的端到端模型中引入字节
对编码算法对语料中的复杂句和简单句进行子词单元的提取,在减小词表规模
的同时提升模型效率,在一定程度上缓解罕见词问题和集外词问题。我们在两个
常见数据集上对所提出的方法进行了实验并对实验结果做了详尽分析,表明了
该方法对提升句子简化性能的有效性。

万方数据
第4章总结与展望

第4章总结与展望
在本章中,我们对全文的工作进行归纳,总结了所提出的自动文本摘要模型
与文本简化模型的创新与贡献,以此为基础,我们提出了几点可能的改进方向,
作为后续研究工作的依据。

4.1 本文的主要贡献与特色

自动文本摘要任务和文本简化任务作为文本生成问题领域的重要组成部分,
具有很高的实用价值,是应对信息过载、阅读困难等实际问题的高效解决方案,
除此之外更是能够为诸如问答系统、语义标注等下游任务提供支持。自动文本摘
要任务和文本简化任务的共同点在于两者均旨在提取原始输入文档的中心思想,

处理得到便于读者理解的版本。区别在于文本简化任务对字数要求更为宽松,即
目标句并不一定需要比原始文本短,在字数相当的情况下,目标句将原始文本中
复杂词语进行释义或同义改写同样可达到简化目的。综合近年来的研究成果来
看,尽管深度学习给文本生成问题的解决带来的新的发展契机,上述两个任务仍
面临原始文本表征不佳、语义相似性欠缺、生成词语冗余、集外词生成困难等诸
多挑战。

本文围绕基于深度神经网络的文本生成方法开展研究,以自动文本摘要和
文本简化两个任务作为重点研究对象,主要贡献和特色列举如下:

(1)针对文本摘要中原始文本的语句表示问题,提出了一种混合编码器结构。该
结构通过卷积操作将序列上下文信息进一步加强,同时利用循环神经网络学
习时序信息和长距离依赖,学习得到高质量的原始文本向量表示。

(2)针对文本摘要中的语句生成问题,提出了两种改进的集束搜索算法用于解码
过程,通过设计新的得分函数,约束生成更多语法形式合理的句子,并降低
生成的候选句之间的相似性,鼓励句子生成的多样化。

(3)针对生成的摘要句和原始文本的语义相似度问题,提出了一种基于关键短语
的重排序机制,该机制作用于集束搜索的摘要句选择阶段,对搜索产生的多
个候选句子根据其与原始文本中重合关键短语的重要性得分对其进行重新
排序,指导摘要句的选择。

(41针对文本简化中的罕见词训练及集外词生成问题,提出了基于字节对编码算
法的子词单元提取方法,对文本进行切分提取出子词单元,以此构建规模更
小的词表,提升序列到序列模型的效率。同时该方法将形态上相近的词语进
行有效关联,可以覆盖更多的罕见词和集外词。

55

万方数据
第4章总结与展望

4.2研究展望

本文进行的研究工作中仍存在一些值得后续探索的问题,主要包括:
(1)在文本摘要模型中,我们沿用了主流模型中的最大似然估计方法对模型进行
参数优化,该方法的训练目标是词语级而非句子级别的最优,这与评价指标
存在差异,可能会对模型表现带来不良影响。我们认为,在后续工作中可以
采用最小风险训练策略,考虑评价指标,对模型参数进行句子级别的优化。
(2)我们注意到,当前表现最优的文本简化模型基本均结合了强化学习的训练方
法,利用判别器作为信号,同时利用生成器对传统序列到序列模型进行改进。
我们认为这种方式可以启发我们解决本文模型中存在的曝光偏差问题,得到

更好的句子简化表现。
(3)我们认为文本简化最终可以服务于文本摘要任务,进行更大范围内的信息摘
要。在后续工作中,我们寻求将本文提出的应用于两种任务上的方法进行结

合,实现摘要质量的进一步提高。

56

万方数据
参考文献

参考文献
【1】 百度百科.信息爆炸[EB/OL].2012.http://baike.baidu.com/view/888194.htm.

[2】2 赵清源.知识焦虑:信息爆炸的时代更要做个明白人[EB/OL].2017.http://www.bjnews

.tom.cn/opinion/2017/10/26/461783.hmal.

【3】 CORSTON-OLIVER S.Text compaction for display on very small screens[C]//Proceedings

ofthe NAACL Workshop on Automatic Summarization.Citeseer,200 1:89-98.

SIDDHARTHAN A.An architecture for of


【4】 a text simplification system[C]//Proceedings

Language Engineering Conference.IEEE,2002:64-7 1.

【5]5 户保田.基于深度神经网络的文本表示及其应用[D】.哈尔滨工业大学,2016.

【6】6 LUHN H P.The automatic creation of literature abstracts[J].IBM Journal of Research and

Development,1 958,2(2):1 59—1 65.

【7】 SUTSKEVER I,VINYALS 0,LE Q V Sequence to sequence learning with neural networks

[C/OL]//Proceedings ofthe 27th International Conference on Neural Information Processing

Systems.2014:3104—3112.http://papers.nips.cc/paper/5346-sequence—to-sequence—leamin

g-with—neural.DOI:10.1007/s10107-014-0839-0.

[8】 TANG J,YAO L,CHEN D. Multi-topic based query-oriented summarization[C]#


Data
Proceedings of the 2009 SIAM International Conference on Mining.SIAM,2009:

1148-1159.

KUPIEC J,PEDERSEN J,CHEN E A trainable document summarizer[J].Advances in


[9】9
Automatic Summarization,1 999:55-60.

【10】 MURRAY G,RENALS S,CAI也ETl’A J.Extractive summarization of meeting recordings

【J】.2005.

CONROY J M.0’LEARY D P.Text summarization via hidden markov models[C]//

Proceedings of the 24th Annual International ACM SIGIR Conference on Research and De‘

velopment in Information Retrieval.ACM,200 l:406407.

【12】 SHEN D,SUN J T,LI H,et a1.Document summarization using conditional random fields.

[C]//Proceedings of the International Joint Conference on Artifitial Intelligence:volume 7.

2007:2862.2867.

[13】 JAGADEESH J,PINGALI P,VARMA V Sentence extraction based single document sunl-
marization[J].International Institute of Information Technology,Hyderabad,India,2005,

5.

[14】 申屠晓明,甘恬.机器人写稿的技术原理及实现方法[J】.传媒评论,2017:15-19.

【15] H AR IHARAN S,SRINIVASAN R.Extraction based multi document summarization using


S7

万方数据
参考文献

single document summary cluster[J].International Journal of Advances in Soft Computing

and Its Applications,2010,2(1):l一16.

【1 61 ZHANG J,CHENG x,WU G,et a1.An adaptive model for summarization[C]//Proceedings

ofConference on Information and Knowledge Management.2008:26—30.

【1 7】HENNIG L.Topic—based multi-document summarization with probabilistic latent semantic

analysis[C]//Proceedings of the International Conference on Recent Advances in National

Language Processing.2009:144—149.

【1 8】 OZSOY M G,ALPASLAN F N,CICEKLI I.Text summarization using latent semantic

analysis[J].Journal of Information Science,20 1 1,37(4):405-4 1 7.

[1 9】 WOODSEND K,FENG Y LAPATA M.Generation with quasi-synchronous grammar[C]//

Proceedings ofthe 20 10 Conference on Empirical Methods in Natural Language Processing.

ACL,2010:513-523.

[20】 SILBER H G,MCCOY K F. Efficient text summarization using lexical chains[C]//

Proceedings of the 5th International Conference on Intelligent User Interfaces.ACM,2000:

252-255.

[2 1】 BARZILAY R ELHADAD M.Using lexical chains for text summarization[J].Advances in

Automatic Text Summarization,1999:11l-121.


[22】 MIHALCEA R,TARAU E Textrank:bringing order into text[C]//Proceedings of the 2004

Conference on Empirical Methods in Natural Language Processing.2004.

[23】PAGE L,BRIN S,MOTWANI R,et a1.The pagerank citation ranking:bringing order to the

web[R].Stanford InfoLab,1 999.

【24】LOPYREV K.Generating news headlines with recurrent neural networks[J].arXiv preprint

arXiv:1512.01712.2015.

[25】 RUSH A M,CHOPRA S,WESTON J.A neural attention model for abstractive sen-

tence summarization[C/OL]//Proceedings of the 20 1 5 Conference on Empirical Methods

in Natural Language Processing.2015:379-389.http://arxiv.org/abs/1509.00685.DOI:

lO.1162/153244303322533223.

[26】BENGIO Y DUCHARME R VINCENT P,et a1.A neural probabilistic language model[J].

Journal ofMachine Learning Research,2003,3:1137-1155.

【27】 CHOPRA S,MICHAEL A,M.RUSH A.Abstractive sentence summarization with attentive

recurrent neural networks[C/OL]//Proceedings of Annual Conference ofthe North American

Chapter of the Association for Computational Linguistics:Human Language Technologies.

2016:93—98.http://www.aclweb.org/anthology/N16-1012.

【28】 NALLAPATI R,ZHOU B,DOS SANTOS C N,et a1.Abs廿active text summarization using

sequence・—to-・sequence RNNs and beyond[C/OL]//Proceedings of the 20th SIGNLL Confer-

58

万方数据
参考文献

ence ON Computational Natural Language Learning.2016:280-290.http://arxiv.org/abs/16

02.06023.DOI:10.18653/vl/K16.1028.

【29】JEAN S,CHO K,MEMISEVIC R et a1.On using very large target vocabulary for neural

machine translation[J].arXiv preprint arXiv:1412.2007,2014.

【30】GU J,LU Z,LI H,et a1.Incorporating copying mechanism in sequence-to-sequence learning

【C]//Annual Meeting of the Association for Computational Linguistics.20 1 6.

[3 l】 SEE A,LIU P J,MANNING C D.Get to the point:Summarization with pointer-generator

networks[C/OL]//Proceedings of the 55th Annual Meeting of the Association for Computa-

tional Linguistics.2017:1073-1086.http://arxiv.org/abs/1704.04368.

【32】VINYALS O,FORTUNATO M,JAITLY N.Pointer Networks[C/OL]//Proceedings of An-

nual Conference on Neural Information Processing Systems.2015.http://arxiv.org/abs/1506

.03134.

[33】TU Z,LU Z,LIU Y et a1.Modeling coverage for neural machine translation[C/OL]//

Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.

20 16:76-85.http://arxiv.org/abs/160 1.048 1 1.DOI:10.1 145/2856767.2856776.

【34】 CHEN Q,ZHU X,LING Z,et a1.Distraction-based neural networks for document sum/ha-

rization[C]//Proceedings of the 25th International Joint Conference on Artificial Intelligent.

20 l 6:2754.2760.

【35】 WATANABE W M,JUNIOR A C,UZEDA V R,et a1.Facilita:reading assistance for

low—literacy readers[C]//Proceedings of the 27th ACM international conference on Design

ofcommunication.ACM,2009:29-36.

[36】 CARROLL J,M1NNEN G,PEARCE D,et a1.Simplilying text for language-impaled read・

ers[C]//Proceedings of the 9th Conference of the European Chapter of the Association for

Computational Linguistics.1 999.

【3 7】 INUI K,FUJITA A,TAKAHASHI T,et a1.Text simplification for reading assistance:a

project note[C]//proceedings ofthe 2nd International Workshop on Paraphrasing:volume 1 6.

ACL,2003:9-16.

【38】 CHANDRASEKAR R,DORAN C,SRINIVAS B.Motivations and methods for text sim-

plification[C]//Proceedings ofthe 16th Conference on Computational Linguistics:volume 2.

ACL,1996:104l-1044.

[39】KNIGHT K,MARCU D.Statistics・based summarization-step one:sentence compression

[J】.American Association for Artificial Intelligence,2000:703—710.

[40】 FILIPPOVA K,STRUBE M.Dependency tree based sentence compression[C]//Proceedings

ofthe 5th International Natural Language Generation Conference.ACL,2008:25-32.

【4 1】 VICKREY D,KOLLER D. Sentence simplification for semantic role labeling[C]//

59

万方数据
参考文献

Proceedings of Annual Conference of the Association for Computational Linguistics:Hu-

man Language Technologies.2008:344—352.

N A.Question generation via overgenerating transformations and


[42】HElLMAN M,SMITH

ranking[R].Carnegie—Mellon University Pittsburgh Pa Language Technology Institute,2009.

[43】JONNALAGADDA S,GONZALEZ G.Sentence simplification aids protein-protein inter-

action extraction[J].arXiv preprint arXiv:1 00 1.4273,20 1 0.

[44】 SIDDHARTHAN A.Syntactic simplification and text cohesion[J].Research on Language

and Computation,2006,4(1):77-1 09.

【45】PETERSEN S E,OSTENDORF M.Text simplification for language learners:a corpus anal—

ysis[C]//Workshop on Speech and Language Technology in Education.2007.

[46】DEVLIN S L.Simplifying natural language for aphasic readers[D].University ofSunderland,

1999.

[47】 KAJI N,KAWAHARA D,KUROHASH S,et a1.verb paraphrase based on case fl ame align-

ment[C]//Proceedings of the 40th Annual Meeting on Association for Computational Lin—

guistics.ACL,2002:2 1 5-222.

[48】 ZHU Z,BERNHARD D,GUREVYCH I.A monolingual tree-based translation model for

sentence
simplification[C]/haroceedings of the 23rd International Conference on Computa—

tional Linguistics.ACL,20 10:1 353-1 36 1.

【49】YAMADA K,KNIGHT K.A syntax—based statistical translation model[C]//Proceedings of

the 39th Annual Meeting ofthe Association for Computational Linguistics.200 1.

[50】 WOODSEND K,LAPATA M.Text rewriting improves semantic role labeling[J].Journal of

Artificial Intelligence Research,20 1 4,5 1:1 33・1 64.

【5 1】 SMITH D A,EISNER J.Quasi-synchronous grammars:alignment by soft projection of

syntactic dependencies[C]//Proceedings ofthe Workshop on Statistical Machine Translation.

ACL,2006:23-30.

【52】 WUBBEN S,VAN DEN BOSCH A,KRAHMER E.Sentence simplification by monolin-

gual machine translation[C]//Proceedings of the 50th Annual Meeting of the Association for

Computational Linguistics:volume 1.ACL,20 1 2:1 0 1 5・1 024.

[53】NARAYAN S,GARDENT C.Hybrid simplification using deep semantics and machine trans—

lation[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational

Linguistics:volume 1.2014:435-445.

[54】 XU W:NAPOLES C,PAVLICK E,et a1.Optimizing statistical machine translation for text

simplification[J].Transactions of the Association for Computational Linguistics,20 1 6,4:

40l-415.

【55】GANITKEVITCH J,VAN DURME B,CALLISON—BURCH C.Ppdb:The paraphrase

60

万方数据
参考文献

database[C]//Proceedings ofthe 2013 Conference ofthe North American Chapter ofthe As-

sociation for Computational Linguistics:Human Language Technologies.20 1 3:758—764.

【56】 MIKOLOV L KARAFIAT M,BURGET L,et a1.Recurrent neural network based language

model[C]//Proceedings of the l l th Annual Conference of the International Speech Commu-

nication Association.20 l 0.

[57】 MIKoLoV L KoMBRINK S,BURGET L,et a1.Extensions of recurrent neural network

language model[C]//IEEE International Conference on Acoustics,Speech and Signal Pro-

cessing.IEEE.20 1 l:5528-553 1.

[58】 FUKUSHIMA K.Neocognitron:A self-organizing neural network model for a mechanism

ofpaRern recognition unaffected by shitt in position[J].Biological Cybernetics,1980,36(4):

l 93-202.

【59】LECUN Y BOSER B,DENKER J S,et a1.Backpropagation applied to handwritten zip code

recognition[J].Neural Computation,1989,1(4):54l・551.

[60】 HOCHREITER S,BENGIo Y FRASCONl只et a1.Gradient flow in recurrent netS:the

difficulty of learning long-term dependencies[M].IEEE Press,200 1.

【6 1】HOCHREITER S,SCH加DHUBER J.Long short-term memory[J].Neural Computation,

1997,9(8):1735-1780.

[62】 SUTSKEVER I,MARTENS J,HINTON G E.Generating text with recurrent neural networks

[C]//Proceedings of the 28th International Conference on Machine Learning.20 1 l:1 0 1 7-

1024.

[63】 CHUNG J,GULCEHRE C,CHO K,et a1.Gated feedback recurrent neural networks[C]//
Proceedings ofthe International Conference on Machine Learning.2015:2067-2075.

【64】COLLOBERT R,WESTON J,BOTTOU L,et a1.Natural language processing(almost)from

scratch[J].Journal ofMachine Learning Research,2011,12:2493.2537.

[65】 LAI S,XU L,LIU K,et a1.Recurrent convolutional neural networks for text classification

【C]//Proceedings ofthe 29th AAAI Conference on Artificial Intelligence.2015:2267-2273.

【66] GRAVES A.Sequence transduction with recurrent neural networks[C]//Intemational Con-

ference ofMachine Leaming Workshop on Representation Learning.2012.

【67】 BOULANGER・LEwANDoWSⅪN,BENGIO Y VINCENT E Audio chord recognition

with recurrent neural networks.[C]//Intemational Society for Music Information Retrieval.

2013:335.340.

[68】 VIJAYAKU^,I A R A K,CoGSWELL M,SEI:VrAR AJU R R,et a1.Diverse beam search:De.

coding diverse solutions from neural sequence models[J].arXiv preprint arXiv:1 6 1 O.02424,

2016.

[69】FREITAG M,AL-ONAIZAN Y.Beam search strategies for neural machine translation[C]//

61

万方数据
参考文献

Proceedings of the 1 st Workshop on Neural Machine Translation.20 1 7:56—60.

for
【70】SHU R,NAKAYAMA H.Improving beam search by removing monotonic constraint neu—

ral machine translation[C/OL]//Proceedings of the 56th Annual Meeting of the Association

for Computational Linguistics.2018:339-344.http://aclweb.org/anthology/P18-2054.

【7 1】 WEBER N,SHEKHAR L,BALASUB凡~MAⅫ队N N,et a1.Controlling decoding for more

abstractive summaries with copy-based networks[J].arXiv preprint arXiv:1 803.0703 8,20 18.

【72】 NARAYAN S,PAPASARANToPOULoS N,COHEN S B,et a1.Neural extractive sulnma-

rization with side information[J].arXiv preprint arXiv:1704.04530,2017.

【73】LI J,MONROE W:JURAFSKY D.A simple,fast diverse decoding algorithm for neural

arXiv:1 6 1 1.08562,20 16.


generation[J】.arXiv preprint

【74】 BOULANGER-LEWANDoWSl(I N,BENGIO Y VINCENT P.Using relevant public posts

to enhance news article summarization[C]//Proceedings ofthe 26th International Conference

on Computational Linguistics.2016:557—566.

【75】 BOUDIN F,MORIN E.Keyphrase Extraction for N—best Reranking in Multi-Sentence Com-

pression[J/OL].2013:298—305.http://www.aclweb.org/anthology/N13—1030.

【76】 EDMUNDSON H P.New methods in automatic extracting[J].Journal of the ACM,1 969,

1 6(2):264-285.

【77】LIN C Y Rouge:A package for automatic evaluation ofsummaries[J].Text Summarization

Branches Out,2004.

【78】NENKOVA A,PASSONNEAU R.Evaluating Content Selection in Summarization:The


Pyramid Method[R/OL].http://www.isi.edu/.

【79】 张瑾,王小磊,许洪波.自动文摘评价方法综述【J】.中文信息学报,2008,22(3):81・88.

【80】 金锋.文档摘要算法的研究与应用【D】.清华大学,201I.

【8 1】DENKOWSKI M,LAVIE A.Meteor universal:language specific translation evaluation for

ofthe 9th Workshop Statistical Machine Translation.


any target language[C]//Proceedings on

2014:376—380.

【82】HE K,ZHANG X,REN S,et a1.Deep residual learning for image recognition[C]//

Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.20 16:

770.778.

【83】HERMANN K M,KOCISKY T,GREFENSTETTE E,et a1.Teaching machines to read and

comprehend[C]//Advances in Neural Information Processing Systems.20 1 5:1 693・1 70 1.

【84】 GREENE D,CUNNINGHAM P.Practical solutions to the problem ofdiagonal dominance in

kernel document clustering[C]//Proceedings ofthe 23rd International Conference on Machine

Learning.ACM,2006:377-384.

【85】HULTH A.Improved automatic keyword extraction given more linguistic knowledge[C]//

62

万方数据
参考文献

Proceedings ofthe 2003 Conference on Empirical Methods in Natural Language Processing.

ACL,2003:216-223.

【86】 LI C,XU W,LI S,et a1.Guiding generation for abstractive text summarization based on key

information guide network[C]//Proceedings of the 20 1 8 Conference of the North American

Chapter of the Association for Computational Linguistics:Human Language Technologies:

volume 2.20l 8:55.60.

[87】 NALLAPATI R ZHAI F,ZHOU B.Summanmner:a recurrent neural network based se-

quence model for extractive summarization ofdocuments.[C]//Proceedings ofthe 3 lth AAAI


Conference on Artificial Intelligence.20 1 7:3075-308 1.

[88】 MIKOLOV T,SUTSKEVER I,DEORAS A,et al,Subword language modeling with neural

networks[J].preprint(http://www.fit.vutbr.cz/imikolov/mnlm/char.pdf),20 1 2,8.

【89】 ZHANG X,ZHAO J,LECUN Y-Character-level convolutional networks for text classifica-

tion[C]//Advances in Neural Information Processing Systems.2015:649-657.

【90】XIAO Y CH0 K.Efficient character-level document classification by combining convolution

and recurrent layers[J】.arXiv preprint arXiv:1 602.00367,20 1 6.

【9 l】 CHUNG J,CHO K,BENGIO Y.A character-level decoder without explicit segmentation for

neural machine translation[J].arXiv preprint arXiv:1603.06147,2016.

[92】LUONG M T,MANNING C D.Achieving open vocabulary neural machine translation with

hybrid word—character models[J].arXiv preprint arXiv:1604.00788,2016.

【93】LING w,TRANCOSO I,DYER C,et a1.Character-based neural machine translation[J].

arXiv preprint arXiv:1511.04586.2015.

[94]GAGE P.A new algorithm for data compression[J].nle C Users Journal,1994,12(2):23-38.

【95】 SENNRICH R,HADDOW B,BIRCH A.Neural machine translation of rare words with

subword units0].arXiv preprint arXiv:1508.07909,2015.

[96】 SCHUSTER M,NAKAJIMA K.Japanese and korean voice search[C]//IEEE International


Conference on Acoustics,Speech and Signal Processing.IEEE,20 1 2:5 1 49-5 l 52.

[97】PAPINENI K,ROUKOS S,WARD T,et a1.Bleu:a method for automatic evaluation of

machine translation[C]//Proceedings ofthe 40th Annual Meeting on Association for Compu-

tationalLinguistics.ACL,2002:3ll一318.

【98】HWANG W:HAJISHIRZI H,OSTENDORF M,et a1.Aligning sentences from standard

wikipedia to simple wikipedia[C]//Proceedings of the 20 1 5 Conference of the North Ameri—

can Chapter of the Association for Computational Linguistics:Human Language Technolo-


gies.2015:21 1-217.

[99】 ZHANG X,LALP!ATA M.Sentence simplification with deep reinforcement learning[C]//

Proceedings of the 20 1 7 Conference on Empirical Methods in Natural Language Process一

63

万方数据
参考文献

mg.2017:584-594.

[1 00】VU T,HU B,MUNKHDALAI T,et a1.Sentence simplification with memory—augmented

neural networks[J].arXiv preprint arXiv:1 804.07445,20 1 8

[101】GUO H,PASUNURU R,BANSAL M.Dynamic multi-level multi-task learning for sentence

simplification[J].arXiv preprint arXiv:1 806.07304,20 1 8.

【1 02】NARAYAN S,GARDENT C.Unsupervised sentence simplification using deep semantics

【J】.arXiv preprint arXiv:1 507.08452,20 1 5.

【1 03】WOODSEND K,LAPATA M.Learning to simplify sentences with quasi—synchronous gram—

mar and integer programming[C]//Proceedings of the Conference on Empirical Methods in

Natural Language Processing.ACL,20 1 1:409-420.

[1 04】SULEM E,ABEND O,RAPPOPORT A.Simple and effective text simplification using

semantic and neural methods[J].arXiv preprint arXiv:1810.05104,2018.

【105】ZHAO S,MENG&HE D,et a1.Integrating transformer and paraphrase rules for sentence

simplification[J].arXiv preprintarXiv:1810.11193,2018.

【106】NISIOI S,STAJNER S,PONZETTO S P,et a1.Exploring neural text simplification models

【C]//Proceedings ofthe 55th Annual Meeting ofthe Association for Computational Linguis-

tics:volume 2.20l 7:85.91.

万方数据
致 谢

致 谢
时维暮春,庐州草长,杂花生树,群莺乱飞。在这万物更新的春光里,我也
即将迎来人生的新阶段,告别校园,告别学生时代。回首过去的三年,感慨良多,
值此论文付梓之际,请允许我向一路走来给予我关怀和鼓励的人和事表达感谢。
首先要感谢中国科学技术大学这个平台,自三年前踏入科大校门,我无时无

刻不浸浴在科大理实交融治学严谨的浓厚学术氛围之中,它为包括我在内的众
多学子提供了非常优越的求学环境,使我有机会认识了许多将自身追求融入时
代发展洪流中的名师大家,对我人生观价值观的塑造产生了很大的积极影响。

感谢我的导师李金龙副教授,谢谢您在四年前的保研面试中将我纳入麾下,
让我得以进入UBRI实验室有了这段难忘的求学经历。在科研上,李老师给予我
们充分的自由,鼓励我们钻研自己感兴趣的课题,每周抽出大量时间与我们进行
学术讨论,给予了学生宝贵的思想启迪。同时,李老师花费大量的精力帮助我们
打磨论文并指导我们的投稿,他追求卓越的品格令我钦佩。科研之路并非一帆
风顺,犹记得我在遇到瓶颈之时,是李老师的鼓励让我走出低谷,重新拾起了希
望,这份温暖我将时刻感怀。
在研究生学习期间,我有幸结识了一群可爱的朋友。他们是我的实验室同
门:李腾飞、胡均毅、徐若易、陆超红、舒伟博、王劲松、刘佳琦等同学,在朝
夕相处的日子里,他们给予了我兄长一般的包容和爱护,我们彼此陪伴,互相扶
持,跨过了一段难走的荆棘;他们是我的实验室师兄师姐:姚亚强、徐芳、夏有
新、丁陈陈、赵猛、刘佳伟等同学,他们将自己的经验教训无私地分享给我,在
科研、生活、工作等方方面面给我树立了榜样;他们是我的实验室师弟:王海涵、

陈斌等同学,与他们的相处让我安心愉快,虚长一级,我没能提供更多的帮助反
而时常接受来自他们的鼓励和帮助,感到幸运;他们是我的研究生同级同学:李
星悦、曹利安等同学,他们或睿智或暖心,总能为我指点迷津,在我的研究生生
涯中扮演着不可或缺的角色。感谢生命里的这些遇见,衷心祝愿你们在今后的人
生中恣意潇洒,不舍希望。
同时要感谢我的老朋友於慧妮、黄晓涵、张水燕、许佳佳、黄宇、胡瑞等人,
我们在不同的地方各自努力,所幸心的距离并不遥远。
感谢我的父母文锦玉女士和陈宏宝先生,他们是我人生道路上的灯塔,让我
在得意时保持谦逊,困顿时能够振作。他们二十四年如一日地给予我情感和物质
支持,理解并尊重我的每一个决定。我能够顺利完成研究学业他们功不可没,感
谢他们的付出!
最后,感谢参加论文评审和答辩的老师们百忙之中对我论文的审阅1

65

万方数据
万方数据
在读期间发表的学术论文与取得的研究成果

在读期间发表的学术论文与取得的研究成果
已发表论文
1.Xuewen Chen,Jinlong Li,Haihan Wang.Keyphrase Guided Beam Search for

Neural Abstractive Text Summarization[C].Proceedings of 20 1 9 International

Joint Conference on Neural Networks.July 2019.(ISBN:978—1-7281—1984—4)

2.Xuewen Chen,Jinlong Li,Haihan Wang.Keyphrase Enhanced Diverse Beam

Search:A Content-Introducing Approach to Neural Text Generation[J].IEEE


Access.(Accepted)

待发表论文
1.Haihan Wang,Jinlong Li,Xuewen Chen.Keywords—based Auxiliary Informa—

tion Network for Abstractive Summarization.(Submitted)

参与研究项目

1.国家重点研发计划项目,项目编号:201 7YFC0804000
2.国家自然科学基金项目,项目编号:61573328

67

万方数据
U STC

中国科学技术大学硕士学位论文

万方数据

You might also like