基于深度神经网络的文本生成方法研究 PDF

中圈斜孽艘求大誊
硕一士学Ｉ位论文
ＩＩＩＩＩＩＩＩＩＩＩＩＩＩＩＩｆ
Ｙ３５６４５７７
论文题目基于深度神经网络的文本生成方法研究
陈雪雯
作者姓名
计算机应用技术
学科专业
李金龙副教授
导师姓名
二Ｏ一九年五月
完成时间
万方数据
中圈绅孽艘求大誊
硕士学位论文
基于深度神经网络的文本生成方法研究
作者姓名：陈雪雯
学科专业：计算机应用技术
导师姓名：李金龙副教授
完成时间：二。一九年五月二十九日
万方数据
ＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙｏｆＣｈｉｎａ
Ａｄｉｓｓｅｒｔａｔｉｏｎｆｏｒｍａｓｔｅｒ’Ｓｄｅｇｒｅｅ
ＡＳｔｕｄｙＤｅｅｐＮｅｕｒａｌ

ｏｎ
Ｎｅｔｗｏｒｋ・－ｂａｓｅｄＴｅＸｔＧｅｎｅｒａｔｉｏｎ

Ｍｅｔｈｏｄ
Ａｕｔｈｏｒ：ＸｕｅｗｅｎＣｈｅｎ
Ｓｐｅｃｉａｌｉｔｙ：ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ
Ｓｕｐｅｒｖｉｓｏｒ：ＡｓｓｏｃｉａｔｅＰｒｏｆ．ＪｉｎｌｏｎｇＬｉ
Ｆｉｎｉｓｈｅｄｔｉｍｅ：Ｍａｙ２９，２０１９
万方数据
中国科学技术大学学位论文原创性声明
本人声明所呈交的学位论文，是本人在导师指导下进行研究工作所取得的
成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰
写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了
明确的说明。
作者躲氆宝墨蝴期：丛！牲；／
中国科学技术大学学位论文授权使用声明
作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学
拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送
交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入《中国
学位论文全文数据库》等有关数据库进行检索，可以采用影印、缩印或扫描等复
制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一
致。
保密的学位论文在解密后也遵守此规定。
囡公开口保密（——年）
作者签名：导师签名：
签字日期：
万方数据
摘要
摘要
近年来，深度学习的兴起为基于深度神经网络的文本生成方法的发展提供
了新的契机。作为文本生成问题中的代表性任务，自动文本摘要和自动文本简化
旨在提取出原始文本的核心内容，并生成一段可读性强且易于理解的文本，是应
对信息过载、阅读困难等实际问题的高效解决方案。目前主流的神经网络方法多
采用基于循环神经网络的编码器．解码器框架，存在原始文本表示欠佳、生成句
与原始文本语义相关性不高、生成句子冗余、集外词生成困难等诸多问题。
针对这些问题，本文探究了基于深度神经网络的文本生成方法，在自动文本
摘要和文本简化等任务上开展了研究工作，设计并实现了一种基于改进集束搜
索的生成式摘要生成方法和一种基于子词单元的端到端文本简化方法，分别在
多个数据集上进行了实验，实验结果表明了模型在任务上的有效性。
本文的主要贡献具体包括：
（１１设计并实现了一种基于改进集束搜索的生成式摘要方法，其中包括：一
种新型混合编码器结构，利用循环神经网络学习输入文本序列中的时序信息和
长距离依赖，同时利用卷积神经网络捕获输入序列的上下文信息；两种用于摘要
解码的集束搜索算法，即得分函数结合了语言模型和语法形式惩罚策略的语法
增强集束搜索算法和引入了一个惩罚因子的多样性集束搜索算法；一种基于关
键短语的重排序机制，利用候选句与原始文本中重合关键短语的重要性得分对
候选句进行排序。在ＣＮＮ／ＤａｉｌｙＭａｉｌ等多个数据集上的实验表明了该模型在文
本摘要任务上的有效性。
（２１设计并实现了一种基于子词单元的端到端文本简化方法，利用字节对编
码算法提取子词单元并构建词表，减小词表规模以提升序列到序列模型的效率，
利用子词单元关联形态相近的词语，解决罕见词训练及集外词生成问题。将该模
型应用到ＰＷＫＰ和ＷｉｋＮｅｔ等数据集上，实验结果与词语级方法相对比表明了本
模型的有效性。
关键词：自动文本摘要；自动文本简化；文本表示；集束搜索；子词单元；深度
神经网络
万方数据
Ａｂｓｔｒａｃｔ
ＡＢＳＴＲＡＣＴ
Ｒｅｃｅｎｔｌｙ，ｔｈｅｂｌｏｓｓｏｍｏｆｄｅｅｐｌｅａｒｎｉｎｇｈａｓｆａｃｉｌｉｔａｔｅｄｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｔｅｘｔｇｅｎ＿
ｅｒａｔｉｏｎ．Ａｓｔｈｅｔｙｐｉｃａｌｔａｓｋｓｏｆｔｅｘｔｇｅｎｅｒａｔｉｏｎ，ａｕｔｏｍａｔｉｃｔｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎａｎｄａｕ－
ｔｏｍａｔｉｃｔｅｘｔｓｉｍｐｌｉｆｉｃａｔｉｏｎｈａｖｅｄｒａｗｎｏｎｉｎｔｅｎｓｅｒｅｓｅａｒｃｈｉｎｔｅｒｅｓｔｓ．Ａｕｔｏｍａｔｉｃｔｅｘｔ
ｓｕｍｍａｒｉｚａｔｉｏｎａｎｄａｕｔｏｍａｔｉｃｔｅｘｔｓｉｍｐｌｉｆｉｃａｔｉｏｎａｉｍａｔｅｘｔｒａｃｔｉｎｇｔｈｅｃｏｒｅｃｏｎｔｅｎｔｏｆ
ｔｈｅｓｏｕｒｃｅｔｅｘｔａｎｄｇｅｎｅｒａｔｉｎｇａｖｅｒｓｉｏｎｅａｓｉｅｒｔｏｒｅａｄａｎｄｕｎｄｅｒｓｔａｎｄ，ａｎｄａｒｅｅｆｆｉｃｉｅｎｔ
ｍｅｔｈｏｄｓｏｆｄｅａｌｉｎｇｗｉｔｈｉｎｆｏｒｍａｔｉｏｎｏｖｅｒｌｏａｄａｎｄｒｅａｄｉｎｇｄｉｓａｂｉｌｉｔｉｅｓ．Ａｔｐｒｅｓｅｎｔ，ｍｏｓｔ
ｍａｉｎｓｔｒｅａｍｎｅｕｒａｌｎｅｔｗｏｒｋｍｅｔｈｏｄｓａｄｏｐｔｓｏｌｅｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋａｓｔｈｅｅｎｃｏｄｅｒ
ｏｒｄｅｃｏｄｅｒ．Ｓｕｃｈｐｒａｃｔｉｃｅｔｅｎｄｓｔｏｃａｕｓｅｉｓｓｕｅｓｉｎｃｌｕｄｉｎｇｐｏｏｒｔｅｘｔｐｒｅｓｅｎｔａｔｉｏｎｆｏｒｔｈｅ
ｓｏｕｒｃｅｔｅｘｔ，ｌｏｗｓｅｍａｎｔｉｃｒｅｌｅｖａｎｃｅｂｅｔｗｅｅｎｔｈｅｇｅｎｅｒａｔｅｄｓｅｎｔｅｎｃｅａｎｄｔｈｅｓｏｕｒｃｅｔｅｘｔ，
ｗｏｒｄｒｅｄｕｎｄａｎｃｙ，ａｎｄｔｈｅｏｕｔ—ｏｆ－ｔｈｅ－ｖｏｃａｂｕｌａｒｙ（ｏｏｖ）ｐｒｏｂｌｅｍ．
Ｔｏａｄｄｒｅｓｓｔｈｅａｆｏｒｅｍｅｎｔｉｏｎｅｄｉｓｓｕｅｓ，ｔｈｉｓｄｉｓｓｅｒｔａｔｉｏｎａｉｍｓｔｏｓｔｕｄｙｔｈｅｔｅｘｔｇｅｎ—
ｅｒａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ．Ｔｈｅｒｅａｒｅｍａｉｎｌｙｔｗｏｔｅｘｔｇｅｎｅｒａｔｉｏｎ
ｔａｓｋｓｉｎｃｌｕｄｉｎｇｔｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎａｎｄｔｅｘｔｓｉｍｐｌｉｆｉｃａｔｉｏｎ．Ｔｈｅｍａｉｎｃｏｎｔｒｉｂｕｔｉｏｎｓａｒｅ
ｌｉｓｔｅｄｂｅｌｏｗ．
（ｉ）Ｗｅｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｎａｂｓｔｒａｃｔｉｖｅｎｅｕｒａｌｔｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎｍｏｄｅｌ．Ｆｉｒｓｔ，
ｗｅｄｅｖｉｓｅａｎｏｖｅｌｔｙｐｅｏｆｈｙｂｒｉｄｅｎｃｏｄｅｒ，ｗｈｉｃｈｌｅｖｅｒａｇｅｓｔｈｅｇｌｏｂａｌａｎｄｌｏｃａｌｃｏｎｔｅｘ—
ｔｕａｌｆｅａｔｕｒｅｓｂｙｃｏｍｂｉｎｉｎｇｔｈｅｓｔｒｕｃｔｕｒｅｏｆｂｏｔｈｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ（ＲＮＮ）ａｎｄ

ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ（ＣＮＮ）ｔｏｌｅａｒｎａｊｏｉｎｔｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒｔｈｅｓｏｕｒｃｅｔｅｘｔ，
ｔｗｏｍｏｄｉ—
ｔｈｕｓｇｅｎｅｒａｔｉｎｇｔｅｘｔｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｈｉｇｈｅｒｑｕａｌｉｔｙ．Ｂｅｓｉｄｅｓ，ｗｅｉｎｔｒｏｄｕｃｅ
ｆｌｅｄｄｉｖｅｒｓｅｂｅａｍｓｅａｒｃｈ，ｏｎｅｏｆｗｈｉｃｈｆｅａｔｕｒｅｓｔｈｅｌａｎｇｕａｇｅｍｏｄｅｌａｎｄｔｈｅｇｒａｍｍａｔｉｃａｌ
ｓｏｕｎｄｎｅｓｓｉｎｔｈｅｓｃｏｒｉｎｇｆｕｎｃｔｉｏｎ．Ｔｈｅｏｔｈｅｒｂｅａｍｓｅａｒｃｈａｉｍｓｔｏｆｏｓｔｅｒｔｈｅｄｉｖｅｒｓｉｔｙｉｎ
ｔｈｅｇｅｎｅｒａｔｅｄｓｅｎｔｅｎｃｅｓｄｕｒｉｎｇｄｅｃｏｄｉｎｇｂｙｉｎｔｒｏｄｕｃｉｎｇａｐｅｎａｌｔｙｔｅｒｍ．Ｍｏｒｅｏｖｅｒ，ｗｅ

ｒａｎｋｓｔｈｅｈｙｐｏｔｈｅｓｉｓｓｅｎｔｅｎｃｅｓ
ｐｒｏｐｏｓｅａ
ｋｅｙｐｈｒａｓｅｒｅｒａｎｋｉｎｇｍｅｃｈａｎｉｓｍ，ｗｈｉｃｈｇｅｎｅｒ－
ａｔｅｄｆｒｏｍｂｅａｍｓｅａｒｃｈａｃｃｏｒｄｉｎｇｔｏｉｔｓｓａｌｉｅｎｃｙｓｃｏｒｅｗｈｉｃｈｍｅａｓｕｒｅｓｔｈｅＣＯ。ｏｃｃｕｒｒｅｎｃｅ
ｔｅｘｔ．Ｓｕｃｈｒｅｒａｎｋｉｎｇｍｅｃｈａｎｉｓｍｐｒｏｍｏｔｅｓｔｈｅｓｅｍａｎｔｉｃａｌ

ｏｆｋｅｙｐｈｒａｓｅｓｗｉｔｈｔｈｅｓｏｕｒｃｅ
ｒｅｌｅｖａｎｃｅｂｅｔｗｅｅｎｔｈｅｓｏｕｒｃｅｔｅｘｔａｎｄｔｈｅｇｅｎｅｒａｔｅｄｓｅｎｔｅｎｃｅ．Ｗｅｃｏｎｄｕｃｔｅｘｐｅｒｉｍｅｎｔｓ
ｏｎｖａｒｉｏｕｓｄａｔａｓｅｔｓｓｕｃｈａｓＣＮＮ／ＤａｉｌｙＭａｉｌ．Ｔｈｅｒｅｓｕｌｔｓｏｎｂｏｔｈｔａｓｋｓｓｈｏｗｔｈａｔｏｕｒ
ｐｒｏｐｏｓｅｄｍｏｄｅｌｃｏｎｔｒｉｂｕｔｅｓｔｏｐｒｏｍｉｓｉｎｇｉｍｐｒｏｖｅｍｅｎｔｉｎｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｅｄｗｉｔｈ

ｔｈｅｓｔａｔｅ．ｏｆ－ｔｈｅ．ａｒｔｂａｓｅｌｉｎｅｓ．
（ｉｉｌＷｅｐｒｏｐｏｓｅａｓｕｂｗｏｒｄｕｎｉｔｓ－ｂａｓｅｄｅｎｄ—ｔｏ—ｅｎｄｗａｙｏｆｓｅｎｔｅｎｃｅｓｉｍｐｌｉｆｉｃａｔｉｏｎ
ｍｏｄｅｌ．ＡｉｍｉｎｇａｔａｄｄｒｅｓｓｉｎｇｔｈｅｐｒｏｂｌｅｍｓｏｆｒａｒｅｗｏｒｄｔｒａｉｎｉｎｇａｎｄＯＯＶｗｏｒｄｇｅｎｅｒ－
ａｔｉｏｎｉｎｔｅｘｔｓｉｍｐｌｉｆｉｃａｔｉｏｎ，ａｓｕｂｗｏｒｄｕｎｉｔｅｘｔｒａｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄ

ｏｎｂｙｔｅｐａｉｒｅｎｃｏｄ－
ＩＩＩ
万方数据
ＡｂｓｔｒａＣｔ
ｉｎｇａｌｇｏｒｉｔｈｍｉｓｐｒｏｐｏｓｅｄ．Ｔｈｉｓｍｅｔｈｏｄｄｉｖｉｄｅｓｔｈｅｔｅｘｔａｎｄｅｘｔｒａｃｔｓｔｈｅｓｕｂｗｏｒｄｕｎｉｔｓ
ｔＯｃｏｎｓｔｒｕｃｔｔｈｅｖｏｃａｂｕｌａｒｙ，ｗｈｉｃｈｃａｎｅｆｆｅｃｔｉｖｅｌｙｒｅｄｕｃｅｔｈｅｖｏｃａｂｕｌａｒｙｓｃａｌｅ，ｔｈｕｓ
ｉｎｃｒｅａｓｉｎｇｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｔｈｅｓｅｑｕｅｎｃｅ－ｔＯ—ｓｅｑｕｅｎｃｅｍｏｄｅｌ．Ａｔｔｈｅｓａｍｅｔｉｍｅ，ｔｈｅ
ｍｅｔｈｏｄｅｆｆｅｃｔｉｖｅｌｙａｓｓｏｃｉａｔｅｓｗｏｒｄｓｗｉｔｈｓｉｍｉｌａｒｍｏｒｐｈｏｌｏｇｙａｎｄｃａｎｃｏｖｅｒｍｏｒｅｒａｒｅ
ｗｏｒｄｓａｎｄＯＯＶｗｏｒｄｓ．ＷｅａｐｐｌｙｔｈｅｍｏｄｅｌｔＯｄｉｆｆｅｒｅｎｔｄａｔａｓｅｔｓｉｎｃｌｕｄｉｎｇＰＷＫＰａｎｄ
ＷｉｋＮｅｔ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｍｏｄｅｌｈａｓｓｉｇｎｉｆｉｃａｎｔｌｙｏｕｔｐｅｒｆｏｒｍｅｄ
ｔｈｅｗｏｒｄ－ｌｅｖｅｌｍｅｔｈｏｄｓ．
ＫｅｙＷｏｒｄｓ：ＡｕｔｏｍａｔｉｃＴｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎ；ＡｕｔｏｍａｔｉｃＴｅｘｔＳｉｍｐｌｉｆｉｃａｔｉｏｎ；ＴｅｘｔＲｅｐ－
ｒｅｓｅｎｔａｔｉｏｎ；ＢｅａｍＳｅａｒｃｈ；ＳｕｂｗｏｒｄＵｎｉｔｓ；ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ
万方数据
目录
目录
第１章绪论．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．１
１．１研究背景及意义．．．．．．．．．．．．．．．．．．．．．．．．．．．．
１．２研究现状．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．２
１．２．１文本摘要研究现状・．・・・・・・・・．・・・・・・．．．．．．．．．．２
１．２．２文本简化研究现状・．．．．．・・・．．．．－・・・．．．．．．．．．．６
１．３文本生成问题面临的挑战．．．．．．．．．．．．．．．．．．．．．．．７
１．４本文主要内容及贡献．．．．．．．．．．．．．．．．．．．．．．．．．．８
１．５本文组织结构．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．９
第２章基于改进集束搜索的生成式摘要方法．．．．．．．．．．．．１１
２．１引言．．．．．．－．．．．．．．．．．．．．．．．．．．．．．．．．．．．１ｌ
２．２文本摘要问题形式化描述．．．．．．．．．．．．．．．．．．．．．．．１ｌ
２．３相关研究工作・・．．．．．．．．．．．．．．．．．．．．．．．．．．．．１２
２．３．１基于神经网络的文本表示．・・・・．．．－・・・・．．．．．．．．．．
１２
２．３．２集束搜索・・・・・・・・・・・・・．．．・・・・・．．．．．．．．．．１５
２．３．３文本摘要自动评价指标．．・．・・．．．．．．・・．．．．．．．．．．
１６
２．４结合注意力机制的序列到序列文摘模型．．．．．．．．．．．．．．．．１９
２．４．１混合神经网络编码器．．．．．．．．．．．．．．．．．．．．．．．．．．２０
２．４．２基于覆盖度的解码模块・・・・・・・・・・・・・・．．．．．．．．．．２ｌ
２．４．３摘要候选语句生成・．．．．．．．．．．．．．－．・．．．．．．．．．．２２
２．５实验．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．２７
２．５．１数据集及实验设置．．．．．．．．．．．．．．．．．．．．．．．．．．．２７
２．５．２模型训练・・・・・・・－・・・・・・・・－・・・・．．．．．．．．．．３０
２．５，３实验结果及分析・・．．．．．・．．．．．．．．．．．．．．．．．．．．３０
２．６本章小结．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．３６
第３章基于子词单元的端到端文本简化方法．．．．．．．．．．．．３９
３．１引言．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．３９
３．２相关研究工作．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．４０
３．２．１细粒度文本表示．．．．．．．．．．．．．．．．．．．．．．．．．．．．４０
３．２．２文本简化自动评测标准・・・・・．．．．・・・・・．．．．．．．．．．４２
３．３基于子词单元的端到端句子简化模型．．．．．．．．．．．．．．．．．４４
３．３，１编码器．解码器框架．．．．．．．．．．．．．．．．．．．．．．．．．．４４
万方数据
目录
３．３．２文本的子词单元表示・・．・・・．・・．．．．．．．．．．．．．．．．．４５
３．４实验・．－・・．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．４７
３．４．１数据集预处理・・．．．．．．．．．．．．．．．．．．．．．．．．．．．４７
３．４．２实验设置・・・・－・．．．・．．．．．．．．．．．．．．．．．．．．．４９
３．４．３实验结果及分析・．．．．．．．．．．．．．．．．．．．．．．．．．．．５０
３．５本章小结・・・．・．．．．．．．．．．．．．．．．．．．．．．．．．．．５４
第４章总结与展望．．．．．．．．．．．．．．．．．．．．．．．．．．．．５５
４．１本文的主要贡献与特色．．．．．．．．．．．．．．．．．．．．．．．．．５５
４．２研究展望．．．．・．．．．．．．．．．．．．．．．．．．．．．．．．．．５６
参考文献．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．５７
致谢．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．６５
在读期间发表的学术论文与取得的研究成果．．．．．．．．．．．．．６７
万方数据
插图清单
插图清单
１．１信息摘要的范畴示意图．．．．．．．．．．．．．．．．．．．．．．．．．．２
２．１循环神经网络结构示意图．．．．．．．．．．．．．．．．．．．．．．．．１２
２．２长短记忆单元结构示意图．．．．．．．．．．．．．．．．．．．．．．．．１３
２．３门限循环单元结构示意图．．．．．．．．．．．．．．．．．．．．．．．．１４
２．４卷积神经网络结构示意图．．．．．．．．．．．．．．．．．．．．．．．．１５
２．５自动摘要评价指标ｐｙｒａｍｉｄ示意图．．．．．．．．．．．．．．．．．．．１９
２．６基于改进集束搜索的自动摘要模型结构．．．．．．．．．．．．．．．．．２０
２．７混合神经网络编码器结构．．．．．．．．．．．．．．．．．．．．．．．．２ｌ
２．８两种集束搜索算法的比较．．．．．．．．．．．．．．．．．．．．．．．．２５
２．９数据集ＣＮＮ／ＤａｉｌｙＭａｉｌ上的集束宽度选择．．．．．．．．．．．．．．．２８
２．１０数据集ＢＢＣ和Ｉｎｓｐｅｃ上的集束宽度选择．．．．．．．．．．．．．．．２９
２．１ｌ模型生成的摘要句样例．．．．．．．．．．．．．．．．．．．．．．．．．３５
３．１句子简化实例．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．．３９
３．２典型的序列到序列模型．．．．．．．．．．．．．．．．．．．．．．．．．．４０
３．３词级处理中难以处理的单词．．．．．．．．．．．．．．．．．．．．．．．４０
３．４字符及子词实例．．．．．．．．．．．．．．．．．．．．．．．．．．．．．４ｌ
３．５字节对编码算法处理子词单元实例．．．．．．．．．．．．．．．．．．．４１
３．６指标ＳＡＲＩ与其他文本生成指标的比较．．．．．．．．．．．．．．．．．４３
３．７基于神经网络的端到端句子简化模型．．．．．．．．．．．．．．．．．．４４
３．８字节对编码算法在给定词表上的合并操作．．．．．．．．．．．．．．．４７
３．９数据集ＰＷＫＰ中的高频词．．．．．．．．．．．．．．．．．．．．．．．．４８
３．１０数据集ＷｉｋＮｅｔ中子词切分处理前后对比．．．．．．．．．．．．．．．４９
ⅥＩ
万方数据
表格清单
表格清单
２．１数据集详细信息．．．．．・．．．．．．．－．・．．・．．．．・－・・・．２７
２．２数据集ＣＮＮ／ＤａｉｌｙＭａｉｌ上的ＲＯＵＧＥ分数（Ｒ一１、Ｒ－２及Ｒ．Ｌ均为Ｆ—
ｓｃｏｒｅ值）・－・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・・３ｌ
２．３数据集ＣＮＮ／ＤａｉｌｙＭａｉｌ上的ＭＥＴＥＯＲ分数・・・・・・・・・・・・・・３２
２．４数据集ＢＢＣ和Ｉｎｓｐｅｃｘ上的ＲＯＵＧＥ分数（Ｒ－ｌ、Ｒ－２及Ｒ－Ｌ均为Ｆ－
ｓｃｏｒｅ值）・・・・・・・・・・・・・－・・・・・・・・・・・・・・・・・・・・３３
２．５数据集ＢＢＣ和Ｉｎｓｐｅｃ上的ＭＥＴＥＯＲ分数．．．．－．．－．・・．・・．３４
３．１数据集ＰＷＫＰ统计信息・・．・・．．・．・・・・・・・・・・・・・・・・４８
３．２数据集ＷｉｋＮｅｔ划分方式・・．．・．．．．・・・・・・・・・・・・・・・・４９
３．３数据集ＷｉｋＮｅｔ统计信息．．．．．．．．．．．・．．・．．．．・・・・・．４９
３．４模型相关参数设置．．．．．．．．．．．．．・・．．・．．・．・・・・・・５０
３．５模型词向量维度及编码器方向性测试．．．．．．．．．．．．・．．．・．５０
３．６数据集ＰＷＫＰ上的ＢＬＥＵ分数及ＳＡＲｌ分数・．．・．．・．・・・・・．５２
３．７数据集ＷｉｋＮｅｔ上的ＢＬＥＵ分数及ＳＡＲｌ分数．．．．．．．・・．・・．５２
３．８相同训练语料中词语统计结果．．．．．．．．．．．．．．．．・・．．．．５３
ＩＸ
万方数据
第１章绪论
第１章绪论
１．１研究背景及意义
当今时代，互联网技术快速发展更迭，云计算技术已经成熟，下一代移动通
信网络５Ｇ技术迎来了发展元年，人们获取信息的途径变得更加丰富并趋于移动
化。世界各地每时每刻发生的事件，如社会头条、科技新闻、体育资讯、财经讯
息等，都能通过计算机、各种手持移动终端以及其他传统媒体传送到我们面前，
传统的时间和空间障碍被现代通信和传播技术所克服，全球的信息共享和交互
已经实现，世界被更进一步地联结为一体Ｉｌｌ。然而，与之俱来的问题不容忽视：
人们正面临着前所未有的“信息爆炸”带来的挑战。面对浩如烟海的海量信息，
如何从中迅速而准确地获取自己所需要信息变得非常困难，人们有时会感到无
所适从。同时，在这种情况下，个人往往会产生只能浅层吸收或难以吸收信息的
一种心理恐慌，这种信息焦虑也是个人分析、处理、理解信息能力较差的一种表
现［２１。这些问题给人类社会带来了负面效应和潜在危机。如何更有效地利用文本
信息资源，提高其质量，从而帮助人们快速处理信息和准确获取信息已经成为一
个亟待解决的问题。
为了解决这个问题，研究者们做出了一些探索工作。信息检索和搜索引擎技
术通过对海量数据进行过滤，可以在一定程度上满足人们查询特定信息的要求，
然而限于技术等多方面的原因，现有的搜索引擎尚不能有效解决信息过载的问
题，存在的弊端是查询的结果中往往包含大量冗余、片面、或杂质信息。相比之
下，信息摘要技术旨在对海量数据内容进行提炼，将用户所关注的主要内容以一
种简洁直观的形式呈现出来，达到方便用户快速了解与浏览海量内容的目的。信
息摘要技术能够避免通过搜索引擎进行检索可能产生过多冗佘片面信息的问题，
其能够处理的数据范畴包括文本、关系数据库、图像、音频、视频等，如图１．１所
示。这些信息作为输入进入摘要系统中，将根据用户不同的要求输出特定的摘
要。
在复杂多样的信息组成形式中，文本信息作为一种主流的数据存在形式，其
数量增长同样呈现出指数级态势，如何从海量文本数据中快速而准确地定位有
效信息加以利用，已经成为了文本信息抽取领域一个刻不容缓的研究问题。显
然，使用人工手段进行文本摘要是不切实际的，因为这要求工作人员具备充分的
领域知识且需要耗费大量时间和精力去进行相关文档阅读，更重要的是，人工摘
要无法满足实时处理的客观需求。这表明了自动文本摘要技术的必要性和紧迫
性。自动文本摘要（ＴｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎ）技术是指从一个或多个文档中自动生成
高度浓缩、通顺流畅、忠实于原始文本内容并保留其关键信息的摘要，其目标是
１
万方数据
第１章绪论
图１．１信息摘要的范畴示意图
用较短的一段话对原始文本的重要内容进行概括，使读者能够通过阅读这段摘
要文字快速感知原始文本的内容梗概，从而判断该信息的效用并决定是否深入
阅读，以提高浏览和处理信息的效率。
作为自动文本摘要技术的重要组成部分，文本简化（ＴｅｘｔＳｉｍｐｌｉｆｉｃａｔｉｏｎ）也得
到了很多研究者的关注。文本简化旨在将原始文本转化成为其简化版本以增加
其可读性和可理解性，除了作为文本摘要等自然语言处理任务的预处理程序，其
在其他方面也有广泛的应用。例如，通过将文本进行压缩以适配屏幕相对较小的
移动设备【３１，实现信息浏览和人机交互新方式；将篇幅较长且用词复杂的文字转
化为简单易读的文字，方便孩童和第二语言学习者的阅读【４】等等，这些应用显
示文本简化可以为人类读者带来直接便利。
本文对自动文本摘要方法和文本简化方法进行研究，这两个任务均属于文
本生成问题。对于一个良好的文本生成系统来说，既要能够对其输入的原始文本
进行深入理解，捕捉原始文本的核心语义信息并加以合理表示，同时需要具备根
据其语义表示生成可读性强、信息量充分且相对简明的句子的能力【５１。
１．２研究现状
１．２．１文本摘要研究现状
自动文摘的研究始于上世纪五十年代初期【６１，自其首次被提出至今，在六十
多年来的研究与发展中诞生了许多摘要方法，这些方法大致分为两类。第一种是
抽取式方法，基本过程通常包括对原始文档中旬子的重要程度进行评估并利用
万方数据
第ｌ章绪论
各种打分排序算法选出候选句，最后按照一定的组合策略连接形成摘要。另一种
方法被称为生成式方法，最大的特点是可以使用原始文本中没有出现过的新词，
这些词通常是对原始文本的改写。相较之下，抽取式方法生成的摘要通常是文档
中一些重要句子的简单拼凑，不仅包含了大量的冗余信息，且句子与句子之间缺
少一定的关联性，从而导致了信息的碎片化和歧义性，而生成式方法则日ｔ－匕ｋ够很好
地克服这些缺点。生成式摘要方法的发展得益于近年来深度学习研究的逐渐深
入，尤其是机器翻译领域首创的序列到序列模型【７】，其意义在于无须依赖人工先
验知识，如词性标注、句法分析、篇章结构分析【５】等。这类方法的特征完全从数
据中学习出来，并且可以得到更好的效果。根据原始文档的数量，文本摘要问题
可以被划分为单文档摘要和多文档摘要【８】。这里我们主要讨论单文档摘要问题，
下文将综合上述分类将自动文本摘要技术分为两部分进行讨论，包括抽取式摘
要和生成式摘要。
（１）抽取式摘要方法
抽取式摘要方法，顾名思义，就是依据特定的摘要比例，从原始文本中抽取
出相对重要的句子，依据其重要性对其进行组合排序，并采用一些基于语言学
规则的转换进行指导，从而生成一段流畅可读的摘要。这种方法的关键技术包
括句子的重要信息评估、冗余信息的过滤、碎片化信息的聚合以及多源信息的
篇章组织等等，一般来说，单文档摘要的关键主要集中于句子的重要信息评估，
而较少涉及后三个方面的技术。这种“复制——粘贴”的方法由于直接使用了原
始文本中的词句，鲜少出现语法错误，具有很强的鲁棒性。抽取式摘要方法大致
上可以分为非监督式和监督式两类，非监督式方法通常将文本摘要转化为挑选
有代表性的句子并对其进行排序的任务；而监督式方法则将摘要任务视作一个
二分类（ＢｉｎａｒｙＣｌａｓｓｉｆｉｃａｔｉｏｎ）问题，即将原始文本中的语句分为摘要语句和非摘
要语句两类，这类方法需要训练数据及其对应的标注信息，其中较为著名的包
括朴素贝叶斯分类器（ＮａｉｖｅＢａｙｅｓＣｌａｓｓｉｆｉｅｒ）［９１、高斯混合模型（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅ
Ｍｏｄｅｌ，ＧＭＭ）［１０】、隐马尔科夫模型（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，ＨＭＭ）［１１】、支持向
量机（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ，ＳＶＭ）和条件随机场（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ，
ＣＲＦ）１１２】等。
下面本文将给出四种典型的抽取式摘要方法的介绍。
①基于特征的模型（Ｆｅａｔｕｒｅ．ｂａｓｅｄ）
这种模型抽取出句子的若干特征并对其重要性进行分析，设定特征权重，依
此来对句子重要性进行得分计算。这类工作的代表算法包括Ｊａｇａｄｅｅｓｈ等人提出
的模型【”１、ＪｏｌｏＢａｌｂｉｎ提出的ＴｅｘｔＴｅａｓｅｒ①等。常用特征包括句子长度、句子位
置、句子中是否包含标题词、句中动词、命名实体标识、词频统计等［１４１，这类非
①ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ＭｏｊｏＪｏｌｏ／ｔｅｘｔｔｅａｓｅｒ
万方数据
第１章绪论
监督方法无需训练数据且执行速度快，然而由于评分函数是人工构建的，只能采
取部分主要特征，权重的设定亦需要人工调试，效果一般。
②基于主题的模型（Ｔｏｐｉｃ．ｂａｓｅｄ）
这种模型首先通过聚类或语义块分析等手段计算出文本的主题，然后根据句
子所包含的主题对原始文本中各句进行评估，抽取句子来构造摘要句。潜语义分
析（ＬａｔｅｎｔＳｅｍａｎｔｉｃＡｎａｌｙｓｉｓ，ＬＳＡ）、概率潜语义分析（ＰｒｏｂａｂｉｌｉｔｙＬａｔｅｎｔＳｅｍａｎｔｉｃ
Ａｎａｌｙｓｉｓ，ＰＬＳＡｌ等方法【１５郴】均属于这一类别。
③基于语法的模型（Ｇｒａｍｍｅｒ－ｂａｓｅｄ）
ＫｒｉｓｔｉａｎＷｏｏｄｓｅｎｄ等人【１９】提出对文本进行文法分析并构建其语法结构树，
然后对其子结构进行选择及重新排序，根据重新生成的语法结构树得到摘要句
子。另外，ＧｒｅｇｏｒｙＳｉｌｂｅｒ和ＫａｔｈｌｅｅｎＦ．ＭｃＣｏｙｌ２０】及Ｂａｒｚｉｌａｙ等人【２１】的工作提出
利用ＷｏｒｄＮｅｔ等语料库中的同义词及近义词信息，分析原始文本中相邻句子的
语义相似性以判断文章主题，依据最长的词汇链来构建摘要句子的集合。
④基于图的模型（Ｇｒａｐｈ．ｂａｓｅｄ）
Ｍｉｈａｌｃｅａ与Ｔａｒａｕ于ＥＭＮＬＰ’０４提出ＴｅｘｔＲａｎｋ［２２】模型用于关键词抽取及文
本摘要，该模型受启发于ＰａｇｅＲａｎｋ算法１２３】，其思想非常简单：通过词之间的相
邻关系构建原始文本的网络，将词语视为网络的节点，并定义节点之间的关系作
为网络连边，然后用ＰａｇｅＲａｎｋ迭代计算每个节点的ｒａｎｋ值，通过对ｒａｎｋ值排序
得到关键词。ＴｅｘｔＲａｎｋ模型被应用到文本摘要任务上的具体做法是：将原始文
本分解成若干单元（如句子等），每个句子作为一个节点，若两个句子间存在相似
性，则认为这两个句子对应节点间存在一条无向有权边。通常根据公式（１．１）来
衡量两个句子Ｓ，Ｓ，间的相似性：
…洲以鹕，＝躞希鬻铲 ∽・，
其中，叫。表示句子中的词，分子部分刻画了句子墨，Ｓ，间重合的词语个数。为
避免长句优势，分母部分进行了正则化操作。
任意两个节点的相似度均能根据此公式进行计算，根据阈值去掉相似度较
低的两节点连边，构建出原始文本的图，然后计算出ＴｅｘｔＲａｎｋ值，排序并选出
值最高的节点对应的句子作为文本的摘要。
综合来说，抽取式摘要方法的实现普遍比较简单，其中多数无监督方法不需
要训练数据，效果上能够保证句子的可读性。然而，由于抽取式方法生成的句子
通常是原始文本中重要句子的简单组合拼接，这往往会导致生成的摘要包含大
量冗余信息，且句子与句子之间的关联性得不到保证，在句中包含代词的情况下
尤其会出现指代不明的困境，导致信息的碎片化和歧义性【５１。
４
万方数据
第ｌ章绪论
（２）生成式摘要方法
与抽取式自动文本摘要技术不同，生成式文本摘要方法的目标是在完全理
解原始文本内容之后，根据其核心思想和中心内容来重新组织一段语法正确且
具有可读性的摘要文字。这种方法不必拘泥于原始文本中的语言，因此具有更高
的灵活性，也更贴近人类进行文本摘要的过程。一般来说，生成式摘要方法需要
运用更为复杂的自然语言处理技术（例如语义理解、文本转述、句子缩写、同义
替换等）来实现文本的表征与生成，且受限于以往计算力难以满足复杂模型训练
的情况，过去主流的研究并未集中在生成式摘要方法上，但这并不表示生成式方
法逊色于抽取式摘要方法。
近年来，深度神经网络的研究推动了自然语言理解领域多项任务的发展，机
器翻译任务首创的序列到序列模型【７】尤其令人瞩目，其出现打破了统计机器翻
译的局限性，通过构建一个编码器到解码器的黑盒系统在平行语料库中进行训
练，模型自身可以学习如何翻译，而无须依赖语言学家设计的规则及调整步骤繁
多的统计模型。受到机器翻译技术的启发，深度神经网络的方法被应用于文本摘
要任务上的生成式摘要方法，并取得了相当不错的成果。
其中较为有代表性的工作包括：Ｌｏｐｙｒｅｖ１２４】提出两种不同的注意力机制，复
杂机制中的注意力权重由编码器中每个词的最后一层隐层表示与当前解码出的
最新词最后一层隐层表示做点乘，并进行归一化处理得到；简单机制将编码器部
分在每个词最后一层隐层表示分为两块，其中一小块用于计算注意力权重，另一
大块保留为编码器表示，用于导入ｓｏｆｔｍａｘ进行输出预测。两种方法被应用于循
环神经网络模型下的新闻标题生成任务，在Ｇｉｇａｗｏｒｄ数据集上的实验表明简单
注意力机制取得了更好的效果。该工作对注意力机制的探索启发了后来研究者
在文本摘要任务上的工作。同年，Ｒｕｓｈ等人【２５】尝试使用了三种不同的编码器：
词袋模型（Ｂａｇ－ｏｆ－Ｗｏｒｄ）、有条件的卷积编码器和基于注意力机制的编码器，并利
用前馈神经语言模型（ＮＮＬＭ）１２６】作为解码器，首次实现了在大量平行句对上的
神经网络训练，成为后续文本摘要研究的基础。次年，同研究组的Ｃｈｏｐｒａ等人【２７】
对Ｒｕｓｈ的工作进行了扩展，将解码器由前馈神经网络替换为循环神经网络，并
改变了编码器结构，同时为输入词及其所在位置学习词嵌入向量，利用卷积计算
当前位置的上下文表示以作为解码过程中注意力权重计算的依据，在Ｇｉｇａｗｏｒｄ
语料上和ＤＵＣ．２００４文本摘要任务上取得了更优的结果。Ｎａｌｌａｐｔｉ等人【２８】引入了
大词汇表技术（ＬａｒｇｅＶｏｃａｂｕｌａｒｙＴｒｉｃｋ，ＬＶＴ）［２９】到文本摘要问题上，解决了由于
解码器词汇表过大而造成的ｓｏｆｔｍａｘ层的计算瓶颈，同时使用两个双向循环神经
网络来分别捕捉词语级别和句子级别的特征，在两个数据集上均取得了超越前
文Ｒｕｓｈ等人所提出模型的表现。
另一方面，研究者注意到基于神经网络的方法在解决文本摘要上也存在某
万方数据
第１章绪论
些不足，例如生成重复的词语、出现事实性错误、集外词（Ｏｕｔ．ｏｆ－ｔｈｅ．ｖｏｃａｂｕｌａｒｙ，
ｏｏｖ）问题（即难以生成重要的低频词汇）等。当原始文本中含有某些重要的专有
名词（如人名、地名、机构名、年份等）时，为了保障摘要能提供充足的信息，这
些专有名词也应被合理地包含在摘要文字中。基于这种想法，研究者们提出一种
抽取式和生成式方法的折中方案，其中的典型工作梳理如下：Ｇｕ等人【３０】提出一
种拷贝网络（ＣｏｐｙＮｅｔ），摘要生成时下一个单词的预测由一个生成模式ｇ和拷贝
模式ｃ的混合概率共同决定，模型中除了通常意义的高频词词汇表之外还建立了
一个用于支持拷贝模式的词汇表，保存输出原始文本中的实体或日期等难以被
解码“还原”出来的信息。相似地，Ｓｅｅ等人Ｉ”】提出一种基于指针网络（Ｐｏｉｎｔｅｒ
Ｎｅｔｗｏｒｋ）１３２】的模型，称为指针．生成网络（Ｐｏｉｎｔｅｒ－ＧｅｎｅｒａｔｏｒＮｅｔｗｏｒｋ），该模型一
方面通过序列到序列模型保持其抽象生成预定义词表中单词的能力，另一方面
通过指针网络直接从原始输入文本中拷贝难以生成的词语，缓解了集外词问题。
针对词语重复问题和事实性错误问题，Ｔｕ等人【３３】提出覆盖度机制（Ｃｏｖｅｒａｇｅ
Ｍｅｃｈａｎｉｓｍ），其要点在于维护一个覆盖度向量用于记录模型已关注的部分，从而
避免出现注意力持续关注某几个词的情形。Ｃｈｅｎ等人【３４】提出一种注意力分散机
制（ＤｉｓｔｒａｃｔｉｏｎＭｅｃｈａｎｉｓｍ），训练过程中在生成最后的内容向量时，通过引入历
史内容向量的惩罚机制生成更多样的内容向量，同时在注意力权值上引入历史
信息，鼓励多样性生成，避免内容上的重复。
１．２．２文本简化研究现状
文本简化是计算语言学中非常重要的一个任务，旨在将原始文本转化成为
其简化版本以增加其可读性和可理解性。其应用场景包括教育科技、目标内容生
成、语言学习等领域，且能够在很大程度上造福文化水平不高的人群【３５］，如孩
童和非母语人士【４】以及患有自闭症或阅读障碍的特殊人群［３６～３１。
文本简化不仅能够为人类读者带来直接便利，其作为多项自然语言处理任
务的预处理程序，更是扮演着不容忽视的角色。事实上，文本简化任务被提出的
最初动机就是为了帮助更好地完成语法分析和翻译任务【３８１，因为复杂的长难句
往往会给这些任务带来极大的挑战，而经过简化的句子则能够在很大程度上助
益后续任务处理。在二十多年的研究历程中，语句简化在包括文本摘要【３９】、句
子融合【４０１、语义标注１４１１、问答系统１４２】和生物医学信息抽取【４３】等多个任务上都
发挥了积极作用。
文本简化通常从两个不同的语言学角度入手１３６］：（１）词汇方面，即通过将原
始文本中复杂的词语替换成简单的同义词实现简化：（２）句法方面，将句子固有
的层次结构进行改变以达到句子简化的目的。这两种类型的简化需要借助一系
列更细化的操作实现，包括对句子进行分割、删除词语、重新排序和替换某些词
万方数据
第１章绪论
语等。句子分割是将长句划分为几个较短的句子以减少长句的复杂度；词语删除
操作的对象是不影响句子含义的较为不重要的词语；接下来对分割后的句子【删
或句中的部分短语１３５１进行重新排序操作；最后把句中较难的短语或单词替换为
其对应的简化同义词。不难看出，为了最大化文本简化的效果，上述列举的四个
简化操作缺一不可，即文本简化过程应该可以视为不同操作的组合问题。然而，
现有的模型大多仅考虑其中一个方面。Ｓｉｄｄｈａｒｔｈａｎ［４４１和Ｐｅｔｅｒｓｅｎ等人【４５１的工作
重点关注在句子分割；Ｆｉｌｉｐｐｏｖａ和Ｓｔｒｕｂｅ［４０】的工作则侧重于利用词语删除方法
开发了一个句子压缩系统。在词汇简化方面，研究者通常借助基于词频的语料库
ＷｏｒｄＮｅｔ［３６】中的简单同义词对复杂单词进行替换。
早期的文本简化工作的重点放在简化问题的单一方面，例如句法方面，仅利
用语法规则对句子进行分割［３６，３８，４１，４４］，而其他系统则仅专注于词汇方面的简化，
将原始文本中较难的词语替换为其简单同义词或对其做语义解释［３７，４６－４７】。
最近的研究大多借鉴统计机器翻译的思想，将文本简化视为一种单语的
（Ｍｏｎｏｌｉｎｇｕａｌ）文本到文本的生成任务。一般来说，简化重写方式是从网络语料
库（如常规维基百科及简单维基百科）中抽取得到的复杂．简单句子对中自动学习
而来。其中有代表性的工作梳理如下：Ｚｈｕ等人【４８】从基于句法的机器翻译中得
到启发，提出一种在前人研究【４９】之上额外进行句子简化操作（如句子分割）的模
型。Ｗｏｏｄｓｅｎｄ和Ｌａｐａｔａ［５０Ｊ提出在准同步语法框架下【５１】进行文本简化任务，并
使用整数线性规划对生成的候选翻译句及简单句子进行打分。Ｗｕｂｂｅｎ等人［５２１
提出一个两阶段模型，在第一阶段，利用复杂．简单句子对训练一个标准的基于
短语的机器翻译模型（ｐｈｒａｓｅ—ｂａｓｅｄｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ，ＰＢＭＴ）；在推理阶段，该
翻译模型得到的Ｋ个分数最高的候选句再根据其与输入的复杂句的不相似程度
进行重新排序。相似地，Ｎａｒａｙａｎ和Ｇａｒｄｅｎｔ的工作【５３】也提出了一个两阶段的方
法，首先利用概率模型对Ｂｏｘｅｒ工具处理过的句子进行分割和删除操作，然后将
这些句子进一步简化作为最终结果。Ｘｕ等人【“】在Ｇａｎｉｔｋｅｖｉｔｃｈ等人所建立的大
规模语料库ＰＰＤＢ［５５】上训练了一个基于句法的机器翻译模型，设计出一个新的
目标函数以鼓励更简单的句子输出。
１．３文本生成问题面临的挑战
综合近年来的研究成果来看，尽管序列到序列模型和注意力机制的大规模
应用使得文本生成方法有了长足的进步，但是该领域依然存在很多关键问题亟
待解决，例如如何对较长的文本进行建模，获得良好的文档语义表示，并以此为
基础生成通顺流畅的简要文本等。
我们对当前基于深度神经网络序列到序列框架的文本生成问题存在的主要
７
万方数据
第１章绪论
问题列举如下：
（１１已有的生成式摘要方法所采用的基于单一循环神经网络或卷积神经网络的
序列到序列模型对于较长的文本的学习表示效果不佳。
（２）源文档和生成的摘要在语义相似度上表现欠佳，生成的摘要句子可能在形式
上通顺流畅，却无法真实反映源文档的语义。
（３）文本生成问题的解码过程中，每一时刻预测生成的词语受限于固定大小的词
典，其中的低频词无法训练得到较好的词向量表示，而未被包含在词典中的
集外词则被统一映射为＜ＵＮＫ＞（ｕｎｋｎｏｗｎ）符号，影响文本质量。
（４）当前主流摘要系统生成的句子存在不同程度的词语重复，导致冗余问题，对
可读性造成影响。句子中可能出现事实性错误，如将实体名称完全替换成了
另外不相关的实体。
１．４本文主要内容及贡献
本工作探究了基于深度神经网络的文本生成方法，主要任务是生成式文本
摘要和文本简化，设计并实现了一种基于改进集束搜索的生成式摘要生成方法
和一种基于子词单元的端到端文本简化方法，分别在多个数据集上进行了实验，
实验结果表明了模型在任务上的有效性。
针对文本摘要问题，本文的创新点和主要贡献包括如下三个方面：
（１）对于原始文本的语句表示学习，提出了一种结合卷积神经网络和深度循环神
经网络的混合编码器结构。该结构通过卷积操作将序列上下文信息进一步加
强，同时利用循环神经网络学习时序信息和长距离依赖，捕获了局部和全局
信息，学习得到高质量的原始文本向量表示。
（２）为解决摘要生成问题，提出了两种改进的集束搜索算法用于解码过程，第一
种称作语法增强的集束搜索算法，其得分函数结合了语言模型和语法形式惩
罚策略，约束生成更多语法形式合理的句子；第二种称为多样性集束搜索算
法，其在第一种算法基础上引入一个惩罚因子，降低生成的候选句之间的相
似性，鼓励生成更多样化的句子。
（３１为提高摘要句和原始文本的语义相似度，提出了一种基于关键短语的重排序
机制，对集束搜索过程产生的候选句子，根据其与原始文本中重合的关键词
的重要性得分对其进行重新排序，选择最终生成的摘要句。
针对文本简化问题，本文的创新点和主要贡献包括：
（１）针对文本简化中的罕见词及集外词问题，提出使用字节对编码算法对文本进
行切分，提取出子词单元并构建词表，在减小词表规模的同时关联了形态上
相近的词语，覆盖更多的罕见词和集外词。
万方数据
第１章绪论
１．５本文组织结构
本文共分为四个章节，其内容结构安排如下：
第一章为绪论，首先介绍了包括文本摘要和文本简化在内的文本生成问题
的研究背景与研究意义，并详尽论述了该问题的国内外研究现状。以单文本摘要
问题的发展概况为代表，按照抽取式方法和生成式方法两个类别对文本摘要任
务的研究现状做出了梳理；对于文本简化任务，根据从词汇和从句法出发两个角
度对研究现状做出了介绍，并比较了早期研究工作和现有方法。接着提出了文本
生成研究领域目前面临的挑战，并据此确定了本文的研究内容，最后提出了本工
作的主要贡献。
第二章主要介绍了一种基于改进集束搜索的生成式文本摘要方法。首先介
绍了现有文本摘要方法需要解决的语义表示和语言生成问题，并给出了文本摘
要问题的形式化描述。接着对本文相关的研究工作进行了大致介绍，包括常用的
基于神经网络的文本表示模型、集束搜索算法和文本摘要的自动评价标准。然后
详细阐述了本文方法，即结合注意力机制的序列到序列文摘模型，其中包括一种
全新的混合神经网络编码器，用以获得高质量原始文本表示。在对模型结构介绍
完毕后，我们提出了两种用于提升摘要生成质量的改进集束搜索算法，并介绍了
模型的训练方式。在实验部分，我们分别在句子摘要任务和标题生成任务上验证
了本文方法的有效性，并对摘要生成实例进行了分析。
第三章主要介绍了一种基于子词单元的端到端文本简化方法。首先对文本
简化任务中存在的问题做出了分析，在此基础上介绍了字符级和子词级的文本
表示的相关研究工作和该任务的自动评价标准。接着，我们提出一种神经网络端
到端的文本简化模型，利用字节对编码算法对文本进行子词单元提取以构建新
的词表并提升模型训练效率。在实验部分，我们对文本简化任务的数据集及预处
理做出了详细说明，并对本文模型与基准模型的表现做了详细的比较分析。
第四章是总结与展望，该章节对全文的工作进行了归纳，阐述了本文的创新
点，并对未来可能的改进方向做出了初步探讨。
万方数据
万方数据
第２章基于改进集束搜索的生成式摘要方法
２．１引言
文本摘要的自动生成需要解决两个重要问题，分别为原始文本的语义表示
和摘要句的语言生成。近年来，深度学习在自然语言处理任务上应用广泛，神经
网络模型在文本的语义表示上表现出了优异的性能，因此，基于深度神经网络
的编码器．解码器框架被用于解决文本摘要的自动生成问题。然而，以往研究中
的编码器结构往往基于单一神经网络计算单元，语义表示能力较为受限，不能
充分捕捉原始文本中的特征，导致生成的摘要句在语义上与原始文本并不相似。
另一方面，摘要解码（生成）过程中集束搜索的广泛应用虽然大大减小了搜索空
间，提高了搜索效率，然而这种贪心算法也带来了新的研究问题，即生成的多个
候选句之间的差异性很小，甚至出现趋同的现象，即排名靠前的候选句表达的都
是相似的意思，这无疑会带来计算力上的浪费，给后续的候选句排序和选择带来
不便。同时，我们观察到传统集束搜索生成的摘要句有时难以涵盖原始文本的关
键信息，这并不符合我们对于文本摘要功能的预期。
针对现存的问题，本文提出一种基于改进集束搜索的生成式摘要方法，该
方法在编码器一解码器框架下解决文本摘要的语义表示和语言生成问题。本章的
组织安排如下，首先介绍两种常用的神经网络模型，包括循环神经网络（Ｒｅｃｕｒ－
ｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ，ＲＮＮ）ｔ５６－５７】和卷积神经网络（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，
ＣＮＮ）ｔ５８．５９１，基于此，本文提出一种混合神经网络的编码器结构以获得更好的原
始文本语义表示。其次，本章提出两种摘要生成过程中的搜索算法，包括语法增
强的集束搜索和多样化集束搜索，这两种搜索算法受益于我们提出的基于关键
短语的重排序机制，能够提高生成的摘要句内容的质量。在对模型进行完全阐述
后，本章在２．５节详细介绍了实验数据集及实验设置，并给出了模型的训练目标
和训练方式，其后，分别给出了两种搜索算法对应的模型实现在两个不同摘要任
务上的实验结果及分析。
２．２文本摘要问题形式化描述
为了阐述的方便，我们首先给出文本摘要问题的形式化描述，给定的原始文
本可表示为ｘ＝（ｘ１，ｘ２，…，Ｘｎ），而生成的摘要句子可表示为Ｙ＝（．ｙｌ，Ｙ２，…，ｙ。），
分别由其各自的单词序列组成，，ｌ和ｍ分别表示两者的长度，满足约束条件
ｎ》ｍ。用ｙ表示原始文本的词典，由语料库中频度最高的Ｎ个单词组成。一
１１
万方数据
般来说，文本自动摘要问题的目标函数可以表示成：
ａｒｇｍａｘＰ（ＹＩＸ）

ｙ∈ｙ
，ｎ
Ｐ（ＹＩＸ）＝ｎＰ（ＹｔＩ（Ｙｌ＇．”，Ｙｔ－１），ｘ；。）
，＝ｌ
其中。表示训练过程中学习到的参数。从上式中，我们不难看出，摘要
句中ｔ时刻预测的单词Ｙ，是基于原始文本ｘ以及ｔ时刻之前生成的所有单
词（ｙ１，Ｙ２，…，Ｙｔ－１）而产生的，一般来说，Ｙｔ出自词典Ｖ。根据统计语言模型【２６】，
Ｐ（ＹＩＸ）求解的是字符串（ｙｌ，ｙ２，…，乃一１）的联合概率，利用贝叶斯公式进行链式
分解可以写作该连乘形式，文本摘要的目标则是最大化条件概率Ｐ（ＹＩＸ）。
２．３相关研究工作
２．３．１基于神经网络的文本表示
在自动文本摘要中，首先面临的一个问题就是原始文本的表示问题，良好的
文本表示是后续生成高质量的摘要句的基础。文本表示是指将自然语言符号转
换成数学形式，便于计算机能够理解并运算，这种数学形式通常是稠密低维的实
数向量。在自然语言中，词语是句子的基本组成单元，而句子构成了文档，在研
究者们尝试合理表示词向量的同时，也有很多模型被提出用于建模句子和文档，
尤其在近年深度学习大发展的背景下，基于深度神经网络模型的语句表示研究
工作大量涌现，其优势在于其自动学习特征的表达能力，从而免于繁杂的特征工
程。目前较为主流的语句表示模型主要包括两种，即循环神经网络和卷积神经网
络。本节将对这两种模型进行具体的介绍。
＠宁
图２．１循环神经网络结构示意图
１２
万方数据
（１）循环神经网络
循环神经网络ＲＮＮ是一类以序列数据为输入，在序列的演进方向进行递归
且所有节点（循环单元）按链式连接的递归神经网络，也就是说，网络中每个循环
单元当前时间步的状态由该时间步的输入和上一个时间步的状态同时决定。如
图２．１所示，循环神经网络是同一结构的多次复制，右侧图案是其展开形式，ｔ时
刻的状态ｈ，不仅依赖于ｔ时刻的输入ｘ，，还依赖于ｆ一１时刻的状态ｈ川，而ｔ－１
时刻的状态又依赖于ｔ－１时刻的输入和ｔ－２时刻的状态，如此递归。时序上的依
赖使循环神经网络在某时刻输出时可以充分考虑历史信息，在理论上能够对任
意长度的序列进行建模，尤其适合文本数据的处理。然而，在经典的循环神经网
络结构中，损失的梯度经过多个时间步的反向传播后容易出现极端的非线性态
势，即梯度消失问题（ＧｒａｄｉｅｎｔＶａｎｉｓｈｉｎｇＰｒｏｂｌｅｍ）１６０１，换言之，当序列的长度比

较大时，迭代后期梯度在反向传递到较早时刻时趋向于零，导致梯度弥散，对模
型参数的更新非常弱。
为了解决经典的循环神经网络在训练过程中存在的上述问题，研究者们对
其循环计算单元进行重新设计，提出了不同的变体，其中较为流行的循环神经网
络模型是长短记忆单元（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏ吼ＬＳＴＭ）［６１－６２】和门限循环单元
（ＧａｔｅＲｅｃｕｒｒｅｎｔＵｎｉｔ，ＧＲＵ）１６３１。
图２．２长短记忆单元结构示意图
长短记忆单元ＬＳＴＭ是一种特殊的循环神经网络，其优势在于学习长距离
依赖信息的能力，相比于朴素循环神经网络只有一个传递状态ｈ，，ＬＳＴＭ有两个
传输状态ｑ和ｈ，，其内部结构如图２．２所示。可以看到，ＬＳＴＭ结构的循环计算
单元包含了四个组成部分，分别是输ＸＩ＇－Ｊ（ＩｎｐｕｔＧａｔｅ）ｉ，、遗忘门（ＦｏｒｇｅｔＧａｔｅ）工、
记忆单元（ｃｅｌｌ）ｃ，以及输出ｆ－ｊ（ＯｕｔｐｕｔＧａｔｅ）０，，对于ｆ时刻的输入，ＬＳＴＭ根据计
算公式（２．１－２．５）得到其对应的隐状态输出Ｊ｝ｌ，：
１３
万方数据
ｉｆ＝仃（Ｉ嵋ｆ■＋Ｗｈｊｈ，一１＋ｂｊ）（２．１）
六＝仃（ｗ乞，＿＋Ｗ＇ｈｆｈｆ一１＋ｂｆ）（２．２）
ｃｆ２‘ｏＣｔ＿ｌ＋ｉｆｏｔａｎｈ（１４ＺｘｃＸ，＋ｒｖｈｃｈ卜ｌ＋ｂｃ）（２．３）
０ｔ＝盯（１吒Ｄ■＋ＶｅｈＤｈｆ—ｌ＋ｂｏ）（２．４）
ｈｆ＝０ｆｏｔａｎｈ（ｃｔ）（２．５）
其中。表示将两个向量中对应元素相乘得到新的向量，仃（．）表示Ｓｉｇｍｏｉｄ激活函
数，ｔａｎｈ（・）是双曲正切函数。－表示ｔ时刻的输入，ｂｉ，ｂ，，ｂ。，ｂ。表示偏置项，不
同的肜分别表示权值矩阵。
．，／ｘ
ｈ｝』
－－－－◆ｈ
ｆ
图２．３门限循环单元结构示意图
门限循环单元ＧＲＵ是另外一种应用广泛的循环神经网络变体，相较于长短
记忆单元，ＧＲＵ的优势在于其结构比较简单、易于实现、收敛速度快。标准的
ＧＲＵ单元结构如图２．３所示，其通过重置门（ＲｅｓｅｔＧａｔｅ）ｒｔ和更新门（ＵｐｄａｔｅＧａｔｅ）
Ｚ，来保证模型对较长句子信息的记忆能力。根据ｔ时刻的输入向量ｘ，和ｔ一１时
刻的隐状态ｈｆ＿ｌ，ＧＲＵ循环计算单元根据公式（２．６－２．９）计算当前时刻的输出，
ｒｔ＝仃（彬ｘＸｒ＋Ｗｒｈｈｆ一１＋ｂｒ）（２．６）
ｈＩ＝ｔａｎｈ（Ｗｘｆ＋Ｖｅｒ（ｒ，ｏｈｆ—１）＋ｂ＾）（２．７）
２ｆ＝盯（ｗ乞ｘＸｆ＋ｌ吒＿Ｉｌ＾ｆ一１＋ｂｚ）（２．８）
ｈｆ＝（１一ｚｆ）ｏｈ卜ｌ＋Ｚｒｏｈｆ（２．９）
其中。表示将两个向量中对应元素相乘得到新的向量，仃（・）表示Ｓｉｇｍｏｉｄ激活函
数，ｔａｎｈ（・）是双曲正切函数。ｂ，，ｂ＾，ｂ：表示偏置项，不同的缈分别表示权值矩
阵。
１４
万方数据
６４１０２４Ｓ１２
采样层全连接层
图２．４卷积神经网络结构示意图
通过上述计算对各时刻输入的字符进行编码后可以得到其特征向量，最终
得到原始文本的中间语义表示，进而通过解码逐一生成摘要句中的词语。
（２）卷积神经网络
卷积神经网络ＣＮＮ同样可以用于实现文本表示。不同于上节介绍的循环神
经网络能够直观地应用于文本数据，捕捉文本序列中的时序依赖，ＣＮＮ最初只
被用于图像任务。ＣＮＮ通过事先设定大小的卷积核从图像中提取出特征，间隔
地对特征作用最大池化操作，得到不同层级的、由简单到复杂的特征，如线、面、
复杂图形模式等，如图２．４所示。
显然，ＣＮＮ的特点在于其能对层次特征进行提取，且能够实现卷积操作的
高效并行。为了在文本任务中利用这个优势，研究者提出【６４】使用词嵌入方法获
得文本中词语Ｉｄ３，的分布式词向量表示Ｘ，，则长度为Ｌ的句子可以表示为矩阵
Ａ＝［Ｘ。，Ｘ，，．．．，ＸｔｉＴ，在这种情况下，句子矩阵可以被作为图像处理，使用ＣＮＮ
在其上通过设定窗口大小的滤波器进行卷积操作，获得局部特征序列。
在摘要任务中，现有的用于文本表示的编码器多采用单一神经网络结构，而
循环神经网络和卷积神经网络各有其局限性【６５】，因而我们提出一种混合神经网
络结构，旨在对两者优势进行结合，学习时序信息的同时捕获局部特征。
２．３．２集束搜索
集束搜索（ＢｅａｍＳｅａｒｃｈ）算法【６６．６７】是一种启发式图搜索算法，被广泛应用于
机器翻译、文本摘要、语音识别等系统中，该算法通过在每一步扩展时将质量较
差的节点进行剪枝，仅保留一定数目的高质量解，以达到减少搜索过程所占用的
时间和空间的目的，提高搜索效率。然而在实际应用中，集束搜索生成的句子并
非毫无瑕疵，这是由于这种算法是不完全的，可能存在最优解被丢弃的情况。另
外，我们观察到最后保留的候选句往往从同一得分较高的节点扩展而来，使得生
成结果趋向于同质化，差异性比较小，可能会出现候选句均与原始文本语义无关
１５
万方数据
＇
的情况，这无疑会导致计算力的浪费。
近年来针对集束搜索的研究工作大致可分为两类，一方面是从增进句子的
多样性入手，另一方面则旨在提高生成句的质量。其中比较有代表性的研究包
括：Ｖｉｊａｙａｋｕｍａｒ等人【６８】等人在目标函数中加入一个额外项用于衡量候选句之间
的差异性，与之类似，Ｆｒｅｉｔａｇ和Ａ１．Ｏｎａｉｚａｎ等人［６９１通过限制从同一个根节点中
扩展出来的候选句对同质化现象进行避免。最近的研究中，多样性集束搜索已经
被应用到了自然语言处理的多个任务中［７０－７１】，然而，这些研究仅着眼于生成多
个形态上有区别的句子，并不能保证其语法结构上的合理性。为了解决这个问
题，我们提出两种改进的集束搜索算法，旨在通过设计一种新的得分函数对生成
句子的可读性与连贯性进行增强，从而生成更高质量的候选摘要句。同时，我们
观察到在解码过程中加入一定的额外信息［７２－７５１能够有效指导生成句的选择，提
升语言生成质量，这启发我们利用关键短语以增强原始文本与生成的摘要句之
间的语义相似性。
２．３．３文本摘要自动评价指标
评价方法对于一个研究领域非常重要，是牵引这个领域向前发展的首要因
素，也就是说，高质量的评测方法和文档摘要技术的进步是相辅相成的。早期的
部分工作依赖人工对生成的摘要进行评价，具备领域知识的专家对摘要句进行
分析，从中寻找关键点并计算要点的覆盖率，根据覆盖率对句子打分。这种基于
人工评价的方法可信度和灵活度较高，因为人类可以推理、复述并识别意义相近
但形式上不同的文本单元，然而这种方法在一定程度上依赖于主观判断，且受
限于较低的效率，花费的时间成本过高，不适用于大规模自动文摘数据的评价。
因此，如何合理地、有效地对生成的摘要进行评价成为了自动文本摘要的一个
重点和难点。在自动文本摘要漫长的研究历程中，研究者们制定出了许多相对
可行的自动评测方法，这些方法可以大致分为两大类，即内部评价标准（Ｉｎｔｒｉｎｓｉｃ
Ｍｅｔｈｏｄｓ）和外部评价标准（ＥｘｔｒｉｎｓｉｃＭｅｔｈｏｄｓ）。内部评价标准的应用比较广泛，在
实现上需要借助参考摘要，通过将模型生成的摘要句与参考摘要进行不同粒度
上的比较，吻合程度越高则表示生成摘要的质量越理想。外部评价标准则是通过
将系统生成的摘要应用到某项具体的任务中，根据该摘要对这项任务完成度的
贡献大小来考量其生成质量。总体上来说，这两类方法都需要决定原始文本中最
重要的部分并在生成的文摘中对该部分进行识别，同时基于文摘句子的语法和
连贯性对其进行可读性的考量。本节将对几种常见的评价标准作出介绍。
（１）外部评价标准
这种方法不需要借助参考摘要对生成摘要的质量进行判断，而是在某些具
体的文本相关的应用（例如，文本分类、文本聚类、文本检索等）中将原始文本替
１６
万方数据
换成为系统生成的摘要，用于任务的执行，在这种情况下，如果该应用的性能得
到了提升，则认为生成的摘要是高质量的摘要。
（２）内部评价标准
①Ｅｄｍｕｎｄｓｏｎ
Ｅｄｍｕｎｄｓｏｎｔ７６】评价方法于上世纪六十年代末被提出，是一种较为简单的方
法，既可以通过客观比较生成的摘要与参考摘要的句子重合率的大小来对其进
行评价；也可以由专家进行主观评估，通过比较生成的摘要与参考摘要所包含的
有效信息，对待评估的摘要句子进行等级评分，将其划分为：完全不相同、基本
相近、十分相近等类别。
Ｅｄｍｕｎｄｓｏｎ方法以句子作为基本单元对生成摘要和参考摘要进行比较，且
参考摘要均由专家从原始文本中抽取且严格按照原文顺序排列得到。具体的重
合率Ｐ计算方法由公式（２．１０）给出：
口＝一Ｘ
Ａｒ
ｐ：』土！竺生×１００％（２．１０）１
ＩＺ．
Ａｔｅ｛ｅｒｅｎｃｅ
其中，Ⅳｍ叭＾表示重合的句子数目，Ⅳｒ。，ｅ，删。表示参考摘要的句子总数目。
则每个生成摘要的重合率为根据ｎ个专家分别给出的参考摘要计算得到的
重合率Ｐ，，ｆ∈｛ｌ，２…．，甩）的平均值卢，可由公式（２．１１）得到：
卢＝∑ｐｆ肌１００％
ｆ＝ｌ
（２．１１）
②ＲＯＵＧＥ
ＲＯＵＧＥ（Ｒｅｃａｌｌ．ＯｒｉｅｎｔｅｄＵｎｄｅｒｓｔｕｄｙｆｏｒＧｉｓｔｉｎｇＥｖａｌｕａｔｉｏｎ）［７７】是一种基于召

回率的相似性度量方法，当前被广泛应用于ＤＵＣ（ＤｏｅｕｍｅｎｔＵｎｄｅｒｓｔａｎｄｉｎｇＣｏｎ．
ｆｅｒｅｎｅｅ）会议①的自动文本摘要测评任务中。其基本思想是将系统生成的摘要和
给定的参考摘要的门元共现统计量作为评价根据，本质上相当于比较系统生成
结果和参考答案之间在连续若干个词上的匹配程度，然后对生成的摘要句子进
行打分。根据语义单元的不同，ＲＯＵＧＥ指标有多种变体，其中最常用的衍生指
标包括下列几种：
・ＲＯＵＧＥ—Ｌ：该指标表示生成的摘要句和参考摘要的最长公共子序列（Ｌｏｎｇｅｓｔ
ＣｏｍｍｏｎＳｕｂｓｅｑｕｅｎｃｅ，ＬＣＳ）的相似度。生成摘要和参考摘要的ＬＣＳ越长，
则其质量越高。
・ＲＯＵＧＥ．Ｗ：这里的Ｗ表示Ｗｅｉｇｈｔｅｄ，是对最长公共子序列相似度的加权
比较。
①ｈｔｔｐ：／／ｄｕｃ．ｎｉｓｔ．ｇｏｖ／
１７
万方数据
・ＲＯＵＧＥ—Ｓ－这里的Ｓ表示ｓｋｉｐ．ｂｉｇｒａｍ，即允许ｂｉｇｒａｍ中的两个单词不相
邻，例如“Ｉｆｅｅｌｇｏｏｄｔｏｄａｙ”中“ｆｅｅｌｔｏｄａｙ”可视为ｓｋｉｐ—ｂｉｇｒａｍ，却不能称
其为ｂｉｇｒａｍ。
・ＲＯＵＧＥ—ＳＵ：是对ＲＯＵＧＥ—Ｓ的补充，在考虑ｓｋｉｐ．ｂｉｇｒａｍ的同时加入了
ｕｎｉｇｒａｍ，即允许ｂｉｇｒａｒｎ的两个词之间插入另外的词。
・ＲＯＵＧＥ－Ｎ：该指标比较句子在ｎ．ｇｒａｍ粒度的共现召回率，ｎ．ｇｒａｍ表示ｎ
元词，可由公式（２．１２）计算得到。
Ｒ。ｕＧＥ一Ⅳ＝—Ｚ｛Ｓ五ｅ｛ｒ；ｅｆ：ｅｒ石ｅｎｃ：ｅ：ｓｕｍ：ｍ：：：：：ａｒｉ：＝ｅｓ｝：Ｚ＿ｇ∑ｒａ：ｍｎ＝：：：ｅＳ：Ｃ了。石ｕ磊ｎｔｍ磊ａ石ｔｃｈ而（ｇｒａｍｎ）（２．１２）
Ｚ—Ｓ∈｛陀厂已，已一ｃｅｓＨｍｍ口一ｅｓｌ厶譬，口卅．∈Ｓ、７Ｌ，“¨‘＼５’“，，‘Ｈ，
其中，Ｓ表示参考摘要句，该摘要句中总的ｎ—ｇｒａｍ数目用Ｃｏｕｎｔ（ｇｒａｍ。）表示，生
成的摘要句与参考摘要之间匹配的ｎ－ｇｒａｍ数目则用Ｃｏｕｎｔｍ耐。＾（ｇｒａｍ。）表示。
在这一指标簇中，ＲＯＵＧＥ．１和ＲＯＵＧＥ．２最为常用，ＲＯＵＧＥ．１计算单词
（ｕｎｉｇｒａｍ）的召回率，并不考虑词序，例如“ｐｅｎｃｉｌｃａｓｅ”和“ｃａｓｅｐｅｎｃｉｌ”有相同

的ＲＯＵＧＥ．１得分；而ＲＯＵＧＥ．２计算双连词（ｂｉｇｒａｍ）的召回率，在这种情况下
“ｐｅｎｃｉｌｃａｓｅ”与“ｃａｓｅｐｅｎｃｉｌ”并不匹配。
③Ｐｙｒａｍｉｄ
Ｐｙｒａｍｉｄ是一种基于摘要内容选择单元（ＳｕｍｍａｒｙＣｏｎｔｅｎｔＵｎｉｔｓ，ＳＣＵ）１７８］的
方法。ＳＣＵ表示不长于一个从句的核心内容，由不同参考摘要中表达同一语义
的贡献者集合、唯一的索引、权重和自然语言标签组成。ＳＣＵ被越多参考文摘
要所包括，则其权重越大。所有的ＳＣＵ按照权重进行排序，相同权重的排列在
同一行中，由上至下重要程度递减【７９】。
对于给定的ｎ篇参考摘要，ＳＣＵ权重的最大值可以取ｎ，最小值为ｌ。ＳＣＵ
按照权重可以分为ｎ个类别，一般来说，ＳＣＵ的数目将随权重值的增大而减小，
即权重越大的类中包含的ＳＣＵ越少，因此，类别从ｎ到ｌ的ＳＣＵ的构成呈现一
个金字塔（ｐｙｒａｍｉｄ）形态，如图２．５所示，ｗ表示权重。
设第正层的ＳＣＵ个数为ｌ正Ｉ，待评测的系统摘要中出现在正层的ＳＣＵ数
目为ｑ，则待评测系统摘要中ＳＣＵ的总权重为ｄ＝∑：ｌＤ，，而含有ｘ个ＳＣＵ
的最优摘要的ＳＣＵ权重可由公式（２．１３）计算：
Ｍ口Ｘ＝ × 正＋ × Ｙ一互ｆ２．１３）
。∑卅。∑＿＿ｉ｝
其中Ｊ＝ｍａｘｆ（∑：ｊＩ墨Ｉ≥ｘ），为从上往下累加ｐｙｒａｍｉｄ各层的ＳＣＵ个数时，
第一个满足累加个数大于等于ｘ的层号。摘要的ｐｙｒａｍｉｄ评测分数为Ｄ与Ｍａｘ
的比值【８０１。
１８
万方数据
＝１
图２．５自动摘要评价指标ｐｙｒａｍｉｄ示意图
Ｐｙｒａｍｉｄ方法与人工评价的一致性较高，但其局限性在于进行人工标注的成
本较高，且各个语义核心单元的大小并不固定，难以自动生成。
④ＭＥＴＥＯＲ
ＭＥＴＥＯＲ评价指标由Ｄｅｎｋｏｗｓｋｉ和Ｌａｖｉｅ于２０１４年提出【８ｌ】，该方法从匹配
（Ｅｘａｃｔ）、词干（Ｓｔｅｍ）、同义词（Ｓｙｎｏｎｙｍ）和释义（Ｐａｒａｐｈｒａｓｅ）四个方面对生成的
系统摘要和参考摘要进行比较，在计算ＭＥＴＥＯＲ得分前需要预先给定一组基于
ＷｏｒｄＮｅｔ同义词语料的校准（ａｌｉｇｎｍｅｎｔ），这一校准的实现则需借助最小化对应摘
要句中的语句块。可以认为ＭＥＴＥＯＲ分数是待测评系统摘要和给出的参考摘要
之间的准确率和单字召回率的加权调和平均，解决了仅基于精度的评价指标（如
ＢＬＥＵ）中固有的缺陷，与人工评测结果的一致性较高。
２．４结合注意力机制的序列到序列文摘模型
本文所提出的基于改进集束搜索的自动文摘模型如图２．６所示。给定一段原
始文本作为输入，我们首先将该序列中的单词映射到连续的词向量空间得到其
向量表示，并使用结合卷积神经网络和循环神经网络的混合神经网络编码器编
码得到其隐状态。在原始文本被编码完成后，我们利用基于覆盖度并结合注意力
机制的解码器逐字生成摘要。在解码过程中，本模型提出了两种改进的集束搜索
算法，分别从语法增强的角度和文本多样化角度对生成的候选摘要句进行约束，
得到其初始分数；接着引入一个基于关键短语的重排序模块对这些候选句进行
再处理，同时考虑其原始得分和所包含的关键短语的重要性得分，最后选择得分
最高的候选句子作为生成的摘要。
１９
万方数据
越合编码器
图２．６基于改进集束搜索的自动摘要模型结构
２．４．１混合神经网络编码器
为了解决文档表示问题，本文提出了一种全新的编码器形式，该编码器结合
了卷积神经网络和深度循环神经网络的结构特点，显式地利用卷积层来捕获目
标词汇单元及其邻近单词之间的上下文关系，强化了语境的作用，是对传统的基
于单一循环神经网络的编码器结构的一个很好的补充。基于此，本编码器既能学
习到循环神经网络所擅长的时序信息和长距离依赖，同时能检测到局部时序无
关的特征，从而得到高质量的原始文本的表示，为摘要生成打下基础。
如图２．７所示，我们采用了双向ＬＳＴＭ作为编码器的基本计算单元，因为双
向建模方法可以更完整地捕捉序列中各单元之间的关联。具体来说，输入的原始
文本序列（ｘｌ，Ｘ２，…，ｈ）被映射为前向隐状态向量西ｌ，葛２，…，葛。）和后向隐状态向
量（Ｊ｝２１，无２，…，万。），每一时刻的前后向隐状态按照公式（２．１４）进行拼接作为该时
刻的整体隐状态表示：
ｈ，＝［ｈｉ；ｈｆ】（２．１４）
为了实现多层神经网络间的梯度传递，我们在两层循环神经网络之间使用
了残差连接【８２】以便于其训练，残差连接能够帮助构建更深的网络，缓解梯度消
失等问题。具体地，每一时刻底层ＬＳＴＭ的输入被添加到其输出，其总和作为
输入被馈送到第二层ＬＳＴＭ，如图２．７中红色箭头所指示。在循环神经网络之上，
我们级联了一层无池化操作的卷积神经网络，其目的是利用卷积层对相邻状态
之间的局部特征进行抽取，如公式（２．１５）所示，第ｉ个输入的隐状态ｈ，由卷积网
络窗口内其前后相邻隐状态共同决定。
２０
万方数据
ｈｉ＝ａ（ｏ・ｈ（ｉ一（埘一１）／２）：（ｆ＋（彬一１）／２）－Ｉ－６）（２．１５）
其中猁表示卷积神经网络的滤波器窗口，我们将其大小设置为３。盯表示Ｓｉｇｍｏｉｄ
激活函数，ｂ则表示公式的偏置项。
卷秧厶：
炳丘；）议Ｉ：ｑＬｓＴ＾Ｉ
图２．７混合神经网络编码器结构
２．４．２基于覆盖度的解码模块
本模型的解码器由一层单向ＬＳＴＭ组成，其中每一时刻的隐状态勺由其前
一时刻的隐状态ｓ卜ｌ和前一时刻的输出巧一１共同决定，其计算如公式（２．１６）所
示：
ｓ』＝ＬＳＴＭ（ｓｊ一１，乃一１）（２．１６）
我们利用注意力机制来刻画在Ｊ时刻目标输出隐状态勺与其相关的原始文
本之间的软对齐，也就是说，注意力机制旨在对输出与输入的词建立一种权重关
系以使解码器决定当前输出的词与哪个输入词的关系更密切。解码器按照公式
（２．１７）动态地计算每一时刻的上下文向量ｃｊ，而非使用～个固定的值，这样能确
保摘要句能够捕获到原始文本中的重要信息。
＝＾
勺口（２．１７）
ｎ∑Ⅲ
其中，％』是按照公式（２．１８—２．２０）计算得到的归一化结果，用于反映原始文本中
２ｌ
万方数据
各状态在摘要生成时的注意力分布。
ｅｘｐ（ｋ０）
（２．１８）
％５聂鬲而
ｋｕ＝ｖＴａｔａｎｈ（Ｕａｈｊ＋比ｓ卜ｌ＋Ｋ勺一１）ｒ２．１９）
ｊ
ｅｄ＝∑％（２．２０）
其中ｋ，，反映了输入ｉ时刻状态与输出．７时刻状态的匹配程度，如公式（２．１９）所
示。ｅ，则是覆盖度向量，它通过将Ｊ时刻之前原始文本中的单词ｘ，的注意力得分
进行累加，如公式（２．２０）所示，用以衡量其在摘要生成过程中被利用的程度。为
了达到使模型更多地注意原始文本中当前未被利用部分的目的，覆盖度向量被
作为一个额外的输入加入传统的注意力得分计算公式中，该做法能够有效地减
少摘要生成中的词语重复问题。这一修改的动机在于，在文本摘要生成过程中，
如果原始文本中的某个单词与当前时刻将要生成的内容高度相关，则该单词在
此时刻会被赋予一个较高的注意力得分，出于对人类书写摘要习惯的模仿，自然
地，该单词对接下来生成过程的贡献将在很大程度上减小。
此外，为了缓解语言生成过程中的集外词问题，本模型在解码过程中采用拷
贝网络（ＣｏｐｙＮｅｔ）的方法，其功能可以看作是对抽取式和生成式摘要生成方法的
结合。如图２．５所示，解码器模块在每一时刻产生两个独立的概率值，即ｌｆ，，和
悱。生成模式下，在预测的每一步动态计算一个生成概率ｌｆ，，如公式（２．２１）所示，
该单词来自预定义的词汇表ｙ。
（２．２１）
％。ｐ（乃２忌％，蚋）２曩ｅｘｐ（丙ｅ。９
０ｎ＝嵋％一１＋％ｃｎ＋ｗ３ｓＨ（２．２２）
其中０。可由公式（２．２２）计算得到，Ｍ，％，比则是可训练的权值矩阵。
另一方面，拷贝模式下，模型通过公式（２．２３）计算词表外词语直接来自原始
文本的概率虬，这种模式可视作一种对抽取式摘要方式的融合，其中肜同样是
可训练的权值矩阵，而ｂ。则表示偏置项。
虬＝ｐ（ｙｊ＝ｘｆ）＝ｔａｎｈ（１７Ｖｃｈｊ＋ｂｃ）（２．２３）
２．４．３摘要候选语句生成
模型在预测阶段没有参考摘要的指导，解码器的工作过程是：接收编码器的
＜ｅｏｓ＞（ｅｎｄｏｆｓｅｎｔｅｎｃｅ）作为开始解码的信号，生成一个字符后将其作为下一时刻
的输入，重复这个过程直到生成的句子达到设定长度或生成＜ｅｏｓ＞符号则解码
２２
万方数据
结束。预测的目标是根据当前模型选择概率最大的字符作为输出，然而得到这个
最优解的复杂度一般非常高，在实际应用中，为了减小搜索空间，我们通常采用
集束搜索的策略进行近似求解。
（１）传统集束搜索
集束搜索是在使用维特比解码算法的精确搜索和使用贪心思想的近似搜索
之间的一种折中方案，为了减少搜索范围降低问题复杂度，在每一步深度扩展的
时候，仅保留毋个最高得分的输出，而对质量较差的节点进行剪枝，最后从Ｂ
个输出结果中选择得分最高的句子作为最终的输出。这里的Ｂ被称为集束宽度
（ＢｅａｍＷｉｄｔｈ），而每一步扩展的评分函数则是当前时刻为止生成的各个单词的对
数似然的总和，如公式（２．２４）所示。
ＩＸＩ
姗厂Ｐ（Ｙ＿ｌ，Ｙ，Ｉｘ）＝∑ｌｏｇｐ（ｙｔｌＹ＜，，ｘ）
ｆ＝ｌ
（２．２４）
其中ｘ表示原始文本中的字符，Ｙｔ表示当前时刻生成的单词，Ｘ一１表示到ｔ－－１时
刻为止扩展得到的候选句子序列，即Ｖ一１＝｛ｙｌＹ２…肼一１ｌ。
集束搜索的伪代码表示如算法２．１所示，值得注意的是，在生成式摘要方法
中，模型训练阶段的解码过程中并未使用集束搜索，该算法仅在测试推理阶段的
解码过程发挥了作用，其步骤描述如下：
①输入训练好的模型参数ｏ，设定的集束搜索宽度Ｂ及句子扩展的最大步
长丁：
②使用一个队列日存放从起始到第ｔ步未扩展完全的句子，句子扩展时使
用的词典是原始文本使用的词典，由语料库中频度最高的Ⅳ个单词组成：
从ｆ＝１到丁执行循环：
③从日中选出Ｂ个分数最高的作为待扩展句存入Ｓ：
④对候选句进行扩展得到Ｂ×Ｂ个新候选句存入Ｓ７；
⑤对Ｓ’中新生成的句子按照公式（２．２４）进行评估；
⑥将Ｓ’中的句子存入候选句子队列日；
⑦若日中候选句句末扩展生成＜ｅｏｓ＞符号的个数达到Ｂ个，则跳出当前
循环；
⑧扩展达到了最大步长丁时循环结束；
⑨选择日中分数最高的句子作为生成的摘要句。
不难看出，这种做法将单词级的概率之和与序列级的概率简单地等同起来，
而忽略了ｎ．ｇｒａｍ（耳Ｐ序列级别）的特征，并不能保证所生成句子的可读性和信息
性。另外，这种搜索打分方式明显会带来与评估之间的不匹配，因为用于评价的
ＲＯＵＧＥ指标更倾向于对序列级别的同现打出高分。这些问题证明了对传统的集
２３
万方数据
算法输入：Ｂ÷＿ｂｅａｍｗｉｄｔｈ；／／设定的集束宽度
日卜ｅｍｐｔｙｈｙｐｏｔｈｅｓｉｓｑｕｅｕｅ；／／空候选句子队列
丁÷－ｍａｘｓｔｅｐｓ；／／扩展最大步长
算法输出：Ｘ／／生成的摘要句子
ｌｆｏｒｔ＝１＿丁ｄ０
２
Ｓ÷＿ｐｏｐｂｅｓｔＢｕｎｆｉｎｉｓｈｅｄｈｙｐｓｆｒｏｍＨ；／／从队列中选择丑个未扩展完
全的句子：
３Ｓ’÷－ｅｘｐａｎｄＳｔｏｇｅｔＢ×Ｂｎｅｗｈｙｐｓ；Ｈ将上一步中得到的丑个句子进
行扩展得到Ｂ×Ｂ个新的候选句子：
４Ｅｖａｌｕａｔｅｓｃｏｒｅｓ
ｏｆｈｙｐｓｉｎＳ’ｗｉｔｈＥｑ．（２．２４）；／／对这些候选按照公式
（２．２４）进行打分；
ＳＰｕｓｈＳ’ｉｎｔｏＨ；／／将这些句子压入候选句子队列中；
６ｉｆ＃（ｆｉｎｉｓｈｅｄｈｙｐｓｉｎ日）≥Ｂｔｈｅｎ
７ｂｒｅａｋ／／若队列中扩展完全的候选句数目达到Ｂ个则跳出该循环，
或达到最大扩展步长时循环结束
８ｅｎｄ
９Ｅ÷＿ｂｅｓｔｆｉｎｉｓｈｅｄｈｙｐｉｎＨ／／选择得分最高的候选句作为最后生成的

摘要句
１０ｅｎｄ
算法２．１：集束搜索伪代码
束搜索算法进行修改的合理性。
（２）改进的搜索算法Ｉ：语法增强的集束搜索
首先，本文针对集束搜索设计了一种新的评分函数，该评分函数部分保留了
传统的评分函数（见公式（２．２４）），因为每个字符的对数似然之和在一定程度上反
映了序列中字符间的依赖关系。除此之外，为了确保语法的合理性，我们在评分
函数中加入了一些额外的指标以检查当前字符的生成是否将导致低质量的候选
句序列。低质量序列的特征包括：包含未知字符、包含重复的ｎ．ｇｒａｍ或重复的
实体（例如，重复出现连续的三个词或相同的词仅由逗号分隔）等。另外，候选
句序列若以冠词或介词等只能提供低语义信息的词作为结尾或者呈现出较差的
语法结构（例如，序列中含有奇数个双引号或者括号不能配对等）时也会受到惩
罚，我们用ｍａｌｆｏｒｍｅｄｓｃｏｒｅ（ｓｃｏｒｅ。）来描述上述不合要求的句子特征。此外，我
们观察到在生成模式下产生的字符（即并非直接从原始文本中拷贝的字符）往往
具有较低的对数似然值，我们在评分函数中添加了额外的得分ａｂｓｔｒａｃｔｉｖｅｓｃｏｒｅ
（ｓｃｏｒｅ。）对这种生成方式进行奖励。综上，本模型利用修改后的集束搜索的评分
２４
万方数据
函数来获得生成的候选序列的原始得分（ｓｃｏｒｅｐ），如公式（２．２５）所示，
ＩｙＩ
姗ｒ勺＝∑，。ｇＰ（ＹｔＩＹ＜，，ｘ）一五姗，．ｅｍ＋心。，．％
Ｉ＝１
（２．２５）
其中Ａ和∥分别是两个附加得分的权重，我们将其初始值设置为Ｏ．２５，然后在
训练集上进行动态调整。
（３）改进的搜索算法ＩＩ：多样性集束搜索
ＢｅａｍＳｅａｒｃｈ
＊ｃｗｔⅣＢｃ“”，￥ｏⅢ ｍ
Ａｓｔｅａｍｅｎｇｉｎｅｔｒａｉｎｔｒａｙｅｌｌｉｎｇｄｏｗｎｔｒａｉｎｔｒａｃｋｓ
ｍＡｓｔｅａｍｅｎｇｉｎｅｔｒａｉｎｔｒａｖｅｌｌｉｎｇｄｏｗｎｔｒａｃｋｓ．
＊ ‰ ｍｍ・
Ａｓｔｅａｍｅｎｇｉｎｅｔｒａｉｎｔｒａｙｅｌｌｉｎｇｔｈｒｏｕｇｈａｆｏｒｅｓｔ．
。＋一兰…Ａｓｔｅａｍｅｎｇｉｎｅｔｒａｉｎｔｒａｖｅｌｌｉｎｇｔｈｒｏｕｇｈａｌｕｓｈｇｒｅｅｎｆｏｒｅｓｔ．
；一Ｍ…黔狮。髀Ａｓｔｅａｍｅｎｇｉｎｅｔｒａｉｎｔｒａｖｅｌｌｉｎｇｔｈｒｏｕｇｈａｌｕｓｈｇｒｅｅｎｃｏｕｎｔｒｙｓｉｄｅ
Ａｔｒａｉｎｏｎａｔｒａｉｎｔｒａｃｋｗｉｔｈａｓｋｙｂａｃｋｇｒｏｕｎｄ．
ＤｉｖｅｒｓｅＢｅａｍＳｅａｒｃｈ
４。。。。。Ｐ。三？８：‘ＡＡｓｓｔｅａｔｅａｍｍｅｅ嘲ｎｇｉｎｎｅｅｔｒａｔｒａ…ｖｅｌｌⅢｉｎｇｅｄｌ｛ｌｏｎａｗｎｔｈｒｏｔｒａｉ：０篇琵高．

。。。。。一一。嘲筠、ＡＡｉｄｏｌｄｄｉ：ｉｉ：ｅｅ㈣ｎｇｉｎｎ；黑ｒａｉ：裟ｒａｖｅｅｍｌｌｉ；ｎ鬻：粥ｏｗ“ｎ岛！ｈｒａａｉｎ嗡ｔｒａｅｃ§ｋ￡？。
№ ” Ａｂｌａｃｋｔｒａｉｎｉｓｏｎｔｈｅｔｒａｃｋｓｉｎａｗｏｏｄｅｄａｒｅａ．
，
ｎ＊ｔ。ｍＡｂｌａｃｋＩｒａｌｎｉｓｏｎｔｈｅｔｒａｃｋｓｉｎａｒｕｒａＩａｒｅａ．
图２．８两种集束搜索算法的比较
上述搜索算法虽然在语法上进行了改进，然而通过实验，我们观察到应用传
统集束搜索生成的多个候选句子之间往往差别并不显著，在句式以及每一时刻
生成的词语上都相当趋同，排名靠前的几句话表达的都是相似的语义，这对后续
的排序选择提出了不小的挑战。为了解决这个问题，我们在语法增强的集束搜索
算法的基础上提出一种多样化集束搜索（ＤｉｖｅｒｓｅＢｅａｍＳｅａｒｃｈ），在得分函数中引
入一个惩罚因子，旨在降低生成的候选句之间的相似度，得到更加多样化的生成
序列。
本文提出的多样化集束搜索的具体做法介绍如下：在ｔ时间步，解码器保留了
Ｂ个待扩展的候选句子，可表示为Ｋ１，Ｘ２…．，×Ｂ，其中妒＝（ｙ：，．ｙ！，ｙ：…．，谚｝，ｂ∈
｛１，２…．，Ｂ）。以砷为例，当其扩展时，它保留得分最高的Ｂ个词语，我们将这些
词表示为ｙ兰，ｂ∈｛１，２…．，ｊＥｉ），ｂ’∈｛１，２…．，Ｂ】。因此，新扩展的候选序列可以表
示为【砖，蝶】。该序列的多样化集束搜索得分ＤＢＳ（Ｙｔ６，ｙｂｒ＋ｌ，ｂＩｌｘ）按照公式（２．２６）
进行计算：
ＤＢｓ（ｐ，蟛Ｉｘ）＝∑ｚ。ｇｐ（删ＩＹ，６，ｘ）一ｙ６７（２．２６）
其中，ｙ表示多样性比率，通常将其设定为０．１５，ｂ’表示当前候选序列在所有与
２５
万方数据
其从同一节点扩展而来的候选序列中的得分排名。容易看出，排名越靠后，则惩
罚项ｙ６７越大，即实现了对从同一节点扩展而来的得分较低的序列的剪枝。
接下来，基于这个多样化得分，我们融合了提出的第一种改进集束搜索，根
据公式（２．２７）计算得到生成的候选序列的原始得分ｓｃ。ｒ勺（妒，删Ｉ．ｘ）：
ｓｃ。，．ｅｐ（ｖ６，ｙｒｂ＋，ｂｌｔＩｘ）＝ＤＢＳ（Ｙｔ６，ｙ搿Ｉｘ）一Ａｓｃ。，．ｅｍ＋∥ｓｃ。，．ｅ口（２．２７）
其中的超参数与公式（２．２５）设置相同。传统集束搜索和多样性集束搜索算法生
成候选句的比较如图２．８所示，容易看出，传统集束搜索生成的候选句在形式和
语义上区别并不明显，而多样性集束搜索则能够鼓励生成句式更灵活的候选句，
在更大程度上覆盖原始文本的核心内容。
（４）基于关键短语的重排序机制
本文提出通过一种基于关键短语的重排序机制对集柬搜索得到的候选序列
进行最佳摘要句子的选择。具体来说，这种机制根据序列的原始得分ｓｃｏｒｅ。与
其和原始文本中重合的关键短语的重要性得分对生成的候选序列进行重新排序，
选择其中得分最高的作为最后的摘要。直观上来说，关键短语中包含了可用于构
建简明摘要的代表性实体，能够很好地捕获原始文本中的要点，因此我们认为，
摘要候选序列与原始文本中关键短语的重叠越多，表示该摘要包含的信息量越
大，后文中的定性分析证实了这一假设。
总的来说，基于关键短语的重排序机制主要分为三个步骤。首先，我们使
用基于图的无监督排名模型Ｔｅｘ爪ａｎｋ算法从原始文本中提取出关键短语。具体
地，原始文本的每个词汇单元被视为图的节点，而图中的连边则指示了预先设定
好的窗口大小内的词汇单元之间的共现关系，连接节点Ｋ和Ｋ的边的初始权重
Ｗ，，被随机赋初始值，然后根据公式（２．２８）迭代计算节点Ｋ的重要性得分直到收
敛。
ｓ（Ｋ）＝（１－ｄ）＋ｄ木∑ ｓ（巧）（２．２８）

ＶｊＥａｄｊ（Ｖｉ）∑Ｋ∈口ｄＪ（５）Ｗｊｋ
其中ｄ表示阻尼因子，通常被设置为Ｏ．８５，ａｄｊ（Ｖ）表示节点ｙ的邻居节点。
第二，在图模型构建完毕后，将通过一个语法过滤器提取原始文本中的关
键短语。我们设置语法过滤器为（ＪＪ）★（ＮＮＰＮＮＰＳＮＮＳＮＮ），其
中ＪＪ表示形容词或序数，ＮＮＰ和ＮＮ分别表示专有名词和普通名词，ＮＮＰＳ
和ＮＮＳ是它们的复数形式。可以看到，该过滤器主要由名词组成，这是因为名
词短语在捕捉文本主题的能力上较其他词性的短语有更强的优势，而其他词性
的短语在神经网络端到端模型更易生成。我们设定符合条件的关键短语七ｐ的得
２６
万方数据
分是它所包含的词汇单位ｙ的重要性得分的总和，可根据公式（２．２９）计算得到，
其中ｌｅｎ（ｋｐ）表示关键短语的长度。
ｓｃ。，．ｅｃ七ｐ，＝黼
最后，给定一个候选序列Ｋ，我们利用其原始分数及其对应的关键短语得分
ｃ２．２９，
共同表示其与原始文本的相关性。另外，为了避免此得分函数对长句的偏好，我
们将该得分除以候选序列的长度ｌｅｎ（Ｙｔ）以达至ＵＩ）ｔ－－化的目的。因此，最终得分
ｓｃｏｒｅ（Ｙ１）由公式（２．３０）给出：
姗似驴墨譬器掣
经过关键短语重排序模块处理，我们将得到各候选序列的分数，然后选择得
亿３。，
分最高的候选序列添加到摘要句子中。
２．５实验
在本节中，我们介绍了上文所提出的两种改进集束搜索算法在包括句子摘
要（ＤｏｃｕｍｅｎｔＳｕｍｍａｒｉｚａｔｉｏｎ）和标题生成（ＨｅａｄｌｉｎｅＧｅｎｅｒａｔｉｏｎ）在内的两个摘要
任务上的表现，并将其与多个当前最先进的系统在常用数据集上的摘要生成结
果进行对比，实验结果表明了本模型的优越性。我们使用ＫＥＧＢＳ（ＫｅｙｐｈｒａｓｅＥｎ．
ｈａｎｃｅｄＧｒａｍｍａｒＢｅａｍＳｅａｒｃｈ）表示第一种基于关键短语的语法增强集束搜索算
法，ＫＥＤＢＳ（ＫｅｙｐｈｒａｓｅＥｎｈａｎｃｅｄＤｉｖｅｒｓｅＢｅａｍＳｅａｒｃｈ）表示第二种基于关键短语
的多样性集束搜索。
２．５．１数据集及实验设置
表２．１数据集详细信息
首先我们对本实验两个任务中所采用的数据集分别做出介绍，其详细信息
如表２．１所示。
２７
万方数据
ＣＮＮ／ＤａｉｌｙＭａｉｌｌ２８】数据集中包含了大量长篇新闻文章及其由多句话组成的
摘要句。我们沿用了与之前工作【３ｌ】相同的数据集划分方式，训练集、验证集和
测试集中的文章．摘要对的数量分别为２８７２２６，１３３６８，１１４９０。该数据集衍生于
篇章问题回答任务【８３】数据集，属于多句摘要。
ＢＢＣｌ８４】包含来自ＢＢＣ新闻网站的２２２５篇中等长度的文章及其摘要，对应
了２００４至２００５年间五个主题下的新闻文档，其对应的摘要实际上是新闻标题。
由于本文中的实验设置与新闻主题无关，我们将这些文档随机打乱并分为三个
部分：训练集（１１００篇），验证集（６２５篇）和测试集（５００篇）。
Ｉｎｓｐｅｃ［ｓｓ］是一个科学期刊摘要数据集，由２０００个简短文档组成，其标题被
视为摘要。我们使用１０００篇文档作为训练集，在由５００篇文档组成的测试集上
对模型进行评估。
矮。山ｏｆｌｏ芷ｏ
图２．９数据集ＣＮＮ／ＤａｉｌｙＭａｉｌ上的集束宽度选择
我们使用深度学习框架ｔｅｎｓｏｒｆｌｏｗ框架实现了此模型。在编码器部分，由于
硬件条件所限，我们选择了两层双向循环神经网络ＬＳＴＭ，其中每个门的隐藏单
元设置为２００，卷积层没有进行池化操作，窗口大小设置为３，解码器部分则是
一层隐藏单元为４００的单向ＬＳＴＭ。词向量维度设置为２００，区别于之前的模型，
我们没有使用预先训练的词向量对其进行初始化，而是在训练过程中进行学习。
关于优化器的选择，我们使用了Ａｄａｍ优化器并采用了其默认超参数设置：学习
率口＝０．０１，卢Ｉ＝０．９，皮＝０．９９９，ｅ＝ｌｅ一８。其他参数在【－０．１，０．１】的范围内
进行了随机初始化。为了减轻解码器在训练阶段和生成阶段所输入数据的概率
分布不一致的问题，我们以０．２的概率采样模型的输出并返回，将其用作同一批
２Ｒ
万方数据
次的第二次训练迭代的输入。此外，验证集上的损失被用于实现提前停止（ｅａｒｌｙ
ｓｔｏｐｐｉｎｇ）以防止过拟合。
在ＣＮＮ／ＤａｉｌｙＭａｉｌ数据集上，原始文本和目标摘要间共享词汇表，大小为
５０ｋ。批次大小设置为１６，最大编码步长设置为３５０，最大解码步长则为８０。在
ＧＴＸ．１０８０ＧＰＵ显卡上训练历时３天８小时，共经历了１４８１６８次迭代（约８个
ｅｐｏｃｈｓ）至收敛。在测试时，我们将集束宽度设置为３到１２，实验发现其值取５
时能够得到最优结果，如图２．９所示，其纵坐标是集束宽度不同时各项指标得分
与其平均数之差。
Ｌ．。。。．到
５尸■≯孓■——＿，
卜一４、、＿一＋ｔ、、＼孓、
＼、＼
。｝ｉ，、心、Ｉ
蓍｜
ｏ
岂｜
萎
一、１‘≮～。一氘ｊ
、一、≮≮二～～：。
＼瓦
＼文
一点”ｊ
芷．５｝＼、ｊ
国丰
、滏、、ｌ
１ｏＬ—————————————————。—————－—————・—————————————————————一
（ｂ）Ｉｎｓｐｃｃ
图２．１０数据集ＢＢＣ和Ｉｎｓｐｅｃ上的集束宽度选择
２９
万方数据
在ＢＢＣ和Ｉｎｓｐｅｃ数据集上，由于摘要长度较短，我们将词汇表大小设置为
９ｋ，最大解码步长分别设置为８和１５。由于数据集规模小，训练时间相对较短，
平均能够在１５分钟左右（１３ｅｐｏｃｈｓ）收敛。如图２．１０所示，ＢＢＣ和Ｉｎｓｐｅｃ数据集
上集束宽度分别取５和４时模型能得到最优ＲＯＵＧＥ分数。
２．５．２模型训练
对于模型的训练，我们采用最大似然估计（ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＥｓｔｉｍａｔｉｏｎ，
ＭＬＥ）策略在给定原始文本Ｘ和参数０的情况下最大化每个目标词的条件概率，
该方法等效于按照公式（２．３１）求解每一时刻目标单词的负对数似然作为损失函
数：
１ ”
￡一斋艺ｌｏｇ（ｐ（ｙｌｘ，目））
ｏ—ｏ
Ｑ，功∈Ｄ
（２・３１）
其中Ｄ表示训练数据集，（ｘ，ｙ）表示原始文本．摘要句子对。
在训练过程中，模型将参考摘要（即目标序列）中的真实字符作为解码时下
一时刻的输入，然后最大化下一个字符的概率。然而在模型预测阶段由于参考摘
要的缺失，我们只能将前一时刻模型生成的字符作为输入，生成下一个字符。不
难发现，解码器在训练阶段和生成阶段所输入数据的概率分布并不一致，这就导
致所生成的序列可能受到误差累积的不良影响。为了解决这个问题，我们在模型
训练时使生成的字符以一定的概率对解码器可见，具体来说，在对同一批次的数
据进行第二次迭代时我们以０．２的概率使当前时刻生成的字符输入到解码器中
指导下一时刻的字符生成，这样即使前面生成错误，但模型的训练目标依然是最
大化真实目标序列的概率，增强了模型的容错能力。
另外，我们可以看出上述训练目标旨在减小词级损失，然而实际评估过程却
是对生成的摘要进行序列级的度量。这种不一致可以通过本文提出的基于关键
短语的重排序机制得到解决。
２．５．３实验结果及分析
（１）句子摘要任务
在句子摘要任务上，我们采用常用的ＣＮＮ／ＤａｉｌｙＭａｉｌ数据集，对比的基准
模型包括多种先进的生成式摘要方法和一种抽取式摘要方法。
对其简单介绍如下：
ＡＢＳ＆ＡＢＳ＋【２５１以卷积词袋模型为编码器，将具有局部注意力机制的神经语
言模型作为解码器。ＡＢＳ＋模型与ＡＢＳ模型的不同在于其加入了一些额外ｎ．ｇｒａｍ
特征对输出进行调整。ｗｏｒｄｓ．Ｉｖｔ２ｋ．ｔｅｍｐ．ａｒｔ［２８】的特点是其利用一个结合时序注意
力机制的双向ＧＲＵ作为编码器，同时加入词性等特征，解码器部分是一个单向
３０
万方数据
ＧＲＵ，该模型为了解决计算瓶颈，采用了大词表技术。ＰＧＮｅｔ＆ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅｌ３１】
采用指针生成网络旨在解决词表外词语问题，ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ模型与ＰＧＮｅｔ模
型相比，增加了覆盖度机制模块，能够在一定程度上缓解词语重复生成的问题。
ＫＩＧＮ＆ⅪＧＮ＋Ｐ【８６】最大的亮点在于其提出一个关键信息网络，将其融入到原始
文本的编码表示中，ＫＩＧＮ＋Ｐ与ＫＩＧＮ的区别在于前者增加了一个预测机制指导
句子生成。ＳｕｍｍａＲｕＮＮｅｒ［８７】是一个先进的抽取式摘要系统，与上述生成式方法
不同，它能够将原始文本中的片段直接粘贴到摘要句中，故而在基于ｎ．ｇｒａｍ同
现的自动评价指标上有很大的优势，比较难以超越。
我们采用ＲＯＵＧＥ指标评估所生成摘要的质量，其变体用于衡量参考摘
要和生成摘要的ｎ．ｇｒａｍ同现情况。我们利用ｐｙｒｏｕｇｅ包①计算得到ＲＯＵＧＥ—ｌ，
ＲＯＵＧＥ．２和ＲＯＵＧＥ．Ｌ得分，直观上来看，ＲＯＵＧＥ．１得分代表了自动摘要的信
息量，ＲＯＵＧＥ．２得分则评估了自动摘要的流畅性，而ＲＯＵＧＥ—Ｌ可视为摘要对
原文的涵盖率。表２．２展示了不同模型在ＣＮＮ／ＤａｉｌｙＭａｉｌ数据集中上述指标的
得分，其中基准模型的得分均来自其对应研究工作中的报告结果。为了检验我们
所提出的混合神经网络编码器的效果，ＫＥＧＢＳ．和ＫＥＤＢＳ．表示模型的编码器采
用经典的两层双向ＬＳＴＭ作为对照，ＫＥＧＢＳ和ＫＥＤＢＳ则分别是对应两种基于
关键短语的改进集束搜索的完全实现。
表２．２数据集ＣＮＮ／ＤａｉｌｙＭａｉｌ上的ＲＯＵＧＥ分数（Ｒ＿１、Ｒ－２及Ｒ－Ｌ均为Ｆ－ｓｃｏｒｅ值）
注：Ｒ是ＲＯＵＧＥ的简写。根据官方ＲＯＵＧＥ代码，计算得到的ＲＯＵＧＥ分数的置
信水平是９５％。
①ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｂｈｅｉｎｚｅｒｌｉｎｇ／ｐｙｒｏｕｇｅ
３ｌ
万方数据
如表２．２所示，我们的ＫＥＤＢＳ模型在三个指标上均获得了最高分。在生成式
方法的范畴内，ＫＥＤＢＳ模型显示出了压倒性的优势，与目前最优的ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ
模型相比，三个指标均有不同程度的提高（＋０．５０ＲＯＵＧＥ．１，＋０．２４ＲＯＵＧＥ．２，＋Ｏ．３２
ＲＯＵＧＥ．Ｌ）。我们注意到ＲＯＵＧＥ．１和ＲＯＵＧＥ．Ｌ分数的增加比ＲＯＵＧＥ．２更显著，
这主要是因为关键短语重排序模块中语法过滤器模式的设置使得从ＣＮＮ／Ｄａｉｌｙ
Ｍａｉｌ数据集中提取出的关键短语鲜有二元词组（ｂｉｇｒａｍ），而其中大量存在的ｎ．
ｇｒａｍ（ｎ≥３）在很大程度上提升了最长公共子序列同现的性能。另外，值得注意
的是，我们的四种模型实现不仅超过了最先进的生成式方法，更是取得了优于抽
取式模型ＳｕｍｍａＲｕＮＮｅｒ的实验结果，其中最好的表现来自ＫＥＤＢＳ模型（＋０．４３
ＲＯＵＧＥ．１，＋１．３２ＲＯＵＧＥ．２，＋１．４０ＲＯＵＧＥ．Ｌ】，ＲＯＵＧＥ．２和ＲＯＵＧＥ．Ｌ分别取
得了４％和８％的提升。这一点是很难得的，因为抽取式模型相较于生成式模型
有着固有的优势，其ＲＯＵＧＥ指标很难被击败，这三个指标上得分的提高有力地
地证明了本文方法的有效性。
此外，通过比较ＫＥＤＢＳ．和ＫＥＤＢＳ模型的得分（或ＫＥＧＢＳ．和ＫＥＧＢＳ模型
的得分），可以验证我们提出的混合神经网络编码器结构的有效性。显然，这两
组对照模型中ＲＯＵＧＥ得分的提升应归功于将ＫＥＤＢＳ．和ＫＥＧＢＳ．中传统的双向
ＬＳＴＭ编码器替换为ＫＥＧＢＳ和ＫＥＤＢＳ中编码器的ＬＳＴＭ和ＣＮＮ级联结构，我
们可以推断，这种混合神经网络结构捕捉到了原始文本中更多的特征，得到了更
好的原始文本表示，从而提升了摘要句的生成质量。
表２．３数据集ＣＮＮ／ＤａｉｌｙＭａｉｌ上的ＭＥＴＥＯＲ分数
注：＋ｓｔｅｍ／ｓｙｎ／ｐａｒａ表示完全模式，该模式下除了精确匹配（ｅｘａｃｔｍａｔｃｈ）外，额外
奖励ｓｔｅｍ，ｓｙｎｏｎｙｍｓ和ｐａｒａｐｈｒａｓｅｓ的匹配。
除了ＲＯＵＧＥ指标，我们提出用另一个自动测评指标ＭＥＴＥＯＲ对生成的
３２
万方数据
摘要质量做进一步评估。ＭＥＴＥＯＲ指标需要预先给定一组基于ＷｏｒｄＮｅｔ同义词
库的校验（ａｌｉｇｎｍｅｎｔ），能够奖励生成句子和参考摘要之间的精确（ｅｘａｃｔ）、词干
（ｓｔｅｍ）、同义词（ｓｙｎｏｎｙｍ）和复述（ｐａｒａｐｈｒａｓｅ）匹配。在本文中，我们采用了两种
ＭＥＴＥＯＲ模式，包括精确匹配（ｅｘａｃｔｍａｔｃｈ）模式和完全（＋ｓｔｅｍ／ｓｙｎ／ｐａｒａ）模式。
在完全模式中，我们借鉴前人研究经验④将ｅｘａｃｔ，ｓｔｅｍ，ｓｙｎｏｎｙｍｓ和ｐａｒａｐｈｒａｓｅｓ
的权重分别设为１，０．５，０．５，０．５。各模型的ＭＥＴＥＯＲ得分如表２．３所示。可以看
到，我们的模型在这两种模式下均取得了优于其他基准模型的得分，其中最好的
表现同样来自ＫＥＤＢＳ模型，与ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ基准模型相比在ｅｘａｃｔｍａｔｃｈ和
＋ｓｔｅｍ／ｓｙｎ／ｐａｒａ两种模式下的分数提升分别为１．２２和１．５２，这显示出我们整个模
型基于关键短语的出发点与ＭＥＴＥＯＲ指标所考量的点非常契合。
（２）标题生成任务
标题生成任务与句子摘要任务的不同之处在于生成的摘要句子的长度比较
短，一般不超过２０字。我们在ＢＢＣ和Ｉｎｓｐｅｃ数据集上对本文模型进行了训练
和评估。前者是从新闻网站上爬取的涵盖各主题的中等长度报道文章及其标题，
标题平均长度在８个字符左右，后者为科学期刊数据集，文章长度较短，标题长
度一般在１２字符。考虑到这两个数据集的文本长度，我们将词汇表的大小设置
为９ｋ，解码的最大步长设置为ｌ５。除此之外，实验设置与句子摘要任务相同，包
括词嵌入维度、神经网络隐藏单元数目等。
表２．４数据集ＢＢＣ和ｌｎｓｐｅｅｘ上的ＲＯＵＧＥ分数（Ｒ－ｌ、Ｒ－２及Ｒ－Ｌ均为Ｆ－ｓｃｏｒｅ值）
注：Ｒ是ＲＯＵＧＥ的简写。根据官方ＲＯＵＧＥ代码，计算得到的ＲＯＵＧＥ分数的置
信水平是９５％。
首先，我们对基于关键短语重排序机制的有效性进行了测试，使用传统的
①ｈｔｔｐ：／／ｗｗｗ．ＣＳ．ｃｍｔｌ．ｅｄｕ／～ａｌａｖｉｅ／ＭＥＴＥＯＲＪ
３３
万方数据
表２．５数据集ＢＢＣ和ｌｎｓｐｅｃ上的ＭＥＴＥＯＲ分数
注：＋ｓｔｅｍｌｓｙｎ／ｐａｒａ表示完全模式，该模式下除了精确匹配（ｅｘａｃｔｍａｔｃｈ）外，额外
奖励ｓｔｅｍ，ｓｙｎｏｎｙｍｓ和ｐａｒａｐｈｒａｓｅｓ的匹配。
两层双向ＬＳＴＭ作为编码器，结合提出的两种改进集束搜索算法，分别称其为
ＫＥＧＢＳ．和ＫＥＤＢＳ．，将它们与ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ做对照，以验证我们模型中重排
序机制对摘要句选择的指导效果。接下来，我们将使用混合神经网络编码器且利
用改进集束搜索的两种模型ＫＥＧＢＳ和ＫＥＤＢＳ分别与其不完整版本模型对比，
验证编码器结构的作用。
在这两个数据集上，我们采用的对比模型是经典的ｓｅｑ２ｓｅｑ模型①和当前最
先进的ＰＧＮｅｔ模型②及其ｃｏｖｅｒａｇｅ变体。ｓｅｑ２ｓｅｑ模型采用两层双向ＬＳＴＭ作为
编码器，单层单向ＬＳＴＭ作为解码器；ＰＧＮｅｔ模型则在序列到序列框架中结合
指针生成网络，在每一时刻动态计算词语生成的模式，可直接拷贝原文中单词。
ｃｏｖｅｒａｇｅ技术指在模型中增加覆盖度机制模块，能够在一定程度上缓解词语重复
问题。
实验结果分别如表２．４和表２．５所示，展示了我们的模型和基准模型在ＲＯＵＧＥ
指标和ＭＥＴＥＯＲ指标上的得分比较。我们观察到：
（ｉ）在Ｉｎｓｐｅｃ数据集中，ＫＥＧＢＳ．和ＫＥＧＢＳ模型都以ＲＯＵＧＥ得分平均高出
３分的优势击败了ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ，ＫＥＤＢＳ一和ＫＥＤＢＳ模型相较表现最好的生
成式模型ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ平均有２分的提升；
（ｉｉ）在ＢＢＣ数据集上，我们观察到，尽管我们所提出模型的最佳表现在
ＲＯＵＧＥ．２和ＲＯＵＧＥ—Ｌ指标上分别超过基准模型ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ得分０．５５和
Ｏ．２５，该基准模型在ＲＯＵＧＥ．１指标上仍存在微弱的优势；
①ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ｈａｒｖａｒｄｎｌｐ／ｓｅｑ２ｓｅｑ．ａｔｔｎ
②ｈｔｔｐｓ：／／ｇｉｔｈｕｂ．ｃｏｍ／ａｂｉｓｅｅ／ｐｏｉｎｔｅｒ－ｇｅｎｅｒａｔｏｒ
３４
万方数据
（ｉｉｉ）在ＭＥＴＥＯＲ指标上，我们的模型在ＢＢＣ和Ｉｎｓｐｅｃ数据集上较基准模型
而言表现出相似的压倒性优势，这显示我们的方法在一定程度上增强了同义词
等模式的匹配，提高了生成句质量。
从第（ｉ）点和第（ｉｉ）点来看，两个数据集在ＲＯＵＧＥ指标上呈现出不同的得
分特点，我们认为这种不一致是由两个数据集之间的摘要长度的差异造成的。
鉴于我们所提出的基于关键短语的重排序机制旨在利用摘要中包含的与原始文
本相重合的关键短语指导摘要选择，而ＢＢＣ数据集的摘要平均长度过短（详见
表２．１１，使得关键短语发挥作用的余地比较小，在一定程度上限制了该功能。尽
管如此，新的混合神经网络编码器结构能够捕捉文本序列中的局部特征和全局
长距离依赖特征，在增强二元词组（ｂｉｇｒａｍ）和最长公共子序列（ＬＣＳ）同现方面
起到了重要作用，对性能的提升有所助益。在Ｉｎｓｐｅｃ数据集中，由于其摘要长
度中等，利用我们所提出的基于关键短语的重排序机制可以在生成的摘要中捕
获更多关键短语，因此其评价指标上得分的提高更加显著。另外，与句子摘要任
务不同，我们发现在标题生成任务中ＲＯＵＧＥ指标上采用多样性集束搜索算法
的模型（ＫＥＤＢＳ．和ＫＥＤＢＳ．）表现略逊色于采用语法增强的集束搜索算法的模型
（ＫＥＧＢＳ．和ＫＥＧＢＳ．），这是因为这两个数据集的摘要长度较短，集束搜索的步
长相应较短，多样性发挥作用的空间比较受限。
（３）实例分析
原始文本：Ｔｈｅａｕｔｈｏｒｃｏｎｓｉｄｅｒｓｏｂｆｕｓｃａｔｉｏｎｏｐｔｉｏｎｓｆｏｒｐｒｏｔｅｃｔｉｎｇ．ｎｅｔｃｏｄｅ．Ｍａｎｙ
ｐｒｏｇｒａｍｓｗｏｎ’ｔｎｅｅｄｏｂｆｕｓｃａｔｉｏｎｂｅｃａｕｓｅｔｈｅｌｏｓｓｃａｕｓｅｄｂｙｌＩｃｖｅｒｓｃｅｎｇ＾ｉ．１ｅｅｒｉｚｌｇ
ｗｉｌｌｂｅｎｏｎｅｘｉｓｔｅｎｔ．Ｎｕｍｅｒｏｕｓｏｂｆｕｓｃａｔｏｒｓａｒｅａｌｒｅａｄｙａｖａｉｌａｂｌｅｆｏｒｔｈｅ．ｎｅｔｐｌａｔ－
ｆｏｒｍ，ｒａｎｇｉｎｇｆｒｏｍａｂａｓｉｃｒｅｎａｍｉｎｇｏｂｆｕｓｃａｔｏｒｔｏａｆｕｌｌｙｆｕｎｃｔｉｏｎａｌｏｂｆｕｓｃａｔｏｒ
ｔｈａｔｈａｎｄｌｅｓｍｉｘｅｄｉｌｌ／ｎａｔｉｖｅｃｏｄｅａｓｓｅｍｂｌｉｅｓｃｒｅａｔｅｄｉｎａｎｙｍａｎａｇｅｄｌａｎｇｕａｇｅ，
ｉｎｃｌｕｄｉｎｇＭｉｃｒｏｓｏｆｔ’ＳＣ＋＋ｗｉｔｈｍａｎａｇｅｄｅｘｔｅｎｓｉｏｎｓ．Ａｎｏｂｆｕｓｃａｔｏｒｓｉｍｐｌｙｍａｋｅｓ
ｙｏｕｒａｐｐｌｉｃａｔｉｏｎｈａｒｄｅｒｔｏｒｅｖｅｒｓｅｅｎｇｉｎｅｅｒ．Ｉｔｄｏｅｓｎｏｔｐｒｅｖｅｎｔｒｅｖｅｒｓｅｅｎｇｉｎｅｅｒ－
ｉｎｇ．Ｈｏｗｅｖｅｒ，ｔｈｅｃｏｓｔｏｆｏｂｆｕｓｃａｔｉｏｎｉｓｉｎｓｉｇｎｉｆｉｃａｎｔｗｈｅｎｃｏｍｐａｒｅｄｔｏｔｈｅｃｏｓｔ
ｏｆａｔｙｐｉｃａｌｓｏｆｔｗａｒｅｄｅｖｅｌｏｐｍｅｎｔｐｒｏｊｅｃｔ．Ｉｆｙｏｕｆｅｅｌｌｉｋｅａｎｏｂｆｕｓｃａｔｏｒｐｒｏｖｉｄｅｓ
ｙｏｕａｎｙｂｅｎｅｆｉｔａｔａ１１．ｉｔ’Ｓｐｒｏｂａｂｌｙｗｏｎｈｔｈｅｐｒｉｃｅ．
关键短语：ｏｂｆｕｓｃａｔｉｏｎ，．１】ｅｔｃｏｄｅ，ａｐｐｌｉｃａｔｉｏｎ
参考摘要：．ｎｅｔｏｂｆｕｓｃａｔｉｏｎａｎｄｉｎｔｅｌｌｅｃｔｕａｌｐｒｏｐｅｒｔｙ．
ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ：ｓｏｆｔｗａｒｅｐｒｏｊｅｃｔｆｏｒｔｙｐｉｃａｌｈａｎｄｌｅｓｆｏｒｌ’ｅＶＣＦＳＣｅｌｉｇｉｌｌｅｅｌ４ｉｎｇ．
ＫＥＤＢＳ：ａｐｐｌｉｃａｔｉｏｎｏｆｏｂｆｕｓｃａｔｉｏｎｏｐｔｉｏｎｓｆｏｒ．１ｉｅｔｃｏｄｅｐｒｏｔｅｃｔｉｏｎ．
图２．１ｌ模型生成的摘要旬样例
３５
万方数据
在图２．１ｌ中，我们展示了ＫＥＤＢＳ方法和基准模型ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ在Ｉｎｓｐｅｃ
数据集上生成的摘要样例，将它们与参考摘要进行比较，并用不同的颜色对摘要
中不同的特征加以区分和说明。容易看出，基准模型的摘要句中包含了一些与原
始文本在语义相差较远的词（以绿色标识）且生成的某些词语呈现出重复的趋势
（以洋红色标识）。ＫＥＤＢＳ模型生成的摘要则很好地捕捉了与原始文本中高度重
合的关键短语（以红色标识）且表现出了很好的改写能力（以蓝色标识】。
由于Ｉｎｓｐｅｃ文档长度是所使用的三个数据集中最短的，因此我们将其关键
短语的过滤模式放松到重要的单词，从原始文本中提取的关键短语数上限设置
为５，这就对生成的摘要与原始文本中关键短语匹配提出了更高的要求。但从实
验结果来看，我们的模型很好地命中了从原始文本中提取的所有关键短语，且表
现出了一定的改写能力，将原始文本中的“ｐｒｏｔｅｃｔｉｎｇ”转化成“ｐｒｏｔｅｃｔｉｏｎ”以适
应标题要求，而这种不一味对原文字词进行复制粘贴的能力正是生成式摘要方
法的重要特征。另一方面，尽管ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ模型生成的摘要中包含了与原
始文本出现过的短语“ｒｅｖｅｒｓｅｅｎｇｉｎｅｅｒｉｎｇ”，但整体语义上与原始文本的主旨相
去甚远。我们还观察到，ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ摘要中有一些重复的单词，破坏了整个
句子的连贯性和可读性。相比之下，ＫＥＤＢＳ摘要由于关键短语的指导，表现出
了良好的可读性。
２．６本章小结
本章提出了一种生成式摘要方法，本方法基于序列到序列的框架，针对语句
表示学习问题，我们设计了一种全新的基于深度卷积循环神经网络的编码器结
构，以提高文本表示质量，作为解码的基础。此外，我们针对传统集束搜索算法
中存在的问题，设计提出了两种改进的集束搜索算法，用于生成更符合语法规范
更具备多样性的候选摘要句。同时，我们在搜索算法中集成了一个基于关键短语
的重排序模块，能够指导摘要句的选择，有助于提高生成的摘要与原始文本之间
的语义相关性。实验结果表明，我们的方法在不同文档长度的数据集上的表现都
优于目前最先进的文摘系统。在后续的工作中，我们会尝试将此方法应用到除英
文之外的其他语言的数据集上。
本章工作的创新之处包括以下几点：
（１）为了提高生成摘要句子的内容质量，我们提出了两种改进的集束搜索算法，
包括语法增强的集束搜索和多样性集束搜索。同时提出一种基于关键短语的
重排序机制，利用原始文本和生成的摘要句之间的关键短语同现，赋予这些
关键短语不同的重要性得分，然后对集束搜索生成的候选句子进行重新排序，
旨在增进生成的摘要句与原始文本之间的语义相似性。
３６
万方数据
（２）研究了基于神经网络模型的文本表示方法，提出一种混合神经网络编码器结
构，该结构是卷积神经网络和循环神经网络的级联，通过捕捉原始文本的局
部特征和全局上下文特征，学习得到原始文本的一种高质量联合表示，输入
到解码器端。
（３）在ＣＮＮ／ＤａｉｌｙＭａｉｌ等不同文档长度的三个数据集上的句子摘要任务和标题
生成任务中，我们所提出的模型均取得超越当前最优秀的摘要系统的表现，
我们对实验结果做了详尽的定量和定性分析，表明了本文方法的有效性。
３７
万方数据
万方数据
第３章基于子词单元的端到端文本简化方法
３．１引言
输入一段文字，希望系统输出一小段核心语义不变、但更为简洁的表达。这
样的改写称为文本简化（ＴｅｘｔＳｉｍｐｌｉｆｉｃａｔｉｏｎ）。下面给出一些英文句子简化的实例，
如图３．１所示。可以看到，例ｌ中的简化句子与原始句子相比，进行了一些次要
信息的删减和缩写，在字数上有明显的减少。但需注意到，句子简化并不一定意
味着字数的缩减，对复杂单词进行含义解释或使用更通俗易懂的同义词对其进
行替换同样可以达到简化的目的。例２中两句话虽然在字数上差别不大，但原始
文本中较为高阶的动词短语”ｓｐｌｉｔｉｎｔｏ”被改写成为更为浅显的ｔｈｅｒｅｂｅ句型用于

表达分类，没有损失重要信息，且改写后的语句通顺可读，更容易理解。
例１
原始句子：
ＡｔＣｏｍｅｌｌ，Ｄｒｙｄｅｎｌｅｄｈｉｓｔｅａｍ，ｔｈｅＣｏｒｎｅｌｌＢｉｇＲｅｄ，ｔｏｔｈｅ１９６７ＮａｔｉｏｎａｌＣｏｌｌｅ－
ｇｉａｔｅＡｔｈｌｅｔｉｃＡｓｓｏｃｉａｔｉｏｎｃｈａｍｐｉｏｎｓｈｉｐａｎｄｔｈｒｅｅｃｏｎｓｅｃｕｔｉｖｅＥＣＡＣｔｏｕｒｎａｍｅｎｔ
ｃｈａｍｐｉｏｎｓｈｉｐｓ．
简化句子：
ＡｔＣｏｍｅｌｌ，Ｄｒｙｄｅｎｌｅｄｈｉｓｔｅａｍｔｏｔｈｅ１９６７ＮＣＡＡｃｈａｍｐｉｏｎｓｈｉｐａｎｄｔｈｒｅｅｃｏｎ—
ｓｅｃｕｔｉｖｅＥＣＡＣｔｏｕｒｎａｍｅｎｔｃｈａｍｐｉｏｎｓｈｉｐｓ．
例２
原始句子：
Ｓｉｎｃｅｔｈｅ２０ｔｈｃｅｎｔｕｒｙ，ｔｈｅｆｉｅｌｄｏｆｐｒｏｆｅｓｓｉｏｎａｌａｓｔｒｏｎｏｍｙｓｐｌｎｉｎｔｏｏｂｓｅｒｖａｔｉｏｎａｌ
ａｎｄｔｈｅｏｒｅｔｉｃａｌｂｒａｎｃｈｅｓ．
简化句子：
Ｓｉｎｃｅｔｈｅ２０ｔｈｃｅｎｔｕｒｙｔｈｅｒｅｈａｖｅｂｅｅｎｔｗｏｍａｉｎｔｙｐｅｓｏｆａｓｔｒｏｎｏｍｙ，ｏｂｓｅｒｖａｔｉｏｎａｌ
ａｎｄｔｈｅｏｒｅｔｉｃａｌａｓｔｒｏｎｏｍｙ．
图３．１句子简化实例
近年来深度学习技术被广泛应用于多种自然语言处理任务，我们认为文本
简化任务的特点亦适用于端到端的处理，不需要手动提取特征或语法。典型的序
列到序列模型中（如图３．２），文本的处理基本上建立在词语级的粒度上，即根据
语料库中词语出现频度建立一个固定规模的常用词词典，原始文本序列经过分
３９
万方数据
ＷＸＹＺ
ＡＢＣ（ｐ＞ＷＸＹＺ
图３．２典型的序列到序列模型
词作为不同时刻编码器的输入Ａ、Ｂ、Ｃ，最后将文本表示传递到解码器端，解
码每一时刻生成的单词Ｘ、Ｙ、Ｚ亦从该词典中产生。在实际任务中，这种词级
的处理带来了不少问题：
（１）预处理中建立的高频词词典中往往会出现同一词根（１ｅｘｅｍｅ）下不同形态的词
语，如ｇｏ，ｇｏｅｓ，ｇｏｉｎｇ，ｇｏｎｅ等同时存在，这些词语在词向量空间各自对应
不同的词向量，但却共享同一个词根，如图３．３，词形或组词规则提供的信息
未被有效利用。
（２）存在罕见词（ｒａｒｅｗｏｒｄ）问题和集外词（ＯＯＶ）问题。罕见词问题指词典中的
某些低频词由于在训练集中出现次数过少，导致稀疏问题，无法训练得到很
好的词向量表示。集外词问题则是指某些词语在语料库中出现频度过低未被
收录在词典中，后期生成时往往被标记为＜ＬＩＮＫ＞。罕见词和集外词大多是
人名或地名等具有实际意义的词或新出现的词汇，对于文本生成质量至关重
要。
（３）预定义的词典大小一般设置为５０ｋ或３０ｋ，解码时会用ｓｏｆｔｍａｘ进行概率输
出，从该词典中挑选出合适的单词，由于搜索空间过于庞大导致计算量过大，
影响效率。
同根词：ｌｉｋｅ，ｄｉｓｌｉｋｅ；ｈｅａｌｔｈ，ｈｅａｌｔｈｙ；ｃａｒｅ，ｃａｒｅｆｕｌ
时态或单复数变形：ｇｏ，ｇｏｅｓ，ｇｏｎｅ；ｌｏｖｅ，ｌｏｖｅｄ
新词：ｃｈｉｌｌａｘ；ｔｕｒｄｕｃｋｅｎ；ｂａｒｇａｉｎｏｕｓ
图３．３词级处理中难以处理的单词
３．２相关研究工作
３．２－１细粒度文本表示
在英文单词中，词性或语义信息在多数情况下可以从单词的形态上进行推
断。基于这种特点，研究者们探索将词语转换为更细的粒度，在序列到序列框架
下进行字符级或者子词级别的建模，即采用比单词更细粒度的表示单元，而不再
４０
万方数据
将单词作为词典的组成部分，图３．４中给出了字符（ｃｈａｒａｃｔｅｒ）或子词（ｓｕｂｗｏｒｄ）的
例子：
图３．４字符及子词实例
对于输入文本采用字符级或子词等形式的表示，可以带来的益处包括：（１）
有效减小词典的规模；（２）减少罕见词及集外词问题；（３）将形态上相近的词语进
行有效关联。在实际任务中，Ｍｉｋｏｌｏｖ等人【８８】及Ｓｕｔｓｋｅｖｅｒ等人［６２】的工作基于
字符的序列训练了一个循环神经网络语言模型（ＲＮＮ．ＬＭ），后者的工作证实了
通过在模型中每一时刻简单对字符进行取样能够生成合理的文本序列。Ｚｈａｎｇ等
人【８９】和Ｘｉａｏ等人【９０】则分别利用卷积神经网络和循环神经网络成功在不分词的
前提下实现了字符级的文本分类任务。
近年来，针对细粒度文本表示的研究主要集中在神经机器翻译领域【９１－９３】，机
器翻译模型需要将文本分割至单词级别以下进行处理，我们将此级别的符号称
为子词单元（ｓｕｂｗｏｒｄｕｎｉｔｓ），其核心思想是认为将命名实体、同根词、组合词等
罕见词拆分为子词单元能够从中学习到组合能力，有效地产生罕见词且缓解集
外词问题。
本文选择了两种比较有代表性的子词级别的处理方法介绍如下：
（１）字节对编码方法
字节对编码（ＢｙｔｅＰａｉｒＥｎｃｏｄｉｎｇ，ＢＰＥ）１９４１是一种简单的数据压缩算法，该

算法迭代地使用一个未使用的字节将序列中出现次数最多的字节对进行替换。
Ｓｅｎｎｒｉｃｈ等人【９５】首先将这种压缩方法引入到了翻译模型中，将源端文本中最
频繁的字符或字符序列进行合并，在解码时，每个单词首先被分成字符序列，
接着利用训练过程中学习到的操作将字符合并成为更长的已知符号。在ＢＰＥ
方法中，还需要使用一个特殊符号对合并位置进行指示，例如在图３．５中，词语
ｓｕｐｅｒａｂｕｎｄａｎｃｅ被分为两个子词单元，则前一个子词单元后会附加一个特殊的后
缀“＠＠’’，而模型的翻译结果中也会包含该后缀，这有利于我们将这个单词进
行恢复。
图３．５字节对编码算法处理子词单元实例
４ｌ
万方数据
（２）ＷＰＭ方法
词切片模型（ＷｏｒｄｐｉｅｃｅＭｏｄｅｌ，ＷＰＭ）最初被提出【９６】是为了解决语音识别系
统中日语／韩语的分割问题，该方法的特点是完全数据驱动，能够在不关注语义
的情况下最大化训练数据语言模型的概率。该模型采用一种贪心算法自动从语
料库中的大量文本对单词的子词单元进行增量学习。其算法步骤描述如下：
①初始化词库
利用基本Ｕｎｉｃｏｄｅ字符及所有ＡＳＣＩＩ码对词库进行初始化。
②初始化词库
使用上一步骤中建立的词库在训练数据集上训练得到一个语言模型。
③生成新的词语单元
通过在当前词库中选择两个词语单元并将其进行结合，得到一个新的词语
单元，该词语单元在满足能使该语言模型的似然函数最大的条件下则被加入到
词库中。
④继续扩充词库或词库学习完成
词库学习的停止条件是其中的词语单元数量达到了预定义的上限或模型的
对数似然的增量小于阈值，不满足该条件则跳转至步骤二。
文本简化实际上可以被视为一种单语（Ｍｏｎｏｌｉｎｇｕａｌ）的句子到句子的操作，
与机器翻译有着相似的特征，这启发我们采用比词语级更细粒度的方法对原始
文本中的词语进行表示，以更好地利用单词内部信息，在一定程度上达到解决文
本简化任务上的罕见词及集外词问题的目的。
３－２．２文本简化自动评测标准
在本章节中，我们将对文本简化任务中常用的两种自动评测标准做出介绍：
（１）ＢＬＥＵ
ＢＬＥＵ（ＢｉＬｉｎｇｕａｌＥｖａｌｕａｔｉｏｎＵｎｄｅｒｓｔｕｄｙ）指标【９７】最早应用于机器翻译领域，
和上文中提到的ＲＯＵＧＥ指标类似，该指标奖励ｎ．ｇｒａｍｓ的精确匹配，而不考虑
语义与句子结构。区别在于，ＲＯＵＧＥ基于召回率，而ＢＬＥＵ是一种基于准确率
的相似性度量方法，其计算公式如公式（３．１）所示：
厶Ｓ∈｛ｎ“，ｐＨＩｓｅｎｆＰｎｃＰＪＣｊ。石ｕ瓦ｎｔ磊ｍａ石ｔｃｈ可（ｇｒａｍｎ）

Ｂ上Ｅｕ＝—Ｅ乏Ｓ６二｛ｏｉｕｔｐ＝＝：ｕｔ：ｓｅＩｎｔｅ：ｎｃ：＝：ｅｓ：＝＝｝Ｚｉ乏ｇｒ：ａｍ：＝：：．Ｅ：Ｓ
Ｊ厶ｇｒｄ，，ＩＨ∈ＳＬ７ｕ“¨‘～占’“，，‘ｎ，
（３．１）
其中，Ｓ表示生成的简化句子，Ｃｏｕｎｔ（ｇｒａｍ。）表示该简化句中总的ｎ－ｇｒａｍ数
目，Ｃｏｕｎｔ。眦＾（ｇｒａｍ。）表示生成的简化句与参考简化句之间匹配的ｎ－ｇｒａｍ数目，
ｎ可取１，２，３，４等。
４２
万方数据
（２）ＳＡ刚
ＳＡＲＩ（ＣｏｍｐａｒｅＳｙｓｔｅｍＯｕｔｐｕｔＡｇａｉｎｓｔＲｅｆｅｒｅｎｃｅｓａｎｄＡｇａｉｎｓｔｔｈｅＩｎｐｕｔＳｅｎ－
ｔｅｎｃｅ）指标【５４】是一个从词汇角度衡量简化的评估标准，该指标衡量简化模型增
加（ａｄｄ）、删除（ｄｅｌｅｔｅ）或保持（ｋｅｅｐ）某些词语对句子带来的影响。具体来说，ＳＡＲＩ
将系统的输出与多个参考简化句以及原始输入的复杂句子进行比较，而大多数现
有文本生成（主要指机器翻译）指标并不将待评估句子与原始文本进行比较，如
图３．６所示。在效果上，ＳＡＲＩ与人类对简单性增益的判断具有高度相关性，是目
前用于评估句子简化模型的主要度量方法。
输入文本巾与系统输蹬蘑合
但不在参考文本．：ｌ＝ｌ的部分
所有三部分之阀的蘑疆
可能不正确的系统输出
参考文本中的内容
图３．６指标ＳＡＲＩ与其他文本生成指标的比较
ＳＡＲＩ指标的计算如公式（３．２）所示：
ＳＡＲＩ＝ｄｌ艺削＋ｄ２疋Ｐ印＋如岛。，（３．２）
其中ｄ１＝ｄ２＝ｄ３＝；，而ｃｄｄ，最。印及岛。，则可根据公式（３．３—３．５）进行计算：
％…。。＝瓦１∑Ｐｏｐｅ删泐（门）
ｎ＝ｔ１，．．．，七Ｊ
（３．３）
Ｒ删砌＝ｉ１∑，．咄删伽（ｎ）ｎ２ｉ１，．．．，划
（３．４）
一２×ＰｏｐＰｒ４ｒｆ。ｎ×Ｒｏ阳ｒｎｒｆｏ打
，ｏｐ舢，ｆＤＨ
３■Ｆｏｐｅ—ｒａｔ＿ｉｏｎ干瓦ｏ—ｐｅｒｆｌ＿ＩｌＯｌｌ
一一Ｉ
（３．５）
其中ｏｐｅｒａｔｉｏｎ∈［ｄｅｌ，ｋｅｅｐ，ａｄｄ】，ｋ则是最高的ｎ－ｇｒａｍ阶数，本实验中设置为４。
关于ｐ卵删ｒｆＤ。及ｒｏｐｅ删咖的计算公式这里略去不表，详见Ｘｕ等人的研究工作‘５４１。
４３
万方数据
３．３基于子词单元的端到端句子简化模型
３．３．１编码器一解码器框架
本文采用结合注意力机制的编码器．解码器框架，以原始文本作为编码器输
入，通过解码器输出其简化版本的句子，其整体结构如图３．７所示。
编码器解码器
图３．７基于神经网络的端到端句子简化模型
我们将原始文本表示为Ｘ＝【ｘ１，Ｘ２…．，ｘｒ］，其中疋表示序列长度。编码时
使用双向ＬＳＴＭ将每一时刻原始文本映射为其隐状态，前向网络根据公式（３．６）
对ｆ时刻输入字符的词向量表示ｅｘ（－）进行处理得到葛，，同理，后向网络根据公
式（３．７）得到瓦，则该时刻的隐状态ｈ，是两者的拼接，如公式（３．８）所示。其中咖
表示循环神经网络中的激活函数。
ｈ，＝ｑｂ（ｅｘ（ｘＩ），ｈ，－１）（３．６）
ｈＩ＝咖（ｅｘ伍ｆ），ｈ卜１）（３．７）
ｈＩ＝【ｈｆ，ｈｆ】（３．８）
编码完成后可以得到整个文本的上下文表示集合Ｃ＝（，１１，ｈ２…．，ｈＴ｝，解码
器的ＬＳＴＭ根据公式（３．９）更新ｒ’时刻隐状态Ｓｆｆ．
Ｓｆ，＝咖（ｅｙ（ｙｒ，一１），ＳＨ－Ｉ，ｃｆ，）（３．９）
４４
万方数据
其中ｅｒ（Ｙｔ，）表示目标词语的词向量表示，上下文向量ｃ，，可以根据神经机器翻译
模型中的软对齐机制（一种注意力机制）计算得到，如公式（３．１０）所示：
ｃｆ，＝ｆ（ｅｖ（Ｙｔ，－１），ｓｆ，一ｌ，Ｃ）（３．１０）
这种注意力机制按照上下文表示集合ｃ中的各个向量与已经生成的文本的
相关性，赋予其一定的权值，每个向量ｈ，的权值可以根据公式（３．１１）计算得到：
ｅｇ（ｅｙ（Ｙｌ，－ｊ）＾，＿Ｉ＇啊）（３．１１）
口ｆ，ｆ，＝弓１
Ｌ
Ｚ＝∑ｅｇ（ｅｒ（Ｙｌ，＿Ｉ），Ｓｄ＿Ｉ，ｈｋ’ （３．１２）
一
、
七＝１
其中ｇ（・）的作用是在给定乃，＿１和＆，－ｌ的情况下计算原始文本中隐状态ｈ，的原
始得分，而ｚ则用于对其进行归一化，计算方法如公式（３．１２）所示，在这里我
们使用一个前馈神经网络对其进行模拟。该过程可以理解为利用注意力机制对
原始文本中ｔ时刻的输入词语及简化文本中ｔ’时刻的目标词语进行关联程度概
率的计算。
根据解码器端的隐状态ｓ，，及前一时刻生成的词语Ｍ，－１和动态计算得到的
上下文向量ｃ，，，模型可以对ｆ’时刻解码器循环神经网络的条件概率进行计算，如
公式（３．１３）所示：
Ｐ（Ｙｆ，ＩＹ＜，，＇Ｘ）仪ｅｇ（ｅｒ（Ｙｔ，－１）＾，＇ｃ，’’ （３．１３）
３．３．２文本的子词单元表示
为了实现词表大小和文本长度的平衡，我们提出利用字节对编码算法对词
表中单词进行子词分割，即将其分割成ｎ—ｇｒａｍ。相较于字符级分割，字节对编码
算法能够表示较短的子词序列，因而模型可以使用注意力机制应对变长的单元，
从而尽可能覆盖罕见词和集外词，有效减小词表大小，提升序列到序列模型的效
率。我们对本模型中基于子词单元的词语表示方法介绍如下：
字节对编码算法又称连字编码（ｄｉｇｒａｍｃｏｄｉｎｇ），即文本序列被分割为字符串
序列，将其中最常见的一对双连字用未出现过的符号进行替换，层层迭代进行。
基于字节对编码算法的子词单元提取伪代码如算法３．１所示。
利用字节对编码算法对文本进行子词提取的具体步骤描述如下：
（１）对符号词表进行初始化，将单词拆分后的字符添加到符号词表中并对所
有单词的词尾加入结束符＜～》。该标识符用于解码时单词的扩展还原。
（２）对词表中所有的符号进行迭代计数，获得词汇中所有的字符对，找出其
中出现最频繁的连字序列，如（一ａ，～ｂ），用’ａｂ’替换。
（３）每次的合并过程均会产生新的符号，该符号代表着单词中出现次数较多
的子词，即ｎ—ｇｒａｍ。
４Ｓ
万方数据
算法输入：Ｄ；／／文本数据集
算法输出：矿；∥包含子词单元的词表
１ｗｈｉｌｅ数据集Ｄ未读取结束ｄｏ
２将下一个文本ｒ读入缓冲区；
３将所有词都切分成字符，把所有字符加入词表；
４对所有的符号进行计数，存入哈希表中；
ｓｗｈｉｌｅ能够进行字符对压缩ｄｏ
６找出出现次数最多的字符对（口，６）；
７将该字符对用新的子词符号口６进行替换；
８ｉｆ该替换向缓冲区中增加了新子词符号ｔｈｅｎ
９ｌ该子词符号在哈希表中对应的计数是原字符对的出现次数
ｍｅｎｄ
ｎｉｆ该替换从缓冲区中删除了原字符对ｔｈｅｎ
：！ｌ将其对应的哈希表中计数删除
Ｂｅｎｄ
Ｈ将新的符号写入词表ｙ中并重新对符号对计数
：。ｅｎｄ
“ 对词表ｙ进行合并
３．１：子词单元提取算法伪代码
（４）合并过程最终产生的子词（或者完整的单词），将被加入到词表中。词表
的大小则为初始大小与合并次数之和。
假设我们的原始词表为｛’ｈｉｇｈｅｒ＜／ｗ＞’：２，’ｈＯｔｔｅｓｔ＜／＿ｗ＞’：５，’ｈｉｇｈ
＜／ｗ＞’：４，’ｂｅｓｔ＜／ｗ＞’：３），其中的关键字是词表的单词分割成字符加上结尾符，
键值则是该单词出现的频数，则整个过程模拟如图３．８所示。
至此，我们找出了该词表中出现频次最高的相邻字符，并将其合并得到了子
词单元，最终形成了更为合适的词表。通过子词单元的提取，我们将词语的含义
与其形态分开，能够有效减少词表大小。
４６
万方数据
原始词表：｛’ｈｉｇｈｅｒ＜／ｗ＞’：２，’ｈ０ｔｔｅｓｔ＜／ｗ＞’：５，’ｈｉｇｈ＜／ｗ＞’：４，’ｂｅｓｔ＜／ｗ＞’：
３）
出现最频繁的序列：（一Ｓ，’ｔ’）：８
合并该序列后的词表：｛’ｈｉｇｈｅｒ＜／ｗ＞’：２，’ｈ０ｔｔｅｓｔ＜／ｗ＞’：５，’ｈｉｇｈ＜／ｗ＞’：４，
’ｂｅｓｔ＜／ｗ＞’：３）
出现最频繁的序列：（一ｅ，’ｓｔ’）：８
合并该序列后的词表：｛’ｈｉｇｈｅｒ＜＾＾》’：２，’ｈ０ｔｔｅｓｔ＜／ｗ＞’：５，’ｈｉｇｈ＜／ｗ＞’：４，
’ｂｅｓｔ＜／ｗ＞’：３）
出现最频繁的序列：（’ｈ’，’ｉ’）：６
合并该序列后的词表：｛’ｈｉｇｈｅｒ＜／ｗ＞’：２，’ｈ０ｔｔｅｓｔ＜／＿ｗ＞’：５，’ｈｉｇｈ＜／ｗ＞’：４，’ｂ
ｅｓｔ＜／ｗ＞’：３）
出现最频繁的序列：（’ｈｉ’，’ｇ’）：６
合并该序列后的词表：｛’ｈｉｇｈｅｒ＜／ｗ＞’：２，’ｈＯｔｔｅｓｔ＜加，＞’：５，’ｂｉｇｈ＜／＿ｗ＞’：４，’ｂ
ｅｓｔ＜／Ｗ＞’：３）
出现最频繁的序列：（’ｈｉｇ’，’ｈ’）：６
合并该序列后的词表：｛’ｈｉｇｈｅｒ＜～，＞’：２，’ｈＯｔｔｅｓｔ＜／ｗ＞’：５，’ｈｉｇｈ＜，、Ⅳ＞’：４，’ｂｅｓｔ
＜／ｗ＞’：３，
图３．８字节对编码算法在给定词表上的合并操作
３．４实验
３．４．１数据集预处理
（１）Ｗ汛ｒＫＰ
ＰＷＫＰ（ＰａｒａｌｌｅｌＷｉｋｉｐｅｄｉａＳｉｍｐｌｉｃａｔｉｏｎＣｏｒｐｕｓ）数据集【４８】是从简单维基百科
（ＳｉｍｐｌｅＷｉｋｉｐｅｄｉａ）①和维基百科（Ｗｉｋｉｐｅｄｉａ）②中抽取词条文章并进行句子配对而
构建得到的。该数据集中包含１０８，０１６个句子对，其中来自维基百科中的句子称
为复杂句（ｃｏｍｐｌｅｘ），与之对应，来自简单维基百科中的句子被视为简化后的句
子（ｓｉｍｐｌｅ）。我们将该数据集划分成三部分，训练集大小为１０７，４１６个句子对，验
证集大小为３００，测试集大小为３００。我们使用自然语言工具库ｎｌｔｋ③对这两种来
源的句子进行词频统计，得到句子的平均词语数（ｔｏｋｅｎｓ／ｓｅｎｔｅｎｃｅ）、词语的平均
字符数（ｃｈａｒｓ／ｔｏｋｅｎｓ）以及语料中词语总数（ｕｎｉｑｕｅｔｏｋｅｎｓ）如表３．１所示，高频词
如图３．９所示。
①ｈｔｔｐ：／／ｓｉｍｐｌｅ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ
②ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ
＠ｈｔｔｐｓ：／／ｗｗｗ．ｎｌｔｋ．ｏｒｇ
４７
万方数据
表３．１数据集ＰＷＫＰ统计信息
母尹，芦芦萨≯，，，≯穸，
图３．９数据集ＰＷＫＰ中的高频词
可以看到，词语平均字符数指标上两者大致相同，而维基百科中的句子平均
词语数比简单维基百科中长３０％左右，这一点是符合句子简化直觉的，但需要
注意的是，句子简化在某些情况下并不一定意味着句子长度的减小。在ＰＷＫＰ
数据集中，复杂句和简单句是一一对应的，该数据集可以从ＴＵＤａｒｍｓｔａｄｔｃ①下
载得到。我们利用字节对编码算法对复杂句和简单句的原始词表分别做了１００００
次合并操作，处理得到词表的大小分别为１０２９６和１０２８９，词表规模有了明显的
缩减。
（２）Ｗｉｌ０Ｎｅｔ
ＷｉｋＮｅｔ数据集［９８】是Ｈｗａｎｇ等人针对句子对齐任务构建的一个公开数据
集，可从其提供的链接②进行下载。该数据集中的句子对根据其中复杂旬（ｔｏｍ－
ｐｌｅｘ）（来自维基百科）和简单句（ｓｉｍｐｌｅ）（来自简单维基百科）的匹配程度被分为完
全匹配（ｇｏｏｄ）、大体匹配（ｇｏｏｄｐａｒｔｉａｌ）、部分匹配（ｐａｒｔｉａｌ）和不良匹配（ｂａｄ）四种
类别，我们采用相似度值大于Ｏ．４５的完全匹配（１５０ｋ）和大体匹配（１３０ｋ）的句子
对，将其随机打乱并划分为训练集、验证集和测试集三个部分，各部分包含句子
对的数目如表３．２所示。句子的平均词语数（ｔｏｋｅｎｓ／ｓｅｎｔｅｎｃｅ）、词语的平均字符数
（ｃｈａｒｓ／ｔｏｋｅｎｓ）以及词表中单词数（ｕｎｉｑｕｅｔｏｋｅｎｓ）如表３．３所示。同样的，经过字节
对编码算法对复杂句和简单句的原始词表的１００００次合并操作，处理得到词表
的大小分别为１３４７６０和７９１５０，词表规模有了明显的缩减。我们将这些经过切
分得到的子词单元应用到训练集中对原有单词进行替换，得到句子前后对比如
①ｈｔｔｐｓ：／／ｗｗｗ．ｉｎｆｏｒｍａｔｉｋ．ｔｕ．ｄａｒｍｓｔａｄｔ．ｄｅ／ｕｋｐ／ｒｅｓｅａｒｃｈ＿６／ｄａｔａ／ｓｅｎｔｅｎｃｅ—ｓｉｍｐｌｉｆｉｃａｔｉｏｎ／ｉｎｄｅｘ．ｅｎ．ｊｓｐ
②ｈｔｔｐ：／／ｓｓｌｉ．ｅｅ．ｗａｓｈｉｎｇｔｏｎ．ｅｄｕｃ／ｔｉａｌ／ｐｒｏｊｅｃｔｓ／ｓｉｍｐｌｉｆｉｃａｔｉｏｎ／
４８
万方数据
图３．１０所示。
表３．２数据集ＷｉｋＮｅｔ划分方式
表３．３数据集ＷｉｋＮｅｔ统计信息
复杂句：Ｔｈｅｆａｉｌｕｒｅｒａｔｅｏｆａｓｙｓｔｅｍｕｓｕａｌｌｙｄｅｐｅｎｄｓｏｎｔｉｍｅ，ｗｉｔｈｔｈｅｒａｔｅ

ｖａｒｙｉｎｇ
ｏｖｅｒｔｈｅｌｉｆｅｃｙｃｌｅｏｆｔｈｅｓｙｓｔｅｍ．
子词处理后的复杂句：Ｔｈｅｆａｉｌ＠＠ｕｒｅｒａｔｅｏｆａｓｙｓｔｅｍｕｓｕａｌｌｙｄｅｐｅｎｄ＠＠Ｓｏｎｔｉｍｅ，
ｔｈｅｌｉｆｅｃｙｃｌｅｏｆｔｈｅｓｙｓｔｅｍ．

ｗｉｔｈｔｈｅｒａｔｅｖａｒ＠＠ｙｉｎｇｏｖｅｒ
简单句：Ｆａｉｌｕｒｅｒａｔｅｉｓｕｓｕａｌｌｙｔｉｍｅｄｅｐｅｎｄｅｎｔ，ａｎｄａｎｉｎｔｕｉｔｉｖｅｃｏｒｏｌｌａｒｙｉｓｔｈａｔｔｈｅｒａｔｅ
ｃｈａｎｇｅｓｏｖｅｒｔｉｍｅｖｅｒｓｕｓｔｈｅｅｘｐｅｃｔｅｄｌｉｆｅｃｙｃｌｅｏｆａｓｙｓｔｅｍ．
子词处理后的简单句：Ｆａｉｌ＠＠ｕｒｅｒａｔｅｉｓｕｓｕａｌｌｙｔｉｍｅｄｅｐｅｎｄ＠＠ｅｎｔ，ａｎｄａｎｉｎｔ＠＠

ｕ＠＠ｉｔｉｖｅｃｏｒ囝＠ｏｌｌ＠＠ａｒｙ
＼√、√、√、－，＼－一＼√ 一
ｉｓｔｈａｔｔｈｅｒａｔｅｃｈａｎｇｅｓｏｖｅｒｔｉｍｅｖｅｒｓ＠＠ＵＳ
一一
ｔｈｅｅｘ一
ｐｅｃｔｅｄｌｉｆｅｃｙｃｌｅｏｆａｓｙｓｔｅｍ．
图３．１０数据集ＷｉｋＮｅｔ中子词切分处理前后对比
３．４．２实验设置
我们采用ＯｐｅｎＮＭＴ框架④实现此模型，分别使用双层ＬＳＴＭ结构和单层
ＬＳＴＭ作为编码器和解码器，隐状态大小设置为５００，ＬＳＴＭ每个门的隐藏单元
设置为１２８。为了防止过拟合，以Ｏ．２５的概率随机将神经网络单元从网络中丢
弃。我们采用批量随机梯度下降（ＳｔｏｃｈａｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ，ＳＧＤ）方法对模型进
行优化，每个批量大小设置为６４，训练６个ｅｐｏｃｈ后我们将学习率减半。模型中
相关参数设置如表３．４所示，我们设定了搜索范围并根据实验结果给出了推荐值，
其他参数则在【＿０．１，０．１］的范围内进行了随机初始化。
①ｈｒｔｐ：／／ｏｐｅｒｍｍｔ．ｎｅｔ／
４９
万方数据
表３．４模型相关参数设置
３．４．３实验结果及分析
（１）维度及方向性实验
本实验旨在对编码器的种类以及词向量的维度进行测验，选择出最佳组合。
我们将词向量的维度设置分别为１２８，２００或３００，编码器中采用的ＬＳＴＭ则分
别选择单向或双向，将其两两组合，在分别对语料中复杂句和简单句的词表进行
子词单元提取的ｓｕｂｗｏｒｄ模型下测试了词向量维度和编码器方向两个因素对生
成句子的质量的影响。因硬件条件及训练时间成本所限，我们暂时无法进一步提
升词向量的维度。
表３．５模型词向量维度及编码器方向性测试
注：Ｕｎｉ．ＬＳＴＭ表示单向ＬＳＴＭ，Ｂｉ．ＬＳＴＭ表示双向ＬＳＴＭ
ｓｕｂｗｏｒｄ模型在ＰＷＫＰ数据集上的实验结果如表３．５所示。可以发现，在使
用同种类编码器的情况下，词向量维度增大均能对模型表现提升带来助益，这与
直觉是相符的，在利用神经网络学习序列信息时，更高维的向量能够呈现出更丰
富的文本特征信息。另外，使用同样的词向量维度时，双向ＬＳＴＭ编码器带来
的效果均优于单向ＬＳＴＭ，这启示我们，在生成句子时，使用双向ＬＳＴＭ能够
获得更多的上下文信息，有利于提高文本质量。在后续实验中，我们将使用双向
ＬＳＴＭ编码器并设置词向量维度为３００以期获得最佳实验效果。
５０
万方数据
（２）对比实验
为了验证子词单元切分对序列到序列模型性能的作用，我们同时实现了一
个传统词语级处理的模型作为对比，词表大小设置为３０ｋ，其他实验设置均与本
文提出的方法相同，将其称为ｓｅｑｓｅｑ（ｗｏｒｄ）。在基于子词单元的模型中，我们尝
试了两种模式，即分别对语料中复杂句和简单句的词表进行子词单元提取，用
ｓｕｂｗｏｒｄ表示；或在复杂句和简单句之间进行词表的共享，在整个语料中的词表
中进行ＢＰＥ操作，用ｓｕｂｗｏｒｄ－ｊｏｉｎｔ表示。另外，我们探究了利用预训练词向量
进行初始化是否会对句子简化结果产生影响，ｓｕｂｗｏｒｄ—ｗ２ｖ和ｓｕｂｗｏｒｄ－ｊｏｉｎｔ．ｗ２ｖ
表示模型首先利用原始语料训练了ｗｏｒｄ２ｖｅｃ词向量，并将其应用到后续训练过
程中，词向量的维度大小设置为３００。我们将ＰＷＫＰ数据集和ＷｉｋＮｅｔ数据集上
的实验结果分别展示在表３．６和表３．７中。
两个表格中的其他对比模型分别简要介绍如下：
ＴＳＭ［４８】是由传统机器翻译模型衍生而来的基于树结构的统计模型，包含句
子分割等操作；ＤＲＥＳＳ和ＤＲＥＳＳ—ＬＳ［９９１模型建立在序列到序列框架下，且采用
了强化学习策略进行优化，ＤＲＥＳＳ—ＬＳ显式融合了词汇的简化；ＮＳＥＬＳＴＭ．Ｓ【１００】
模型采用融合记忆矩阵的神经网络语义编码器和ＬＳＴＭ解码器对句子进行建模；
ＰＭＥＰＧｔｌ０１】模型将序列到序列模型结合了指针拷贝机制，并利用多任务学习来
提高简化性能；ＵＮＳＵＰｌｌ０２】模型利用基于语义的句子分割和词语简化实现句子
简化，是一个非监督模型；ＲｅｖＩＬＰｌｌ０３］模型是一种基于准同步语法的数据驱动模
型，通过捕捉文本结构不匹配和复杂重写操作进行句子简化。
Ｈｙｂｒｉｄ［５３Ｊ方法结合了简化模型和一个单语的机器翻译模型，利用概率模
型对Ｂｏｘｅｒ工具处理过的句子进行分割和删除操作，然后将句子进一步简化；
ＳＥＭｏｓｅｓｌｌ０４】模型利用语义解析器对句子进行分割预处理，随后利用神经机器翻
译方法进行句子简化操作；ＤＭＡＳＳ＋ＤＣＳＳ［１０５】模型则基于一种多层多头注意力
的结构，并结合了外部释义知识库以学习简化规则；ＳＢＳＭＴ＋ＰＰＤＢ＋ＳＡＲＩ［５４】方
法衍生于统计机器翻译模型，利用从双语文本和小规模人工简化数据学习得到
的释义规则帮助实现文本简化；ＮＴＳ＋ＳＡＲＩ［１０６】利用词语粒度的序列到序列模型
进行处理，同时实现词语简化和内容缩减。
通过对实验结果的分析，我们可以发现：
（ｉ）在两个数据集上，使用ＢＰＥ方法将复杂句或简单句中词语进行子词单元提
取的方法与传统词语级处理方法ｓｅｑ２ｓｅｑ（ｗｏｒｄ）相比，均有明显的指标提升，
ＰＷＫＰ数据集上至少提高了２．８４ＢＬＥＵ值与３．４３ＳＡＲＩ值，ＷｉｋＮｅｔ数据集
上至少提高５．６ＢＬＥＵ值和４．６１ＳＡＲＩ值。
（ｉｉ）比较ｓｕｂｗｏｒｄ－ｊｏｉｎｔ模式和ｓｕｂｗｏｒｄ模式在两个数据集上的表现，在语料中
使用共享的词表能够在一定程度上提升模型性能，在ＰＷＫＰ数据集分别提
５１
万方数据
表３．６数据集ＰＷＫＰ上的ＢＬＥＵ分数及ＳＡＲｌ分数
注：空白栏表示该模型原文中并未给出对应得分
表３．７数据集ＷｉｋＮｅｔ上的ＢＬＥＵ分数及ＳＡＲｌ分数
注：空白栏表示该模型原文中并未给出对应得分
５２
万方数据
高２．９４ＢＬＥＵ值和０．６４ＳＡＲＩ值，ＳＡＲＩ数据集上则更加显著，分别提高了

３．３７ＢＬＥＵ值和２．８７ＳＡＲＩ值。
（ｉｉｉ）比较两个数据集上ｓｕｂｗｏｒｄ和ｓｕｂｗｏｒｄ．ｗ２ｖ模式，以及ｓｕｂｗｏｒｄ－ｊｏｉｎｔ和
ｓｕｂｗｏｒｄ－ｊｏｉｎｔ－ｗ２ｖ模式下模型表现，我们得出结论，使用预训练的词向量对
句中词语或子词单元进行初始化可以提升序列到序列模型表现，平均能够
提升约４．８８ＢＬＥＵ值和１．２３ＳＡ刚值。
（ｉｖ）本文进行了五组实验，发现两个指标上得分最高的模式均为ｓｕｂｗｏｒｄ－ｊｏｉｎｔ－
ｗ２ｖ，我们将该表现分别与ＰＷＫＰ数据集和ｗｉＩ烈ｅｔ数据集上当前表现较为
优秀的文本简化方法进行比较。在ＰＷＫＰ数据集上，我们的方法在ＢＬＥＵ
指标上超越了四种基准模型，并与当前最优系统得分十分相近，ＳＡＲＩ指标
上则领先于列出的所有模型己知的实验结果。在ＷｉｋＮｅｔ数据集上，我们的
方法在ＳＡＰｄ指标上得分高于六种基准方法，与当前最优的模型仅有Ｉ．３６
分的微小差距，在ＢＬＥＵ指标上则击败了四种基准模型。
（３）集外词分析
本文对ｓｕｂｗｏｒｄ模式下两个数据集的训练语料中集外词进行了统计，以
ＰＷＫＰ数据集为例，其词语统计信息如表３．８所示，源端表示来自维基百科中
的复杂句子，目标端表示来自简单维基百科中的简单句。
表３．８相同训练语料中词语统计结果
从表中可以观察到，通过ＢＰＥ方法对语料进行子词单元提取能够极大减小
词表的规模，这将有效提高模型的训练效率。同时，比较ｓｅｑ２ｓｅｑ（ｗｏｒｄ）模型与
两种子词单元模型（ｓｕｂｗｏｒｄ和ｓｕｂｗｏｒｄ－ｊｏｉｎｔ）中集外词的数目，我们发现，经过
子词提取后的词表可以涵盖所有训练单词，集外词的数目由ｓｅｑ２ｓｅｑ（ｗｏｒｄ）系统
中源端的１５１８２４和目标端的ｌ１９９２６减少到０。由于测试集的规模远远小于训练
语料的规模，我们认为在测试阶段，源端中出现集外词的可能性较小，因而句
子简化的结果中出现＜ＵＮＫ＞符号的可能性较小。我们对生成的句子进行随机查
验，验证了这一想法。
５３
万方数据
３．５本章小结
本章提出了一种基于子词单元的文本简化方法，考虑到文本简化任务中存
在的罕见词和集外词问题，本文提出在基于神经网络的端到端模型中引入字节
对编码算法对语料中的复杂句和简单句进行子词单元的提取，在减小词表规模
的同时提升模型效率，在一定程度上缓解罕见词问题和集外词问题。我们在两个
常见数据集上对所提出的方法进行了实验并对实验结果做了详尽分析，表明了
该方法对提升句子简化性能的有效性。
万方数据
第４章总结与展望
在本章中，我们对全文的工作进行归纳，总结了所提出的自动文本摘要模型
与文本简化模型的创新与贡献，以此为基础，我们提出了几点可能的改进方向，
作为后续研究工作的依据。
４．１本文的主要贡献与特色
自动文本摘要任务和文本简化任务作为文本生成问题领域的重要组成部分，
具有很高的实用价值，是应对信息过载、阅读困难等实际问题的高效解决方案，
除此之外更是能够为诸如问答系统、语义标注等下游任务提供支持。自动文本摘
要任务和文本简化任务的共同点在于两者均旨在提取原始输入文档的中心思想，
处理得到便于读者理解的版本。区别在于文本简化任务对字数要求更为宽松，即
目标句并不一定需要比原始文本短，在字数相当的情况下，目标句将原始文本中
复杂词语进行释义或同义改写同样可达到简化目的。综合近年来的研究成果来
看，尽管深度学习给文本生成问题的解决带来的新的发展契机，上述两个任务仍
面临原始文本表征不佳、语义相似性欠缺、生成词语冗余、集外词生成困难等诸
多挑战。
本文围绕基于深度神经网络的文本生成方法开展研究，以自动文本摘要和
文本简化两个任务作为重点研究对象，主要贡献和特色列举如下：
（１）针对文本摘要中原始文本的语句表示问题，提出了一种混合编码器结构。该
结构通过卷积操作将序列上下文信息进一步加强，同时利用循环神经网络学
习时序信息和长距离依赖，学习得到高质量的原始文本向量表示。
（２）针对文本摘要中的语句生成问题，提出了两种改进的集束搜索算法用于解码
过程，通过设计新的得分函数，约束生成更多语法形式合理的句子，并降低
生成的候选句之间的相似性，鼓励句子生成的多样化。
（３）针对生成的摘要句和原始文本的语义相似度问题，提出了一种基于关键短语
的重排序机制，该机制作用于集束搜索的摘要句选择阶段，对搜索产生的多
个候选句子根据其与原始文本中重合关键短语的重要性得分对其进行重新
排序，指导摘要句的选择。
（４１针对文本简化中的罕见词训练及集外词生成问题，提出了基于字节对编码算
法的子词单元提取方法，对文本进行切分提取出子词单元，以此构建规模更
小的词表，提升序列到序列模型的效率。同时该方法将形态上相近的词语进
行有效关联，可以覆盖更多的罕见词和集外词。
５５
万方数据
４．２研究展望
本文进行的研究工作中仍存在一些值得后续探索的问题，主要包括：
（１）在文本摘要模型中，我们沿用了主流模型中的最大似然估计方法对模型进行
参数优化，该方法的训练目标是词语级而非句子级别的最优，这与评价指标
存在差异，可能会对模型表现带来不良影响。我们认为，在后续工作中可以
采用最小风险训练策略，考虑评价指标，对模型参数进行句子级别的优化。
（２）我们注意到，当前表现最优的文本简化模型基本均结合了强化学习的训练方
法，利用判别器作为信号，同时利用生成器对传统序列到序列模型进行改进。
我们认为这种方式可以启发我们解决本文模型中存在的曝光偏差问题，得到
更好的句子简化表现。
（３）我们认为文本简化最终可以服务于文本摘要任务，进行更大范围内的信息摘
要。在后续工作中，我们寻求将本文提出的应用于两种任务上的方法进行结
合，实现摘要质量的进一步提高。
５６
万方数据
参考文献
参考文献
【１】百度百科．信息爆炸［ＥＢ／ＯＬ］．２０１２．ｈｔｔｐ：／／ｂａｉｋｅ．ｂａｉｄｕ．ｃｏｍ／ｖｉｅｗ／８８８１９４．ｈｔｍ．
［２】２赵清源．知识焦虑：信息爆炸的时代更要做个明白人［ＥＢ／ＯＬ］．２０１７．ｈｔｔｐ：／／ｗｗｗ．ｂｊｎｅｗｓ
．ｔｏｍ．ｃｎ／ｏｐｉｎｉｏｎ／２０１７／１０／２６／４６１７８３．ｈｍａｌ．
【３】ＣＯＲＳＴＯＮ－ＯＬＩＶＥＲＳ．Ｔｅｘｔｃｏｍｐａｃｔｉｏｎｆｏｒｄｉｓｐｌａｙｏｎｖｅｒｙｓｍａｌｌｓｃｒｅｅｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ
ｏｆｔｈｅＮＡＡＣＬＷｏｒｋｓｈｏｐｏｎＡｕｔｏｍａｔｉｃＳｕｍｍａｒｉｚａｔｉｏｎ．Ｃｉｔｅｓｅｅｒ，２００１：８９－９８．
ＳＩＤＤＨＡＲＴＨＡＮＡ．Ａｎａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｏｆ

【４】ａｔｅｘｔｓｉｍｐｌｉｆｉｃａｔｉｏｎｓｙｓｔｅｍ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ
ＬａｎｇｕａｇｅＥｎｇｉｎｅｅｒｉｎｇＣｏｎｆｅｒｅｎｃｅ．ＩＥＥＥ，２００２：６４－７１．
【５］５户保田．基于深度神经网络的文本表示及其应用［Ｄ】．哈尔滨工业大学，２０１６．
【６】６ＬＵＨＮＨＰ．Ｔｈｅａｕｔｏｍａｔｉｃｃｒｅａｔｉｏｎｏｆｌｉｔｅｒａｔｕｒｅａｂｓｔｒａｃｔｓ［Ｊ］．ＩＢＭＪｏｕｒｎａｌｏｆＲｅｓｅａｒｃｈａｎｄ
Ｄｅｖｅｌｏｐｍｅｎｔ，１９５８，２（２）：１５９—１６５．
【７】ＳＵＴＳＫＥＶＥＲＩ，ＶＩＮＹＡＬＳ０，ＬＥＱＶＳｅｑｕｅｎｃｅｔｏｓｅｑｕｅｎｃｅｌｅａｒｎｉｎｇｗｉｔｈｎｅｕｒａｌｎｅｔｗｏｒｋｓ
［Ｃ／ＯＬ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ
Ｓｙｓｔｅｍｓ．２０１４：３１０４—３１１２．ｈｔｔｐ：／／ｐａｐｅｒｓ．ｎｉｐｓ．ｃｃ／ｐａｐｅｒ／５３４６－ｓｅｑｕｅｎｃｅ—ｔｏ－ｓｅｑｕｅｎｃｅ—ｌｅａｍｉｎ
ｇ－ｗｉｔｈ—ｎｅｕｒａｌ．ＤＯＩ：１０．１００７／ｓ１０１０７－０１４－０８３９－０．
［８】ＴＡＮＧＪ，ＹＡＯＬ，ＣＨＥＮＤ．Ｍｕｌｔｉ－ｔｏｐｉｃｂａｓｅｄｑｕｅｒｙ－ｏｒｉｅｎｔｅｄｓｕｍｍａｒｉｚａｔｉｏｎ［Ｃ］＃

Ｄａｔａ
Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００９ＳＩＡＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｉｎｉｎｇ．ＳＩＡＭ，２００９：
１１４８－１１５９．
ＫＵＰＩＥＣＪ，ＰＥＤＥＲＳＥＮＪ，ＣＨＥＮＥＡｔｒａｉｎａｂｌｅｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚｅｒ［Ｊ］．Ａｄｖａｎｃｅｓｉｎ

［９】９
ＡｕｔｏｍａｔｉｃＳｕｍｍａｒｉｚａｔｉｏｎ，１９９９：５５－６０．
【１０】ＭＵＲＲＡＹＧ，ＲＥＮＡＬＳＳ，ＣＡＩ也ＥＴｌ’ＡＪ．Ｅｘｔｒａｃｔｉｖｅｓｕｍｍａｒｉｚａｔｉｏｎｏｆｍｅｅｔｉｎｇｒｅｃｏｒｄｉｎｇｓ
【Ｊ】．２００５．
ＣＯＮＲＯＹＪＭ．０’ＬＥＡＲＹＤＰ．Ｔｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎｖｉａｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌｓ［Ｃ］／／
Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２４ｔｈＡｎｎｕａｌＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅ‘
ｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＡＣＭ，２００ｌ：４０６４０７．
【１２】ＳＨＥＮＤ，ＳＵＮＪＴ，ＬＩＨ，ｅｔａ１．Ｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎｕｓｉｎｇｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ．
［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｔｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ：ｖｏｌｕｍｅ７．
２００７：２８６２．２８６７．
［１３】ＪＡＧＡＤＥＥＳＨＪ，ＰＩＮＧＡＬＩＰ，ＶＡＲＭＡＶＳｅｎｔｅｎｃｅｅｘｔｒａｃｔｉｏｎｂａｓｅｄｓｉｎｇｌｅｄｏｃｕｍｅｎｔｓｕｎｌ－
ｍａｒｉｚａｔｉｏｎ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，Ｈｙｄｅｒａｂａｄ，Ｉｎｄｉａ，２００５，
５．
［１４】申屠晓明，甘恬．机器人写稿的技术原理及实现方法［Ｊ】．传媒评论，２０１７：１５－１９．
【１５］ＨＡＲＩＨＡＲＡＮＳ，ＳＲＩＮＩＶＡＳＡＮＲ．Ｅｘｔｒａｃｔｉｏｎｂａｓｅｄｍｕｌｔｉｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎｕｓｉｎｇ

Ｓ７
万方数据
参考文献
ｓｉｎｇｌｅｄｏｃｕｍｅｎｔｓｕｍｍａｒｙｃｌｕｓｔｅｒ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＡｄｖａｎｃｅｓｉｎＳｏｆｔＣｏｍｐｕｔｉｎｇ
ａｎｄＩｔｓＡｐｐｌｉｃａｔｉｏｎｓ，２０１０，２（１）：ｌ一１６．
【１６１ＺＨＡＮＧＪ，ＣＨＥＮＧｘ，ＷＵＧ，ｅｔａ１．Ａｎａｄａｐｔｉｖｅｍｏｄｅｌｆｏｒｓｕｍｍａｒｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ
ｏｆＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ．２００８：２６—３０．
【１７】ＨＥＮＮＩＧＬ．Ｔｏｐｉｃ—ｂａｓｅｄｍｕｌｔｉ－ｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎｗｉｔｈｐｒｏｂａｂｉｌｉｓｔｉｃｌａｔｅｎｔｓｅｍａｎｔｉｃ
ａｎａｌｙｓｉｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＲｅｃｅｎｔＡｄｖａｎｃｅｓｉｎＮａｔｉｏｎａｌ
ＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．２００９：１４４—１４９．
【１８】ＯＺＳＯＹＭＧ，ＡＬＰＡＳＬＡＮＦＮ，ＣＩＣＥＫＬＩＩ．Ｔｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎｕｓｉｎｇｌａｔｅｎｔｓｅｍａｎｔｉｃ
ａｎａｌｙｓｉｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ，２０１１，３７（４）：４０５－４１７．
［１９】ＷＯＯＤＳＥＮＤＫ，ＦＥＮＧＹＬＡＰＡＴＡＭ．Ｇｅｎｅｒａｔｉｏｎｗｉｔｈｑｕａｓｉ－ｓｙｎｃｈｒｏｎｏｕｓｇｒａｍｍａｒ［Ｃ］／／
Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１０ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．
ＡＣＬ，２０１０：５１３－５２３．
［２０】ＳＩＬＢＥＲＨＧ，ＭＣＣＯＹＫＦ．Ｅｆｆｉｃｉｅｎｔｔｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎｕｓｉｎｇｌｅｘｉｃａｌｃｈａｉｎｓ［Ｃ］／／
Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＵｓｅｒＩｎｔｅｒｆａｃｅｓ．ＡＣＭ，２０００：
２５２－２５５．
［２１】ＢＡＲＺＩＬＡＹＲＥＬＨＡＤＡＤＭ．Ｕｓｉｎｇｌｅｘｉｃａｌｃｈａｉｎｓｆｏｒｔｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎ［Ｊ］．Ａｄｖａｎｃｅｓｉｎ
ＡｕｔｏｍａｔｉｃＴｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎ，１９９９：１１ｌ－１２１．

［２２】ＭＩＨＡＬＣＥＡＲ，ＴＡＲＡＵＥＴｅｘｔｒａｎｋ：ｂｒｉｎｇｉｎｇｏｒｄｅｒｉｎｔｏｔｅｘｔ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００４
ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．２００４．
［２３】ＰＡＧＥＬ，ＢＲＩＮＳ，ＭＯＴＷＡＮＩＲ，ｅｔａ１．Ｔｈｅｐａｇｅｒａｎｋｃｉｔａｔｉｏｎｒａｎｋｉｎｇ：ｂｒｉｎｇｉｎｇｏｒｄｅｒｔｏｔｈｅ
ｗｅｂ［Ｒ］．ＳｔａｎｆｏｒｄＩｎｆｏＬａｂ，１９９９．
【２４】ＬＯＰＹＲＥＶＫ．Ｇｅｎｅｒａｔｉｎｇｎｅｗｓｈｅａｄｌｉｎｅｓｗｉｔｈｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔ
ａｒＸｉｖ：１５１２．０１７１２．２０１５．
［２５】ＲＵＳＨＡＭ，ＣＨＯＰＲＡＳ，ＷＥＳＴＯＮＪ．Ａｎｅｕｒａｌａｔｔｅｎｔｉｏｎｍｏｄｅｌｆｏｒａｂｓｔｒａｃｔｉｖｅｓｅｎ－
ｔｅｎｃｅｓｕｍｍａｒｉｚａｔｉｏｎ［Ｃ／ＯＬ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１５ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓ
ｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．２０１５：３７９－３８９．ｈｔｔｐ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１５０９．００６８５．ＤＯＩ：
ｌＯ．１１６２／１５３２４４３０３３２２５３３２２３．
［２６】ＢＥＮＧＩＯＹＤＵＣＨＡＲＭＥＲＶＩＮＣＥＮＴＰ，ｅｔａ１．Ａｎｅｕｒａｌｐｒｏｂａｂｉｌｉｓｔｉｃｌａｎｇｕａｇｅｍｏｄｅｌ［Ｊ］．
ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２００３，３：１１３７－１１５５．
【２７】ＣＨＯＰＲＡＳ，ＭＩＣＨＡＥＬＡ，Ｍ．ＲＵＳＨＡ．Ａｂｓｔｒａｃｔｉｖｅｓｅｎｔｅｎｃｅｓｕｍｍａｒｉｚａｔｉｏｎｗｉｔｈａｔｔｅｎｔｉｖｅ
ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｃ／ＯＬ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎ
ＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ．
２０１６：９３—９８．ｈｔｔｐ：／／ｗｗｗ．ａｃｌｗｅｂ．ｏｒｇ／ａｎｔｈｏｌｏｇｙ／Ｎ１６－１０１２．
【２８】ＮＡＬＬＡＰＡＴＩＲ，ＺＨＯＵＢ，ＤＯＳＳＡＮＴＯＳＣＮ，ｅｔａ１．Ａｂｓ廿ａｃｔｉｖｅｔｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎｕｓｉｎｇ
ｓｅｑｕｅｎｃｅ・—ｔｏ－・ｓｅｑｕｅｎｃｅＲＮＮｓａｎｄｂｅｙｏｎｄ［Ｃ／ＯＬ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０ｔｈＳＩＧＮＬＬＣｏｎｆｅｒ－
５８
万方数据
参考文献
ｅｎｃｅＯＮＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ．２０１６：２８０－２９０．ｈｔｔｐ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１６
０２．０６０２３．ＤＯＩ：１０．１８６５３／ｖｌ／Ｋ１６．１０２８．
【２９】ＪＥＡＮＳ，ＣＨＯＫ，ＭＥＭＩＳＥＶＩＣＲｅｔａ１．Ｏｎｕｓｉｎｇｖｅｒｙｌａｒｇｅｔａｒｇｅｔｖｏｃａｂｕｌａｒｙｆｏｒｎｅｕｒａｌ
ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１４１２．２００７，２０１４．
【３０】ＧＵＪ，ＬＵＺ，ＬＩＨ，ｅｔａ１．Ｉｎｃｏｒｐｏｒａｔｉｎｇｃｏｐｙｉｎｇｍｅｃｈａｎｉｓｍｉｎｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅｌｅａｒｎｉｎｇ
【Ｃ］／／ＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．２０１６．
［３ｌ】ＳＥＥＡ，ＬＩＵＰＪ，ＭＡＮＮＩＮＧＣＤ．Ｇｅｔｔｏｔｈｅｐｏｉｎｔ：Ｓｕｍｍａｒｉｚａｔｉｏｎｗｉｔｈｐｏｉｎｔｅｒ－ｇｅｎｅｒａｔｏｒ
ｎｅｔｗｏｒｋｓ［Ｃ／ＯＬ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５５ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａ－
ｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．２０１７：１０７３－１０８６．ｈｔｔｐ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７０４．０４３６８．
【３２】ＶＩＮＹＡＬＳＯ，ＦＯＲＴＵＮＡＴＯＭ，ＪＡＩＴＬＹＮ．ＰｏｉｎｔｅｒＮｅｔｗｏｒｋｓ［Ｃ／ＯＬ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＡｎ－
ｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．２０１５．ｈｔｔｐ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１５０６
．０３１３４．
［３３】ＴＵＺ，ＬＵＺ，ＬＩＵＹｅｔａ１．Ｍｏｄｅｌｉｎｇｃｏｖｅｒａｇｅｆｏｒｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ［Ｃ／ＯＬ］／／
Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５４ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．
２０１６：７６－８５．ｈｔｔｐ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１６０１．０４８１１．ＤＯＩ：１０．１１４５／２８５６７６７．２８５６７７６．
【３４】ＣＨＥＮＱ，ＺＨＵＸ，ＬＩＮＧＺ，ｅｔａ１．Ｄｉｓｔｒａｃｔｉｏｎ－ｂａｓｅｄｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｄｏｃｕｍｅｎｔｓｕｍ／ｈａ－
ｒｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｔ．
２０ｌ６：２７５４．２７６０．
【３５】ＷＡＴＡＮＡＢＥＷＭ，ＪＵＮＩＯＲＡＣ，ＵＺＥＤＡＶＲ，ｅｔａ１．Ｆａｃｉｌｉｔａ：ｒｅａｄｉｎｇａｓｓｉｓｔａｎｃｅｆｏｒ
ｌｏｗ—ｌｉｔｅｒａｃｙｒｅａｄｅｒｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈＡＣＭｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＤｅｓｉｇｎ
ｏｆｃｏｍｍｕｎｉｃａｔｉｏｎ．ＡＣＭ，２００９：２９－３６．
［３６】ＣＡＲＲＯＬＬＪ，Ｍ１ＮＮＥＮＧ，ＰＥＡＲＣＥＤ，ｅｔａ１．Ｓｉｍｐｌｉｌｙｉｎｇｔｅｘｔｆｏｒｌａｎｇｕａｇｅ－ｉｍｐａｌｅｄｒｅａｄ・
ｅｒｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ９ｔｈＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＥｕｒｏｐｅａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒ
ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．１９９９．
【３７】ＩＮＵＩＫ，ＦＵＪＩＴＡＡ，ＴＡＫＡＨＡＳＨＩＴ，ｅｔａ１．Ｔｅｘｔｓｉｍｐｌｉｆｉｃａｔｉｏｎｆｏｒｒｅａｄｉｎｇａｓｓｉｓｔａｎｃｅ：ａ
ｐｒｏｊｅｃｔｎｏｔｅ［Ｃ］／／ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＰａｒａｐｈｒａｓｉｎｇ：ｖｏｌｕｍｅ１６．
ＡＣＬ，２００３：９－１６．
【３８】ＣＨＡＮＤＲＡＳＥＫＡＲＲ，ＤＯＲＡＮＣ，ＳＲＩＮＩＶＡＳＢ．Ｍｏｔｉｖａｔｉｏｎｓａｎｄｍｅｔｈｏｄｓｆｏｒｔｅｘｔｓｉｍ－
ｐｌｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１６ｔｈＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ｖｏｌｕｍｅ２．
ＡＣＬ，１９９６：１０４ｌ－１０４４．
［３９】ＫＮＩＧＨＴＫ，ＭＡＲＣＵＤ．Ｓｔａｔｉｓｔｉｃｓ・ｂａｓｅｄｓｕｍｍａｒｉｚａｔｉｏｎ－ｓｔｅｐｏｎｅ：ｓｅｎｔｅｎｃｅｃｏｍｐｒｅｓｓｉｏｎ
［Ｊ】．ＡｍｅｒｉｃａｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，２０００：７０３—７１０．
［４０】ＦＩＬＩＰＰＯＶＡＫ，ＳＴＲＵＢＥＭ．Ｄｅｐｅｎｄｅｎｃｙｔｒｅｅｂａｓｅｄｓｅｎｔｅｎｃｅｃｏｍｐｒｅｓｓｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ
ｏｆｔｈｅ５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＧｅｎｅｒａｔｉｏｎＣｏｎｆｅｒｅｎｃｅ．ＡＣＬ，２００８：２５－３２．
【４１】ＶＩＣＫＲＥＹＤ，ＫＯＬＬＥＲＤ．Ｓｅｎｔｅｎｃｅｓｉｍｐｌｉｆｉｃａｔｉｏｎｆｏｒｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇ［Ｃ］／／
５９
万方数据
参考文献
ＰｒｏｃｅｅｄｉｎｇｓｏｆＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：Ｈｕ－
ｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ．２００８：３４４—３５２．
ＮＡ．Ｑｕｅｓｔｉｏｎｇｅｎｅｒａｔｉｏｎｖｉａｏｖｅｒｇｅｎｅｒａｔｉｎｇｔｒａｎｓｆｏｒｍａｔｉｏｎｓａｎｄ

［４２】ＨＥｌＬＭＡＮＭ，ＳＭＩＴＨ
ｒａｎｋｉｎｇ［Ｒ］．Ｃａｒｎｅｇｉｅ—ＭｅｌｌｏｎＵｎｉｖｅｒｓｉｔｙＰｉｔｔｓｂｕｒｇｈＰａＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙＩｎｓｔｉｔｕｔｅ，２００９．
［４３】ＪＯＮＮＡＬＡＧＡＤＤＡＳ，ＧＯＮＺＡＬＥＺＧ．Ｓｅｎｔｅｎｃｅｓｉｍｐｌｉｆｉｃａｔｉｏｎａｉｄｓｐｒｏｔｅｉｎ－ｐｒｏｔｅｉｎｉｎｔｅｒ－
ａｃｔｉｏｎｅｘｔｒａｃｔｉｏｎ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１００１．４２７３，２０１０．
［４４】ＳＩＤＤＨＡＲＴＨＡＮＡ．Ｓｙｎｔａｃｔｉｃｓｉｍｐｌｉｆｉｃａｔｉｏｎａｎｄｔｅｘｔｃｏｈｅｓｉｏｎ［Ｊ］．ＲｅｓｅａｒｃｈｏｎＬａｎｇｕａｇｅ
ａｎｄＣｏｍｐｕｔａｔｉｏｎ，２００６，４（１）：７７－１０９．
【４５】ＰＥＴＥＲＳＥＮＳＥ，ＯＳＴＥＮＤＯＲＦＭ．Ｔｅｘｔｓｉｍｐｌｉｆｉｃａｔｉｏｎｆｏｒｌａｎｇｕａｇｅｌｅａｒｎｅｒｓ：ａｃｏｒｐｕｓａｎａｌ—
ｙｓｉｓ［Ｃ］／／ＷｏｒｋｓｈｏｐｏｎＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙｉｎＥｄｕｃａｔｉｏｎ．２００７．
［４６】ＤＥＶＬＩＮＳＬ．Ｓｉｍｐｌｉｆｙｉｎｇｎａｔｕｒａｌｌａｎｇｕａｇｅｆｏｒａｐｈａｓｉｃｒｅａｄｅｒｓ［Ｄ］．ＵｎｉｖｅｒｓｉｔｙｏｆＳｕｎｄｅｒｌａｎｄ，
１９９９．
［４７】ＫＡＪＩＮ，ＫＡＷＡＨＡＲＡＤ，ＫＵＲＯＨＡＳＨＳ，ｅｔａ１．ｖｅｒｂｐａｒａｐｈｒａｓｅｂａｓｅｄｏｎｃａｓｅｆｌａｍｅａｌｉｇｎ－
ｍｅｎｔ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎ—
ｇｕｉｓｔｉｃｓ．ＡＣＬ，２００２：２１５－２２２．
［４８】ＺＨＵＺ，ＢＥＲＮＨＡＲＤＤ，ＧＵＲＥＶＹＣＨＩ．Ａｍｏｎｏｌｉｎｇｕａｌｔｒｅｅ－ｂａｓｅｄｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌｆｏｒ
ｓｅｎｔｅｎｃｅ
ｓｉｍｐｌｉｆｉｃａｔｉｏｎ［Ｃ］／ｈａｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａ—
ｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．ＡＣＬ，２０１０：１３５３－１３６１．
【４９】ＹＡＭＡＤＡＫ，ＫＮＩＧＨＴＫ．Ａｓｙｎｔａｘ—ｂａｓｅｄｓｔａｔｉｓｔｉｃａｌｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ
ｔｈｅ３９ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．２００１．
［５０】ＷＯＯＤＳＥＮＤＫ，ＬＡＰＡＴＡＭ．Ｔｅｘｔｒｅｗｒｉｔｉｎｇｉｍｐｒｏｖｅｓｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌｏｆ
ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＲｅｓｅａｒｃｈ，２０１４，５１：１３３・１６４．
【５１】ＳＭＩＴＨＤＡ，ＥＩＳＮＥＲＪ．Ｑｕａｓｉ－ｓｙｎｃｈｒｏｎｏｕｓｇｒａｍｍａｒｓ：ａｌｉｇｎｍｅｎｔｂｙｓｏｆｔｐｒｏｊｅｃｔｉｏｎｏｆ
ｓｙｎｔａｃｔｉｃｄｅｐｅｎｄｅｎｃｉｅｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＷｏｒｋｓｈｏｐｏｎＳｔａｔｉｓｔｉｃａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ．
ＡＣＬ，２００６：２３－３０．
【５２】ＷＵＢＢＥＮＳ，ＶＡＮＤＥＮＢＯＳＣＨＡ，ＫＲＡＨＭＥＲＥ．Ｓｅｎｔｅｎｃｅｓｉｍｐｌｉｆｉｃａｔｉｏｎｂｙｍｏｎｏｌｉｎ－
ｇｕａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒ
ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ｖｏｌｕｍｅ１．ＡＣＬ，２０１２：１０１５・１０２４．
［５３】ＮＡＲＡＹＡＮＳ，ＧＡＲＤＥＮＴＣ．Ｈｙｂｒｉｄｓｉｍｐｌｉｆｉｃａｔｉｏｎｕｓｉｎｇｄｅｅｐｓｅｍａｎｔｉｃｓａｎｄｍａｃｈｉｎｅｔｒａｎｓ—
ｌａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５２ｎｄＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌ
Ｌｉｎｇｕｉｓｔｉｃｓ：ｖｏｌｕｍｅ１．２０１４：４３５－４４５．
［５４】ＸＵＷ：ＮＡＰＯＬＥＳＣ，ＰＡＶＬＩＣＫＥ，ｅｔａ１．Ｏｐｔｉｍｉｚｉｎｇｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｆｏｒｔｅｘｔ
ｓｉｍｐｌｉｆｉｃａｔｉｏｎ［Ｊ］．ＴｒａｎｓａｃｔｉｏｎｓｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２０１６，４：
４０ｌ－４１５．
【５５】ＧＡＮＩＴＫＥＶＩＴＣＨＪ，ＶＡＮＤＵＲＭＥＢ，ＣＡＬＬＩＳＯＮ—ＢＵＲＣＨＣ．Ｐｐｄｂ：Ｔｈｅｐａｒａｐｈｒａｓｅ
６０
万方数据
参考文献
ｄａｔａｂａｓｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１３ＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓ－
ｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ．２０１３：７５８—７６４．
【５６】ＭＩＫＯＬＯＶＬＫＡＲＡＦＩＡＴＭ，ＢＵＲＧＥＴＬ，ｅｔａ１．Ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｂａｓｅｄｌａｎｇｕａｇｅ
ｍｏｄｅｌ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｌｌｔｈＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕ－
ｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ．２０ｌ０．
［５７】ＭＩＫｏＬｏＶＬＫｏＭＢＲＩＮＫＳ，ＢＵＲＧＥＴＬ，ｅｔａ１．Ｅｘｔｅｎｓｉｏｎｓｏｆｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ
ｌａｎｇｕａｇｅｍｏｄｅｌ［Ｃ］／／ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏ－
ｃｅｓｓｉｎｇ．ＩＥＥＥ．２０１ｌ：５５２８－５５３１．
［５８】ＦＵＫＵＳＨＩＭＡＫ．Ｎｅｏｃｏｇｎｉｔｒｏｎ：Ａｓｅｌｆ－ｏｒｇａｎｉｚｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌｆｏｒａｍｅｃｈａｎｉｓｍ
ｏｆｐａＲｅｒｎｒｅｃｏｇｎｉｔｉｏｎｕｎａｆｆｅｃｔｅｄｂｙｓｈｉｔｔｉｎｐｏｓｉｔｉｏｎ［Ｊ］．ＢｉｏｌｏｇｉｃａｌＣｙｂｅｒｎｅｔｉｃｓ，１９８０，３６（４）：
ｌ９３－２０２．
【５９】ＬＥＣＵＮＹＢＯＳＥＲＢ，ＤＥＮＫＥＲＪＳ，ｅｔａ１．Ｂａｃｋｐｒｏｐａｇａｔｉｏｎａｐｐｌｉｅｄｔｏｈａｎｄｗｒｉｔｔｅｎｚｉｐｃｏｄｅ
ｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，１９８９，１（４）：５４ｌ・５５１．
［６０】ＨＯＣＨＲＥＩＴＥＲＳ，ＢＥＮＧＩｏＹＦＲＡＳＣＯＮｌ只ｅｔａ１．ＧｒａｄｉｅｎｔｆｌｏｗｉｎｒｅｃｕｒｒｅｎｔｎｅｔＳ：ｔｈｅ
ｄｉｆｆｉｃｕｌｔｙｏｆｌｅａｒｎｉｎｇｌｏｎｇ－ｔｅｒｍｄｅｐｅｎｄｅｎｃｉｅｓ［Ｍ］．ＩＥＥＥＰｒｅｓｓ，２００１．
【６１】ＨＯＣＨＲＥＩＴＥＲＳ，ＳＣＨ加ＤＨＵＢＥＲＪ．Ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ［Ｊ］．ＮｅｕｒａｌＣｏｍｐｕｔａｔｉｏｎ，
１９９７，９（８）：１７３５－１７８０．
［６２】ＳＵＴＳＫＥＶＥＲＩ，ＭＡＲＴＥＮＳＪ，ＨＩＮＴＯＮＧＥ．Ｇｅｎｅｒａｔｉｎｇｔｅｘｔｗｉｔｈｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ
［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２８ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．２０１ｌ：１０１７－
１０２４．
［６３】ＣＨＵＮＧＪ，ＧＵＬＣＥＨＲＥＣ，ＣＨＯＫ，ｅｔａ１．Ｇａｔｅｄｆｅｅｄｂａｃｋｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｃ］／／
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．２０１５：２０６７－２０７５．
【６４】ＣＯＬＬＯＢＥＲＴＲ，ＷＥＳＴＯＮＪ，ＢＯＴＴＯＵＬ，ｅｔａ１．Ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ（ａｌｍｏｓｔ）ｆｒｏｍ
ｓｃｒａｔｃｈ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２０１１，１２：２４９３．２５３７．
［６５】ＬＡＩＳ，ＸＵＬ，ＬＩＵＫ，ｅｔａ１．Ｒｅｃｕｒｒｅｎｔｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ
【Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．２０１５：２２６７－２２７３．
【６６］ＧＲＡＶＥＳＡ．Ｓｅｑｕｅｎｃｅｔｒａｎｓｄｕｃｔｉｏｎｗｉｔｈｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｃ］／／ＩｎｔｅｍａｔｉｏｎａｌＣｏｎ－
ｆｅｒｅｎｃｅｏｆＭａｃｈｉｎｅＬｅａｍｉｎｇＷｏｒｋｓｈｏｐｏｎＲｅｐｒｅｓｅｎｔａｔｉｏｎＬｅａｒｎｉｎｇ．２０１２．
【６７】ＢＯＵＬＡＮＧＥＲ・ＬＥｗＡＮＤｏＷＳⅪＮ，ＢＥＮＧＩＯＹＶＩＮＣＥＮＴＥＡｕｄｉｏｃｈｏｒｄｒｅｃｏｇｎｉｔｉｏｎ
ｗｉｔｈｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｓ．［Ｃ］／／ＩｎｔｅｍａｔｉｏｎａｌＳｏｃｉｅｔｙｆｏｒＭｕｓｉｃＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．
２０１３：３３５．３４０．
［６８】ＶＩＪＡＹＡＫＵ＾，ＩＡＲＡＫ，ＣｏＧＳＷＥＬＬＭ，ＳＥＩ：ＶｒＡＲＡＪＵＲＲ，ｅｔａ１．Ｄｉｖｅｒｓｅｂｅａｍｓｅａｒｃｈ：Ｄｅ．
ｃｏｄｉｎｇｄｉｖｅｒｓｅｓｏｌｕｔｉｏｎｓｆｒｏｍｎｅｕｒａｌｓｅｑｕｅｎｃｅｍｏｄｅｌｓ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６１Ｏ．０２４２４，
２０１６．
［６９】ＦＲＥＩＴＡＧＭ，ＡＬ－ＯＮＡＩＺＡＮＹ．Ｂｅａｍｓｅａｒｃｈｓｔｒａｔｅｇｉｅｓｆｏｒｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ［Ｃ］／／
６１
万方数据
参考文献
Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１ｓｔＷｏｒｋｓｈｏｐｏｎＮｅｕｒａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ．２０１７：５６—６０．
ｆｏｒ
【７０】ＳＨＵＲ，ＮＡＫＡＹＡＭＡＨ．Ｉｍｐｒｏｖｉｎｇｂｅａｍｓｅａｒｃｈｂｙｒｅｍｏｖｉｎｇｍｏｎｏｔｏｎｉｃｃｏｎｓｔｒａｉｎｔｎｅｕ—
ｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ［Ｃ／ＯＬ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５６ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎ
ｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．２０１８：３３９－３４４．ｈｔｔｐ：／／ａｃｌｗｅｂ．ｏｒｇ／ａｎｔｈｏｌｏｇｙ／Ｐ１８－２０５４．
【７１】ＷＥＢＥＲＮ，ＳＨＥＫＨＡＲＬ，ＢＡＬＡＳＵＢ凡～ＭＡⅫ队ＮＮ，ｅｔａ１．Ｃｏｎｔｒｏｌｌｉｎｇｄｅｃｏｄｉｎｇｆｏｒｍｏｒｅ
ａｂｓｔｒａｃｔｉｖｅｓｕｍｍａｒｉｅｓｗｉｔｈｃｏｐｙ－ｂａｓｅｄｎｅｔｗｏｒｋｓ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０３．０７０３８，２０１８．
【７２】ＮＡＲＡＹＡＮＳ，ＰＡＰＡＳＡＲＡＮＴｏＰＯＵＬｏＳＮ，ＣＯＨＥＮＳＢ，ｅｔａ１．Ｎｅｕｒａｌｅｘｔｒａｃｔｉｖｅｓｕｌｎｍａ－
ｒｉｚａｔｉｏｎｗｉｔｈｓｉｄｅｉｎｆｏｒｍａｔｉｏｎ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０４．０４５３０，２０１７．
【７３】ＬＩＪ，ＭＯＮＲＯＥＷ：ＪＵＲＡＦＳＫＹＤ．Ａｓｉｍｐｌｅ，ｆａｓｔｄｉｖｅｒｓｅｄｅｃｏｄｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｎｅｕｒａｌ
ａｒＸｉｖ：１６１１．０８５６２，２０１６．

ｇｅｎｅｒａｔｉｏｎ［Ｊ】．ａｒＸｉｖｐｒｅｐｒｉｎｔ
【７４】ＢＯＵＬＡＮＧＥＲ－ＬＥＷＡＮＤｏＷＳｌ（ＩＮ，ＢＥＮＧＩＯＹＶＩＮＣＥＮＴＰ．Ｕｓｉｎｇｒｅｌｅｖａｎｔｐｕｂｌｉｃｐｏｓｔｓ
ｔｏｅｎｈａｎｃｅｎｅｗｓａｒｔｉｃｌｅｓｕｍｍａｒｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ
ｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．２０１６：５５７—５６６．
【７５】ＢＯＵＤＩＮＦ，ＭＯＲＩＮＥ．ＫｅｙｐｈｒａｓｅＥｘｔｒａｃｔｉｏｎｆｏｒＮ—ｂｅｓｔＲｅｒａｎｋｉｎｇｉｎＭｕｌｔｉ－ＳｅｎｔｅｎｃｅＣｏｍ－
ｐｒｅｓｓｉｏｎ［Ｊ／ＯＬ］．２０１３：２９８—３０５．ｈｔｔｐ：／／ｗｗｗ．ａｃｌｗｅｂ．ｏｒｇ／ａｎｔｈｏｌｏｇｙ／Ｎ１３—１０３０．
【７６】ＥＤＭＵＮＤＳＯＮＨＰ．Ｎｅｗｍｅｔｈｏｄｓｉｎａｕｔｏｍａｔｉｃｅｘｔｒａｃｔｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈｅＡＣＭ，１９６９，
１６（２）：２６４－２８５．
【７７】ＬＩＮＣＹＲｏｕｇｅ：Ａｐａｃｋａｇｅｆｏｒａｕｔｏｍａｔｉｃｅｖａｌｕａｔｉｏｎｏｆｓｕｍｍａｒｉｅｓ［Ｊ］．ＴｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎ
ＢｒａｎｃｈｅｓＯｕｔ，２００４．
【７８】ＮＥＮＫＯＶＡＡ，ＰＡＳＳＯＮＮＥＡＵＲ．ＥｖａｌｕａｔｉｎｇＣｏｎｔｅｎｔＳｅｌｅｃｔｉｏｎｉｎＳｕｍｍａｒｉｚａｔｉｏｎ：Ｔｈｅ

ＰｙｒａｍｉｄＭｅｔｈｏｄ［Ｒ／ＯＬ］．ｈｔｔｐ：／／ｗｗｗ．ｉｓｉ．ｅｄｕ／．
【７９】张瑾，王小磊，许洪波．自动文摘评价方法综述【Ｊ】．中文信息学报，２００８，２２（３）：８１・８８．
【８０】金锋．文档摘要算法的研究与应用【Ｄ】．清华大学，２０１Ｉ．
【８１】ＤＥＮＫＯＷＳＫＩＭ，ＬＡＶＩＥＡ．Ｍｅｔｅｏｒｕｎｉｖｅｒｓａｌ：ｌａｎｇｕａｇｅｓｐｅｃｉｆｉｃｔｒａｎｓｌａｔｉｏｎｅｖａｌｕａｔｉｏｎｆｏｒ
ｏｆｔｈｅ９ｔｈＷｏｒｋｓｈｏｐＳｔａｔｉｓｔｉｃａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ．

ａｎｙｔａｒｇｅｔｌａｎｇｕａｇｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｎ
２０１４：３７６—３８０．
【８２】ＨＥＫ，ＺＨＡＮＧＸ，ＲＥＮＳ，ｅｔａ１．Ｄｅｅｐｒｅｓｉｄｕａｌｌｅａｒｎｉｎｇｆｏｒｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／
ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．２０１６：
７７０．７７８．
【８３】ＨＥＲＭＡＮＮＫＭ，ＫＯＣＩＳＫＹＴ，ＧＲＥＦＥＮＳＴＥＴＴＥＥ，ｅｔａ１．Ｔｅａｃｈｉｎｇｍａｃｈｉｎｅｓｔｏｒｅａｄａｎｄ
ｃｏｍｐｒｅｈｅｎｄ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．２０１５：１６９３・１７０１．
【８４】ＧＲＥＥＮＥＤ，ＣＵＮＮＩＮＧＨＡＭＰ．Ｐｒａｃｔｉｃａｌｓｏｌｕｔｉｏｎｓｔｏｔｈｅｐｒｏｂｌｅｍｏｆｄｉａｇｏｎａｌｄｏｍｉｎａｎｃｅｉｎ
ｋｅｒｎｅｌｄｏｃｕｍｅｎｔｃｌｕｓｔｅｒｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅ
Ｌｅａｒｎｉｎｇ．ＡＣＭ，２００６：３７７－３８４．
【８５】ＨＵＬＴＨＡ．Ｉｍｐｒｏｖｅｄａｕｔｏｍａｔｉｃｋｅｙｗｏｒｄｅｘｔｒａｃｔｉｏｎｇｉｖｅｎｍｏｒｅｌｉｎｇｕｉｓｔｉｃｋｎｏｗｌｅｄｇｅ［Ｃ］／／
６２
万方数据
参考文献
Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００３ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．
ＡＣＬ，２００３：２１６－２２３．
【８６】ＬＩＣ，ＸＵＷ，ＬＩＳ，ｅｔａ１．Ｇｕｉｄｉｎｇｇｅｎｅｒａｔｉｏｎｆｏｒａｂｓｔｒａｃｔｉｖｅｔｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎｂａｓｅｄｏｎｋｅｙ
ｉｎｆｏｒｍａｔｉｏｎｇｕｉｄｅｎｅｔｗｏｒｋ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１８ＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎ
ＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ：
ｖｏｌｕｍｅ２．２０ｌ８：５５．６０．
［８７】ＮＡＬＬＡＰＡＴＩＲＺＨＡＩＦ，ＺＨＯＵＢ．Ｓｕｍｍａｎｍｎｅｒ：ａｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｂａｓｅｄｓｅ－
ｑｕｅｎｃｅｍｏｄｅｌｆｏｒｅｘｔｒａｃｔｉｖｅｓｕｍｍａｒｉｚａｔｉｏｎｏｆｄｏｃｕｍｅｎｔｓ．［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３ｌｔｈＡＡＡＩ

ＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．２０１７：３０７５－３０８１．
［８８】ＭＩＫＯＬＯＶＴ，ＳＵＴＳＫＥＶＥＲＩ，ＤＥＯＲＡＳＡ，ｅｔａｌ，Ｓｕｂｗｏｒｄｌａｎｇｕａｇｅｍｏｄｅｌｉｎｇｗｉｔｈｎｅｕｒａｌ
ｎｅｔｗｏｒｋｓ［Ｊ］．ｐｒｅｐｒｉｎｔ（ｈｔｔｐ：／／ｗｗｗ．ｆｉｔ．ｖｕｔｂｒ．ｃｚ／ｉｍｉｋｏｌｏｖ／ｍｎｌｍ／ｃｈａｒ．ｐｄｆ），２０１２，８．
【８９】ＺＨＡＮＧＸ，ＺＨＡＯＪ，ＬＥＣＵＮＹ－Ｃｈａｒａｃｔｅｒ－ｌｅｖｅｌｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｔｅｘｔｃｌａｓｓｉｆｉｃａ－
ｔｉｏｎ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．２０１５：６４９－６５７．
【９０】ＸＩＡＯＹＣＨ０Ｋ．Ｅｆｆｉｃｉｅｎｔｃｈａｒａｃｔｅｒ－ｌｅｖｅｌｄｏｃｕｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｂｙｃｏｍｂｉｎｉｎｇｃｏｎｖｏｌｕｔｉｏｎ
ａｎｄｒｅｃｕｒｒｅｎｔｌａｙｅｒｓ［Ｊ】．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６０２．００３６７，２０１６．
【９ｌ】ＣＨＵＮＧＪ，ＣＨＯＫ，ＢＥＮＧＩＯＹ．Ａｃｈａｒａｃｔｅｒ－ｌｅｖｅｌｄｅｃｏｄｅｒｗｉｔｈｏｕｔｅｘｐｌｉｃｉｔｓｅｇｍｅｎｔａｔｉｏｎｆｏｒ
ｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６０３．０６１４７，２０１６．
［９２】ＬＵＯＮＧＭＴ，ＭＡＮＮＩＮＧＣＤ．Ａｃｈｉｅｖｉｎｇｏｐｅｎｖｏｃａｂｕｌａｒｙｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｗｉｔｈ
ｈｙｂｒｉｄｗｏｒｄ—ｃｈａｒａｃｔｅｒｍｏｄｅｌｓ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１６０４．００７８８，２０１６．
【９３】ＬＩＮＧｗ，ＴＲＡＮＣＯＳＯＩ，ＤＹＥＲＣ，ｅｔａ１．Ｃｈａｒａｃｔｅｒ－ｂａｓｅｄｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ［Ｊ］．
ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１５１１．０４５８６．２０１５．
［９４］ＧＡＧＥＰ．Ａｎｅｗａｌｇｏｒｉｔｈｍｆｏｒｄａｔａｃｏｍｐｒｅｓｓｉｏｎ［Ｊ］．ｎｌｅＣＵｓｅｒｓＪｏｕｒｎａｌ，１９９４，１２（２）：２３－３８．
【９５】ＳＥＮＮＲＩＣＨＲ，ＨＡＤＤＯＷＢ，ＢＩＲＣＨＡ．Ｎｅｕｒａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｏｆｒａｒｅｗｏｒｄｓｗｉｔｈ
ｓｕｂｗｏｒｄｕｎｉｔｓ０］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１５０８．０７９０９，２０１５．
［９６】ＳＣＨＵＳＴＥＲＭ，ＮＡＫＡＪＩＭＡＫ．Ｊａｐａｎｅｓｅａｎｄｋｏｒｅａｎｖｏｉｃｅｓｅａｒｃｈ［Ｃ］／／ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌ

ＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ．ＩＥＥＥ，２０１２：５１４９－５ｌ５２．
［９７】ＰＡＰＩＮＥＮＩＫ，ＲＯＵＫＯＳＳ，ＷＡＲＤＴ，ｅｔａ１．Ｂｌｅｕ：ａｍｅｔｈｏｄｆｏｒａｕｔｏｍａｔｉｃｅｖａｌｕａｔｉｏｎｏｆ
ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｎＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕ－
ｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．ＡＣＬ，２００２：３ｌｌ一３１８．
【９８】ＨＷＡＮＧＷ：ＨＡＪＩＳＨＩＲＺＩＨ，ＯＳＴＥＮＤＯＲＦＭ，ｅｔａ１．Ａｌｉｇｎｉｎｇｓｅｎｔｅｎｃｅｓｆｒｏｍｓｔａｎｄａｒｄ
ｗｉｋｉｐｅｄｉａｔｏｓｉｍｐｌｅｗｉｋｉｐｅｄｉａ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１５ＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉ—
ｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏ－

ｇｉｅｓ．２０１５：２１１－２１７．
［９９】ＺＨＡＮＧＸ，ＬＡＬＰ！ＡＴＡＭ．Ｓｅｎｔｅｎｃｅｓｉｍｐｌｉｆｉｃａｔｉｏｎｗｉｔｈｄｅｅｐｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇ［Ｃ］／／
Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１７ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓ一
６３
万方数据
参考文献
ｍｇ．２０１７：５８４－５９４．
［１００】ＶＵＴ，ＨＵＢ，ＭＵＮＫＨＤＡＬＡＩＴ，ｅｔａ１．Ｓｅｎｔｅｎｃｅｓｉｍｐｌｉｆｉｃａｔｉｏｎｗｉｔｈｍｅｍｏｒｙ—ａｕｇｍｅｎｔｅｄ
ｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０４．０７４４５，２０１８
［１０１】ＧＵＯＨ，ＰＡＳＵＮＵＲＵＲ，ＢＡＮＳＡＬＭ．Ｄｙｎａｍｉｃｍｕｌｔｉ－ｌｅｖｅｌｍｕｌｔｉ－ｔａｓｋｌｅａｒｎｉｎｇｆｏｒｓｅｎｔｅｎｃｅ
ｓｉｍｐｌｉｆｉｃａｔｉｏｎ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８０６．０７３０４，２０１８．
【１０２】ＮＡＲＡＹＡＮＳ，ＧＡＲＤＥＮＴＣ．Ｕｎｓｕｐｅｒｖｉｓｅｄｓｅｎｔｅｎｃｅｓｉｍｐｌｉｆｉｃａｔｉｏｎｕｓｉｎｇｄｅｅｐｓｅｍａｎｔｉｃｓ
【Ｊ】．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１５０７．０８４５２，２０１５．
【１０３】ＷＯＯＤＳＥＮＤＫ，ＬＡＰＡＴＡＭ．Ｌｅａｒｎｉｎｇｔｏｓｉｍｐｌｉｆｙｓｅｎｔｅｎｃｅｓｗｉｔｈｑｕａｓｉ—ｓｙｎｃｈｒｏｎｏｕｓｇｒａｍ—
ｍａｒａｎｄｉｎｔｅｇｅｒｐｒｏｇｒａｍｍｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎ
ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．ＡＣＬ，２０１１：４０９－４２０．
［１０４】ＳＵＬＥＭＥ，ＡＢＥＮＤＯ，ＲＡＰＰＯＰＯＲＴＡ．Ｓｉｍｐｌｅａｎｄｅｆｆｅｃｔｉｖｅｔｅｘｔｓｉｍｐｌｉｆｉｃａｔｉｏｎｕｓｉｎｇ
ｓｅｍａｎｔｉｃａｎｄｎｅｕｒａｌｍｅｔｈｏｄｓ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８１０．０５１０４，２０１８．
【１０５】ＺＨＡＯＳ，ＭＥＮＧ＆ＨＥＤ，ｅｔａ１．Ｉｎｔｅｇｒａｔｉｎｇｔｒａｎｓｆｏｒｍｅｒａｎｄｐａｒａｐｈｒａｓｅｒｕｌｅｓｆｏｒｓｅｎｔｅｎｃｅ
ｓｉｍｐｌｉｆｉｃａｔｉｏｎ［Ｊ］．ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１８１０．１１１９３，２０１８．
【１０６】ＮＩＳＩＯＩＳ，ＳＴＡＪＮＥＲＳ，ＰＯＮＺＥＴＴＯＳＰ，ｅｔａ１．Ｅｘｐｌｏｒｉｎｇｎｅｕｒａｌｔｅｘｔｓｉｍｐｌｉｆｉｃａｔｉｏｎｍｏｄｅｌｓ
【Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５５ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓ－
ｔｉｃｓ：ｖｏｌｕｍｅ２．２０ｌ７：８５．９１．
万方数据
致谢
致谢
时维暮春，庐州草长，杂花生树，群莺乱飞。在这万物更新的春光里，我也
即将迎来人生的新阶段，告别校园，告别学生时代。回首过去的三年，感慨良多，
值此论文付梓之际，请允许我向一路走来给予我关怀和鼓励的人和事表达感谢。
首先要感谢中国科学技术大学这个平台，自三年前踏入科大校门，我无时无
刻不浸浴在科大理实交融治学严谨的浓厚学术氛围之中，它为包括我在内的众
多学子提供了非常优越的求学环境，使我有机会认识了许多将自身追求融入时
代发展洪流中的名师大家，对我人生观价值观的塑造产生了很大的积极影响。
感谢我的导师李金龙副教授，谢谢您在四年前的保研面试中将我纳入麾下，
让我得以进入ＵＢＲＩ实验室有了这段难忘的求学经历。在科研上，李老师给予我
们充分的自由，鼓励我们钻研自己感兴趣的课题，每周抽出大量时间与我们进行
学术讨论，给予了学生宝贵的思想启迪。同时，李老师花费大量的精力帮助我们
打磨论文并指导我们的投稿，他追求卓越的品格令我钦佩。科研之路并非一帆
风顺，犹记得我在遇到瓶颈之时，是李老师的鼓励让我走出低谷，重新拾起了希
望，这份温暖我将时刻感怀。
在研究生学习期间，我有幸结识了一群可爱的朋友。他们是我的实验室同
门：李腾飞、胡均毅、徐若易、陆超红、舒伟博、王劲松、刘佳琦等同学，在朝
夕相处的日子里，他们给予了我兄长一般的包容和爱护，我们彼此陪伴，互相扶
持，跨过了一段难走的荆棘；他们是我的实验室师兄师姐：姚亚强、徐芳、夏有
新、丁陈陈、赵猛、刘佳伟等同学，他们将自己的经验教训无私地分享给我，在
科研、生活、工作等方方面面给我树立了榜样；他们是我的实验室师弟：王海涵、
陈斌等同学，与他们的相处让我安心愉快，虚长一级，我没能提供更多的帮助反
而时常接受来自他们的鼓励和帮助，感到幸运；他们是我的研究生同级同学：李
星悦、曹利安等同学，他们或睿智或暖心，总能为我指点迷津，在我的研究生生
涯中扮演着不可或缺的角色。感谢生命里的这些遇见，衷心祝愿你们在今后的人
生中恣意潇洒，不舍希望。
同时要感谢我的老朋友於慧妮、黄晓涵、张水燕、许佳佳、黄宇、胡瑞等人，
我们在不同的地方各自努力，所幸心的距离并不遥远。
感谢我的父母文锦玉女士和陈宏宝先生，他们是我人生道路上的灯塔，让我
在得意时保持谦逊，困顿时能够振作。他们二十四年如一日地给予我情感和物质
支持，理解并尊重我的每一个决定。我能够顺利完成研究学业他们功不可没，感
谢他们的付出！
最后，感谢参加论文评审和答辩的老师们百忙之中对我论文的审阅１
６５
万方数据
万方数据
在读期间发表的学术论文与取得的研究成果
在读期间发表的学术论文与取得的研究成果
已发表论文
１．ＸｕｅｗｅｎＣｈｅｎ，ＪｉｎｌｏｎｇＬｉ，ＨａｉｈａｎＷａｎｇ．ＫｅｙｐｈｒａｓｅＧｕｉｄｅｄＢｅａｍＳｅａｒｃｈｆｏｒ
ＮｅｕｒａｌＡｂｓｔｒａｃｔｉｖｅＴｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎ［Ｃ］．Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１９Ｉｎｔｅｒｎａｔｉｏｎａｌ
ＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ．Ｊｕｌｙ２０１９．（ＩＳＢＮ：９７８—１－７２８１—１９８４—４）
２．ＸｕｅｗｅｎＣｈｅｎ，ＪｉｎｌｏｎｇＬｉ，ＨａｉｈａｎＷａｎｇ．ＫｅｙｐｈｒａｓｅＥｎｈａｎｃｅｄＤｉｖｅｒｓｅＢｅａｍ
Ｓｅａｒｃｈ：ＡＣｏｎｔｅｎｔ－ＩｎｔｒｏｄｕｃｉｎｇＡｐｐｒｏａｃｈｔｏＮｅｕｒａｌＴｅｘｔＧｅｎｅｒａｔｉｏｎ［Ｊ］．ＩＥＥＥ

Ａｃｃｅｓｓ．（Ａｃｃｅｐｔｅｄ）
待发表论文
１．ＨａｉｈａｎＷａｎｇ，ＪｉｎｌｏｎｇＬｉ，ＸｕｅｗｅｎＣｈｅｎ．Ｋｅｙｗｏｒｄｓ—ｂａｓｅｄＡｕｘｉｌｉａｒｙＩｎｆｏｒｍａ—
ｔｉｏｎＮｅｔｗｏｒｋｆｏｒＡｂｓｔｒａｃｔｉｖｅＳｕｍｍａｒｉｚａｔｉｏｎ．（Ｓｕｂｍｉｔｔｅｄ）
参与研究项目
１．国家重点研发计划项目，项目编号：２０１７ＹＦＣ０８０４０００
２．国家自然科学基金项目，项目编号：６１５７３３２８
６７
万方数据
ＵＳＴＣ
中国科学技术大学硕士学位论文
万方数据

基于深度神经网络的文本生成方法研究 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于深度神经网络的文本生成方法研究 PDF

Uploaded by

Copyright:

Available Formats

中圈斜孽艘求大誊

Ａ ｄ ｉｓｓｅｒｔａｔｉｏｎ ｆｏｒ ｍａｓｔｅｒ’Ｓ ｄｅｇ ｒｅｅ

Ａ Ｓｔｕ ｄｙ Ｄｅｅｐ Ｎｅｕｒａｌ

Ｎ ｅｔｗｏｒｋ・－ｂａｓｅｄ ＴｅＸｔ Ｇｅｎｅｒａｔｉｏｎ

Ｓｐｅｃｉａｌｉｔｙ：Ｃｏｍｐｕｔｅｒ Ａｐｐｌｉｃａｔｉｏｎ Ｔｅｃｈｎｏｌｏｇｙ

Ｆｉｎｉｓｈｅｄ ｔｉｍｅ：Ｍａｙ ２９，２０ １ ９

ｍｅｔｈｏｄｓ ｏｆ ｄｅａｌｉｎｇ ｗｉｔｈ ｉｎｆｏｒｍａｔｉｏｎ ｏｖｅｒｌｏａｄ ａｎｄ ｒｅａｄｉｎｇ ｄｉｓａｂｉｌｉｔｉｅｓ．Ａｔ ｐｒｅｓｅｎｔ，ｍｏｓｔ

ｗｏｒｄ ｒｅｄｕｎｄａｎｃｙ，ａｎｄ ｔｈｅ ｏｕｔ—ｏｆ－ｔｈｅ－ｖｏｃａｂｕｌａｒｙ（ｏｏｖ）ｐｒｏｂｌｅｍ．

（ｉ）Ｗｅ ｄｅｓｉｇｎ ａｎｄ ｉｍｐｌｅｍｅｎｔ ａｎ ａｂｓｔｒａｃｔｉｖｅ ｎｅｕｒａｌ ｔｅｘｔ ｓｕｍｍａｒｉｚａｔｉｏｎ ｍｏｄｅｌ．Ｆｉｒｓｔ，

ｔｕａｌ ｆｅａｔｕｒｅｓ ｂｙ ｃｏｍｂｉｎｉｎｇ ｔｈｅ ｓｔｒｕｃｔｕｒｅ ｏｆ ｂｏｔｈ ｒｅｃｕｒｒｅｎｔ ｎｅｕｒａｌ ｎｅｔｗｏｒｋ（ＲＮＮ）ａｎｄ

ｔｈｅ ｇｅｎｅｒａｔｅｄ ｓｅｎｔｅｎｃｅｓ ｄｕｒｉｎｇ ｄｅｃｏｄｉｎｇ ｂｙ ｉｎｔｒｏｄｕｃｉｎｇ ａ ｐｅｎａｌｔｙ ｔｅｒｍ．Ｍｏｒｅｏｖｅｒ，ｗｅ

ｔｅｘｔ．Ｓｕｃｈ ｒｅｒａｎｋｉｎｇ ｍｅｃｈａｎｉｓｍ ｐｒｏｍｏｔｅｓ ｔｈｅ ｓｅｍａｎｔｉｃａｌ

ｐｒｏｐｏｓｅｄ ｍｏｄｅｌ ｃｏｎｔｒｉｂｕｔｅｓ ｔｏ ｐｒｏｍｉｓｉｎｇ ｉｍｐｒｏｖｅｍｅｎｔ ｉｎ ｐｅｒｆｏｒｍａｎｃｅ ｃｏｍｐａｒｅｄ ｗｉｔｈ

（ｉｉｌ Ｗｅ ｐｒｏｐｏｓｅ ａ ｓｕｂｗｏｒｄ ｕｎｉｔｓ－ｂａｓｅｄ ｅｎｄ—ｔｏ—ｅｎｄ ｗａｙ ｏｆ ｓｅｎｔｅｎｃｅ ｓｉｍｐｌｉｆｉｃａｔｉｏｎ

ａｔｉｏｎ ｉｎ ｔｅｘｔ ｓｉｍｐｌｉｆｉｃａｔｉｏｎ，ａ ｓｕｂｗｏｒｄ ｕｎｉｔ ｅｘｔｒａｃｔｉｏｎ ｍｅｔｈｏｄ ｂａｓｅｄ

ｔＯ ｃｏｎｓｔｒｕｃｔ ｔｈｅ ｖｏｃａｂｕｌａｒｙ，ｗｈｉｃｈ ｃａｎ ｅｆｆｅｃｔｉｖｅｌｙ ｒｅｄｕｃｅ ｔｈｅ ｖｏｃａｂｕｌａｒｙ ｓｃａｌｅ，ｔｈｕｓ

ｉｎｃｒｅａｓｉｎｇ ｔｈｅ ｅｆｆｉｃｉｅｎｃｙ ｏｆ ｔｈｅ ｓｅｑｕｅｎｃｅ－ｔＯ—ｓｅｑｕｅｎｃｅ ｍｏｄｅｌ．Ａｔ ｔｈｅ ｓａｍｅ ｔｉｍｅ，ｔｈｅ

ｔｈｅ ｗｏｒｄ－ｌｅｖｅｌ ｍｅｔｈｏｄｓ．

Ｋｅｙ Ｗｏｒｄｓ：Ａｕｔｏｍａｔｉｃ Ｔｅｘｔ Ｓｕｍｍａｒｉｚａｔｉｏｎ；Ａｕｔｏｍａｔｉｃ Ｔｅｘｔ Ｓｉｍｐｌｉｆｉｃａｔｉｏｎ；Ｔｅｘｔ Ｒｅｐ－

ｒｅｓｅｎｔａｔｉｏｎ；Ｂｅａｍ Ｓｅａｒｃｈ；Ｓｕｂｗｏｒｄ Ｕｎｉｔｓ；Ｄｅｅｐ Ｎｅｕｒａｌ Ｎｅｔｗｏｒｋ

１．１ 研究背景及意义 ．．．．．．．．．．．．．．．．．．．．．．．．．．．．

量机（Ｓｕｐｐｏｒｔ Ｖｅｃｔｏｒ Ｍａｃｈｉｎｅｓ，ＳＶＭ）和条件随机场（Ｃｏｎｄｉｔｉｏｎａｌ Ｒａｎｄｏｍ Ｆｉｅｌｄｓ，

ａｒｇ ｍａｘ Ｐ（ＹＩＸ）

势，即梯度消失问题（Ｇｒａｄｉｅｎｔ Ｖａｎｉｓｈｉｎｇ Ｐｒｏｂｌｅｍ）１６０１，换言之，当序列的长度比

ｃｆ ２‘ｏ Ｃｔ＿ｌ＋ｉｆ ｏ ｔａｎｈ（１４ＺｘｃＸ，＋ｒｖｈｃｈ卜ｌ＋ｂｃ） （２．３）

ｈｆ＝０ｆ ｏ ｔａｎｈ（ｃｔ） （２．５）

ＧＲＵ单元结构如图２．３所示，其通过重置门（Ｒｅｓｅｔ Ｇａｔｅ）ｒｔ和更新门（Ｕｐｄａｔｅ Ｇａｔｅ）

ｈＩ＝ｔａｎｈ（Ｗｘｆ＋Ｖｅｒ（ｒ，ｏ ｈｆ—１）＋ｂ＾） （２．７）

ｈｆ＝（１一ｚｆ）ｏ ｈ卜ｌ＋Ｚｒ ｏ ｈｆ （２．９）

ＲＯＵＧＥ（Ｒｅｃａｌｌ．Ｏｒｉｅｎｔｅｄ Ｕｎｄｅｒｓｔｕｄｙ ｆｏｒ Ｇｉｓｔｉｎｇ Ｅｖａｌｕａｔｉｏｎ）［７７】是一种基于召

（ｕｎｉｇｒａｍ）的召回率，并不考虑词序，例如“ｐｅｎｃｉｌ ｃａｓｅ”和“ｃａｓｅ ｐｅｎｃｉｌ”有相同

９ Ｅ÷＿ｂｅｓｔ ｆｉｎｉｓｈｅｄ ｈｙｐ ｉｎ Ｈ／／选择得分最高的候选句作为最后生成的

Ｄｉｖｅｒｓｅ Ｂｅａｍ Ｓｅａｒｃｈ

４。。。。。Ｐ。三？８：‘ＡＡ ｓｓｔｅａｔｅａｍｍ ｅｅ嘲ｎｇｉｎｎｅｅ ｔｒａｔｒａ…ｖｅｌｌⅢｉｎｇｅｄｌ｛ｌｏｎａｗｎｔｈｒｏｔｒａｉ：０篇琵高．

ｓ（Ｋ）＝（１－ｄ）＋ｄ木∑ ｓ（巧） （２．２８）

对于模型的训练，我们采用最大似然估计（Ｍａｘｉｍｕｍ Ｌｉｋｅｌｉｈｏｏｄ Ｅｓｔｉｍａｔｉｏｎ，

原始文本：Ｔｈｅ ａｕｔｈｏｒ ｃｏｎｓｉｄｅｒｓ ｏｂｆｕｓｃａｔｉｏｎ ｏｐｔｉｏｎｓ ｆｏｒ ｐｒｏｔｅｃｔｉｎｇ．ｎｅｔ ｃｏｄｅ．Ｍａｎｙ

ｗｉｌｌ ｂｅ ｎｏｎｅｘｉｓｔｅｎｔ．Ｎｕｍｅｒｏｕｓ ｏｂｆｕｓｃａｔｏｒｓ ａｒｅ ａｌｒｅａｄｙ ａｖａｉｌａｂｌｅ ｆｏｒ ｔｈｅ．ｎｅｔ ｐｌａｔ－

ｆｏｒｍ，ｒａｎｇｉｎｇ ｆｒｏｍ ａ ｂａｓｉｃ ｒｅｎａｍｉｎｇ ｏｂｆｕｓｃａｔｏｒ ｔｏ ａ ｆｕｌｌｙ ｆｕｎｃｔｉｏｎａｌ ｏｂｆｕｓｃａｔｏｒ

ｉｎｃｌｕｄｉｎｇ Ｍｉｃｒｏｓｏｆｔ’Ｓ Ｃ＋＋ｗｉｔｈ ｍａｎａｇｅｄ ｅｘｔｅｎｓｉｏｎｓ．Ａｎ ｏｂｆｕｓｃａｔｏｒ ｓｉｍｐｌｙ ｍａｋｅｓ

ｉｎｇ．Ｈｏｗｅｖｅｒ，ｔｈｅ ｃｏｓｔ ｏｆ ｏｂｆｕｓｃａｔｉｏｎ ｉｓ ｉｎｓｉｇｎｉｆｉｃａｎｔ ｗｈｅｎ ｃｏｍｐａｒｅｄ ｔｏ ｔｈｅ ｃｏｓｔ

ｏｆ ａ ｔｙｐｉｃａｌ ｓｏｆｔｗａｒｅ ｄｅｖｅｌｏｐｍｅｎｔ ｐｒｏｊｅｃｔ．Ｉｆ ｙｏｕ ｆｅｅｌ ｌｉｋｅ ａｎ ｏｂｆｕｓｃａｔｏｒ ｐｒｏｖｉｄｅｓ

ｙｏｕ ａｎｙ ｂｅｎｅｆｉｔ ａｔ ａ１１．ｉｔ’Ｓ ｐｒｏｂａｂｌｙ ｗｏｎｈ ｔｈｅ ｐｒｉｃｅ．

参考摘要：．ｎｅｔ ｏｂｆｕｓｃａｔｉｏｎ ａｎｄ ｉｎｔｅｌｌｅｃｔｕａｌ ｐｒｏｐｅｒｔｙ．

ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ：ｓｏｆｔｗａｒｅ ｐｒｏｊｅｃｔ ｆｏｒ ｔｙｐｉｃａｌ ｈａｎｄｌｅｓ ｆｏｒ ｌ’ｅＶＣＦＳＣ ｅｌｉｇｉｌｌｅｅｌ４ｉｎｇ．

ＫＥＤＢＳ：ａｐｐｌｉｃａｔｉｏｎ ｏｆ ｏｂｆｕｓｃａｔｉｏｎ ｏｐｔｉｏｎｓ ｆｏｒ．１ｉｅｔ ｃｏｄｅ ｐｒｏｔｅｃｔｉｏｎ．

文本中较为高阶的动词短语”ｓｐｌｉｔ ｉｎｔｏ”被改写成为更为浅显的ｔｈｅｒｅ ｂｅ句型用于

ｇｉａｔｅ Ａｔｈｌｅｔｉｃ Ａｓｓｏｃｉａｔｉｏｎ ｃｈａｍｐｉｏｎｓｈｉｐ ａｎｄ ｔｈｒｅｅ ｃｏｎｓｅｃｕｔｉｖｅ ＥＣＡＣ ｔｏｕｒｎａｍｅｎｔ

ｓｅｃｕｔｉｖｅ ＥＣＡＣ ｔｏｕｒｎａｍｅｎｔ ｃｈａｍｐｉｏｎｓｈｉｐｓ．

ａｎｄ ｔｈｅｏｒｅｔｉｃａｌ ｂｒａｎｃｈｅｓ．

ａｎｄ ｔｈｅｏｒｅｔｉｃａｌ ａｓｔｒｏｎｏｍｙ．

字节对编码（Ｂｙｔｅ Ｐａｉｒ Ｅｎｃｏｄｉｎｇ，ＢＰＥ）１９４１是一种简单的数据压缩算法，该

ＢＬＥＵ（ＢｉＬｉｎｇｕａｌ Ｅｖａｌｕａｔｉｏｎ Ｕｎｄｅｒｓｔｕｄｙ）指标【９７】最早应用于机器翻译领域，

厶Ｓ∈｛ｎ“，ｐＨＩ ｓｅｎｆＰｎｃＰＪ Ｃｊ。石ｕ瓦ｎｔ磊ｍａ石ｔｃｈ可（ｇｒａｍｎ）

假设我们的原始词表为｛’ｈ ｉ ｇ ｈ ｅ ｒ＜／ｗ＞’：２，’ｈ Ｏ ｔ ｔ ｅ ｓ ｔ＜／＿ｗ＞’：５，’ｈ ｉ ｇ ｈ

原始词表：｛’ｈ ｉｇ ｈ ｅ ｒ＜／ｗ＞’：２，’ｈ ０ ｔ ｔ ｅ ｓ ｔ＜／ｗ＞’：５，’ｈ ｉ ｇ ｈ＜／ｗ＞’：４，’ｂ ｅ ｓ ｔ＜／ｗ＞’：

ＰＷＫＰ（Ｐａｒａｌｌｅｌ Ｗｉｋｉｐｅｄｉａ Ｓｉｍｐｌｉｃａｔｉｏｎ Ｃｏｒｐｕｓ）数据集【４８】是从简单维基百科

复杂句：Ｔｈｅ ｆａｉｌｕｒｅ ｒａｔｅ ｏｆ ａ ｓｙｓｔｅｍ ｕｓｕａｌｌｙ ｄｅｐｅｎｄｓ ｏｎ ｔｉｍｅ，ｗｉｔｈ ｔｈｅ ｒａｔｅ

ｏｖｅｒ ｔｈｅ ｌｉｆｅ ｃｙｃｌｅ ｏｆ ｔｈｅ ｓｙｓｔｅｍ．

子词处理后的复杂句：Ｔｈｅ ｆａｉｌ＠＠ｕｒｅ ｒａｔｅ ｏｆａ ｓｙｓｔｅｍ ｕｓｕａｌｌｙ ｄｅｐｅｎｄ＠＠Ｓ ｏｎ ｔｉｍｅ，

ｔｈｅ ｌｉｆｅ ｃｙｃｌｅ ｏｆ ｔｈｅ ｓｙｓｔｅｍ．

ｃｈａｎｇｅｓ ｏｖｅｒ ｔｉｍｅ ｖｅｒｓｕｓ ｔｈｅ ｅｘｐｅｃｔｅｄ ｌｉｆｅ ｃｙｃｌｅ ｏｆ ａ ｓｙｓｔｅｍ．

子词处理后的简单句：Ｆａｉｌ＠＠ｕｒｅ ｒａｔｅ ｉｓ ｕｓｕａｌｌｙ ｔｉｍｅ ｄｅｐｅｎｄ＠＠ｅｎｔ，ａｎｄ ａｎ ｉｎｔ＠＠

Ａｄｉｓｓｅｒｔａｔｉｏｎｆｏｒｍａｓｔｅｒ’Ｓｄｅｇｒｅｅ

ＡＳｔｕｄｙＤｅｅｐＮｅｕｒａｌ

Ｎｅｔｗｏｒｋ・－ｂａｓｅｄＴｅＸｔＧｅｎｅｒａｔｉｏｎ

Ｓｐｅｃｉａｌｉｔｙ：ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ

Ｆｉｎｉｓｈｅｄｔｉｍｅ：Ｍａｙ２９，２０１９

ｍｅｔｈｏｄｓｏｆｄｅａｌｉｎｇｗｉｔｈｉｎｆｏｒｍａｔｉｏｎｏｖｅｒｌｏａｄａｎｄｒｅａｄｉｎｇｄｉｓａｂｉｌｉｔｉｅｓ．Ａｔｐｒｅｓｅｎｔ，ｍｏｓｔ

ｗｏｒｄｒｅｄｕｎｄａｎｃｙ，ａｎｄｔｈｅｏｕｔ—ｏｆ－ｔｈｅ－ｖｏｃａｂｕｌａｒｙ（ｏｏｖ）ｐｒｏｂｌｅｍ．

（ｉ）Ｗｅｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｎａｂｓｔｒａｃｔｉｖｅｎｅｕｒａｌｔｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎｍｏｄｅｌ．Ｆｉｒｓｔ，

ｔｕａｌｆｅａｔｕｒｅｓｂｙｃｏｍｂｉｎｉｎｇｔｈｅｓｔｒｕｃｔｕｒｅｏｆｂｏｔｈｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ（ＲＮＮ）ａｎｄ

ｔｈｅｇｅｎｅｒａｔｅｄｓｅｎｔｅｎｃｅｓｄｕｒｉｎｇｄｅｃｏｄｉｎｇｂｙｉｎｔｒｏｄｕｃｉｎｇａｐｅｎａｌｔｙｔｅｒｍ．Ｍｏｒｅｏｖｅｒ，ｗｅ

ｔｅｘｔ．Ｓｕｃｈｒｅｒａｎｋｉｎｇｍｅｃｈａｎｉｓｍｐｒｏｍｏｔｅｓｔｈｅｓｅｍａｎｔｉｃａｌ

ｐｒｏｐｏｓｅｄｍｏｄｅｌｃｏｎｔｒｉｂｕｔｅｓｔｏｐｒｏｍｉｓｉｎｇｉｍｐｒｏｖｅｍｅｎｔｉｎｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｅｄｗｉｔｈ

（ｉｉｌＷｅｐｒｏｐｏｓｅａｓｕｂｗｏｒｄｕｎｉｔｓ－ｂａｓｅｄｅｎｄ—ｔｏ—ｅｎｄｗａｙｏｆｓｅｎｔｅｎｃｅｓｉｍｐｌｉｆｉｃａｔｉｏｎ

ａｔｉｏｎｉｎｔｅｘｔｓｉｍｐｌｉｆｉｃａｔｉｏｎ，ａｓｕｂｗｏｒｄｕｎｉｔｅｘｔｒａｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄ

ｔＯｃｏｎｓｔｒｕｃｔｔｈｅｖｏｃａｂｕｌａｒｙ，ｗｈｉｃｈｃａｎｅｆｆｅｃｔｉｖｅｌｙｒｅｄｕｃｅｔｈｅｖｏｃａｂｕｌａｒｙｓｃａｌｅ，ｔｈｕｓ

ｉｎｃｒｅａｓｉｎｇｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｔｈｅｓｅｑｕｅｎｃｅ－ｔＯ—ｓｅｑｕｅｎｃｅｍｏｄｅｌ．Ａｔｔｈｅｓａｍｅｔｉｍｅ，ｔｈｅ

ｔｈｅｗｏｒｄ－ｌｅｖｅｌｍｅｔｈｏｄｓ．

ＫｅｙＷｏｒｄｓ：ＡｕｔｏｍａｔｉｃＴｅｘｔＳｕｍｍａｒｉｚａｔｉｏｎ；ＡｕｔｏｍａｔｉｃＴｅｘｔＳｉｍｐｌｉｆｉｃａｔｉｏｎ；ＴｅｘｔＲｅｐ－

ｒｅｓｅｎｔａｔｉｏｎ；ＢｅａｍＳｅａｒｃｈ；ＳｕｂｗｏｒｄＵｎｉｔｓ；ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ

１．１研究背景及意义．．．．．．．．．．．．．．．．．．．．．．．．．．．．

量机（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ，ＳＶＭ）和条件随机场（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ，

ａｒｇｍａｘＰ（ＹＩＸ）

势，即梯度消失问题（ＧｒａｄｉｅｎｔＶａｎｉｓｈｉｎｇＰｒｏｂｌｅｍ）１６０１，换言之，当序列的长度比

ｃｆ２‘ｏＣｔ＿ｌ＋ｉｆｏｔａｎｈ（１４ＺｘｃＸ，＋ｒｖｈｃｈ卜ｌ＋ｂｃ）（２．３）

ｈｆ＝０ｆｏｔａｎｈ（ｃｔ）（２．５）

ＧＲＵ单元结构如图２．３所示，其通过重置门（ＲｅｓｅｔＧａｔｅ）ｒｔ和更新门（ＵｐｄａｔｅＧａｔｅ）

ｈＩ＝ｔａｎｈ（Ｗｘｆ＋Ｖｅｒ（ｒ，ｏｈｆ—１）＋ｂ＾）（２．７）

ｈｆ＝（１一ｚｆ）ｏｈ卜ｌ＋Ｚｒｏｈｆ（２．９）

ＲＯＵＧＥ（Ｒｅｃａｌｌ．ＯｒｉｅｎｔｅｄＵｎｄｅｒｓｔｕｄｙｆｏｒＧｉｓｔｉｎｇＥｖａｌｕａｔｉｏｎ）［７７】是一种基于召

（ｕｎｉｇｒａｍ）的召回率，并不考虑词序，例如“ｐｅｎｃｉｌｃａｓｅ”和“ｃａｓｅｐｅｎｃｉｌ”有相同

９Ｅ÷＿ｂｅｓｔｆｉｎｉｓｈｅｄｈｙｐｉｎＨ／／选择得分最高的候选句作为最后生成的

ＤｉｖｅｒｓｅＢｅａｍＳｅａｒｃｈ

４。。。。。Ｐ。三？８：‘ＡＡｓｓｔｅａｔｅａｍｍｅｅ嘲ｎｇｉｎｎｅｅｔｒａｔｒａ…ｖｅｌｌⅢｉｎｇｅｄｌ｛ｌｏｎａｗｎｔｈｒｏｔｒａｉ：０篇琵高．

ｓ（Ｋ）＝（１－ｄ）＋ｄ木∑ ｓ（巧）（２．２８）

对于模型的训练，我们采用最大似然估计（ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄＥｓｔｉｍａｔｉｏｎ，

原始文本：Ｔｈｅａｕｔｈｏｒｃｏｎｓｉｄｅｒｓｏｂｆｕｓｃａｔｉｏｎｏｐｔｉｏｎｓｆｏｒｐｒｏｔｅｃｔｉｎｇ．ｎｅｔｃｏｄｅ．Ｍａｎｙ

ｗｉｌｌｂｅｎｏｎｅｘｉｓｔｅｎｔ．Ｎｕｍｅｒｏｕｓｏｂｆｕｓｃａｔｏｒｓａｒｅａｌｒｅａｄｙａｖａｉｌａｂｌｅｆｏｒｔｈｅ．ｎｅｔｐｌａｔ－

ｆｏｒｍ，ｒａｎｇｉｎｇｆｒｏｍａｂａｓｉｃｒｅｎａｍｉｎｇｏｂｆｕｓｃａｔｏｒｔｏａｆｕｌｌｙｆｕｎｃｔｉｏｎａｌｏｂｆｕｓｃａｔｏｒ

ｉｎｃｌｕｄｉｎｇＭｉｃｒｏｓｏｆｔ’ＳＣ＋＋ｗｉｔｈｍａｎａｇｅｄｅｘｔｅｎｓｉｏｎｓ．Ａｎｏｂｆｕｓｃａｔｏｒｓｉｍｐｌｙｍａｋｅｓ

ｉｎｇ．Ｈｏｗｅｖｅｒ，ｔｈｅｃｏｓｔｏｆｏｂｆｕｓｃａｔｉｏｎｉｓｉｎｓｉｇｎｉｆｉｃａｎｔｗｈｅｎｃｏｍｐａｒｅｄｔｏｔｈｅｃｏｓｔ

ｏｆａｔｙｐｉｃａｌｓｏｆｔｗａｒｅｄｅｖｅｌｏｐｍｅｎｔｐｒｏｊｅｃｔ．Ｉｆｙｏｕｆｅｅｌｌｉｋｅａｎｏｂｆｕｓｃａｔｏｒｐｒｏｖｉｄｅｓ

ｙｏｕａｎｙｂｅｎｅｆｉｔａｔａ１１．ｉｔ’Ｓｐｒｏｂａｂｌｙｗｏｎｈｔｈｅｐｒｉｃｅ．

参考摘要：．ｎｅｔｏｂｆｕｓｃａｔｉｏｎａｎｄｉｎｔｅｌｌｅｃｔｕａｌｐｒｏｐｅｒｔｙ．

ＰＧＮｅｔ＋ｃｏｖｅｒａｇｅ：ｓｏｆｔｗａｒｅｐｒｏｊｅｃｔｆｏｒｔｙｐｉｃａｌｈａｎｄｌｅｓｆｏｒｌ’ｅＶＣＦＳＣｅｌｉｇｉｌｌｅｅｌ４ｉｎｇ．

ＫＥＤＢＳ：ａｐｐｌｉｃａｔｉｏｎｏｆｏｂｆｕｓｃａｔｉｏｎｏｐｔｉｏｎｓｆｏｒ．１ｉｅｔｃｏｄｅｐｒｏｔｅｃｔｉｏｎ．

文本中较为高阶的动词短语”ｓｐｌｉｔｉｎｔｏ”被改写成为更为浅显的ｔｈｅｒｅｂｅ句型用于

ｇｉａｔｅＡｔｈｌｅｔｉｃＡｓｓｏｃｉａｔｉｏｎｃｈａｍｐｉｏｎｓｈｉｐａｎｄｔｈｒｅｅｃｏｎｓｅｃｕｔｉｖｅＥＣＡＣｔｏｕｒｎａｍｅｎｔ

ｓｅｃｕｔｉｖｅＥＣＡＣｔｏｕｒｎａｍｅｎｔｃｈａｍｐｉｏｎｓｈｉｐｓ．

ａｎｄｔｈｅｏｒｅｔｉｃａｌｂｒａｎｃｈｅｓ．

ａｎｄｔｈｅｏｒｅｔｉｃａｌａｓｔｒｏｎｏｍｙ．

字节对编码（ＢｙｔｅＰａｉｒＥｎｃｏｄｉｎｇ，ＢＰＥ）１９４１是一种简单的数据压缩算法，该

ＢＬＥＵ（ＢｉＬｉｎｇｕａｌＥｖａｌｕａｔｉｏｎＵｎｄｅｒｓｔｕｄｙ）指标【９７】最早应用于机器翻译领域，

厶Ｓ∈｛ｎ“，ｐＨＩｓｅｎｆＰｎｃＰＪＣｊ。石ｕ瓦ｎｔ磊ｍａ石ｔｃｈ可（ｇｒａｍｎ）

假设我们的原始词表为｛’ｈｉｇｈｅｒ＜／ｗ＞’：２，’ｈＯｔｔｅｓｔ＜／＿ｗ＞’：５，’ｈｉｇｈ

原始词表：｛’ｈｉｇｈｅｒ＜／ｗ＞’：２，’ｈ０ｔｔｅｓｔ＜／ｗ＞’：５，’ｈｉｇｈ＜／ｗ＞’：４，’ｂｅｓｔ＜／ｗ＞’：

ＰＷＫＰ（ＰａｒａｌｌｅｌＷｉｋｉｐｅｄｉａＳｉｍｐｌｉｃａｔｉｏｎＣｏｒｐｕｓ）数据集【４８】是从简单维基百科

复杂句：Ｔｈｅｆａｉｌｕｒｅｒａｔｅｏｆａｓｙｓｔｅｍｕｓｕａｌｌｙｄｅｐｅｎｄｓｏｎｔｉｍｅ，ｗｉｔｈｔｈｅｒａｔｅ

ｏｖｅｒｔｈｅｌｉｆｅｃｙｃｌｅｏｆｔｈｅｓｙｓｔｅｍ．

子词处理后的复杂句：Ｔｈｅｆａｉｌ＠＠ｕｒｅｒａｔｅｏｆａｓｙｓｔｅｍｕｓｕａｌｌｙｄｅｐｅｎｄ＠＠Ｓｏｎｔｉｍｅ，

ｔｈｅｌｉｆｅｃｙｃｌｅｏｆｔｈｅｓｙｓｔｅｍ．

ｃｈａｎｇｅｓｏｖｅｒｔｉｍｅｖｅｒｓｕｓｔｈｅｅｘｐｅｃｔｅｄｌｉｆｅｃｙｃｌｅｏｆａｓｙｓｔｅｍ．

子词处理后的简单句：Ｆａｉｌ＠＠ｕｒｅｒａｔｅｉｓｕｓｕａｌｌｙｔｉｍｅｄｅｐｅｎｄ＠＠ｅｎｔ，ａｎｄａｎｉｎｔ＠＠

ｐｅｃｔｅｄｌｉｆｅｃｙｃｌｅｏｆａｓｙｓｔｅｍ．

高２．９４ＢＬＥＵ值和０．６４ＳＡＲＩ值，ＳＡＲＩ数据集上则更加显著，分别提高了

【３】ＣＯＲＳＴＯＮ－ＯＬＩＶＥＲＳ．Ｔｅｘｔｃｏｍｐａｃｔｉｏｎｆｏｒｄｉｓｐｌａｙｏｎｖｅｒｙｓｍａｌｌｓｃｒｅｅｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ

ｏｆｔｈｅＮＡＡＣＬＷｏｒｋｓｈｏｐｏｎＡｕｔｏｍａｔｉｃＳｕｍｍａｒｉｚａｔｉｏｎ．Ｃｉｔｅｓｅｅｒ，２００１：８９－９８．

ＳＩＤＤＨＡＲＴＨＡＮＡ．Ａｎａｒｃｈｉｔｅｃｔｕｒｅｆｏｒｏｆ

ＬａｎｇｕａｇｅＥｎｇｉｎｅｅｒｉｎｇＣｏｎｆｅｒｅｎｃｅ．ＩＥＥＥ，２００２：６４－７１．

Ｄｅｖｅｌｏｐｍｅｎｔ，１９５８，２（２）：１５９—１６５．

［Ｃ／ＯＬ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ

［８】ＴＡＮＧＪ，ＹＡＯＬ，ＣＨＥＮＤ．Ｍｕｌｔｉ－ｔｏｐｉｃｂａｓｅｄｑｕｅｒｙ－ｏｒｉｅｎｔｅｄｓｕｍｍａｒｉｚａｔｉｏｎ［Ｃ］＃

ＫＵＰＩＥＣＪ，ＰＥＤＥＲＳＥＮＪ，ＣＨＥＮＥＡｔｒａｉｎａｂｌｅｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚｅｒ［Ｊ］．Ａｄｖａｎｃｅｓｉｎ

【１０】ＭＵＲＲＡＹＧ，ＲＥＮＡＬＳＳ，ＣＡＩ也ＥＴｌ’ＡＪ．Ｅｘｔｒａｃｔｉｖｅｓｕｍｍａｒｉｚａｔｉｏｎｏｆｍｅｅｔｉｎｇｒｅｃｏｒｄｉｎｇｓ

ＣＯＮＲＯＹＪＭ．０’ＬＥＡＲＹＤＰ．Ｔｅｘｔｓｕｍｍａｒｉｚａｔｉｏｎｖｉａｈｉｄｄｅｎｍａｒｋｏｖｍｏｄｅｌｓ［Ｃ］／／

ｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＡＣＭ，２００ｌ：４０６４０７．

［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｔｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ：ｖｏｌｕｍｅ７．

【１５］ＨＡＲＩＨＡＲＡＮＳ，ＳＲＩＮＩＶＡＳＡＮＲ．Ｅｘｔｒａｃｔｉｏｎｂａｓｅｄｍｕｌｔｉｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎｕｓｉｎｇ

ｓｉｎｇｌｅｄｏｃｕｍｅｎｔｓｕｍｍａｒｙｃｌｕｓｔｅｒ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＡｄｖａｎｃｅｓｉｎＳｏｆｔＣｏｍｐｕｔｉｎｇ

ａｎｄＩｔｓＡｐｐｌｉｃａｔｉｏｎｓ，２０１０，２（１）：ｌ一１６．

【１６１ＺＨＡＮＧＪ，ＣＨＥＮＧｘ，ＷＵＧ，ｅｔａ１．Ａｎａｄａｐｔｉｖｅｍｏｄｅｌｆｏｒｓｕｍｍａｒｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ