基于深度学习的实体和关系联合抽取模型研究陈思怡

单位代码：10359 密级：公开
学号：2019111058 分类号： TP311.5
Hefei University of Technology
硕士学位论文
MASTER’S DISSERTATION
（学术硕士）
论文题目：基于深度学习的实体和关系联合抽取模型
研究
学科专业：软件工程
作者姓名：陈思怡
导师姓名：程文娟
完成时间： 2022 年 5 月
合肥工业大学
学术硕士学位论文
基于深度学习的实体和关系联合抽取模型
研究
作者姓名：陈思怡
指导教师：程文娟
学科专业：软件工程
研究方向：软件交互技术
2022 年 5 月
A Dissertation Submitted for the Degree of Master
Research on Joint Entity Relationship Extraction

Model Based on Deep Learning
By
Chen Siyi
Hefei University of Technology
Hefei, Anhui, P.R.China
May,2022
合肥工业大学


本论文轻符辩娄Ｗ会仝体杳员屯杳，确认符合合肥ｒ 

收
大学亇历硕ｉ：＃位论文ｉｄｉ吼毋求 

．
答辩委员会签名（工作咕位、
职称、姓名 

）
主席 

：
中闽科学技木大学、教授


她 ＼
安徽大学、
教授


合肥业火学、教授 ７ｙ、
 １＾


ｉ 

－
合肥ｒ＿业大学、
副教授


合肥丨〔业大学、
副教授


导师：
ｊＶ， 

外
学位论文独创性声明
本人郑重声明：所呈交的学位论文是本人在导师指导下进行独立研究工作所
取得的成果。据我所知，除了文中特别加以标注和致谢的内容外，论文中不包含
其他人已经发表或撰写过的研究成果，也不包含为获得合肥工业大学或其
他教育机构的学位或证书而使用过的材料。对本文成果做出贡献的个人和集体，
本人已在论文中作了明确的说明，并表示谢意。
学位论文中表达的观点纯属作者本人观点，与合肥工业大学无关。
学位论文作者签名：签名日期： 2022 年 5月 21 日
学位论文版权使用授权书
本学位论文作者完全了解合肥工业大学有关保留、使用学位论文的规

定，即：除保密期内的涉密学位论文外，学校有权保存并向国家有关部门或机构
送交论文的复印件和电子光盘，允许论文被查阅或借阅。本人授权合肥工业大
学可以将本学位论文的全部或部分内容编入有关数据库，允许采用影印、缩印
或扫描等复制手段保存、汇编学位论文。
（保密的学位论文在解密后适用本授权书）
学位论文作者签名：指导教师签名：
签名日期： 2022 年 5 月 21 日签名日期： 2022 年 5月 21 日
论文作者毕业去向
工作单位：
联系电话： E-mail：
通讯地址：邮政编码：
致谢
三年时光太长又太短，长到可以经历从未有过的新奇经历，短到三年时光转瞬
即逝，大家又要面临着分别。从初入学术大门，论文不知道从何查起，实验也无从
下手，在各位师兄师姐的帮助，导师的讨论指引，同学间的互相交流下，我也逐渐
成长起来。成长的速度虽然慢，但是守得云开见月明，静待花开终有时，我这一路
也终有所收获。在自然语言处理的领域中，从最初的文本情感分析入门再到信息抽
取的过渡，这个领域仍然充满了许多的机遇和挑战。
首先，我要向我的导师程文娟教授表示最深切的感谢，感谢她对我的宝贵支持。
她帮助我在研究方向上探索新的道路，与她的讨论对我提高研究能力有很大帮助，
她开阔了我的视野，为我提供了充分的机会去探索研究。我还要感谢我的室友们，
他们在我有所迷茫的时候，给我排解忧虑，帮助我放松心态，和她们一起学习，一
起进步，一起高谈阔论，一起讨论彼此的实验进度，一起投简历找工作，一起吃饭
逛街，这些也给我的研究生三年增添了一笔浓厚的色彩。此外，我还感谢我的朋友
们，虽然我们不在一个城市，也不是一个专业，海内存知己，天涯若比邻，他们总
会时不时的对我发来关心的问候，我们相互鼓励，生活中各种各样的的事情，我们
总会在一起互相分享，这些都丰富了我的研究生生活。最后，我还要感谢我的家人，
他们永远尊重我做的决定，他们给了我很大的自由空间，让我自己规划自己的研究
生生涯和未来的生活，哪怕在我觉得此路不通受到障碍时，也不会责怪我，总是鼓
励支持我，让我勇于在生活中大胆试错，面对挫折，也勇于面对。感谢他们的支持
和鼓励。
特别要感谢的是自 2019 年末疫情以来，仿佛大家都对突如其来的疫情搞得不
知所措，但是无论是医护工作人员还是其他各行各业的人们，大家一起齐心协力共
同面对，没有他们的保驾护航，我的学习生涯也不会有序进行，对此对这一群特别
的人，表示特别的感谢。
作者:陈思怡
2022 年 4 月 12 日
I
摘要
从非结构化文本中进行信息抽取和知识图谱构建在自然语言处理（Natural
Language Processing，NLP）任务中均发挥着至关重要的作用，而实体关系抽取
（Entity and Relation Extraction，ERE）又是信息抽取和知识图谱中的一个关键而
又具有挑战性的子任务。ERE 又是由命名实体识别（Named Entity Recognition，
NER）和关系抽取（Relation Extraction，RE）两个任务构成，其主要目的是识别或
抽取给定文本序列中代表特定含义的实体，和两实体间的语义关系。因此吸引了大
量的研究者投身于 ERE 任务的研究之中，然而，通常将命名实体识别和关系抽取
使用管道（Pipeline）方法，分别考虑两个子任务，这导致丢失了大量任务间的交
互信息和文本序列的上下文信息。
伴随深度神经网络和语言模型的发展，也有很多研究者提出实体和关系联合
抽取的方法，例如参数共享和联合解码等，虽然这些方式可以进一步利用两个任务
之间的交互信息和语义信息，用以缓解错误传播，但是却通常忽略了关系重叠问题,
所以为了解决上述的管道模型存在的缺陷和关系重叠的问题，本文针对实体关系
抽取现存的主要问题，进行了深入的研究，并主要围绕实体特征增强和改进的分解
策略的创新点，提出了以下两种模型：
（1）针对多数方法对于文本序列内部语义信息利用不充分的问题，提出基于
头实体注意力机制实现特征增强的实体关系联合提取方法。该方法无需引入外部
复杂特征，即可获取丰富的语义信息，充分利用实体和关系之间的关联信息。整体
结构上采用 BERT-CRF 解码头实体及其类型，然后利用头实体信息作为注意力机
制中 Query，同时融合实体类型标签嵌入、实体相对位置实现特征增强，加强实体
模型和关系模型之间的信息交互，用于关系解码中。在常用的英文数据集 NYT，
中文数据集 DuIE 的实验中，证明了该模型在中文和英文情境下均可以适用，并取
得了较高的抽取精度和 F1 值，F1 值分别达到了 85.3,80.9。
（2）针对联合抽取方法中存在的实体对重叠问题，提出基于改进的分解策略
实现实体关系端到端的联合提取方法。在实体识别部分融合多头自注意力机制获
得丰富语义信息，通过指针标注的方式检测所有实体，不区分头/尾实体。然后，
根据每个提取的实体，使用分层的指针标注模型，在充分利用交互信息情况下将关
系解码问题看作多分类问题，解决关系重叠问题。本方法通过实验，在数据集 NYT，
WebNLG 中验证了模型不仅改善了三元组抽取的效果，并且改善了实体对重叠的
问题。
关键词：BERT；实体关系抽取；注意力机制；分解策略；
II
ABSTRACT
Information extraction (IE) and knowledge graph construction from unstructured text
play a vital role in a wide variety of natural language processing (NLP) tasks, and Entity
and Relation Extraction (ERE) is a key and challenging sub-task in information extraction
and knowledge graph, thus attracting a large number of researchers to devote themselves
to the study of entity relationship extraction. ERE is composed of two subtasks, named
entity recognition (NER) and relationship extraction (RE), the main purpose of which is
to identify or extract entities representing specific meanings in a given text sequence, and
the semantic relationship between the two entities; Or extract an entity triplet containing
semantic relationships in the form (subject, relation, object). However, named entity
recognition (NER) and relationship extraction are often considered in the same way as
the Pipeline: taking into account the two subtasks separately, which results in the loss of
a large amount of interaction information between tasks and contextual information for
text sequences. With the development of deep neural networks and language models,
many researchers have proposed methods of joint extraction, such as parameter sharing
and joint decoding, etc., although these methods can further use the interaction
information and semantic information between the two tasks to alleviate error
propagation, but usually ignore the relationship overlap problem: for a given subject, only
one relationship between the subject and the object can be predicted, even if the entity
pair may contain multiple relationships. Therefore, in order to solve the above problems,
this article mainly does the following work:
(1) This dissertation proposes an end-to-end entity and relationship joint extraction
method based on BERT pre-training language model, combining contextual semantic
features and integrating entity attention mechanism. Enhance the information interaction
between the solid model and the relational model to achieve feature enhancement. This
method obtains rich semantic information without introducing external complex features,
making full use of the correlation information between entities and relationships. In the
overall structure, BERT-CRF is used to solve the decode entity and its type, and then the
head entity information is used as the attention mechanism in the Query, and the entity
type label embedding and the relative position of the entity are integrated to achieve
feature enhancement, which is used in relationship decoding. In the experiment of the
commonly used English dataset NYT and Chinese dataset DuIE, this method obtains high
III
accuracy and F1, and the F1 reaches 85.3 and 80.9, respectively. It is proved that the
model can be applied in both Chinese and English texts.
(2) This dissertation proposes a method to achieve joint extraction of entity
relationships based on improved decomposition strategy. In the entity recognition part,
the multi-head self-attention mechanism is integrated to obtain rich semantic information,
and all entities are detected by pointer annotation, without distinguishing between
head/tail entities. Then, based on each extracted entity, a hierarchical pointer annotation
model is used to treat the relationship decoding problem as a multi-classification problem
when making full use of the interactive information, and the relationship overlap problem
is solved. In the experimental dataset NYT, WebNLG, this method not only improves the
effect of triplet extraction, but also improves the problem of entity pair overlap.
Keywords:Bert;Entity Relationship Extraction;Attention Mechanism;Decomposition

Strategy
IV
目录
第一章绪论 ...................................................... 1
1.1 研究背景及意义................................................. 1
1.2 国内外研究现状................................................. 1
1.2.1 文本命名实体识别研究概况 .................................. 2
1.2.2 文本关系抽取研究概况 ...................................... 3
1.2.3 文本命名实体与关系联合抽取研究概况 ........................ 5
1.3 课题研究难点................................................... 6
1.4 论文章节安排................................................... 6
1.5 本章小结....................................................... 7
第二章相关理论与技术 ............................................. 8
2.1 神经网络模型................................................... 8
2.1.1 循环神经网络 .............................................. 8
2.1.2 神经网络的训练 ........................................... 11
2.2 语言表示模型.................................................. 11
2.3 注意力机制.................................................... 15
2.3.1 自注意力机制 ............................................. 17
2.4 条件随机场 CRF ................................................ 18
2.5 序列标注...................................................... 20
2.6 本章小结...................................................... 20
第三章基于特征增强的联合抽取模型 ................................ 21
3.1 引言.......................................................... 21
3.2 基于特征增强模型设计.......................................... 21
3.2.1 模型的整体结构 ........................................... 22
3.2.2 基于 BERT 的编码层 ........................................ 23
3.2.3 头实体识别模块 ........................................... 24
3.2.4 基于头实体注意力机制的特征增强尾实体-关系识别模块 ........ 26
3.3 模型的损失函数................................................ 27
3.4 实验结果与分析................................................ 28
3.4.1 实验数据与评价方法 ....................................... 28
3.4.2 实验环境配置 ............................................. 29
V
3.4.3 头实体注意力机制实验与分析 ............................... 30
3.4.4 联合抽取模型对比实验分析 ................................. 31
3.4.5 模型的消融实验 ........................................... 33
3.5 本章小结...................................................... 34
第四章基于分解标注策略的联合抽取模型 ............................ 35
4.1 引言.......................................................... 35
4.2 基于分解标注策略的联合抽取模型................................ 36
4.2.1 模型结构 ................................................. 37
4.2.2 基于指针标注的解码器 ..................................... 37
4.2.3 基于多头自注意力机制的实体识别模块 ....................... 38
4.2.4 尾实体和多关系抽取模块 ................................... 39
4.3 模型的损失函数................................................ 41
4.4 实验结果与分析................................................ 41
4.4.1 实验数据与评价方法 ....................................... 41
4.4.2 模型结果与分析 ........................................... 43
4.4.3 重叠问题实验 ............................................. 45
4.4.4 预测示例比较 ............................................. 47
4.5 本章小结...................................................... 48
第五章总结与展望................................................ 49
5.1 本文工作总结.................................................. 49
5.2 未来展望...................................................... 49
参考文献 ........................................................ 51
攻读硕士学位期间的学术活动及成果情况 ............................. 57
VI
插图清单
图 2-1 RNN 网络结构 ................................................................................................. 8

图 2-2 LSTM 模型的单元结构 ................................................................................... 9
图 2-3 BiLSTM 的模型结构 ..................................................................................... 10
图 2-4 “Bank”的不同表示 ......................................................................................... 13
图 2-5 ELMo 的模型结构 ......................................................................................... 14
图 2-6 BERT 的模型结构.......................................................................................... 15
图 2-7 注意力机制 .................................................................................................... 17
图 2-8 多头注意力机制............................................................................................. 18
图 2-9 线性 CRF 的构型 ........................................................................................... 19
图 3-1 模型的整体结构图 ......................................................................................... 22
图 3-2 基于 BERT 的编码层 ..................................................................................... 24
图 3-3 EPO 和 SEO 的示例图 ................................................................................... 26
图 4-1 指针标注的示例............................................................................................. 36
图 4-2 模型结构图 .................................................................................................... 37
图 4-3 实体指针标注输出示例 ................................................................................. 38
图 4-4 NYT 测试集中具有不同三元组数的 F1 值 ................................................... 45
图 4-5 WebNLG 测试集中具有不同三元组数的 F1 值 ............................................ 46
图 4-6 在 NYT 数据集上的不同重叠模式的 F1 值 ................................................. 47
VII
表格清单
表 3-1 BIEOS 标注示例 ............................................... 24

表 3-2 数据集统计信息 ............................................... 28
表 3-3 模型参数值 ................................................... 29
表 3-4 基于头实体注意力信息的对比实验结果 ........................... 30
表 3-5 在 NYT 数据集上的对比实验结果 ................................. 31
表 3-6 在 DuIE 数据集上的对比实验结果 ................................ 32
表 3-7 在 NYT 数据上的消融实验结果 ................................... 33
表 4-1 EPO 示例 ..................................................... 40
表 4-2 数据集统计信息 ............................................... 41
表 4-3 二分类问题的混淆矩阵 ......................................... 42
表 4-4 模型的超参数 ................................................. 43
表 4-5 与现有联合抽取模型的实验结果对比 ............................. 44
表 4-6 数据集中不同三元组的的数量统计 ............................... 45
表 4-7 三元组抽取效果对比 ........................................... 47
VIII
绪论
第一章绪论
1.1 研究背景及意义
实体关系提取是从各种文本数据中抽取含有语义关系的实体三元组，形式为
(主体、关系、客体)，这是金融知识图谱[1,2]，医学智能自动问答系统[3,4]等应用的重
要组成部分，例如从非结构化文献中自动提取生物医学实体[5]及其关系，形成结构
化三元组，对生物医学知识提取具有重要意义。随着人工智能的快速发展，互联网
多源信息的爆炸性增长，让机器具备从海量非结构化文本抽取信息的理解能力，构
建知识图谱[6]在各行各业均受到广泛应用,其中信息抽取[7]中的核心问题包含：命名
实体识别[8]，关系抽取[9]，事件抽取[10]等。因此，针对文本序列设计合理高效的实
体关系抽取模型是一项具有重要意义的课题。
命名实体识别技术可根据业务需求[6,11]抽取特定义的实体，例如，人物，作品
等，是 NLP 领域的一项核心基础任务，例如在问答系统中[4]定位关键词等。关系
抽取指的是获取实体之间语义关系形成三元组，例如“鲁迅完成了朝花夕拾和狂人
日记”包含关系三元组（鲁迅，作者，狂人日记），（鲁迅，作者，朝花夕拾）
。通
过对这两个任务的功能结合来看，两者是相互联系，存在信息交互过程的。然而，
在传统方法中，实体关系抽取问题常常作为两个独立的任务来处理，所以使用这种
管道方法主要局限于：任务之间的错误传播，实体冗余，任务交互信息缺失问题。
为克服上述问题，实现更好的性能，有研究者通过使用端到端的模型来检测实体及
其关系的联合模型研究。但是以前的联合抽取模型存在：依赖手动输入特征信息，
限制模型的泛化能力的问题。近几年的研究中较于以前的联合抽取模型，使用深度
学习和词向量技术的方法缓解了手动特征工程和信息交互的问题。但是无论是管
道方法还是联合抽取方法，都存在关系重叠问题。
所以如何融合语义信息进行特征增强，设计合理关系抽取策略，从大量数据中
正确的抽取实体关系三元组是一个具有挑战性的研究方向。在本文中，重点将围绕
特征增强和改进的分解策略这两点，就如何实现特征增强和缓解关系重叠的问题
展开。
1.2 国内外研究现状
命名实体识别任务是很多 NLP 任务基础且关键的一步，它是一种可以确定实

体边界，然后将其划分为预定类别的方法。而关系抽取的前项任务是命名实体识别，
旨在从非结构化文本中对识别的相关实体对进行关系分类，并最终将其存储为三
1
合肥工业大学学术硕士研究生学位论文
元组。所以本节介绍与本课题研究相关的国内外研究现状，首先介绍每个任务的相
关工作（即 NER 和 RE），然后归纳介绍实体关系联合提取的方法。
1.2.1 文本命名实体识别研究概况
命名实体识别[12]（Name Entity Recognition）是自然语言处理中的一项基础且

关键的任务，被广泛应用于信息检索[13]、知识问答[14]当中。NER 是实体关系提取
模型中的第一项任务，其目标是识别文本中的命名实体，例如人名、作品和机构名
等。常用的一种 NER 任务序列标注方式被称作“BIEOS”，对给定文本序列划分五
种标注，
“B”指实体的开始，
“E”代表实体的结尾，
“I”指的是实体的内部，
“S”
指单个词构成的实体，“O”代表非实体标注。实体类别常作为后缀附加在五种标
签上，代表实体的类型及其位置分布信息。
其中监督学习模型被广泛地用于 NER 任务。Malouf[15]等人对 NER 任务使用
了最大熵马尔可夫模型完成抽取任务。Zhou[16]等人使用隐马尔可夫模型（HMM），
在模型中使用了语法、触发词等特征在 MUC-6 数据集上取得良好的效果。Carreras
等人[17]使用了具有大小写、触发词、地名录等特征的二分类器完成实体提取任务。
Collier[18]等人使用支持向量机（SVM）模型通过结合实体前面单词的词性标注、语
法特征和其附近单词标注信息解决 NER 问题。Chieu[19]等人提出了一种最大熵方
法，训练过程中使用文档级别和句子级别的信息在 MUC-6 和 MUC-7 数据集进行
实验，取得更好实体抽取的效果。
然而监督学习的过程需要构建大量的有标记的训练数据，但是在实际的世界
中，海量的数据中并不是都在训练前出现过，即存在未被标记的情况，这就要求模
型要具备较强的迁移泛化的能力。Fritzler[20]等人提出了一种半监督学习技术，在少
量样本（Few-shot Learning）中训练学习用于处理 NER 任务，他们的实验通过学
习单词的中间表示，使其可以完成实体类别的聚类。该模型的这一特性使其可以在
少量的训练文本数据上对实体进行分类，并且可以迁移到无样本学习(zero-shot
Learning)方法。Bari[21]等人提出了一个无监督的跨语言 NER 模型，该模型可以在
不使用任何标注数据或平行语料库的情况下将知识从一种语言转移到另一种语言。
之后伴随着深度神经网络的快速发展和语言模型在 NER 任务中的广泛应用，
Collobert[22]等人首次在 NER 任务使用了深度神经网络模型，他们在模型中将不同
特征表示为特征向量作为神经网络的输入，用于 NER 任务。后续的工作中，他们
用词向量替换了这些手动提取的特征[23]。Luo[24]等人提出了一个基于 LSTM 的神
经网络模型的实体抽取模型，并在 CoNLL-2003 数据集上获得了较高的 F1 值。
Ma[25]等人以及 Chiu[26]等人在 NER 任务中结合基于字符嵌入和单词嵌入的方法，
在同样的 CoNLL-2003 数据集上的实验表明，字符级别的嵌入更有助于提高实体
2
绪论
识别任务的性能。Lample[27]等人（2016 年）使用 LSTM-CRF 模型来完成这项任务，

也在 CoNLL-2002 和 CoNLL-2003 年的数据集进行实验，取得更好的提取效果。近
几年词向量在各种自然语言处理任务都产生了变革性的效果，其中，ELMo[28]和
BERT[29]等结合上下文语义关系的词向量表示方法在实验中证明对 NER 任务非常
有效。Straková[30]等人则基于 BERT 模型在 CoNLL-2003 数据集上获得了更好的性
能。
1.2.2 文本关系抽取研究概况
关系抽取[31]是从给定的文本序列中检测抽取实体对间的关系。在管道提取模
型中，关系抽取是实体识别的后续任务。关系抽取用于系统地处理各种非结构化/
半结构化文本输入（如网页、微博、论坛界面）[32]，使用各种技术来识别和发现各
种预定义关系和开放关系，具有重要的理论意义和广阔的应用前景，为各种应用提
供了重要的支持。抽取方法大致分为基于特征，基于神经网络，基于注意力，和融
合语义关系等。下面将分别归纳关系抽取的方法。
(1) 基于特征的抽取模型
Mintz[33]等人提出了一种基于特征的任务模型，使用每个词的特征结合两个实
体之间的文本序列及其词性（POS）标注，通过实体对之间的依赖路径等句法特征，
以及命名实体类型等，获取关系分类结果。Riedel[34]等人利用多实例学习的方法，
来缓解远程监督方法标签数据中含有噪声数据的问题，他们在实验过程中使用因
子图来对实体对是否有关系以及是否在给定文本序列中涉及某种关系进行建模。
此外，他们加入带有约束的半监督学习方法训练他们的模型，与 Mintz[33]等人提出
的模型相比，他们的多实例学习模型性能显著提升。Hoffmann[35]等人和 Surdeanu[36]
等人使用概率图模型解决关系重叠的问题。类似地，Ren[37]等人使用基于特征的模
型，提出了一个联合优化模型结合实体嵌入、关系嵌入和细粒度实体类型嵌入来预
测两个实体的关系。
(2) 基于神经网络的抽取模型
最初，神经模型也被用于管道模型来解决这一任务。Zeng[38]等人使用卷积神
经网络进行关系提取，他们在实验中通过使用 Turian[39]等人利用半监督方法预先
训练的词向量来表作为文本序列的输入，并引入两个距离编码向量来表示每个单
词与两个实体的距离。经过卷积神经网络（CNN）和最大池化（MaxPooling）运算
来提取句子级别的特征向量，之后将这个句向量输入到带有 softmax 激活函数的前
馈神经网络，实现关系分类。He[40] 等人之后又引入了一种分段卷积神经网络
（PCNN）来改进关系提取结果，在 PCNN 中，不会对整个句子执行最大池化操作，
3
而是将句子以实体对为分界划分为三个部分，使用三个不同的卷积核，以获得三个
特征值，之后通过连接这些特征值，得到句子级别特征向量，再对关系进行分类。
(3) 基于注意力机制的抽取模型
最近的研究工作中，注意力机制被证明对不同的 NLP 任务非常有用。Shen[41]

等人和 Jat[42]等人在实现关系提取任务中使用了基于注意力机制的模型。Huang[41]
等人提出了基于卷积神经网络（CNN）融合注意力机制的模型，他们首先通过卷积
操作提取句子的全局特征，再分别基于这两个实体结合注意力机制对句子中的词
进行注意力权重计算，最后将两个实体的全局特征向量和两个注意力特征向量连
接起来，通过 Softmax 抽取关系。Jat[42]等人则使用 BiGRU 来捕捉句子中单词之间
的长期依赖性，结合注意力机制，得到每个 token 之间不同的权重信息，从而优化
实现关系抽取任务。Lin[43]等人使用远程监督结合注意力机制的方法实现了多关系
提取，首先获取一个包里的所有句子的编码，然后使用注意力机制对样本句子进行
重要性打分，使噪声数据获得较小的权重，最终使用 Softmax 以提取它们之间的关
系。Ye[44]等人在多关系抽取中使用包内和包间的注意力机制进行关系提取，改进
了 Lin 等人方法，此外，他们还利用注意力机制来缓解包间噪声问题。
(4) 融合语义的关系抽取模型
词向量的广泛应用改变了自然语言处理任务的处理方式。 Word2Vec[45] ，
GloVe[46]和 ELMo[28]，BERT[29]等是公开词嵌入模型，被用于许多 NLP 任务。大多
数基于神经网络的信息提取模型都将词向量作为其核心组件，因为通过词的高维
分布表示可以对词的重要语义信息进行编码，这有助于识别句子中实体之间的关
系。
以上提及的词向量编码中 Word2Vec，无法获取上下文信息。Glove 模型虽然
基于全局语料库、并结合上下文语境构建词向量，但是获取的词向量表征是固定的，
无法解决一词多义的问题。但是如 ELMo、BERT 和 SpanBERT[47]通过在大型语料
库上训练的，可以在词向量表示中动态捕捉单词的上下文含义，可以在关系提取模
型的嵌入层中添加上下文嵌入，以进一步提高其性能。SpanBERT 模型在 TACRED
数据集上的性能改进显著。Joshi[47]等人在训练模型的句子中，将头实体替换为其
类型后缀 SUBJ 的形式，如 PER-SUBJ，将尾实体替换为其类型后缀 OBJ 的形式，
如 LOC-OBJ，最后，他们在 BERT 模型[CLS]上的输出向量使用线性分类器来抽取
关系。Nan[48]等人在他们的模型中使用了 BERT 预训练语言模型，在 DocRED 数据
集上提取文档级别的实体关系，实验验证了相较于 GloVe，在 DocRED 数据集上性
能显著提升。
4
绪论
1.2.3 文本命名实体与关系联合抽取研究概况
前面提到的实体关系模型都是基于管道方法进行介绍，即对该任务分为两个
独立的子任务，命名实体识别（NER）和关系分类（RC）提出不同实现模型。具
体来说，它们首先识别所有实体，然后预测提取的实体之间的关系。这种方法往往
会受到错误传播的影响，并忽略两个任务之间的信息是互相影响的。所以为了解决
这些问题，研究人员提出在单一模型中对实体和关系进行联合学习，包括参数共享
和序列标注的模型。
其中 Katiyar[49]等人；Miwa[50]等人；Bekoulis[51]等人；Nguyen[52]等人通过共享
参数并对其进行优化，使任务之间建立联系，虽然这种方法识别同一网络中训练实
体和关系抽取，但在测试阶段仍然首先识别实体，然后确定同一网络中所有可能对
之间的关系。因此，这种模型忽略了句子中任务之间的相互作用。Zheng[53]等人使
用序列标注方案联合提取实体和关系，创建了一组新的标注方式，这些标注信息包
含实体标签和关系标签的信息，但是无法有效解决实体嵌套与关系重叠的问题。
Zeng[54]等人提出了一种基于复制机制的 Encode-Decode 联合抽取模型，用于
提取具有重叠实体的关系元组，通过复制两个实体的最后一个位置的向量表示建
立复制网络和标注之间的关系进行分类。但是他们的模型无法提取完整实体名称。
并且由于使用一个单独的解码器来提取每个实体，这代表对每个实体使用单独的
解码器，则模型忽略了实体之间的交互。Takanobu[55]等人提出了一种基于层次强化
学习（Reinforcement Learning）的深度神经网络模型进行端到端的实体关系抽取。
上层 RL 用于根据输入序列识别关系，在确定一个关系之后，下层的 RL 来使用序
列标记方法提取相关联的实体对，用于提取句子中存在的所有关系的三元组，但是
会导致多次重复输入序列,延长了训练时间。
针对上述存在的问题，有研究人员做了改进的研究。Fu[56]等人使用了图卷积
网络（GCN），将句子中的每个实体作为图中的节点，将边视为关系，构建实体关
系的联合模型。Li[57]等人也使用了编码器-解码器（Encoder-Decoder）框架，首先
使用基于 CNN 网络构建多标签分类器查找所有关系，然后使用多头注意力机制[58]
提取对应于每个关系的实体。Zeng[59]等人提出的模型是 CopyRL 模型的改进版本，
他们使用序列标记方法解决实体重叠的问题。Yu[60]等人使用分解策略将任务划分
为：头部实体提取，尾部实体及关系提取两个任务，使用序列标记方法来解决这两
个子任务。类似地，Wei[61]等人提出了一种新的序列标记方法来完成这项任务，不
同的是识别头部实体之后，然后针对每个头部实体和每个关系，使用序列标记方法
识别尾部实体，可以有效解决实体对重叠的问题并且在模型中引入预训练语言模
型的 BERT 来提高性能。
5
1.3 课题研究难点
本工作主要对文本的实体关系抽取进行相关研究。目前，联合模型没有有效利
用任务交互的信息，从而丢失了大量上下文信息，导致模型识别精度下降，因此本
文提出了一种基于头实体注意力机制的特征增强的方法。并提出改进分解策略，缓
解实体对重叠问题，从而提高关系抽取的效果。
本文主要做了如下工作：
(1) 针对任务关联信息利用不充分的问题，提出基于特征增强融合上下文语义
的端到端实体关系联合提取方法。该方法采用 BERT-CRF 解码头实体及其类型。
利用头实体信息作为注意力机制中 Query，同时融合实体类型标签嵌入、实体相对
位置实现特征增强，用于关系解码。在常用的英文数据集 NYT，中文数据集 DuIE
的实验中，本方法较于其它联合抽取模型取得了较高的抽取精度和 F1 值。证明了
该模型不仅可以充分利用语义信息缓解关系重叠问题，并在中，英文情境下均具有
有效性。
(2) 针对联合抽取方法中存在的实体对重叠问题，提出基于改进的分解策略实
现实体关系联合提取的方法。在实体识别部分融合多头自注意力机制获得丰富语
义信息，通过指针标注的方式检测所有实体，不区分头/尾实体。然后，根据每个
提取的实体，使用分层的指针标注模型，在充分利用交互信息情况下将关系解码问
题看作多分类问题，解决关系重叠问题。本方法在数据集 NYT，WebNLG 通过实
验验证了该模型对于改善实体对重叠的问题具有有效性。
1.4 论文章节安排
本文主要分为五个部分，各章节的结构和内容如下：
第一章：绪论。首先介绍本课题的研究背景与意义，以此阐明端到端实体关系
抽取任务中存在的挑战，而后介绍课题的来源；然后分别从命名实体识别任务研究
发展，和关系抽取研究发展以及基于联合抽取方法的研究介绍了文本实体关系抽
取的国内外研究概况，在此基础上引出主要的研究难点。最后介绍了本文的整体结
构安排与主要的科研成果。
第二章：展开介绍了本文使用到的相关理论与技术。
第三章：介绍融合实体信息实现特征增强的联合抽取模型，其中包括头实体信
息的获取与融合、模型的整体架构、模型的损失函数、模型实验的设置以及结果和
分析。
第四章：具体介绍基于改进的分解策略的关系提取模型的研究。主要分为模型
每一部分的详细介绍，模型损失函数定义，实验结果与分析三个部分。
6
绪论
第五章：总结与展望。概括总结本文的研究成果，并对文中工作的不足之处讨
论，最后展望本文所研究领域的未来发展方向。
1.5 本章小结
本章主要分为四个部分。
第一部分，主要介绍了本文的研究背景和意义，总结实体关系联合抽取的国内
外研究现状。引出设计效果良好的实体关系联合抽取模型具有十分广泛而重要的
意义。
第二部分，首先分别介绍了管道抽取方法中命名实体识别和关系抽取的发展
现状，之后介绍了在单一模型中对实体和关系进行联合学习，包括参数共享和序列
标注的模型。从介绍参数共享和序列标注方式的实体系联合抽取模型的应用；同时，
引出共同存在问题，就对引入交互信息的方法以及引入注意力机制对关系抽取任
务的效果均具有较大的改进的模型研究都进行了介绍。
第三部分，阐述了本文主要研究内容，并简要介绍了本文所提的基于深度学习
的实体关系联合抽取方法。
第四部分，介绍了本文的组织结构以及各章的主要内容。
公式章 2 节 1
7
第二章相关理论与技术
2.1 神经网络模型
在本节中，将简要介绍在本文模型中使用的神经网络，以及用来训练这些模
型的算法。
2.1.1 循环神经网络
循环神经网络(Recurrent Neural Network, RNN)常常应用于处理序列任务。自

Rumelhart 于 1986 年提出经典的循环神经网络[62]以来，许多研究人员都对其进行
了大量相关研究，并提出了许多改进模型，如长短期记忆网络（Long Short-Term
Memory，LSTM），该网络使 RNN 能够忽略不相关的信息，并长期保存重要信息，
此外还有门控循环神经网络(Gated Recurrent Neural Network，GRU)，该网络在一
定程度上简化了 LSTM，从而加快了训练效率。目前，神经网络模型已经成为一个
大家族，并且在语言建模、机器翻译等领域打下了坚实的基础，而对循环网络体系
结构的大量研究同样也推动了 RNN 在自然语言处理领域中的应用。常见的 RNN
结构如下图 2-1 所示：Xt 代表第 t 时刻的输入，Ht 则表示循环神经网络在 t 时刻的
隐藏状态，输出序列𝑦是经过 Softmax 操作转化为概率分布。Ht 经过非线性得激活
函数得到的，其中常见的激活函数包括 Sigmoid、Tanh 等。
图 2-1 RNN 网络结构
Fig. 2-1 RNN Network Structure
8
相关理论与技术
RNN 的计算如公式(2.1-2.2)所示：其中𝑊、𝑈、V 表示待训练参数权重矩阵，

分别用于计算 t-1 时刻的隐藏状态 Ht-1 到当前时刻隐藏状态权重参数、当前输入 Xt
到当前隐藏 Ht 状态得参数矩阵和当前隐藏状态 Ht 到输出 Ot 的转移权重参数。
ht = f (Wht −1 + Uxt ) (2.1)
yt = Soft max(Vht ) (2.2)
总的来说，RNN 的特点是能够记忆前序的信息，并作用于当前时刻 Ot 的预测。
之后的很多研究者都在此基础上又提出了各种得 RNN 变体，尽管各种变体使 RNN
的性能有了很大的提高，然而 RNN 因为本身顺序计算这一致命限制仍然存在，这
严重降低了计算效率，故而限制了其进一步发展，阻碍了其大规模应用。
尽管 RNN 对输入序列长度没有限制，但是如果数据输入序列过长，在反向传
播过程中，会因为权重矩阵和激活函数导数的连乘导致梯度增长或降低得非常快，
从而出现梯度消失和梯度爆炸问题，因此 Hochreiter 于 1997 年提出了长短期记忆
网络——LSTM[63]，通过在网络中引入门控机制来解决 RNN 存在的长期依赖问题。
LSTM 的网络单元结构如图 2-2 所示：
图 2-2 LSTM 模型的单元结构
Fig. 2-2 Cell Structure of LSTM Model
LSTM 使用三个控制门来控制网络中信息的流动，分别为遗忘门、输入门和输
出门。遗忘门限用于控制要忘记多少过去的信息，首先通过当前时刻输入 xt 与上
一时刻输出 ht-1 来计算遗忘门需要遗忘哪些信息，然后通过 Sigmoid 函数将值压缩
至 0 到 1 之间，0 表示遗忘全部信息，1 表示保留全部信息。如公式(2.3)所示，其
中 Wf 代表待训练得参数矩阵。
ft =  (W f .[ht −1 , xt ] + b f ) (2.3)
9
输入门限用于控制要保留多少当前信息，输出门限用于控制输出信息，如公式
(2.4-2.5)所示，其中 Wi，Wo 代表待训练得参数矩阵。
it =  (Wi .[ht −1 , xt ] + bi ) (2.4)
ot =  (Wo .[ht −1 , xt ] + bo ) (2.5)
此三个门限代表一层感知机，相较于 RNN，LSTM 还在网络中添加了一个细
胞状态，从而可以有效地记住过去的信息。首先经过双曲正切函数获得新的信息知
识：通过之前的信息和当前信息归纳得出 ct ，通过输入门与遗忘门来决定更新细胞
状态 Ct 的信息，然后将其经过 tanh 激活函数获得新的输出，最后与输出门使用
Hadamard 操作得到最终输出结果。如公式(2.6-2.8)所示：
ct = tanh(Wc .[ht −1 , xt ] + bc ) (2.6)
ct = f t ct −1 + it ct (2.7)
ht = ot tanh(ct ) (2.8)
LSTM 被提出之后，在许多任务上表现非常出色，目前被广泛使用，除此之外，
目前还存在许多其他 LSTM 变体以及与其他网络模型结合起来形成混合网络模型
用来解决相关任务，如 BiLSTM、Tree-LSTM、LSTM-CNN 等等。其中 BiLSTM 在
文本处理任务中表现出色，因为相较于 LSTM 只能捕获单向的信息，BiLSTM 可
以获取基于上下文的信息表示，结合前向和后向获取的重点信息，它的模型结构如
图 2-3 所示：虽然 BiLSTM 能获取后向信息，但是无法捕捉到后续内容与遗忘门
限内容之间的关系。为了弥补这一缺陷，可以引入注意力机制优化，注意力机制在
下部分进行介绍。
图 2-3 BiLSTM 的模型结构
Fig. 2-3 Model Structure of BiLSTM
10
2.1.2 神经网络的训练
神经网络模型在训练过程中使用了很多待训练参数，这需要在训练过程中使
其逼近这些参数的最优值。这些待训练参数常常被随机初始化，然后在训练期间经
过反向传播进行更新。损失函数 Loss 被用于评估神经网络输出和目标输出之间的
差距。而训练的过程就是最下化损失函数。最小化损失函数采用梯度下降算法优化
网络参数θ，使损失最小化。如公式(2.9)所示。这里η被称为步长或学习率，是一
个超参数。
Loss
t +1 = t − (2.9)
t
（如 32/40/50）之后更新参
现在常用的一种的训练方法是在每个批量（Batch）
数,这就是所谓的批量训练。每个批次中的样本都是从训练数据中随机划分的，不
需要替换，用这个批量训练来训练的模型，损失函数 Loss 使用随机梯度下降算法
（SGD）在更新网络参数θ时，都需要所有的训练样本。然而，这种方式使大型训
练数据的训练过程非常缓慢,并且每个训练数据都会迭代更新一次，但是又无法保
证向着最优的方向进行。SGD 算法有两个主要问题。首先，必须手动选择学习率
η的值。如果设置得太高，神经网络可能在训练过程中不会收敛，如果设置得太低，
收敛速度会非常缓慢。其次，以相同的学习速率更新所有参数，但是，神经网络中
的不同参数可能需要不同的学习速率才能得到适当的优化。为了解决这些问题，研
究者们提出了几种自适应优化算法，令模型的收敛速度加快，加速神经网络的学习
速度和效果，如适应性梯度算法 Adagrad，均方根传播（PMSProp）算法和 Adam。
这些优化算法在训练期间对每个参数的学习率η进行不同的调整优化。所以在本
文的模型实验过程中使用 Adam 优化算法，它是随机梯度下降法的扩展式，更适合
解决大规模数据和参数优化问题，被广泛应用于计算机视觉（CV）和自然语言处
理等包含噪声较多或者稀疏梯度问题的任务。
神经网络训练的另一个重要方面是反向传播。神经网络由多层组成，每一层都
有自己的参数。神经网络需要根据损失函数更新所有层的参数，这是通过链式求导
规则实现的。首先更新输出层的参数，然后更新其上一层的参数，依此类推。重复
此过程，直到更新所有层的参数。这种以反向方式从输出层向输入层更新网络参数
的过程称为反向传播。
2.2 语言表示模型
文本挖掘被用来从无结构化文本中提取知识。多年来，将神经网络和深度学习
应用于自然语言处理（NLP）任务，在解决实际语言问题方面取得了许多成就。其
中语言表示模型一直是自然语言处理史上的一个重要研究领域。考虑到这些复杂
11
的文本数据信息丰富，可以广泛应用于各种应用程序，非常成功地解决了大量 NLP
任务。
单词嵌入也是一种 NLP 技术的中间产物，指的是将语料库中的文本映射为空
间向量。换句话说，它是一种学习型表征，允许相同意义的词具有相同的表征。它
是文本（单词和文档）的分布式表示，可以更好地应用于 NLP 相关任务。单词嵌
入的最大好处是，通过保持上下文的单词相似性和低维向量，它提供了更高效、更
具表现力的表示。如今，单词嵌入被用于许多不同的应用，如语义分析、语言学、
精神病学、认知科学、社会科学和心理学。单词嵌入有多种不同的实现方式。其中
最直接的方法是独热码，它的维度是词汇表中存在的单词数量，词汇表中的每个单
词都表示为二进制变量，随着词汇量的增加，向量的长度也会增加，大量的“0”
会导致稀疏矩阵，无法捕捉单词的句法和语义。这些模型的缺陷导致研究人员开始
研究低维空间中的分布式单词嵌入方法，它们可以分为上下文无关和融合上下文
的单词嵌入。
分布式单词嵌入方法是一种特征自动学习技术，其中词汇表中的每个 token 都
一个符合分布假设 N 维向量的索引。根据这一点，在相似的语境中出现的单词往
往能保证相同的含义。所以这些向量往往包含相邻单词的属性，可以捕捉单词之间
的相似性。Bengio[64]等人提出了一个使用分布式表示学习词嵌入的模型：NNLM，
和传统的语言模型一样，对于第 n 个词，NNLM 使用前 n-1 个词在训练时预测第 n
个词的方式获得单词嵌入。之后人们提出了不同的词嵌入模型，词嵌入常作为深度
神经网络的输入，使用这些嵌入技术已被证明在许多 NLP 任务中是有用的，因为
它不会丢失单词的顺序并捕获单词的含义（单词的语法和语义信息）。
Word2vec[45]是一种可以捕捉语义信息的语言表示模型，使用两个隐藏层，在
浅层神经网络中使用这两个隐藏层来创建每个单词的向量。Word2Vec 在许多 NLP
“small”
相关任务中都很有用。这种方法展现语料库中的词与词之间的相似性。例如，
和“smaller”这两个词在向量空间词向量的表示更加接近。但是 Word2vec 主要关
注预定义的上下文窗口内的知识，而忽略了全局的信息。Glove[46]是 word2Vec 的
扩展，首先从语料库中创建共现矩阵，然后根据因子分解以获得词嵌入向量。Glove
在庞大的语料库中进行训练获得不同维度（100、200、300 维）的预训练词嵌入，
它的目标函数如公式(2.10)所示：
v
J=  f (X
k , j =1
kj )( wkT w j ' + bk + b j − log X kj ) (2.10)
其中 V 代表词汇表的大小，X 代表共现矩阵，Xkj 是单词 k 和单词 j 同时出现的

频率，Xk 语料库中出现单词 k 的总数,Pkj 是单词 j 在单词 k 的上下文中出现的概
率,w 是维度 d 的单词嵌入, w 是维度 d 的上下文词嵌入。
12
但是 Glove 和 Word2Vec 是上下文无关的表示方法，得到的词向量是固定表征

的，无法解决一词多义等问题。图 2-4 显示了“银行”一词的不同表示形式。尽管
它的字符跨度相同，但是在左边的词语中，意味着一个信用机构，在右边的词语中，
意味着一个地理现象。
文相关：表示
文关：表示
图 2-4“Bank”的不同表示
Fig.2-4 Different representations of "Bank"
Peters[65] 等人提出了基于上下文词嵌入双向语言模型 Embedding from

Language Models（ELMo）。如图 2-5 所示：ELMo 使用从双向语言模型学习词向
量表达，在不同的句子中，为同一个单词提供了不同的包含上下文语义的单词表示。
图 2-5ELMo 的模型结构
Fig. 2-5 Model Structure of ElMo
13
ELMo 使用多层的 BiLSTM 构成，对于一个长度为 N 的文本序列，第 k 个词 wk

的前向预测概率公式如(2.11)所示：
N
p( w1 , w2 ,..., wN ) =  p( wk | w1 , w2 ,..., wk −1 ) (2.11)
k =1
第 k 个词 wk 的后向预测概率公式如(2.12)所示：
N
p( w1 , w2 ,..., wN ) =  p( wk | wk +1 , w2 ,..., wN ) (2.12)
k =1
连接前向和后向的隐藏层，在训练阶段使用了句子的对数似然函数来计算，从而
获得在针对后续任务时可以动态获取的词向量
ELMo 使用双向 LSTM 实现，但是仅仅是前向和后向的融合，词表示上仍有缺
陷。与 ELMo 不同，GPT 使用基于 Transformer 的解码器对语言建模，因为它是
一个单向语言模型，模型根据之前的内容预测下一个单词，所以它的缺点是它是
单向的，即表示模型只能看到当前位置之前的内容，只能获取单方向的上下文信
息。为解决这一问题 Devlin J[29]等人提出基于 Transformer 的双向语言编码器
BERT 预训练模型，能够获取融合双向上下文信息的词嵌入，并用于下游任务。
BERT 分为 Pre-training 和 fine-tune 微调两个阶段。整体的模型架构如图 2-6 所
示：
图 2-6BERT 的模型结构
Fig.2 -6 Model Structure of BERT
14
在 Pre-training 阶段 BERT 利用大数据本文的自监督性质在两个无监督任务上

训练:(1)“masked language model”(MLM)，其中 15%的 token 被随机 masked(即替
换为“[MASK]”token)，使其不受单向语言模型的限制，通过训练模型预测被 masked
的 token，使其更侧重于 token 级别的表征(2)“next sentence prediction”(NSP)任务，
判断两个句子是否相关，第二个任务旨在保证模型有能力理解句子间的关系，借此
收集长期或实用的额外信息。BERT 可以用于未注释的数据，也可以直接从预先训
练的模型中对特定任务的数据进行微调。为给定句子中的每个单词创建上下文关
联的词嵌入（Embedding）使模型较于简单的 CNN 能够更好的考虑到文本上下文
语义信息，较于 RNN 又能够解决长时间单词依赖问题，提高计算效率。
2.3 注意力机制
当我们看到某种场景或图片时，视觉系统会关注场景/图像中具有更多信息和
重要性的某些特定部分，而忽略信息较少或不太重要的部分。例如当阅读一篇文章
时，特别是当我们想尝试快速阅读时，我们的视觉系统或模型快速浏览数据，只关
注句子中更有信息量的单词[60]。机器学习模型也尝试模仿人类的视觉系统应用于
自然语言处理(NLP)[66]和视觉深度学习技术[67]，这种技术被称作注意力机制。注意
力的概念可以在机器学习中建模，是数据的简单加权，在注意机制中，数据信息越
丰富或越重要的部分被赋予较大的权重，以获得更多的关注。注意力也被广泛应用
于 NLP 领域，例如上一部分语言表示模型提到的 Transformer 在自然语言处理中被
广泛应用[68]，它的实现就是仅由注意模块组成。
Encode-Decode 模型无论使用 RNN 还是 LSTM，都会导致序列中存在的重要
上下文信息丢失的概率更高。因为简单的 CNN 和 LSTM 网络对待句子中的所有单
词分配一样的权重，这不适用于大多数 NLP 任务，其中一些单词比其他单词携带
更多信息，所以需要能够自动学习哪些单词比其他单词更重要的神经模型。这类网
络被称为注意力网络。注意力网络包括一个或多个注意层，其中每个层包含可训练
的参数，在训练过程中学习这些参数的权重。注意层为所有单词分配标准化后的注
意力得分，其中一些单词的分数较高，一些单词的分数较低。通过这种方式，重要
的词比其他词对当前预测的贡献更大。这种方法可以提高任务的执行效率。Yan[69]
等人使用这样的注意力神经网络进行神经机器翻译。Vaswani[58]等人表明，具有注
意力的简单前馈神经网络实现了与 LSTM 网络类似的性能。
Cho [70]等人将注意力机制描述为通过对 Encode 编码器的隐藏层输出执行加权
平均来计算下一个 Decode 解码器的对应向量的过程，即在解码过程中对不同的单
词赋予不同的权重，加入注意力机制的编码层能够更大程度的动态保留语义信息，
改善了传统深度学习模型信息丢失的问题。通常情况下，注意力机制可以用下面的
15
公式来概括：给定一个查询序列 q 值为（v1，…，vn）和键值（k1，…，kn），计算
输出 z 的过程（值得注意的是，键和值可以是不同的向量），如公式(2.13)所示：
exp f ( ki , q)
ai = n
(2.13)
 exp f (k , q)
i =1
i
ai 使用 softmax 函数计算，其中 f(ki,q)是 ki 和 q 之间的注意力得分。其中 f(ki,q)注

意力得分的计算方式有很多种，例如：点积模型，缩放点积模型，双线性模型，
拼接模型，加性模型等公式如（2.14-2.18）所示：
f ( ki , q ) = q T k i (2.14)
使用点积方法计算注意力得分速度更快，但是点积的特性会导致在归一化计算时，
所得值会落在梯度小的区域，为了最小化最小影响，使用 d ，来缩小点积。
q T ki
f ( ki , q ) = (2.15)
d
f (ki , q ) = qT wki (2.16)
f (ki , q) = w[qT ; ki ] (2.17)
f (ki , q ) = vT tanh( wqT + uki ) (2.18)
注意力机制图解如图 2-7 所示：
图 2-7 注意力机制
Fig. 2-7 Attention Mechanism
16
2.3.1 自注意力机制
Self-Attention 是注意力机制的一种特别形式，以 encode-decode 模型为例，传

统的 Attention 机制更多的关注 encode 和 decode 之间的每个词的关联程度，而忽
视了 encode 或者 decode 端序列内部之间的关联程度，而保证其更关注句子间词汇
间的关注程度的注意力被称为“Self-Attention”。即 Self-Attention 机制是将注意力
应用于序列内部的每一个位置。对于输入序列 H(h1,…,hn),经过一次不同的线性操
作 HW Q , HW K , HW V 获得 Q，K，V, 通过对 Q、K、V 矩阵并行地对整个输入序列
进行计算得到输出序列 Y(y1,…,yn)。计算公式如(2.19)所示：
QK T
M Attention(Q, K ,V ) = soft max( )V (2.19)
d head head dk
h
采用 Vaswani[17]等提出的多头注意力机制，对输入序列进行 h 次不同的线性操
作，使其不仅注意序列内部的关联程度，还多方角度的学习句子中的因果依赖关系。
如图 2-8 所示：描述了多头注意力机制的架构：
h parallel heads
SoftMax
MatM l
Scale
Mas
H
h h h
t
MatM l
head
h M
Concat head head head
h
Scaled Dot rod ct Attention
图 2-8 多头注意力机制
Fig. 2-8 Multi-head Attention Mechanism
该过程由以下公式(2.20)描述：
MultiHead (Q, K , V ) = Concat (head1 ,..., head h ) (2.20)
其中
headi = Attention( HWi Q , HWi K , HWiV ) (2.21)
2.4 条件随机场 CRF
现在许多 NLP 任务所使用的模型要求考虑输入序列之间的相互依赖关系。例

如，在词性标注任务中，y（y1,y2,…,yn）表示输出序列或者状态序列，其中 yi 表示
17
单词位于位置 p 的词性标,观测值的特征 x(x1,…,xn（

) 在词性标注任务中表示为输入
的文本序列）作为输入属性。图模型（Graphical model）是一种可以表示输出变量
之间连接性的一种表示方法，笼统的可以分为有向图模型(Directed graphical model)
和无向图模型(Undirected graphical model)。其中生成式有向图模型的代表隐马尔科
夫模型(HMM),通过学习训练联合概率分布，预测时在已知数据的观测状态序列 x
的情况下，去判断生成标注序列 y 的概率。可以看出 HMM 只依赖于单个词和前
一个词的状态，丢失了上下文信息，并且训练学习到的是联合分布，而在预测时需
要最大化条件概率，这导致目标函数和预测函数不相配的问题。最大熵马尔可夫模
型(MEMM)的提出解决了上述存在的问题，但是 MEMM 更倾向于选择较小转移概
率的状态，而不是最优的状态转换路径，我们称这种情况为标记偏置问题。
因此，判别式无向图模型 CRF（Conditional Random Field）条件随机场通过直
接对观测序列和状态序列的条件分布 P(y|x)建模，可以解决上一段中强调的问题。
CRF 被应用于各种任务，如词性标注，分词，命名识别等，它是一种特殊的马尔可
夫随机场，其中状态序列中的 yi 只有左右相邻的状态值有关，但是观测序列 X 作
为一个整体参与状态序列的计算，如下图 2-9 所示：显示了最初由 Sutton[71]等人
绘制的线性 CRF 的两种不同构型：转移特征取决于当前的观测序列，转移特征取
决于全部的观测序列。
图 2-9 线性 CRF 的构型
Fig. 2-9 Structure of Linear CRF
18
线性 CRF 包含状态函数和特征转移函数两种特征函数，状态函数只能是满足
条件或者不满足，所以它们的取值只能是 0 或 1。其中状态特征函数仅和当前节点
i 相关，表示为 sl ( yi , X , i ), l = 1, 2,..., L ，L 是该节点的状态函数的总数。特征转移函
数则和当前节点和上一节点有关，表示为 tk ( yi −1 , yi , x, i ), k = 1,..., K ，K 是特征转移
函数的总数。同时，可以对两个特征函数分别赋予权重系数，  l 和 k ，则可以算
出给定观测序列 X，状态序列 Y 的概率如公式（2.22-2.23）所示：
1
P( y | x) = exp( k tk ( yi −1 , yi , x, i) +  k sl ( yi , x, i)) (2.22)
Z ( x) i ,k i ,l
Z ( x) =  exp( k tk ( yi −1 , yi , x, i) +  k sl ( yi , x, i)) (2.23)

y i ,k i ,l
其中 Z(x)表示泛化因子代表所有状态序列的得分之和。CRF 模型对局部特征进行
加权求和，作用于整个状态序列进行优化。通过对目标函数 P(y|x)不断训练优化，
使得预测的状态序列与真实序列之间的误差不断缩小，达到提升整体模型预测的
效果，例如对于序列标注任务，经过这样训练后的 CRF 模型可以得到最准确的标
注序列。
2.5 序列标注
序列标注被广泛应用于信息抽取任务，是自然语言处理中的最基本的任务之
一。序列常常表示为含有时序信息一段文字或者数字的输入，标注则就是为每一个
输入序列的 token 打标签，例如词性标注，分析，命名实体识别等。在命名实体识
别任务中，常用的标注体系有，BIO，BIOES 等其中 B 指实体的 Begin，I 指的是
Inside，E 指的是实体的 End，S 指的是实体是由一个单词构成 Single，O 则表示
other 非实体的标注，常常结合实体类型一起使用，而在一些实体关系联合抽取任
务中，还可以将实体和关系一起标注，是联合抽取任务必不可少的一部分。
2.6 本章小结
本章主要介绍了本文中所使用的方法：循环神经网络、语言表示模型、注意力
机制、条件随机场等的相关理论和技术，奠定了下文实体关系联合抽取方法的基础。
公式章 3 节 1
19
第三章特征增强联合抽取模型
3.1 引言
实体关系抽取任务的定义为，给定一个非结构化文本，它的目标是提取具有语
义关系的实体对，形式为（头实体、关系、尾实体）的关系三元组。实体关系抽取
任务在许多 NLP 应用中起着至关重要的作用，如信息提取[72]和知识问答[72]。例如，
在信息提取任务中，给定生物医学文本[5]，需要同时提取生物医学实体和它们之间
的关系的三元组，例如（病毒，病因，呼吸道感染）等。
然而传统的管道工程将该任务分为两个独立的子任务：命名实体识别（NER）
和关系分类（RC）。具体来说，它们首先识别所有实体，然后预测提取的实体之间
的关系。这种方法往往会受到错误传播的影响，并忽略两个子任务之间的交互信息。
为了解决这些问题，后续研究提出在一个模型中对实体和关系进行联合学习，其中
包括基于参数共享的模型和基于序列标注的模型，但是仍然存在关系重叠的问题。
所以针对以上管道模型中存在的问题，本章研究提出基于 BERT 预训练语言模型
和头实体注意力机制的实体关系联合抽取方法，加强实体模型和关系模型之间的
信息交互，该方法在不引入外部复杂特征的情况下，即可获得丰富的语义信息，达
到充分利用实体和关系之间的关联信息，实现特征增强的效果。
具体的做法是采用 BERT 获得词嵌入，将其输入到 CRF 解码实体及其类型。
然后利用实体信息作为注意力机制中 Query，融合词嵌入，获得整合实体信息的高
效语义表示，同时整合实体标签嵌入、实体相对位置实现特征增强，用于关系解码
中。
本章将具体介绍融合实体注意力机制实现特征增强的联合抽取模型，其中包
括头实体信息的获取与融合、模型的整体架构、模型的损失函数、模型实验的设置
以及结果和分析。
3.2 特征增强模型设计
文本序列的实体关系提取的定义如下：给定一个句子 S，提取句子中标记的实
体{E1,E2…,En}，从预定义的关系集合 R 中找到 S 中实体之间的关系 r(Ei,Ej)∪{NA}。
NA 表示 R 中的任何关系都不适用于句子中的两个实体。其中实体之间的关系
r(Ei,Ej)和 r(Ej,Ei)不一样，所以可以把问题转化为先识别头实体，再抽取尾实体与关
系的任务。即在本章节中把问题定义为：输入文本序列 S，对于头实体 Ei，输出所
有尾实体及其关系或者 NA。
20
基于特征增强的联合抽取模型
3.2.1 模型的整体结构
Dillard and other New Orleans SEP
O S Loc O O B Loc E Loc O
头实体信息的注意力机制
t ag
ht
i
BiLSTM
start
end
图 3-1 模型的整体结构图
Fig. 3-1 Whole Structure of the Model

整个模型按功能划分为头实体抽取，尾实体与关系抽取（TER）模块。细分为
四个部分，分别为 BERT 编码层，CRF 头实体抽取模块，基于头实体的注意力机
制语义融合模块，尾实体和关系识别模块。在头实体识别模块，只需要使用 BERT-
CRF 部分，不需要关注尾实体与无关系的冗余实体，即只抽取文本序列中所有可
能的头实体及其实体类型。在尾实体和关系抽取模块，则将头实体的编码信息 ℎℎ𝑒𝑎𝑑
作为查询序列向量 Q，融合 BERT 编码层的文本词向量，使在该模块中将基于上下
文的词向量的注意力集中于头实体，再结合相对头实体位置的向量信息 piht、实体
21
标签嵌入𝑒t𝑎𝑔进行拼接，传入 BiLSTM 神经网络中，获取特征增强的语义关系，通

过 SoftMax 函数获取对应的关系中尾实体起始和结束位置的概率，ArgMax(p)则获
取对应的关系类型。模型整体结构如图 3-1 所示。
3.2.2 基于 BERT 的编码层
目前自然语言处理领域最为常用的文本表示方法是基于词向量，例如
Word2vec，Glove，ELMo 等由词向量工具构成文本表示方式，可为后续的实体关
系抽取做铺垫，但是 Word2vec 作为词向量编码，无法获取上下文信息。Glove 模
型基于全局语料库，提高了词向量在大语料上的训练速度且稳定性高。
然而上述方法得到的词向量是固定表征的，无法解决一词多义等问题。为更好
的表现语言特征，ELMo 使用双向 LSTM 实现，缓解了一词多义的问题，但是词表
示上仍有缺陷。为解决这一问题 Devlin J[29]等人提出基于 Transformer 的双向语言
编码器 BERT 预训练模型，为给定句子中的每个单词创建上下文关联的嵌入
（Embedding），这些词嵌入将被输入到后续任务中。使模型较于 CNN 能够更好的
考虑到文本上下文语义信息，较于 RNN 能够解决长时间单词依赖问题提高计算效
率。BERT 将每个文本序列开始添加特殊标记[CLS]。[SEP]代表一个句子的结束。
首先将 W 中的每一个词（token）转换成固定维度的向量（包含 token Embedding、
Segment Embedding、Position Embedding 输入到 BERT 模型）。如图 3-2 所示，以
“I like strawberries”为例，wi 代表评论的第 i 个字，每个词向量 768 维。
BERT 共包含 12 层双向 Transform 块，每一层含有 768 个隐藏单元，12 个
heads,共计 340 million 个参数。本章使用预先训练好的 BERT-Base-Uncased 模型，
再进一步 Fine-tune 操作。训练过程中利用词与词之间的相互关系，动态调整每个
词的权重。首先使用词级别 Tokenizer 分词器，将文本切分，本章中实体关系抽取
是句子级别的，所以只在首位加入标记[CLS],[SEP],对于英文语境下，由于在词表
中没有查到“Strawberries”，所以被拆分为可查找的“straw”，
“##berries”，拆分的
词生成的输出值的平均值作为该词的输出。如果是中文文本，则直接按字拆分。设
输入序列 =[w1,w2,…,wn],经过 BERT 编码后最后一个隐藏编码层有两个输出，一
个是为每一 w 输出一个 768 维的词向量，整体表示为
( N + 2)*d T
H = [h 0 , h1 , h2 ,..., hn , hn +1 ]  R ,h0 对应[CLS],hn+1 对应[SEP],dT 是隐藏层的维度
为 768。另一个输出是句子级别的 768 维的向量。为了后续头实体抽取任务，选取
第一个输出 H 作为特征表示向量。
22
##berrie
Inp t [CLS] I like straw [SEP]
s
E0 E1 E2 E3 E4 E5
osition
S eg ent EA EA EA EA EA EA
To en E[CLS] EI Elike Estraw E ##berries E[SEP]
多层双向
Average
T0 T1 T2 T4
图 3-2 基于 BERT 的编码层
Fig. 3-2BERT Based Encoding Layer
3.2.3 头实体识别模块
(5) 实体标注方式
常用的一种 NER 任务序列标注方式被称作“BIEOS”，对给定文本序列划分五

种标注，
“B”指实体的开始，
“E”代表实体的结尾，
“I”指的是实体的内部，
“S”
指单个词构成的实体，“O”代表非实体标注。实体类别常作为后缀附加在五种标
签上，形式为“位置标注-实体类别”。例如表 3-1：
Table 3-1Example of BIEOS Tagging
表 3-1BIEOS 标注示例
Input Dillard and other colleges and universities in the New orleans
Tag S-Loc O O O O O O O B-Loc E-Loc
23
输入序列“Dillard and other colleges and universities in the New Orleans”包含实体

“Dillard”、“New Orleans”，实体类别为：Location，Location。
(6) CRF 标签预测
与输入序列相对应的标签序列由 CRF 层产生。事实上，将 BERT 的输出，传

入全连接层，其输出维度是实体标签数。再利用 Softmax 函数进行归一化后以获得
每个标签的分数。该层的输出是大小为 k*n 的矩阵（A）,其中 n 表示输入序列中的
token 数量，k 表示实体类别数量。该矩阵 A 中第 n 行代表第 n 个单词的第 k 个标
注的概率分数。
虽然 BERT 可以考虑句子的上下文信息，但是它不能考虑标签之间的依赖关
系。比如说“I-Loc”后面不可能跟着“B-Loc”。CRF 增加这些标签约束可以减少
序列中预测错误的标签，通过学习相邻标签之间的关系来确保预测标签的正确性，
联合进行标记预测，其中词的实体标注也取决于前一个词的实体标注。转换矩阵 T
是 CRF 层中的一个参数包含从一个标签到另一个标签的分数的，其中 Ti，j 表示从
标签 i 到标签 j 的概率。该矩阵有两个额外的标签，即开始标签和结束标签，所以
转移矩阵的大小是（k+2）∗（k+2）。如公式(3.1)所示，对于给定的输入序列 w，计
算标签序列 Y=[y1，y2，…，yk]的得分，A 作为 CRF 的发射矩阵。
score( w, y ) =  i =1 Ai y j +  i =1Ty j , y j+1

N N
(3.1)
给定输入 wi 的标签 yi 的概率计算如公式(3.2)所示，这是用于为每个标签序列

分配概率的 SoftMax 函数。Yw 代表句子的所有可能标记序列。
escore ( w, y )
P( w, y) = (3.2)
 yY escore( x, y )
w
在训练期间，正确标记序列概率应最大化,则其对数也应最大化，所以公式表
示为(3.3)：
log( P( w, y )) = score( w, y ) − log( yY e score ( w, y ) ) (3.3)
w
反过来而言，实体识别模型的训练阶段应采用最小化损失函数，即公式(3.4)所
示：
Lner = − log( p ( w, y )) (3.4)
而在预测阶段通过 Viterbi 方法预测得分最高的实体标签序列。
24
3.2.4 基于头实体注意力机制的特征增强尾实体关系识别模块
关系抽取是从文本中自动检测和识别实体之间的某种语义关系。这项任务的
最大挑战是关系重叠问题。关系重叠包含两种情况：实体对重叠（EPO）和单实体
重叠（SEO），如图 3-3 所示：总的来说，EPO 发生在三元组共享同一实体对，但
存在多种关系的情况下，SEO 存在于三元组内单个实体对用多种关系。以前的大
多数工作都不能有效地解决重叠三元组问题，传统的序列标记方案每个实体只代
表一种关系（Zheng 等人，2017）。这也给现在的关系抽取方法带来了很大的困难，
即一个实体最多只能拥有一个关系的问题。为解决这个问题本文通过 BERT-CRF
抽取头实体，使用基于实体注意力机制和 BiLSTM 神经网络同时抽取尾部实体-关
系（TER）。并解决 SEO 问题。
John S iths lives and wor s in aris the capital and an ad instrative division of France
Entity air Overlap E O Single air Overlap S O

Capital of
aris
John
aris Located in France S iths
France
Ad instrative division of
图 3-3EPO 和 SEO 的示例图
Fig. 3-3Legend for EPO and SEO
不同头实体与尾实体的关注度不同，图 3-1 右边是基于头实体注意力的文本

增强表示层。对于输出序列 H，以及头实体表示[hi,..,hj],对于实体表示是连续的序
列表示，则取均值代表实体序列值。引入注意力机制，采用 Dot-Scaled 注意力机制
方式将实体表示作为查询向量 qe  R ,与 H 的每一个词向量计算其注意力得分，
dT
并融合 H 序列，获得实体特征增强词向量 hie 表达。计算公式如（3.5-3.6）所示：

qe H T
A = soft max( ) (3.5)
d
hi e = AH (3.6)
除此之外对于每个给定的头实体，例如“New Orleans”，它使用 TER 来识别
头实体角色中所有相应的尾实体和关系，在该任务中引入实体类别信息，例如“New
Orleans”的类别为<Location>,对于 TER 来说获得了更多信息，Miwa[50]、Bekoulis[51]
等人通过在关系分类任务中融合实体类型的标签嵌入，输入到关系分类层中，通过
实验证明实体类型的标签嵌入能够增强关系分类的效果，因为使用实体类型嵌入
25
的模型其 F1 值提升了 1%到~2%左右。Ouchi[73]等人研究对于实体相对位置的嵌入

对于实体关系抽取任务的影响，证明该方式可以提高关系抽取的准确率。
本文通过对这些特征的连接起来用于增强实体表示，如公式(3.7)所示：
xi = [hi e ; etag ; pi ht ] (3.7)
其中 i 指输入样本中第 i 个单词的位置。在训练阶段，采用的是真实的
e t ag ，在预测过程，使用的是 CRF 预测的实体 tag，由于给定实体的信息对
于提取相关的三元组至关重要，因此将 X = {x1 , x2 ,..., xN } 作为 BiLSTM 层的输
入，获取融合向量 H = {h1 , h2 ,..., hn } ，如公式 (3.8)所示：
H = BiLSTM ( X ) (3.8)
通过直接解码序列 H 来检测所有对应的尾部实体及其关系。具体而言，它使用
两个相同的分类器来检测具有对应关系类型的相关尾部实体的起始和结束位置。
对于每一个位置的分类器的输出维度为（K+1），K 代表关系 R 的种类，另外包含
一个实体之间无关联的分类 NA，详细操作描述如公式（3.8-3.10）所示：
pi start = Soft max(Wstart hi + bstart ) (3.9)
pi tail = Soft max(Wtail hi + btail ) (3.10)
其关系类别可以通过公式（3.11-3.12）获得：
start _ tag = arg max( Pi start = k ) (3.11)
k
end _ tag = arg max( Pi end = k ) (3.12)
k
其中 pistart 和 pitail 表示第 i 个向量有关的关系标签的概率，它们分别被视为输入样
本中尾部实体的开始和结束位置。此外，hi 是编码表示，W (.)表示训练权重，
b(.)是偏置项。因此该模块的损失函数公式定义如 (3.13)所示：
1 N
LTER = − 
N i =1
(log P( yi start = yî start ) + log P( yi tail = yî tail )) (3.13)
其中 N 是输入样本的长度， yî start , yî tail 是第 i 个单词的真正开始和结束关系标记，

分别用于注释相关的尾部实体。
3.3 模型损失函数
根据上述模块可以完成抽取出三元组的任务。具体流程就是，对于每个输入样
本，首先使用头实体抽取模块（BERT-CRF）提取实体。然后，对于每个检测到的
实体，我们利用 TER 抽取器，获得涉及该实体的所有关系三元组。例如，从“John
Smiths lives and works in Paris ,France”的输入样本中，实体抽取模块检测头实体：
“John Smiths”、
“Paris”。然后，对于每个提取的实体，例如“Paris”，TER 抽取器
使用其两个子模块提取包含“John Smiths”，“Paris”的所有尾实体-关系组成三元
组。
26
为了增强两个模块之间的相互作用，在训练阶段本文结合了它们的损失函数，
形成了本章模型的整个损失函数，具体如公式(3.14)所示：
L( ) =  * LNER + LTER (3.14)
其中，超参数  在（0，1]范围内微调。然后，通过 Adam 随机梯度下降最小化 L( )

来训练模型。
3.4 实验结果与分析
3.4.1 实验数据与评价方法
本章在两个广泛使用的中、英文数据集上评估了本章提出的方法：NYT[74]和
DuIE[75]。表 3-2 给出了这两个数据集的统计数据：
Table 3-2 Statistics for Datasets
表 3-2 数据集统计信息
数据集训练集验证集测试集关系种类
NYT 56195 5000 5000 24
DuIE 171293 20674 31685 49
其中数据集 NYT 采用远程监督的方式标注英文新闻语句不需要手动标注，

DuIE 则是百度公开的中文数据集，包含超过 21 万条来自百度百科和百度新闻的
中文语句。其中由于 DuIE 测试集的三元组信息未公开，所以在将原始训练集和
验证集作为整体的数据集进行重新划分。
评价方式是当其关系类型及其两个对应实体都与 gold label 相同时,则表示预
测的三元组是正确的。本文采用的评价指标为 Precision 值，召回率 Recall 和 F1-
score 值，来综合评估模型的性能，其中 Pred 代表模型预测的三元组集合，Real 预
测准确的三元组集合。
精确率和召回率，总体评估的 F1 的计算公式如(3.15-3.17)所示：
Pr ed  Re al
Pr ecision = (3.15)
Pr ed
Pr ed  Real
Re call = (3.16)
Re al
2* Pr ecision * Re call
F1 − score = (3.17)
Pr ecision + Re call
27
3.4.2 实验环境配置
本章实验使用 PyTorch 库构建神经网络。实验过程中模型的超参数的设置如

下表 3-3 所示：
Table 3-3Model Parameter values
表 3-3 模型参数值
实验参数参数值参数说明
Epoch 100 训练迭代次数
Learning Rate 1e-4 学习率
Max_Length 256 输入的最大长度
POS_Length 30 相对位置 Embedding 长度
BiLSTM Layers 2 BiLSTM 层数
BilLSTM Hidden Size 200 隐藏层维度
Dropout Rate 0.4 Dropout 比例
Batch Size 64 每轮训练数据 Batch 大小
Warmup Rate 0.05 每轮训练 Warmup 比例
Shuffle TRUE 打乱训练数据
Optimizer Adam Loss 的优化函数
使用 768 维 BERT 来初始化单词嵌入（768 维）并批量填充文本长度，值得注

意的是在 NYT 数据中使用英文 BERT-base 在 DuIE 数据集中使用在中文维基语料训
练得到的 BERT-base-chinese 中文版本。这两个 BERT 模型的参数相同，这样可以
更好的验证本章提出的模型在中英文情景下是否都能取得较好的效果。实验过程
中使输入序列长度相等，其中对于文本上下文词嵌入使用实体注意力机制，通过全
连接层，使其输出维度仍保持 768 维，实体类别信息维度和数据集定义的实体类
别保持一致，位置嵌入设置为 30 维。三者连接作为特征增强序列，输入到 BiLSTM
层，batch 训练规模设置为 64。对于 BiLSTM 层，隐藏层大小设置为 200，最
28
后通过全连接层进行降维输出。训练过程使用 Adam 优化器其训练过程中
学习率设置为 0.0001。为防止训练过拟合，Dropout 率设置为 0.4,此外，
最终损失函数（公式 3.14）中的 α 值在 NYT 上设置为 0.3，在 DuIE 上设
置为 0.2，其中 α 在范围（ 0,1）内。我们在两个数据集上对模型分别进行
了 100 个 Epoch 的训练。
3.4.3 头实体注意力机制实验与分析
为了验证特征增强可以提高实体关系抽取的准确率，在控制模型其它模块不
变的情况下，设置对比实验：
No_Att:代表不使用实体信息；
Concat_hhe:代表使用实体信息与文本特征序列连接；
Att_hhe:代表使用实体注意力机制融合文本特征信息：
实验结果如表 3-4 所示：
Table 3-4 Comparison of Experimental Results Based on Head-entity Attention
表 3-4 基于头实体注意力信息的对比实验结果
Model NYT DuIE
Precision Recall F1 Precision Recall F1
No_Att 82.2 78.7 80.4 80.1 75.3 77.6
Concat_hhe 81.3 83.7 82.4 81.3 78.4 79.8
Att_hhe 82.2 88.6 85.3 82.6 79.3 80.9
以上对比实验的结果可知，引入实体信息机制，虽然对于三元组的抽取的准确
率没有较大的提升，但是大幅提升了 F1 值，这表明引入实体信息机制能够有效的
加强模型的健壮性，在测试阶段也能表现良好。其中，简单通过连接实体信息嵌入，
使实体关系抽取模型的 F1 值分别提升了 2.5%，1.8%。引入实体注意力机制让模
型的 F1 值分别提升了 6.0%，4.3%，这说明相比较简单的实体信息连接词嵌入的
方式，实体注意力机制更可以获取有效的抽取三元组的信息，并且减少训练参数，
减少训练时间。所以在后续的实验中，特征增强实体信息嵌入的方式均采用基于实
体的注意力机制。
29
3.4.4 联合抽取模型对比实验分析
为了进行联合模型整体抽取效果再 NYT 数据集上的比较，本章采用以下模型

作为 Baseline 对比模型：
NovelTagging[76]（Zheng 等人，2017）：首次引入新标记方案的模型，该方案将
联合提取任务转化为序列标记问题。
MultiDecoder[54] (Zeng 等人，2018): 具有复制机制的 seq2seq 模型，该机制将
联合提取任务转换为 seq2seq 问题。
[51]
MultiHead (Bekoulis 等人，2018): 同时执行实体识别和关系提取任务的联
合神经模型。
GraphRel[56] (Fu 等人，2019): 一种端到端的关系提取模型，使用 GCN 联合学
习的方法解决实体关系联合抽取问题。
OrderRL[77] (Zeng 等人，2019): 基于强化学习的考虑提取顺序的 seq2seq 模型。
ETL-Span[60](Yu 等人，2019): 基于一种新的分解策略的序列标记模型，取得
了显著的性能；
Table 3-5 Comparison of Experimental Results on NYT Dataset
表 3-5 在 NYT 数据集上的对比实验结果
模型 NYT
Precision Recall F1
NovelTagging 62.4 31.7 42.0
MultiDecoder 61.0 56.6 58.7
MultiHead 60.7 58.6 59.6
GraphRel 63.9 60.0 61.9
OrderRL 77.9 67.2 72.1
ETL-Span 85.5 71.7 78.0
Ours 82.2 88.6 85.3
其中在 DuIE 数据集中采用如下模型作为 BaseLine 对比模型:
30
Seq2UMTree[78](Zhang 等人，2020)：使用编码器-解码器的结构完成实体关系
抽取任务，在关系解码部分使用简单的树结构抽取三元组信息。
FETI[79](陈仁杰等人，2021):在联合任务中融合了实体类型信息实现头尾实体
预测。
KRAtt[80](Gu 等人，2021):在实体关系任务中使用知识图谱中的实体关系信息，
并融合注意力机制提升抽取任务的效果。
Table 3-6 Comparison of Experimental Results on DuIE Dataset
表 3-6 在 DuIE 数据集上的对比实验结果
模型 DuIE
Precision Recall F1
Seq2UMTree 75.6 73.0 74.3
FETI 75.7 76.0 75.8
KRAtt 79.7 80.9 80.3
Ours 82.6 79.3 80.9
表 3-5 和表 3-6 显示了本章模型与其他基线方法在 NYT 和 DuIE 数据集上的

结果。其中 NovelTagging 不能关系重叠问题，比如一个实体存在于多种关系中的
情况。其它模型有效的缓解这种问题，但是 F1 值不高。基于强化学习的 OrderRL
和具有分解策略的 ETL-Span 优于之前的联合模型，准确值与 F1 值都有较大的提
升，但是 Precision 与 F1 值相差较大。Seq2UMTree 对于以往的 seq-seq 模型中引
入了曝光偏差，从而限制了泛化能力,提出了一种新的 Seq-to-Unordered-Multi-Tree
（Seq2UMTree）模型，来最小化曝光偏差的影响。KRAtt 则引入了知识图谱中的
现有的实体关系信息，增强任抽取任务序列特征信息，但是没有充分考虑到在不利
用外部特征信息的情况下，如何利用内部信息增强特征表达。
本文提出的模型融合实体注意力机制实现语义增强的前提下将这两个子任务
进一步分解为多个序列标记问题。在实验结果中，本章提出的联合模型，虽然在
NYT 准确率上没有取得最优值，但是在 F1 值上取得了最优值。在 DuIE 数据集上
recall 值没有取得对比模型中最好的结果，但是在准确率，F1 值取得较好的效果，
验证了本章提出的模型在泛化能力上得到了进一步的提升。可以得出本模型的优
势有：
31
(1) 使用预训练的 BERT 作为语义编码器，可以更好的融合文本上下文关系，解决

一词多义的问题方法，作为实体和关系提取任务时的第一步工作是简单且有效
的。
(2) 使用标注使模型能够充分捕捉不同实体之间的语义信息，并只识别头部实体，
减少不相关实体对的噪声。
(3) 与 ETL-Span 模型相比，本章提出的模型在 F1 值上提高了 9.4%。使用实体注
意力机制，文本信息在针对不同的实体经行关系分类时，获取针对当下实体更
强的文本特征，并和结合实体标注和相对位置信息进一步特征增强，提高模型
的性能。在中英文数据上进行测试，均取得了较好的效果。
3.4.5 模型的消融实验
在实体增强模块，主要采用了实体注意力机制，实体标签信息，实体相对位置
的特征向量连接。为了验证各个部分对于整体的影响，通过控制不同部分，在 NYT
数据集上来评估测试：如果删掉某一部分，对模型整体的影响程度：
BERT+实体标签信息：文本表示词向量+实体标签
BERT+实体相对位置：文本表示词向量+实体相对位置
BERT+实体注意力机制：文本表示词向量+实体注意力机制
OURS：本章提出的特征增强模型
Table 3-7 Results of Ablation Experiments on NYT Dataset
表 3-7 在 NYT 数据上的消融实验结果
模型 Precision Recall F1
BERT+实体标签信息 78.8 86.3 82.4
BERT+实体相对位置 77.6 85.4 81.31
BERT+实体注意力机制 81.5 87.3 84.3
OURS 82.2 88.6 85.3
从表 3-7 可以看出只使用某个特征与特征增强方法相比较评价指标均有所下
降，其中只使用相对位置下降幅度最大，而只使用实体注意力机制则更接近本章模
型达到的最好效果，则表明加入实体注意力机制能够更好的捕捉实体信息，更有利
于尾实体-关系抽取的效果。但是如果将这些特征融合，特征增强可以进一步提升
模型准确率。
32
3.5 本章小结
本章主要介绍了基于特征增强的联合实体关系抽取模型的基本架构，之后又
详细介绍了 BERT 预训练模型的基于上下文内容词向量的获取，头实体识别部分
使用 CRF 对实体标签加入约束，实现标签预测的应用原理。接着介绍了尾实体-关
系抽取中如何加强实体模型和关系模型之间的信息交互，实现特征增强：利用实体
信息作为注意力机制中 Query，获得整合实体信息的高效语义表示，同时融合实体
标签嵌入、实体相对位置实现特征增强，用于关系解码中。最后分别从实体注意力
机制，联合模型实验结果对比，组件消融在数据集上的结果进行分析，论证基于特
征增强的联合实体关系抽取模型的有效性。
公式章 4 节 1
33
第四章改进分解标注策略联合抽取模型
4.1 引言
在实体关系抽取任务中为了缓解管道抽取导致错误传播和 EPO 两个问题，后

续研究的工作试图建立联合学习模型，以联合方式同时学习实体和关系。它们分为
两种主要方法：基于特征的模型[36,37]和基于神经网络的模型[54,61,78]。前者严重依赖
于特征工程，需要大量的人工工作，而后者主要基于神经网络结构，但是都没有充
分利用模型间的交互信息。Zheng[53]等人引入了统一的标记方案，并将联合实体和
关系提取任务转化为端到端序列标记问题。这种方法可以直接将关系三元组作为
一个整体建模，因为统一的标记方案已经集成了实体和关系的信息。
然而，大多数以前的研究忽略了重叠关系三元组的问题。Zeng[40]等人提出了
一种带有复制机制的 Seq2Seq 模型来解决这个问题。随后，Fu[56]等人也关注这个
问题，并提出了一种基于 GCN 的方法来解决这个问题。最近，Yu[60]等人引入了一
种新的分解策略，将任务分解为 HE 和 TER 提取，HE 提取程序检测头部实体，
TER 提取程序识别每个给定 HE 对应的尾部实体和关系。尽管这种方法明显优于
之前的工作，并解决了单一实体重叠问题（SEO）但它仍然无法解决 Yu 等人在其
工作中指出的实体对重叠（EPO）问题。除此之外如果在实体识别任务中未能找到
有效的头实体，那么模型将错过头实体角色中包含该头实体的所有相关三元组。
另一方面，预训练语言模型也被用于实体和关系提取，可以利用先验知识获得
更好的结果，Zhao[81]等人采用 BERT 模型联合机器阅读理解用来处理实体关系联
合提取任务。Hang[82]等人提出了 BERT-JEORE，这也是一种基于 BERT 的端到端
神经网络模型，用于联合提取实体和重叠关系，他们使用 BERT 为样本中的每个标
记生成实体标签，并缓解了 EPO 问题，但是在 WebNLG 这种训练样本较少关系种
类又多的数据集上表现欠佳。
因此，为进一步改善上述存在的问题，本章提出了一种改进的分解策略来克服
上述问题。首先，本章设计了一个更灵活的策略：在实体识别部分融合多头注意力
机制获得丰富语义信息，通过指针标注的方式检测所有实体，不区分头/尾实体。
然后，根据每个提取的实体，使用分层的指针标注，检测当前实体作为头部实体时
所对应关系的实体位置指针，以此解决 EPO 问题。从而提升模型整体的性能。
本章具体介绍基于一种改进的分解标注策略的实体关系联合抽取模型，主要
分为模型详细介绍，模型损失函数定义，实验结果与分析三个部分。
34
基于改进的分解标注策略的联合抽取模型
4.2 改进分解标注策略联合抽取模型
本章提出一种改进的分解标注策略，将实体关系联合抽取任务转化为命名实
体识别（NER），尾实体-关系抽取（TER）。NER 任务由两个序列标记任务进行建
模，一个用于识别实体的起始位置，另一个用于识别实体的结束位置。同时，对于
每个已识别的实体，TER 提取任务也由两个分层的指针标注任务建模，分层指针
标注的任务是检测当前实体作为头部实体时所对应关系的实体位置指针标记。所
以总的来说 TER 任务中一个用于检测相应尾部实体的起始位置，另一个用于检测
相应尾部实体的结束位置。
图 4-1 展示了上述标记方案的一个示例。从输入样本中，NER 检测实体标签：
“John Smiths”，
“France”和“Paris”，作为三元组中的头部实体。然后，对于给定
的实体抽取相对应的尾实体-关系。
图 4-1 指针标注的示例
Fig. 4-1 Example of Tagging Scheme

其中在 NER 阶段，可以获得三个实体“John Smiths”，
“Paris”，
“France”。在
TER 阶段，使用多层指针网络完成实体-关系标注，针对每一个实体，多层指针网
络预测的结果是对应的 2*|K|*|L|（|L|为文本长度，|K|代表关系种类）的标注矩阵，
意思是针对每种关系都有预测结果长度为|L|的 start 和 end 指针，其中存在某种关
系，则对应尾实体头指针 Start 位置 i 的标注结果为 1，而对应关系的 end 指针记录
为尾实体的结束位置，指针标注要求符合最右就近原则（end 序列中寻找位置大于
或者等于 i 并距离 i 最近的位置标记为 1）。完成以上标注任务，则可以获得尾实体
-关系，从而完成三元组抽取的过程。以实体“Paris”为例，可以观察到双指多层
35
“Capital_of”，
针标注序列中可得三元组（“Paris”， “France”）， “Located_in”
（“Paris”，，
“France”），
（“Paris”，
“Administrative_division_of”，
“France”）。从这个例子也可
以看出改进的分解策略可以有效解决 EPO 问题
4.2.1 模型结构
本章在图 4-2 中展示了相应的分解标注策略的模型框架，该模型主要由三个

部分组成：BERT-Attention 编码层、实体抽取器(NER)和 TER 提取器。
start
or in
end
start
Live in
end
John Smiths lives in Paris France SEP
start
Capital of
end
start
Located in
end
BiLSTM
ht
i
Entity Extractor
start O ...
end 1 1
头实体信息的注意力机制
图 4-2 模型结构图
Fig. 4-2 Model Structure

在实体识别模块，与第三章的主实体识别模块不同的是采用多头自注意力机
来丰富语义特征，使用指针标注的方式获取所以实体的信息 H。在尾实体-关系抽
取部分,针对每一个实体，都将该实体作为头实体,将 BERT-Att 层的编码融合该实
体注意力机制 hie 与相对位置向量 pie 拼接,传入 BilSTM 层后使用分层的指针标注，
检测每一个实体作为头部实体时所对应关系的实体位置。从而实现所有关系三元
组的抽取任务。
4.2.2 基于指针标注的解码器
本章采用指针标注方式解码实体和与其对应的尾实体和关系。首先通过指针
标注抽取输入文本序列中实体的起始和结束位置。如图 4-3 所示：
36
图 4-3 实体指针标注输出示例
Fig. 4-3 Example of Entity Pointer Labeling
之后将每一个实体作为先验知识，融合实体特征增强的方法，输入 BiLSTM 层采
用分层指针标记网络依次在每一种关系下抽取尾实体，使用的级联指针标记是标
记每个跨度的开始和结束，多个实体的标记不会相互干扰。如果涉及多个类别（在
TER 多关系情况下），可以将其转换为级联指针标记（N 指针网络，N 代表类别总
数）。这样就很好地解决了实体重叠的问题。
4.2.3 基于多头自注意力机制的实体识别模块
实体识别模块解码实体采用基于指针标注的方法，以避免了 CRF 的计算开销。

实体抽取器模块旨在通过直接解码编码层的输出序列 H 来识别输入样本中的相关
实体。为了优化 BERT 的性能，来丰富语义特征，进一步改善实体抽取性能采用多
头自注意力机制,Self-Attention 是注意力机制的一种特别形式，其只需要单个序列
计算表征信息。采用 Vaswani[58]等提出的多头注意力机制（在第二章已详细介绍）
来学习句子中的实体依赖关系。由图 4-2 模型结构图所示。H 是上层 BERT 的输
出，多头自注意力机制并不依赖外部信息，是对语句中的词汇重要程度进行区分，
首先将 S,经行 h 次不同的线性操作： HWi Q , HWi K , HWiV ，经过多头自注意力计算
并行处理产生 dv 维度的输出，最终将并行计算的矩阵经行连接操作得到 H ，其维
T
度为 h*dv，h，和 dv 都属于自注意机制的超参数。如公式（4.1-4.2）所示：
H = W T Concat (head1 , head 2 ,..., head h ) (4.1)
headi = Attention( HWi Q , HWi K , HWiV ) (4.2)
Attention 方法使用缩放点积(Scaled dot-product atention)计算注意力结果如公式(4.3)
所示：
( HWi Q )( HWi K )T (4.3)
headi = soft max( )( HWiV )
d
最终的拼接结果还要经过全连接层降维输出。
37
获得丰富语义信息之后，通过指针标注的方式检测所有实体。将多头自注意力
机制的输出向量再输入到两个二进制指针网络查找所有实体的起始位置和结束位
置。每个 Token 上实体标注的具体操作如公式（4.4-4.5）所示：
Pi start _ e = Sigmoid (Wstart _ e hi + bstart _ e ) (4.4)
Pi end _ e = Sigmoid (Wend _ e hi + bend _ e ) (4.5)

p i st art _ e ,p i end _ e 表示第 i 个 token 的实体开始位置和结束位置的概率 , 如果超过
某一特定的阈值（在本章中设置为 0.5），则对应位置标记为 1，反之则为 0，如果
对于该输入序列包含多个实体，头尾指针的匹配采用就近原则，并且严格限制结束
位置再开始位置之后。本模型在这个实体抽取部分的训练损失函数定义为真
实开始和结束标记的二分类交叉熵之和，公式如 (4.8)所示：
1 N
Lossestart = −  ( pi start _ e log( pˆ i start _ e ) + (1 − pi start _ e ) log(1 − pˆ i start _ e ))
N i =1
(4.6)
1 N
Losseend = − 
N i =1
( pi end _ e log( pˆ i end _ e ) + (1 − pi end _ e ) log(1 − pˆ i end _ e )) (4.7)
LossE = Lossestart + Losseend (4.8)
其中 pˆ i start _ e , pˆ i end _ e 分别是样本中第 i 个单词的预测的开始和结束标记，
pi start _ e , pi end _ e 是真实的标记（gold label），N 表示是样本的长度。
4.2.4 尾实体和多关系抽取模块
TER 任务根据每个提取的实体，使用分层的指针标注检测当前实体作为头部
实体时所对应关系的实体位置指针，以此解决 EPO 问题。在本文第三章的实验中
已经验证了实体注意力机制融合相对位置信息与实体标签类型，进行实体特征增
强可以有效提高 TER 的性能(在第三章已详细描述，此处不再赘述)。
但是对于 EPO 问题，实体对之间可能存在多种关系，即表示在实体对之间，
实体的类型也可能不止一种，例如表 4-1 所示：对于实体对（Addis Ababa, Ethiopia），
在 EPO 问题中，常常伴随着实体在同一实体对中不仅存在多种关系，还会存在不
止代表一种实体类型，虽然在 NER 任务中检测了实体类型，但结果是一个实体对
应一种实体类型的信息，所以在本章特征增强的处理中，只使用实体标注指针获取
实体位置信息，不再融合实体类型的信息。经过实验证明，仍然取得了更进一步的
效果。
38
Table 4-1 Examples of EPO
表 4-1 EPO 示例
示例 Though officials in Addis Ababa, Ethiopia’s capital, have said their troops should not
enter downtown Mogadishu, many are camped in the former American Embassy, a
decrepit building that was closed more than 15 years ago after American soldiers
suffered a humiliating defeat at the hands of warlords.
三元组 (“Ethiopia”, “/location/country/capital”, “Addis Ababa”)
(“Ethiopia”,“/location/country/administrative_division”,“Addis Ababa”)
(“Ethiopia”, “/location/location/contains”, “Addis Ababa”)
(“Addis Ababa”, “/location/ country/ administrative _division”, “Ethiopia”)
将特征融合序列输入到 BILSTM，不同的是，本章的模型使用分层的指针网络
完成 TER 任务，在预定义的关系类别中，在其每一类关系下构建头尾指针标注网
络。总的来说为解决 EPO 问题，针对每一个实体，对特定关系构建指针网络，获
取尾实体的头尾标注，实现尾实体-关系任务。针对特定关系的操作公式与实体识
别指针网络类似，如公式（4.7-4.8）所示：
pi start _ t = f (Wstart
k
_ t hi + bstart _ t )
k
(4.9)
pi end _ t = f (Wend
k
_ t hi + bend _ t )
k
(4.10)
其中， h i 代表 BILSTＭ第ｉ个位置的输出向量， pistart _ t , piend _ t 分别代表所对应关系

为ｋ时，起始位置与结束位置的指针标注概率。其余参数为待训练参数，总体的损
失函数定义为公式(4.13)：
1 N k +1
Losststart = − 
N i =1 j =1
( pi , j start _ t log( pˆ i , j start _ t ) + (1 − pi , j start _ t ) log(1 − pˆ i , j start _ t )) (4.11)
1 N k +1
Losstend = −  ( pi, j end _ t log( pˆ i, j end _ t ) + (1 − pi, j end _ t ) log(1 − pˆ i, j end _ t ))
N i =1 j =1
(4.12)
LossTER = Losststart + Losstend (4.13)
39
其中 pi{start _ t ,end _ t } 代表是否是开始或结束的指针标注，是用１表示，反之则取０.

对于每一个抽取出来的实体，重复进行以上的尾实体-关系标注的操作，再预定义
的关系下，可获取出文本序列中的全部三元组。
4.3 模型损失函数
因为模型分为实体识别、尾实体－关系抽取两个子任务，因此模型整体的损失
函数为两个任务损失函数的和，如公式(4.14)所示：
Loss =  * LossNER + LossTER (4.14)
 为调节超参数。
4.4 实验结果与分析
4.4.1 实验数据与评价方法
本章在两个广泛使用的数据集上评估了本文提出的方法：NYT 和 WebNLG[83]。
这两个数据集的统计数据，还报告了测试集中属于每个类别的样本数量。值得注意
的是，样本可以同时属于 SEO 和 EPO 类别，此外，WebNLG 的关系数被误写为
246，如（Fu 等人 2019；Yu 等人 2020），这是原始 WebNLG 数据集中的关系总数，
而不是他们所使用的子集关系总数。本章实验重新计算并提供了正确的数字。其中
NYT 数据集包含预定义关系数量为 24，WebNLG 则是 216 种。为了进一步研究本
模型提取关系重叠和多关系的能力，所以将测试集划分为三类：正常、EPO 和 SEO。
如果样本的三元组没有重叠，则样本属于正常样本；如果样本的多种关系共享同一
实体对，则样本属于 EPO 样本。此外，如果样本的多个关系共享一个公共实体，
则该样本属于 SEO。表 4-2 给出了这两个数据集的统计数据：
Table 4-2 Statistics of Datasets
表 4-2 数据集统计信息
数据集训练集验证集测试集数据类别（测试集）关系种类
NOR SEO EPO
NYT 56195 5000 5000 3266 1297 978 24
WebNLG 5019 500 703 216 457 26 216
40
实体关系联合抽取的任务本质上是分类问题，所以采用的评价标准为 Precision，
Recall,并综合这个指标得到 F1 值。例如分类问题中，最常用的二分类混淆矩阵，
如表 4-3 示：
Table 4-3 Confusion Matrix of Binary Classification Problem
表 4-3 二分类问题的混淆矩阵
预测类别
正例负例
真实类别正例 TP FN
负例 FP TN
计算方式如公式（4.11-4.12）所示：
TP
P= (4.15)
TP + FP
TP
R= (4.16)
TP + FN
本章实验中对于每一种关系预测的总和取平均代表平均正确率，如公式(4.13-
4.14)所示：
1 n
Macro _ p =  Pi
n i =1
(4.17)
1 n
Macro _ R =  Ri
n i =1
(4.18)
为了更加公平准确的评估三元组抽取的性能，引入新的指标 F 值，对准确率和召
回率加权调和，表达式如(4.19)所示：
(1 +  ) Macro _ P * Macro _ R
F= (4.19)
 2 ( Macro _ P + Macro _ R)
其中 Pi，Ri,分别代表每一种关系的准确率，召回率。 表示权值，用于调和权重，
当其值为 1 时，则表示为 F1 值，鉴于以往的模型均采用 F1 值作为评价标准，所
以本章也采用 F1 值作为三元组抽取的评价标准。
值得注意的是第一个任务实体识别的预测结果主要判断是否抽取出对应的实体，
头尾指针位置预测准确则判定实体预测正确。整体三元组抽取任务在本章中，实体
类别如果对应多种类别，则抽取出包含在内的类别则判定实体类型正确。并且要求
41
三元组中（实体，关系，尾实体）都符合要求，并且要保证次序正确，方可判定关
系分类正确。
4.4.2 模型结果与分析
本文实验使用 PyTorch 库构建联合抽取神经网络模型。实验过程中模型的超参

数的设置如表 4-4 所示：
Table 4-4Model Hyperparameters
表 4-4 模型的超参数
实验参数参数值参数说明
Epoch 150 训练迭代次数
Learning Rate 3e-5 学习率
Max_Length 256 输入的最大长度
POS_Length 30 相对位置 Embedding 长度
BiLSTM Layers 2 BiLSTM 层数
BilLSTM Hidden Size 200 隐藏层维度
Dropout Rate 0.4 Dropout 比例
Batch Size 64 每轮训练数据 Batch 大小
Warmup Rate 0.05 每轮训练 Warmup 比例
Shuffle TRUE 打乱训练数据
Optimizer Adam Loss 的优化函数
Head 12 多头注意力数
为了验证本章模型在联合抽取任务中的性能更优，所以将其与其它联合抽取
模型进行对比，除了第三章在 NYT 数据集上使用的对比模型，分别又加入了 Wei[61]
等人提出的 CasRel 模型和 Hang[82]等人（2021 年）提出的模型 BERT-JEORE,并加
入另外一个数据集 WebNLG 经行实验结果对比分析。在两个数据集的对比实验结
果如表 4-5 所示。
由于本文第三章的特征增强模型（Ours-3）在不能解决 EPO 问题时，因此在
TER 抽取器的模块使用多标签分类器。使用该解决方案，每个标记位置可以保持
多个关系类型，从而达到可以提取同一实体对的多个关系。在此之前也有许多研究
42
者为解决 EPO 问题做了很多的实验，例如 CasRel，BERT-JEORE 模型，并在 NYT

数据集上 F1 值超过第三章所提出的基于头实体注意力的模型。
Table 4-5Comparison with the existing Joint Extraction Model
表 4-5 与现有联合抽取模型的实验结果对比
模型 NYT Web NLG
Precision Recall F1 Precision Recall F1
NovelTagging 62.4 31.7 42.0 52.5 19.3 28.3
MultiDecoder 61.0 56.6 58.7 37.7 36.4 37.1
MultiHead 60.7 58.6 59.6 57.5 54.1 55.7
GraphRel 63.9 60.0 61.9 44.7 41.1 42.9
OrderRL 77.9 67.2 72.1 63.3 59.9 61.6
ETL-Span 85.5 71.7 78.0 84.3 82.0 83.1
Ours-3 82.2 88.6 85.3 84.2 87.6 85.9
BERT-JEORE 88.5 84.6 86.5 79.1 91.4 84.8
CasRel 89.7 89.5 89.6 93.4 90.1 91.8
Ours-4 90.7 92.6 91.6 93.6 91.3 92.4
本章提出的模型在 F1 值上均超过了对比的基线模型，分别为 91.6%，92.4%。

虽然 BERT-JRORE 模型在 WebNLG 中 recall 值取得最优，但是在准确率上有所欠
缺，导致模型的泛化能力综合不如 CasRel 和 Ours-4,甚至在综合结果上不如 Ours-
3,经过分析可得 WebNLG 的原始关系数量(216 种)比“纽约时报”(24 种)大得多，
但是数据集中存在 EPO 情景的数据量占总体的占比很小，导致在训练过程中存在
过度关注 EPO 问题。本章模型相较于 CasRel 在 NYT 上的 F1 值增加了 2.2%，在
WebNLG 上的 F1 值提升了 0.6%。通过结果分析得到，本章模型在 NYT 的提升效
果更加明显，这是数据集之间的差异性导致的，正如之前所提到的 WebNLG 的关
系数量比 NYT 多很多，但是训练数据却比 NYT 少得多，所以在 WebNLG 上的性
能提升有限。
43
4.4.3 重叠问题实验
首先本章比较了模型在样本中提取重叠和多重关系的能力。具体来说，进一步
将 NYT，WebNLG 测试集的样本分为五个类别，其中每个类别划分规则是：按样
本中所包含的实体对数量划分,包含 1 组、2 组、3 组、4 组或者实体对超过 5 组。
统计数据见表 4-6：
Table 4-6 Statistics of the Datasets in Different Triplet Number
表 4-6 数据集中不同三元组的数量统计
Dataset Test Number of Triplets
N=1 N=2 N=3 N=4 N>=5
NYT 5000 3244 1045 312 291 108
WebNLG 703 266 171 131 90 45
结果如图 4-5 和图 4-4 所示。从图中可以看出，与其他模型相比我们的方法

在提取多个三元组方面取得了显著的改进。特别是，当样本中的三元组的数量增加
时，本章的模型表现出更稳定的性能。这些结果表明本章的方法在处理多关系抽取
任务时是有效的。
NYT
100
90
80
F1值(100%)
70
60
50
40
N=1 N=2 N=3 N=4 N>=5
GrapRel ETI-Span CasRel Ous-4
图 4-4 NYT 测试集中具有不同三元组数的 F1 值
Fig. 4-4F1-scores with different numbers of triplets on the NYT test set.
44
WebNLG
96
93
90
87
84
81
78
75
F1值(100%)
72
69
66
63
60
57
54
51
48
45
42
39
36
33
30
N=1 N=2 N=3 N=4 N>=5
GrapRel ETI-Span CasRel Ous-4
图 4-5 WebNLG 测试集中具有不同三元组数的 F1 值
Fig. 4-5 F1-scores with Different Numbers of Triplets on the WebNLG Testset
观察在 WebNLG 数据集上的表现，CasRel 在 WebNLG 数据集上又做了处理，

采用是标注实体最后一个单词的方法，但是由于不同的实体可能共享相同的最后
一个词，这使得重叠案例的数量增加。ETL-Span 则采用的是标注实体整个跨度方
法，但是存在暴露偏差无法解决 EPO 问题。但是从图 4-5 可以看出，本章的方法
取得的效果和 CasRel 没有太大的提升，只是因为受 WebNLG 数据集的限制，在该
数据集上的表现已经饱和，预定义关系多且分散训练数据又非常小，而本章方法的
F1 值在五种不同类别的 F1 值均能达到 90 左右，也表现出稳定的性能。
除此之外为了进一步验证本章模型提取多个三元组的能力，选择在 NYT 测试
集上进行了实验。首先将测试集中的样本分为三个类别：正常、EPO 和 SEO，然
后分别观察每个类别的性能。结果如图 4-6 所示；在 NYT 数据集中本章模型在三
种不同的关系重叠模式下中都具有竞争力。此外，还特别关注到有些模型在单一实
体重叠和实体对重叠的情况之下抽取效果比正常情况有所下降，而 CasRel 模型则
在三种情况下均有较好的就效果，本章模型在 CasRel 的基础之上将 EPO 问题的
F1 显著提高了 4%，这是因为在 CasRel 的实现过程中采用 SPO 的方式，在 Subject
的特征向量表示上只是实体简单的头尾位置的向量和求平均，没有更多的特征增
强信息。因此，在使用第三章提出的实体注意力机制，在 SEO 问题上 F1 值提高了
1.3%。综上所述，本章模型可以较好的处理文本内容，在处理关系重叠的问题上具
有有效性。
45
100
92 93.6 91.492.6 GrapRel
88.587.390.3 87.6
90 ETI-Span
80 CasRel
69.6 Ous-4
70
58.260.3
60
51.2
F1值
50
40
30
20
10
0
NOR EPO SEO
图 4-6 在 NYT 数据集上的不同重叠模式的 F1 值
Fig. 4-6 F1-scores for Different Overlapping Patterns on the NYT Dataset
4.4.4 预测示例比较
在表 4-7 中，展示了 NYT 测试集的两个代表示例，并将本章模型的预测三元

组与真实三元组进行了比较。
Table 4-7 Comparison of Triplet Extraction Results
表 4-7 三元组抽取效果对比
示例 1 The Athens International Airport serves the city of Athens,in Greece

where Alexis Tsipras is the leader
本章模型 (“Athens”,“country”，“Greece”)
(“Greece”,“leaderName”
，“Alexis Tsipras”)
真实示例 (“Athens”,“country”，“Greece”)
(“Greece”,“leaderName”
，“Alexis Tsipras”)
(“Athens International Airport”,“cityServerd”，“Athens”)
46
续表 4-7 三元组抽取效果对比
示例 2 Faber and Faber are the publishers of The Secret Script re, a sequel to
A Long Long ay. That book comes from Ireland which is located in
E rope and where there is an ethnic group of white people.
本章模型 (“The Secret Scripture”, “publisher”, “Faber and Faber”)

(“A Long Long Way”, “country”, “Ireland”)
(“A Long Long Way”, “followedBy”, “The Secret Scripture”) (“Ireland”,
“location”, “Europe”)
真实示例 “A Long Long Way”, “country”, “Ireland”)
(“A Long Long Way”, “followedBy”, “The Secret Scripture”) (“The Secret
Scripture”, “publisher”, “Faber and Faber”) (“Ireland”, “location”,
“Europe”)
虽然模型可以很容易抽取三元组，但是示例 1 中，当实体是“Athens International
Airport”时，未能提取有效的三元组：“
( Athens International Airport”,
“cityServerd”，
“Athens”)，因为在使用指针标注解码实体阶段，未抽取出该实体，但是对于其它
实体关系解码阶段能有效抽取三元组。从示例 2 中可以看出模型不仅可以抽取多
关系三元组，对于 EPO 问题依旧可以抽取出准确的三元组关系。
4.5 本章小结
本章提出了一种改进的分解策略，并为联合实体关系抽取任务提出了相应的
模型框架。本章的模型主要集中在解决，实体识别任务中未能找到有效的头实体，
导致错过所有相关三元组的问题和实体对关系重叠问题，这也是联合抽取任务的
挑战。本章模型使用 BERT-ATT 和基于指针标注的方式来提取所有相关的实体，
并且对于每个提取的实体，利用 TER 来考虑所有实体作为头实体时所有相关的三
元组。在两个广泛使用的数据集（NYT 和 WebNLG）上的实验结果表明，与基线
模型相比，我们的模型取得了显著的性能。并通过进一步分析实验的结果表明，本
章的方法在处理实体对重叠问题上是有效可行的。
47
第五章总结与展望
5.1 本文工作总结
信息提取（IE）可以同时提取实体和关系，研究人员们也一直致力于从非结构
化文本中提取三元组，使其可以直接用于自动知识图的构建。本文通过针对实体关
系抽取的深入研究，发现早期的研究大多数集中于以管道的方式处理改任务，但是
忽略了任务之间的相关性，随着神经网络的发展，联合模型通过参数共享，新的标
注方式等方法实现抽取任务，并且相继获得了进步的结果。虽然这些方法可以进一
步利用两个任务之间的潜在信息，以缓解错误传播的缺点，但是通常忽略了关系重
叠问题，没有充分的利用实体所提供的语义信息，为解决上述问题，经过大量的深
入研究，本文提出了两种模型，并通过充足的实验验证了模型的有效性。文本完成
了如下工作内容：
(1) 提出基于特征增强融合上下文语义的端到端实体关系联合提取方法。该方法采
用 BERT-CRF 解码头实体及其类型。利用头实体信息作为注意力机制中 Query，
同时融合实体类型标签嵌入、实体相对位置实现特征增强，用于关系解码。在
常用的英文数据集 NYT，中文数据集 DuIE 的实验中，本方法较于其它联合抽
取模型取得了较高的抽取精度和 F1 值。证明了该模型不仅可以充分利用语义
信息缓解关系重叠问题，并在中，英文情境下均具有有效性。
(2) 提出基于改进的分解策略的实体关系联合提取模型。在实体识别部分融合多头
自注意力机制获得丰富语义信息，通过指针标注的方式检测所有实体，不区分
头/尾实体，解决了如果未能找到有效的头实体，那么模型将错过包含该头实体
的所有相关三元组的问题。
(3) 针对实体对重叠（EPO）问题，在解码关系三元组时使用分层的指针标注，检
测当前实体作为头部实体时所对应关系的实体位置指针，以此解决 EPO 问题。
本方法在 NYT，WebNLG 数据集上通过实验证明该模型（OUR_4）在三种情
况下都得到了提升，通过在 NYT 数据集上的进一步实验，验证了对于 EPO 问
题可以得到改善。
5.2 未来展望
本文提出的两种模型虽然效果均有提升，但是当存在较大噪声的数据集和数
据长尾问题时，模型训练效果会受到较大的影响并且训练时间较长，成本较高。并
且在实体抽取阶段没有有效解决嵌套实体的问题，存在曝光偏差的问题，在关系重
48
总结与展望
叠问题上仍有提升空间，例如考虑如何根据标签是否是真实标签的子集来改变标
签的权重，以及将实体的可用知识库集成到当前模型中以提高系统性能。
除此之外模型均在通用数据集进行联合抽取的效果验证，例如证券领域知识
图谱的构建，医疗诊断的电子信息提取、知识库填充和语音问答系统等实际的 NLP
或混合领域的应用更有意义，例如，医疗知识图谱对于完善医学问答系统至关重要，
金融领域人物关系图谱的构建等。接下来会针对医疗领域的知识图谱任务进行研
究。
另外值得一提的是随着 Text-to-Text 的发展，生成式预训练模型得到了发展，
这种 Seq2Seq 的架构可以实现针对各种复杂的信息抽取任务的统一模型，而不再
是针对不同领域，不同任务创造不同的模型，即一个模型可以同时解决多个问题。
例如 T5,GTP-3,这种方式极大的改善了多任务和迁移学习任务，也不用针对某一个
任务设置特定的损失函数，提高数据的利用率和任务之间的交互效果，但是这种方
式训练时间长，推断速度慢，目前的可控制性也很差，可以作为以后的重点关注方
向，探究更进一步的 NLP 领域的变革发展。
49
第六章参考文献
[1] Cheng D, Yang F, Wang X, et al. Knowledge graph-based event embedding framework for
financial quantitative investments[C]. Proceedings of the 43rd International ACM SIGIR
Conference on Research and Development in Information Retrieval, 2020: 2221-2230.
[2] Elhammadi S, Lakshmanan L V, Ng R, et al. A high precision pipeline for financial knowledge
graph construction[C]. Proceedings of the 28th International Conference on Computational
Linguistics, 2020: 967-977.
[3] 陈志豪, 余翔, 刘子辰. 基于注意力和字嵌入的中文医疗问答匹配方法[J]. 计算机应用,
2019, 39(6): 7.
[4] 乔凯, 陈可佳, 陈景强. 基于知识图谱与关键词注意机制的中文医疗问答匹配方法[J].
模式识别与人工智能, 2021, 34(8): 9.
[5] 丁泽源, 杨志豪, 罗凌. 基于深度学习的中文生物医学实体关系抽取系统[J]. 中文信息
学报, 2021, 35(5): 7.
[6] 高龙, 张涵初, 杨亮. 基于知识图谱与语义计算的智能信息搜索技术研究[J]. 情报理论
与实践, 2018, 41(7): 6.
[7] 杨鹤, 于红, 孙哲涛. 基于双重注意力机制的渔业标准实体关系抽取[J]. 农业工程学报,
2021, 37(14): 9.
[8] Ratinov L, Roth D. Design challenges and misconceptions in named entity recognition[C].
Proceedings of the Thirteenth Conference on Computational Natural Language Learning
(CoNLL-2009), 2009: 147-155.
[9] 鄂海红, 张文静, 肖思琪. 深度学习实体关系抽取研究综述[J]. 软件学报, 2019, 30(6):
26.
[10] Riedel S, Mccallum A. Robust biomedical event extraction with dual decomposition and
minimal domain adaptation[C]. Proceedings of BioNLP Shared Task 2011 Workshop, 2011:
46-50.
[11] 程淑玉, 黄淑桦, 印鉴. 融合知识图谱与循环神经网络的推荐模型[J]. 小型微型计算机
系统, 2020, 41(8): 6.
[12] Vu N-T, Tran V-H, Doan T-H-T, et al. A Method for Building a Labeled Named Entity
Recognition Corpus Using Ontologies[M]. Springer, 2015: 141-149.
[13] 陈宇, 郑德权, 赵铁军. 基于 Deep Belief Nets 的中文名实体关系抽取[J]. 软件学报,
2012, 23(10): 14.
[14] 田佳来, 吕学强, 游新冬. 基于分层序列标注的实体关系联合抽取方法[J]. 北京大学学
报:自然科学版, 2021.
[15] Malouf R. A comparison of algorithms for maximum entropy parameter estimation[C].
COLING-02: The 6th Conference on Natural Language Learning 2002 (CoNLL-2002), 2002.
[16] Zhang J, Zhou W, Xie C, et al. Chinese sign language recognition with adaptive HMM[C].
2016 IEEE international conference on multimedia and expo (ICME), 2016: 1-6.
50
[17] Carreras X, Màrquez L, Padró L. A simple named entity extractor using AdaBoost[C].
Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003,
2003: 152-155.
[18] Collier N, Doan S, Kawazoe A, et al. BioCaster: detecting public health rumors with a Web-
based text mining system[J]. Bioinformatics, 2008, 24(24): 2940-2941.
[19] Chieu H L, Ng H T. Named entity recognition with a maximum entropy approach[C].
Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003,
2003: 160-163.
[20] Fritzler A, Logacheva V, Kretov M. Few-shot classification in named entity recognition
task[C]. Proceedings of the 34th ACM/SIGAPP Symposium on Applied Computing, 2019:
993-1000.
[21] Bari M S, Joty S, Jwalapuram P. Zero-resource cross-lingual named entity recognition[C].
Proceedings of the AAAI Conference on Artificial Intelligence, 2020: 7415-7423.
[22] Collobert R, Weston J. A unified architecture for natural language processing: Deep neural
networks with multitask learning[C]. Proceedings of the 25th international conference on
Machine learning, 2008: 160-167.
[23] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J].
Journal of machine learning research, 2011, 12(ARTICLE): 2493− 2537.
[24] Luo G, Huang X, Lin C-Y, et al. Joint entity recognition and disambiguation[C]. Proceedings
of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015: 879-
888.
[25] Ma X, Hovy E. End-to-end sequence labeling via bi-directional lstm-cnns-crf[J]. arXiv
preprint arXiv:.01354, 2016.
[26] Chiu J P, Nichols E.Named entity recognition with bidirectional LSTM-CNNs[J].
Transactions of the association for computational linguistics, 2016, 4: 357-370.
[27] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity
recognition[J]. arXiv preprint arXiv:.01360, 2016.
[28] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations, 2018:
arXiv:1802.05365.
[29] Devlin J, Chang M-W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for
language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[30] Straková J, Straka M, Hajič J. Neural architectures for nested NER through linearization[J].
arXiv preprint arXiv:.06926, 2019.
[31] 李冬梅, 张扬, 李东远. 实体关系抽取方法研究综述[J]. 计算机研究与发展, 2020,
57(7): 25.
[32] 王久阳. 基于实体关系联合抽取方法的情感倾向性分析研究[D]. 2020.
[33] Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled
data[C]. Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the
51
4th International Joint Conference on Natural Language Processing of the AFNLP, 2009:
1003-1011.
[34] Yao L, Riedel S, Mccallum A. Collective cross-document relation extraction without labelled
data[C]. Proceedings of the 2010 Conference on Empirical Methods in Natural Language
Processing, 2010: 1013-1023.
[35] Hoffmann R, Zhang C, Ling X, et al. Knowledge-based weak supervision for information
extraction of overlapping relations[C]. Proceedings of the 49th annual meeting of the
association for computational linguistics: human language technologies, 2011: 541-550.
[36] Surdeanu M, Tibshirani J, Nallapati R, et al. Multi-instance multi-label learning for relation
extraction[C]. Proceedings of the 2012 joint conference on empirical methods in natural
language processing and computational natural language learning, 2012: 455-465.
[37] Ren X, Wu Z, He W, et al. Cotype: Joint extraction of typed entities and relations with
knowledge bases[C]. Proceedings of the 26th International Conference on World Wide Web,
2017: 1015-1024.
[38] Zeng D, Liu K, Lai S, et al. Relation classification via convolutional deep neural network[C].
Proceedings of COLING 2014, the 25th international conference on computational linguistics:
technical papers, 2014: 2335-2344.
[39] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-
supervised learning[C]. Proceedings of the 48th annual meeting of the association for
computational linguistics, 2010: 384-394.
[40] Zeng X, He S, Liu K, et al. Large scaled relation extraction with reinforcement learning[C].
Thirty-Second AAAI Conference on Artificial Intelligence, 2018.
[41] Shen Y, Huang X-J. Attention-based convolutional neural network for semantic relation
extraction[C]. Proceedings of COLING 2016, the 26th International Conference on
Computational Linguistics: Technical Papers, 2016: 2526-2536.
[42] Jat S, Khandelwal S, Talukdar P J a P A. Improving distantly supervised relation extraction
using word and entity based attention[J]. arXiv preprint arXiv:.06987, 2018.
[43] Lin Y, Liu Z, Sun M. Neural relation extraction with multi-lingual attention[C]. Proceedings
of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1:
Long Papers), 2017: 34-43.
[44] Ye Z-X, Ling Z-H. Distant supervision relation extraction with intra-bag and inter-bag
attentions[J]. arXiv preprint arXiv:.00143, 2019.
[45] Goldberg Y, Levy O. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-
embedding method[J]. arXiv preprint arXiv:1402.3722, 2014.
[46] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[C].
Proceedings of the 2014 conference on empirical methods in natural language processing
(EMNLP), 2014: 1532-1543.
52
[47] Joshi M, Chen D, Liu Y, et al. Spanbert: Improving pre-training by representing and predicting
spans[J]. Transactions of the Association for Computational Linguistics, 2020, 8: 64-77.
[48] Nan G, Guo Z, Sekulić I, et al. Reasoning with latent structure refinement for document-level
relation extraction[J]. arXiv preprint arXiv:.06312, 2020.
[49] Katiyar A, Cardie C. Going out on a limb: Joint extraction of entity mentions and relations
without dependency trees[C]. Proceedings of the 55th Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers), 2017: 917-928.
[50] Miwa M, Bansal M. End-to-end relation extraction using lstms on sequences and tree
structures[J]. arXiv preprint arXiv:.00770, 2016.
[51] Bekoulis G, Deleu J, Demeester T, et al. Joint entity recognition and relation extraction as a
multi-head selection problem[J]. Expert Systems with Applications, 2018, 114: 34-45.
[52] Nguyen D Q, Verspoor K. Convolutional neural networks for chemical-disease relation
extraction are improved with character-based word embeddings[J]. arXiv preprint
arXiv:.10586, 2018.
[53] Zheng S, Wang F, Bao H, et al. Joint extraction of entities and relations based on a novel
tagging scheme[J]. arXiv preprint arXiv:.05075, 2017.
[54] Zeng X, Zeng D, He S, et al. Extracting relational facts by an end-to-end neural model with
copy mechanism[C]. Proceedings of the 56th Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers), 2018: 506-514.
[55] Takanobu R, Zhang T, Liu J, et al. A hierarchical framework for relation extraction with
reinforcement learning[C]. Proceedings of the AAAI conference on artificial intelligence,
2019: 7072-7079.
[56] Fu T-J, Li P-H, Ma W-Y. Graphrel: Modeling text as relational graphs for joint entity and
relation extraction[C]. Proceedings of the 57th Annual Meeting of the Association for
Computational Linguistics, 2019: 1409-1418.
[57] Li J, Huang G, Chen J, et al. Dual CNN for relation extraction with knowledge-based attention
and word embeddings[J]. Computational intelligence neuroscience, 2019, 2019.
[58] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural
information processing systems, 2017, 30.
[59] Zeng D, Zhang H, Liu Q. Copymtl: Copy mechanism for joint extraction of entities and
relations with multi-task learning[C]. Proceedings of the AAAI conference on artificial
intelligence, 2020: 9507-9514.
[60] Yu B, Zhang Z, Shu X, et al. Joint extraction of entities and relations based on a novel
decomposition strategy[J]. arXiv preprint arXiv:.04273, 2019.
[61] Wei Z, Su J, Wang Y, et al. A novel cascade binary tagging framework for relational triple
extraction[J]. arXiv preprint arXiv:.03227, 2019.
[62] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating
errors[J]. nature, 1986, 323(6088): 533-536.
53
[63] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8):
1735-1780.
[64] Bengio Y, Ducharme R, Vincent P. A neural probabilistic language model[J]. Advances in
Neural Information Processing Systems, 2000, 13.
[65] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv
[66] Indurkhya N, Damerau F J. Handbook of natural language processing[M]. Chapman and
Hall/CRC, 2010.
[67] Frome A, Corrado G S, Shlens J, et al. Devise: A deep visual-semantic embedding model[J].
Advances in neural information processing systems, 2013, 26.
[68] Wolf T, Debut L, Sanh V, et al. Transformers: State-of-the-art natural language processing[C].
Proceedings of the 2020 conference on empirical methods in natural language processing:
system demonstrations, 2020: 38-45.
[69] 师岩, 王宇, 吴水清. 基于 Self-Attention 模型的机器翻译系统[J]. 计算机与现代化,
2019(7): 9-14.
[70] Cho K, Van Merriënboer B, Gulcehre C, et al. Learning phrase representations using RNN
encoder-decoder for statistical machine translation[J]. arXiv preprint arXiv:. 2014.
[71] Sutton C, Mccallum A. An introduction to conditional random fields[J]. Foundations Trends®
in Machine Learning, 2012, 4(4): 267-373.
[72] 叶子, 陈小平, 张波. 融合预训练模型的中文知识图谱问题生成方法[J]. 小型微型计算
机系统, 2020.
[73] Ouchi H, Shindo H, Matsumoto Y. A span selection model for semantic role labeling[J]. arXiv
[74] Riedel S, Yao L, Mccallum A. Modeling relations and their mentions without labeled text[C].
Joint European Conference on Machine Learning and Knowledge Discovery in Databases,
2010: 148-163.
[75] Li S, He W, Shi Y, et al. Duie: A large-scale chinese dataset for information extraction[C].
CCF International Conference on Natural Language Processing and Chinese Computing,
2019: 791-800.
[76] Zheng S, Wang F, Bao H, et al. Joint extraction of entities and relations based on a novel
tagging scheme[J], 2017.
[77] Zeng X, He S, Zeng D, et al. Learning the extraction order of multiple relational facts in a
sentence with reinforcement learning[C]. Proceedings of the 2019 conference on empirical
methods in natural language processing and the 9th international joint conference on natural
language processing (EMNLP-IJCNLP), 2019: 367-377.
[78] Zhang R H, Liu Q, Fan A X, et al. Minimize exposure bias of seq2seq models in joint entity
and relation extraction[J]. arXiv preprint arXiv:.07503, 2020.
54
[79] 陈仁杰, 郑小盈, 祝永新. 融合实体类别信息的实体关系联合抽取[J]. 计算机工程,
2021, 48(3): 8.
[80] Gu D, Wang Y, Song B. Joint Entity and Relation Extraction Method Based on Knowledge
Representation Attention[C]. 2021 6th International Symposium on Computer and
Information Processing Technology (ISCIPT), 2021: 760-763.
[81] Zhao K, Xu H, Cheng Y, et al. Representation iterative fusion based on heterogeneous graph
neural network for joint entity and relation extraction[J]. Knowledge-Based Systems, 2020,
219: 106888.
[82] Hang T, Feng J, Wu Y, et al. Joint extraction of entities and overlapping relations using source-
target entity labeling[J]. Expert Systems with Applications, 2021, 177: 114853.
[83] Gardent C, Shimorina A, Narayan S, et al. Creating training corpora for nlg micro-
planning[C]. 55th annual meeting of the Association for Computational Linguistics (ACL),
2017.
55
第七章攻读硕士学位期间学术活动及成果情况
1）参加学术交流与科研项目
(1). 安徽省质量工程项目，项目名称：互联网+信息聚合与安全创客实验室，项目编号：
2016ckjh141,2017-2019.
2）发表学术论文（含专利和软件著作权）
(1). Cheng W, Chen S. Sentiment Analysis of Financial Texts Based on Attention Mechanism of
FinBERT and BiLSTM[C]. 2021 International Conference on Computer Engineering and
Application (ICCEA), 2021: 73-78.（EI 收录）
56
特别声明
本学位论文是在我的导师指导下独立完成的。在硕士研究生学习期间，我的
导师要求我坚决抵制学术不端行为。在此，我郑重声明，本论文无任何学术不端
行为，如果被发现有任何学术不端行为，一切责任完全由本人承担。
学位论文作者签名：
签字日期：2022 年 5 月 21 日
57

基于深度学习的实体和关系联合抽取模型研究 陈思怡

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于深度学习的实体和关系联合抽取模型研究 陈思怡

Uploaded by

Copyright:

Available Formats

单位代码：10359 密 级： 公开

学 号：2019111058 分类号： TP311.5

Hefei University of Technology

Research on Joint Entity Relationship Extraction

Hefei University of Technology

Hefei, Anhui, P.R.China

学位论文作者签名： 签名日期： 2022 年 5月 21 日

本学位论文作者完全了解 合肥工业大学 有关保留、使用学位论文的规

签名日期： 2022 年 5 月 21 日 签名日期： 2022 年 5月 21 日

Keywords:Bert;Entity Relationship Extraction;Attention Mechanism;Decomposition

图 2-1 RNN 网络结构 ................................................................................................. 8

表 3-1 BIEOS 标注示例 ............................................... 24

命名实体识别任务是很多 NLP 任务基础且关键的一步，它是一种可以确定实

命名实体识别[12]（Name Entity Recognition）是自然语言处理中的一项基础且

识别任务的性能。Lample[27]等人（2016 年）使用 LSTM-CRF 模型来完成这项任务，

最近的研究工作中，注意力机制被证明对不同的 NLP 任务非常有用。Shen[41]

循环神经网络(Recurrent Neural Network, RNN)常常应用于处理序列任务。自

图 2-1 RNN 网络结构

Fig. 2-1 RNN Network Structure

RNN 的计算如公式(2.1-2.2)所示：其中𝑊、𝑈、V 表示待训练参数权重矩阵，

图 2-2 LSTM 模型的单元结构

Fig. 2-2 Cell Structure of LSTM Model

图 2-3 BiLSTM 的模型结构

Fig. 2-3 Model Structure of BiLSTM

其中 V 代表词汇表的大小，X 代表共现矩阵，Xkj 是单词 k 和单词 j 同时出现的

但是 Glove 和 Word2Vec 是上下文无关的表示方法，得到的词向量是固定表征

Fig.2-4 Different representations of "Bank"

Peters[65] 等 人 提 出 了 基 于 上 下 文 词 嵌 入 双 向 语 言 模 型 Embedding from

Fig. 2-5 Model Structure of ElMo

ELMo 使用多层的 BiLSTM 构成，对于一个长度为 N 的文本序列，第 k 个词 wk

Fig.2 -6 Model Structure of BERT

在 Pre-training 阶段 BERT 利用大数据本文的自监督性质在两个无监督任务上

ai 使用 softmax 函数计算，其中 f(ki,q)是 ki 和 q 之间的注意力得分。其中 f(ki,q)注

f (ki , q ) = qT wki (2.16)

f (ki , q) = w[qT ; ki ] (2.17)

f (ki , q ) = vT tanh( wqT + uki ) (2.18)

注意力机制图解如图 2-7 所示：

Fig. 2-7 Attention Mechanism

Self-Attention 是注意力机制的一种特别形式，以 encode-decode 模型为例，传

Scaled Dot rod ct Attention

Fig. 2-8 Multi-head Attention Mechanism

2.4 条件随机场 CRF

现在许多 NLP 任务所使用的模型要求考虑输入序列之间的相互依赖关系。例

单词位于位置 p 的词性标,观测值的特征 x(x1,…,xn（

图 2-9 线性 CRF 的构型

Fig. 2-9 Structure of Linear CRF

Z ( x) =  exp( k tk ( yi −1 , yi , x, i) +  k sl ( yi , x, i)) (2.23)

第三章 特征增强 联合抽取模型

Dillard and other New Orleans SEP

O S Loc O O B Loc E Loc O

Fig. 3-1 Whole Structure of the Model

标签嵌入𝑒t𝑎𝑔进行拼接，传入 BiLSTM 神经网络中，获取特征增强的语义关系，通

3.2.2 基于 BERT 的编码层

To en E[CLS] EI Elike Estraw E ##berries E[SEP]

图 3-2 基于 BERT 的编码层

Fig. 3-2BERT Based Encoding Layer

常用的一种 NER 任务序列标注方式被称作“BIEOS”，对给定文本序列划分五

Table 3-1Example of BIEOS Tagging

Tag S-Loc O O O O O O O B-Loc E-Loc

输入序列“Dillard and other colleges and universities in the New Orleans”包含实体

(6) CRF 标签预测

与输入序列相对应的标签序列由 CRF 层产生。事实上，将 BERT 的输出，传

score( w, y ) =  i =1 Ai y j +  i =1Ty j , y j+1

基于深度学习的实体和关系联合抽取模型研究陈思怡

基于深度学习的实体和关系联合抽取模型研究陈思怡

单位代码：10359 密级：公开

学号：2019111058 分类号： TP311.5

学位论文作者签名：签名日期： 2022 年 5月 21 日

本学位论文作者完全了解合肥工业大学有关保留、使用学位论文的规

签名日期： 2022 年 5 月 21 日签名日期： 2022 年 5月 21 日

Peters[65] 等人提出了基于上下文词嵌入双向语言模型 Embedding from

第三章特征增强联合抽取模型

3.2.4 基于头实体注意力机制的特征增强尾实体关系识别模块

数据集训练集验证集测试集关系种类

实验参数参数值参数说明

第四章改进分解标注策略联合抽取模型

4.2 改进分解标注策略联合抽取模型