Professional Documents
Culture Documents
硕士学位论文
MASTER’S DISSERTATION
(学术硕士)
论文题目:基于深度学习的实体和关系联合抽取模型
研究
学科专业: 软件工程
作者姓名: 陈思怡
导师姓名: 程文娟
完成时间: 2022 年 5 月
合 肥 工 业 大 学
学术硕士学位论文
基于深度学习的实体和关系联合抽取模型
研究
作者姓名: 陈思怡
指导教师: 程文娟
学科专业: 软件工程
研究方向: 软件交互技术
2022 年 5 月
A Dissertation Submitted for the Degree of Master
Chen Siyi
May,2022
合 肥 工 业 大 学
本 论 文轻 符 辩 娄 W 会 仝体 杳 员 屯 杳 , 确 认符合合 肥 r
收
大学 亇 历硕 i : #位 论 文 i di 吼 毋求
.
答辩委 员 会签 名 ( 工作 咕位 、
职称 、 姓名
)
主席
:
中 闽 科学技 木 大学 、 教授
她 \
安徽 大学 、
教授
合肥 业火学 、 教授 7 y 、
1^
i
-
合肥 r _ 业 大学 、
副 教授
合肥 丨 〔 业 大学 、
副 教授
导师 :
j V,
外
学位论文独创性声明
本人郑重声明:所呈交的学位论文是本人在导师指导下进行独立研究工作所
取得的成果。据我所知,除了文中特别加以标注和致谢的内容外,论文中不包含
其他人已经发表或撰写过的研究成果,也不包含为获得 合肥工业大学 或其
他教育机构的学位或证书而使用过的材料。对本文成果做出贡献的个人和集体,
本人已在论文中作了明确的说明,并表示谢意。
学位论文中表达的观点纯属作者本人观点,与合肥工业大学无关。
学位论文版权使用授权书
学位论文作者签名: 指导教师签名:
论文作者毕业去向
工作单位:
联系电话: E-mail:
通讯地址: 邮政编码:
致 谢
三年时光太长又太短,长到可以经历从未有过的新奇经历,短到三年时光转瞬
即逝,大家又要面临着分别。从初入学术大门,论文不知道从何查起,实验也无从
下手,在各位师兄师姐的帮助,导师的讨论指引,同学间的互相交流下,我也逐渐
成长起来。成长的速度虽然慢,但是守得云开见月明,静待花开终有时,我这一路
也终有所收获。在自然语言处理的领域中,从最初的文本情感分析入门再到信息抽
取的过渡,这个领域仍然充满了许多的机遇和挑战。
首先,我要向我的导师程文娟教授表示最深切的感谢,感谢她对我的宝贵支持。
她帮助我在研究方向上探索新的道路,与她的讨论对我提高研究能力有很大帮助,
她开阔了我的视野,为我提供了充分的机会去探索研究。我还要感谢我的室友们,
他们在我有所迷茫的时候,给我排解忧虑,帮助我放松心态,和她们一起学习,一
起进步,一起高谈阔论,一起讨论彼此的实验进度,一起投简历找工作,一起吃饭
逛街,这些也给我的研究生三年增添了一笔浓厚的色彩。此外,我还感谢我的朋友
们,虽然我们不在一个城市,也不是一个专业,海内存知己,天涯若比邻,他们总
会时不时的对我发来关心的问候,我们相互鼓励,生活中各种各样的的事情,我们
总会在一起互相分享,这些都丰富了我的研究生生活。最后,我还要感谢我的家人,
他们永远尊重我做的决定,他们给了我很大的自由空间,让我自己规划自己的研究
生生涯和未来的生活,哪怕在我觉得此路不通受到障碍时,也不会责怪我,总是鼓
励支持我,让我勇于在生活中大胆试错,面对挫折,也勇于面对。感谢他们的支持
和鼓励。
特别要感谢的是自 2019 年末疫情以来,仿佛大家都对突如其来的疫情搞得不
知所措,但是无论是医护工作人员还是其他各行各业的人们,大家一起齐心协力共
同面对,没有他们的保驾护航,我的学习生涯也不会有序进行,对此对这一群特别
的人,表示特别的感谢。
作者:陈思怡
2022 年 4 月 12 日
I
摘 要
从非结构化文本中进行信息抽取和知识图谱构建在自然语言处理(Natural
Language Processing,NLP)任务中均发挥着至关重要的作用,而实体关系抽取
(Entity and Relation Extraction,ERE)又是信息抽取和知识图谱中的一个关键而
又具有挑战性的子任务。ERE 又是由命名实体识别(Named Entity Recognition,
NER)和关系抽取(Relation Extraction,RE)两个任务构成,其主要目的是识别或
抽取给定文本序列中代表特定含义的实体,和两实体间的语义关系。因此吸引了大
量的研究者投身于 ERE 任务的研究之中,然而,通常将命名实体识别和关系抽取
使用管道(Pipeline)方法,分别考虑两个子任务,这导致丢失了大量任务间的交
互信息和文本序列的上下文信息。
伴随深度神经网络和语言模型的发展,也有很多研究者提出实体和关系联合
抽取的方法,例如参数共享和联合解码等,虽然这些方式可以进一步利用两个任务
之间的交互信息和语义信息,用以缓解错误传播,但是却通常忽略了关系重叠问题,
所以为了解决上述的管道模型存在的缺陷和关系重叠的问题,本文针对实体关系
抽取现存的主要问题,进行了深入的研究,并主要围绕实体特征增强和改进的分解
策略的创新点,提出了以下两种模型:
(1)针对多数方法对于文本序列内部语义信息利用不充分的问题,提出基于
头实体注意力机制实现特征增强的实体关系联合提取方法。该方法无需引入外部
复杂特征,即可获取丰富的语义信息,充分利用实体和关系之间的关联信息。整体
结构上采用 BERT-CRF 解码头实体及其类型,然后利用头实体信息作为注意力机
制中 Query,同时融合实体类型标签嵌入、实体相对位置实现特征增强,加强实体
模型和关系模型之间的信息交互,用于关系解码中。在常用的英文数据集 NYT,
中文数据集 DuIE 的实验中,证明了该模型在中文和英文情境下均可以适用,并取
得了较高的抽取精度和 F1 值,F1 值分别达到了 85.3,80.9。
(2)针对联合抽取方法中存在的实体对重叠问题,提出基于改进的分解策略
实现实体关系端到端的联合提取方法。在实体识别部分融合多头自注意力机制获
得丰富语义信息,通过指针标注的方式检测所有实体,不区分头/尾实体。然后,
根据每个提取的实体,使用分层的指针标注模型,在充分利用交互信息情况下将关
系解码问题看作多分类问题,解决关系重叠问题。本方法通过实验,在数据集 NYT,
WebNLG 中验证了模型不仅改善了三元组抽取的效果,并且改善了实体对重叠的
问题。
关键词:BERT;实体关系抽取;注意力机制;分解策略;
II
ABSTRACT
Information extraction (IE) and knowledge graph construction from unstructured text
play a vital role in a wide variety of natural language processing (NLP) tasks, and Entity
and Relation Extraction (ERE) is a key and challenging sub-task in information extraction
and knowledge graph, thus attracting a large number of researchers to devote themselves
to the study of entity relationship extraction. ERE is composed of two subtasks, named
entity recognition (NER) and relationship extraction (RE), the main purpose of which is
to identify or extract entities representing specific meanings in a given text sequence, and
the semantic relationship between the two entities; Or extract an entity triplet containing
semantic relationships in the form (subject, relation, object). However, named entity
recognition (NER) and relationship extraction are often considered in the same way as
the Pipeline: taking into account the two subtasks separately, which results in the loss of
a large amount of interaction information between tasks and contextual information for
text sequences. With the development of deep neural networks and language models,
many researchers have proposed methods of joint extraction, such as parameter sharing
and joint decoding, etc., although these methods can further use the interaction
information and semantic information between the two tasks to alleviate error
propagation, but usually ignore the relationship overlap problem: for a given subject, only
one relationship between the subject and the object can be predicted, even if the entity
pair may contain multiple relationships. Therefore, in order to solve the above problems,
this article mainly does the following work:
(1) This dissertation proposes an end-to-end entity and relationship joint extraction
method based on BERT pre-training language model, combining contextual semantic
features and integrating entity attention mechanism. Enhance the information interaction
between the solid model and the relational model to achieve feature enhancement. This
method obtains rich semantic information without introducing external complex features,
making full use of the correlation information between entities and relationships. In the
overall structure, BERT-CRF is used to solve the decode entity and its type, and then the
head entity information is used as the attention mechanism in the Query, and the entity
type label embedding and the relative position of the entity are integrated to achieve
feature enhancement, which is used in relationship decoding. In the experiment of the
commonly used English dataset NYT and Chinese dataset DuIE, this method obtains high
III
accuracy and F1, and the F1 reaches 85.3 and 80.9, respectively. It is proved that the
model can be applied in both Chinese and English texts.
(2) This dissertation proposes a method to achieve joint extraction of entity
relationships based on improved decomposition strategy. In the entity recognition part,
the multi-head self-attention mechanism is integrated to obtain rich semantic information,
and all entities are detected by pointer annotation, without distinguishing between
head/tail entities. Then, based on each extracted entity, a hierarchical pointer annotation
model is used to treat the relationship decoding problem as a multi-classification problem
when making full use of the interactive information, and the relationship overlap problem
is solved. In the experimental dataset NYT, WebNLG, this method not only improves the
effect of triplet extraction, but also improves the problem of entity pair overlap.
IV
目 录
第一章 绪论 ...................................................... 1
1.1 研究背景及意义................................................. 1
1.2 国内外研究现状................................................. 1
1.2.1 文本命名实体识别研究概况 .................................. 2
1.2.2 文本关系抽取研究概况 ...................................... 3
1.2.3 文本命名实体与关系联合抽取研究概况 ........................ 5
1.3 课题研究难点................................................... 6
1.4 论文章节安排................................................... 6
1.5 本章小结....................................................... 7
第二章 相关理论与技术 ............................................. 8
2.1 神经网络模型................................................... 8
2.1.1 循环神经网络 .............................................. 8
2.1.2 神经网络的训练 ........................................... 11
2.2 语言表示模型.................................................. 11
2.3 注意力机制.................................................... 15
2.3.1 自注意力机制 ............................................. 17
2.4 条件随机场 CRF ................................................ 18
2.5 序列标注...................................................... 20
2.6 本章小结...................................................... 20
第三章 基于特征增强的联合抽取模型 ................................ 21
3.1 引言.......................................................... 21
3.2 基于特征增强模型设计.......................................... 21
3.2.1 模型的整体结构 ........................................... 22
3.2.2 基于 BERT 的编码层 ........................................ 23
3.2.3 头实体识别模块 ........................................... 24
3.2.4 基于头实体注意力机制的特征增强尾实体-关系识别模块 ........ 26
3.3 模型的损失函数................................................ 27
3.4 实验结果与分析................................................ 28
3.4.1 实验数据与评价方法 ....................................... 28
3.4.2 实验环境配置 ............................................. 29
V
3.4.3 头实体注意力机制实验与分析 ............................... 30
3.4.4 联合抽取模型对比实验分析 ................................. 31
3.4.5 模型的消融实验 ........................................... 33
3.5 本章小结...................................................... 34
第四章 基于分解标注策略的联合抽取模型 ............................ 35
4.1 引言.......................................................... 35
4.2 基于分解标注策略的联合抽取模型................................ 36
4.2.1 模型结构 ................................................. 37
4.2.2 基于指针标注的解码器 ..................................... 37
4.2.3 基于多头自注意力机制的实体识别模块 ....................... 38
4.2.4 尾实体和多关系抽取模块 ................................... 39
4.3 模型的损失函数................................................ 41
4.4 实验结果与分析................................................ 41
4.4.1 实验数据与评价方法 ....................................... 41
4.4.2 模型结果与分析 ........................................... 43
4.4.3 重叠问题实验 ............................................. 45
4.4.4 预测示例比较 ............................................. 47
4.5 本章小结...................................................... 48
第五章 总结与展望................................................ 49
5.1 本文工作总结.................................................. 49
5.2 未来展望...................................................... 49
参考文献 ........................................................ 51
攻读硕士学位期间的学术活动及成果情况 ............................. 57
VI
插图清单
VII
表格清单
VIII
绪论
第一章 绪论
1.1 研究背景及意义
实体关系提取是从各种文本数据中抽取含有语义关系的实体三元组,形式为
(主体、关系、客体),这是金融知识图谱[1,2],医学智能自动问答系统[3,4]等应用的重
要组成部分,例如从非结构化文献中自动提取生物医学实体[5]及其关系,形成结构
化三元组,对生物医学知识提取具有重要意义。随着人工智能的快速发展,互联网
多源信息的爆炸性增长,让机器具备从海量非结构化文本抽取信息的理解能力,构
建知识图谱[6]在各行各业均受到广泛应用,其中信息抽取[7]中的核心问题包含:命名
实体识别[8],关系抽取[9],事件抽取[10]等。因此,针对文本序列设计合理高效的实
体关系抽取模型是一项具有重要意义的课题。
命名实体识别技术可根据业务需求[6,11]抽取特定义的实体,例如,人物,作品
等,是 NLP 领域的一项核心基础任务,例如在问答系统中[4]定位关键词等。关系
抽取指的是获取实体之间语义关系形成三元组,例如“鲁迅完成了朝花夕拾和狂人
日记”包含关系三元组(鲁迅,作者,狂人日记),(鲁迅,作者,朝花夕拾)
。通
过对这两个任务的功能结合来看,两者是相互联系,存在信息交互过程的。然而,
在传统方法中,实体关系抽取问题常常作为两个独立的任务来处理,所以使用这种
管道方法主要局限于:任务之间的错误传播,实体冗余,任务交互信息缺失问题。
为克服上述问题,实现更好的性能,有研究者通过使用端到端的模型来检测实体及
其关系的联合模型研究。但是以前的联合抽取模型存在:依赖手动输入特征信息,
限制模型的泛化能力的问题。近几年的研究中较于以前的联合抽取模型,使用深度
学习和词向量技术的方法缓解了手动特征工程和信息交互的问题。但是无论是管
道方法还是联合抽取方法,都存在关系重叠问题。
所以如何融合语义信息进行特征增强,设计合理关系抽取策略,从大量数据中
正确的抽取实体关系三元组是一个具有挑战性的研究方向。在本文中,重点将围绕
特征增强和改进的分解策略这两点,就如何实现特征增强和缓解关系重叠的问题
展开。
1.2 国内外研究现状
1
合肥工业大学学术硕士研究生学位论文
元组。所以本节介绍与本课题研究相关的国内外研究现状,首先介绍每个任务的相
关工作(即 NER 和 RE),然后归纳介绍实体关系联合提取的方法。
1.2.1 文本命名实体识别研究概况
2
绪论
1.2.2 文本关系抽取研究概况
关系抽取[31]是从给定的文本序列中检测抽取实体对间的关系。在管道提取模
型中,关系抽取是实体识别的后续任务。关系抽取用于系统地处理各种非结构化/
半结构化文本输入(如网页、微博、论坛界面)[32],使用各种技术来识别和发现各
种预定义关系和开放关系,具有重要的理论意义和广阔的应用前景,为各种应用提
供了重要的支持。抽取方法大致分为基于特征,基于神经网络,基于注意力,和融
合语义关系等。下面将分别归纳关系抽取的方法。
(1) 基于特征的抽取模型
Mintz[33]等人提出了一种基于特征的任务模型,使用每个词的特征结合两个实
体之间的文本序列及其词性(POS)标注,通过实体对之间的依赖路径等句法特征,
以及命名实体类型等,获取关系分类结果。Riedel[34]等人利用多实例学习的方法,
来缓解远程监督方法标签数据中含有噪声数据的问题,他们在实验过程中使用因
子图来对实体对是否有关系以及是否在给定文本序列中涉及某种关系进行建模。
此外,他们加入带有约束的半监督学习方法训练他们的模型,与 Mintz[33]等人提出
的模型相比,他们的多实例学习模型性能显著提升。Hoffmann[35]等人和 Surdeanu[36]
等人使用概率图模型解决关系重叠的问题。类似地,Ren[37]等人使用基于特征的模
型,提出了一个联合优化模型结合实体嵌入、关系嵌入和细粒度实体类型嵌入来预
测两个实体的关系。
(2) 基于神经网络的抽取模型
最初,神经模型也被用于管道模型来解决这一任务。Zeng[38]等人使用卷积神
经网络进行关系提取,他们在实验中通过使用 Turian[39]等人利用半监督方法预先
训练的词向量来表作为文本序列的输入,并引入两个距离编码向量来表示每个单
词与两个实体的距离。经过卷积神经网络(CNN)和最大池化(MaxPooling)运算
来提取句子级别的特征向量,之后将这个句向量输入到带有 softmax 激活函数的前
馈神经网络,实现关系分类。He[40] 等人之后又引入了一种分段卷积神经网络
(PCNN)来改进关系提取结果,在 PCNN 中,不会对整个句子执行最大池化操作,
3
合肥工业大学学术硕士研究生学位论文
而是将句子以实体对为分界划分为三个部分,使用三个不同的卷积核,以获得三个
特征值,之后通过连接这些特征值,得到句子级别特征向量,再对关系进行分类。
(3) 基于注意力机制的抽取模型
(4) 融合语义的关系抽取模型
词向量的广泛应用改变了自然语言处理任务的处理方式。 Word2Vec[45] ,
GloVe[46]和 ELMo[28],BERT[29]等是公开词嵌入模型,被用于许多 NLP 任务。大多
数基于神经网络的信息提取模型都将词向量作为其核心组件,因为通过词的高维
分布表示可以对词的重要语义信息进行编码,这有助于识别句子中实体之间的关
系。
以上提及的词向量编码中 Word2Vec,无法获取上下文信息。Glove 模型虽然
基于全局语料库、并结合上下文语境构建词向量,但是获取的词向量表征是固定的,
无法解决一词多义的问题。但是如 ELMo、BERT 和 SpanBERT[47]通过在大型语料
库上训练的,可以在词向量表示中动态捕捉单词的上下文含义,可以在关系提取模
型的嵌入层中添加上下文嵌入,以进一步提高其性能。SpanBERT 模型在 TACRED
数据集上的性能改进显著。Joshi[47]等人在训练模型的句子中,将头实体替换为其
类型后缀 SUBJ 的形式,如 PER-SUBJ,将尾实体替换为其类型后缀 OBJ 的形式,
如 LOC-OBJ,最后,他们在 BERT 模型[CLS]上的输出向量使用线性分类器来抽取
关系。Nan[48]等人在他们的模型中使用了 BERT 预训练语言模型,在 DocRED 数据
集上提取文档级别的实体关系,实验验证了相较于 GloVe,在 DocRED 数据集上性
能显著提升。
4
绪论
1.2.3 文本命名实体与关系联合抽取研究概况
前面提到的实体关系模型都是基于管道方法进行介绍,即对该任务分为两个
独立的子任务,命名实体识别(NER)和关系分类(RC)提出不同实现模型。具
体来说,它们首先识别所有实体,然后预测提取的实体之间的关系。这种方法往往
会受到错误传播的影响,并忽略两个任务之间的信息是互相影响的。所以为了解决
这些问题,研究人员提出在单一模型中对实体和关系进行联合学习,包括参数共享
和序列标注的模型。
其中 Katiyar[49]等人;Miwa[50]等人;Bekoulis[51]等人;Nguyen[52]等人通过共享
参数并对其进行优化,使任务之间建立联系,虽然这种方法识别同一网络中训练实
体和关系抽取,但在测试阶段仍然首先识别实体,然后确定同一网络中所有可能对
之间的关系。因此,这种模型忽略了句子中任务之间的相互作用。Zheng[53]等人使
用序列标注方案联合提取实体和关系,创建了一组新的标注方式,这些标注信息包
含实体标签和关系标签的信息,但是无法有效解决实体嵌套与关系重叠的问题。
Zeng[54]等人提出了一种基于复制机制的 Encode-Decode 联合抽取模型,用于
提取具有重叠实体的关系元组,通过复制两个实体的最后一个位置的向量表示建
立复制网络和标注之间的关系进行分类。但是他们的模型无法提取完整实体名称。
并且由于使用一个单独的解码器来提取每个实体,这代表对每个实体使用单独的
解码器,则模型忽略了实体之间的交互。Takanobu[55]等人提出了一种基于层次强化
学习(Reinforcement Learning)的深度神经网络模型进行端到端的实体关系抽取。
上层 RL 用于根据输入序列识别关系,在确定一个关系之后,下层的 RL 来使用序
列标记方法提取相关联的实体对,用于提取句子中存在的所有关系的三元组,但是
会导致多次重复输入序列,延长了训练时间。
针对上述存在的问题,有研究人员做了改进的研究。Fu[56]等人使用了图卷积
网络(GCN),将句子中的每个实体作为图中的节点,将边视为关系,构建实体关
系的联合模型。Li[57]等人也使用了编码器-解码器(Encoder-Decoder)框架,首先
使用基于 CNN 网络构建多标签分类器查找所有关系,然后使用多头注意力机制[58]
提取对应于每个关系的实体。Zeng[59]等人提出的模型是 CopyRL 模型的改进版本,
他们使用序列标记方法解决实体重叠的问题。Yu[60]等人使用分解策略将任务划分
为:头部实体提取,尾部实体及关系提取两个任务,使用序列标记方法来解决这两
个子任务。类似地,Wei[61]等人提出了一种新的序列标记方法来完成这项任务,不
同的是识别头部实体之后,然后针对每个头部实体和每个关系,使用序列标记方法
识别尾部实体,可以有效解决实体对重叠的问题并且在模型中引入预训练语言模
型的 BERT 来提高性能。
5
合肥工业大学学术硕士研究生学位论文
1.3 课题研究难点
本工作主要对文本的实体关系抽取进行相关研究。目前,联合模型没有有效利
用任务交互的信息,从而丢失了大量上下文信息,导致模型识别精度下降,因此本
文提出了一种基于头实体注意力机制的特征增强的方法。并提出改进分解策略,缓
解实体对重叠问题,从而提高关系抽取的效果。
本文主要做了如下工作:
(1) 针对任务关联信息利用不充分的问题,提出基于特征增强融合上下文语义
的端到端实体关系联合提取方法。该方法采用 BERT-CRF 解码头实体及其类型。
利用头实体信息作为注意力机制中 Query,同时融合实体类型标签嵌入、实体相对
位置实现特征增强,用于关系解码。在常用的英文数据集 NYT,中文数据集 DuIE
的实验中,本方法较于其它联合抽取模型取得了较高的抽取精度和 F1 值。证明了
该模型不仅可以充分利用语义信息缓解关系重叠问题,并在中,英文情境下均具有
有效性。
(2) 针对联合抽取方法中存在的实体对重叠问题,提出基于改进的分解策略实
现实体关系联合提取的方法。在实体识别部分融合多头自注意力机制获得丰富语
义信息,通过指针标注的方式检测所有实体,不区分头/尾实体。然后,根据每个
提取的实体,使用分层的指针标注模型,在充分利用交互信息情况下将关系解码问
题看作多分类问题,解决关系重叠问题。本方法在数据集 NYT,WebNLG 通过实
验验证了该模型对于改善实体对重叠的问题具有有效性。
1.4 论文章节安排
本文主要分为五个部分,各章节的结构和内容如下:
第一章:绪论。首先介绍本课题的研究背景与意义,以此阐明端到端实体关系
抽取任务中存在的挑战,而后介绍课题的来源;然后分别从命名实体识别任务研究
发展,和关系抽取研究发展以及基于联合抽取方法的研究介绍了文本实体关系抽
取的国内外研究概况,在此基础上引出主要的研究难点。最后介绍了本文的整体结
构安排与主要的科研成果。
第二章:展开介绍了本文使用到的相关理论与技术。
第三章:介绍融合实体信息实现特征增强的联合抽取模型,其中包括头实体信
息的获取与融合、模型的整体架构、模型的损失函数、模型实验的设置以及结果和
分析。
第四章:具体介绍基于改进的分解策略的关系提取模型的研究。主要分为模型
每一部分的详细介绍,模型损失函数定义,实验结果与分析三个部分。
6
绪论
第五章:总结与展望。概括总结本文的研究成果,并对文中工作的不足之处讨
论,最后展望本文所研究领域的未来发展方向。
1.5 本章小结
本章主要分为四个部分。
第一部分,主要介绍了本文的研究背景和意义,总结实体关系联合抽取的国内
外研究现状。引出设计效果良好的实体关系联合抽取模型具有十分广泛而重要的
意义。
第二部分,首先分别介绍了管道抽取方法中命名实体识别和关系抽取的发展
现状,之后介绍了在单一模型中对实体和关系进行联合学习,包括参数共享和序列
标注的模型。从介绍参数共享和序列标注方式的实体系联合抽取模型的应用;同时,
引出共同存在问题,就对引入交互信息的方法以及引入注意力机制对关系抽取任
务的效果均具有较大的改进的模型研究都进行了介绍。
第三部分,阐述了本文主要研究内容,并简要介绍了本文所提的基于深度学习
的实体关系联合抽取方法。
第四部分,介绍了本文的组织结构以及各章的主要内容。
公式章 2 节 1
7
合肥工业大学学术硕士研究生学位论文
第二章 相关理论与技术
2.1 神经网络模型
在本节中,将简要介绍在本文模型中使用的神经网络,以及用来训练这些模
型的算法。
2.1.1 循环神经网络
8
相关理论与技术
LSTM 使用三个控制门来控制网络中信息的流动,分别为遗忘门、输入门和输
出门。遗忘门限用于控制要忘记多少过去的信息,首先通过当前时刻输入 xt 与上
一时刻输出 ht-1 来计算遗忘门需要遗忘哪些信息,然后通过 Sigmoid 函数将值压缩
至 0 到 1 之间,0 表示遗忘全部信息,1 表示保留全部信息。如公式(2.3)所示,其
中 Wf 代表待训练得参数矩阵。
ft = (W f .[ht −1 , xt ] + b f ) (2.3)
9
合肥工业大学学术硕士研究生学位论文
输入门限用于控制要保留多少当前信息,输出门限用于控制输出信息,如公式
(2.4-2.5)所示,其中 Wi,Wo 代表待训练得参数矩阵。
it = (Wi .[ht −1 , xt ] + bi ) (2.4)
ot = (Wo .[ht −1 , xt ] + bo ) (2.5)
此三个门限代表一层感知机,相较于 RNN,LSTM 还在网络中添加了一个细
胞状态,从而可以有效地记住过去的信息。首先经过双曲正切函数获得新的信息知
识:通过之前的信息和当前信息归纳得出 ct ,通过输入门与遗忘门来决定更新细胞
状态 Ct 的信息,然后将其经过 tanh 激活函数获得新的输出,最后与输出门使用
Hadamard 操作得到最终输出结果。如公式(2.6-2.8)所示:
ct = tanh(Wc .[ht −1 , xt ] + bc ) (2.6)
ct = f t ct −1 + it ct (2.7)
ht = ot tanh(ct ) (2.8)
LSTM 被提出之后,在许多任务上表现非常出色,目前被广泛使用,除此之外,
目前还存在许多其他 LSTM 变体以及与其他网络模型结合起来形成混合网络模型
用来解决相关任务,如 BiLSTM、Tree-LSTM、LSTM-CNN 等等。其中 BiLSTM 在
文本处理任务中表现出色,因为相较于 LSTM 只能捕获单向的信息,BiLSTM 可
以获取基于上下文的信息表示,结合前向和后向获取的重点信息,它的模型结构如
图 2-3 所示:虽然 BiLSTM 能获取后向信息,但是无法捕捉到后续内容与遗忘门
限内容之间的关系。为了弥补这一缺陷,可以引入注意力机制优化,注意力机制在
下部分进行介绍。
10
相关理论与技术
2.1.2 神经网络的训练
神经网络模型在训练过程中使用了很多待训练参数,这需要在训练过程中使
其逼近这些参数的最优值。这些待训练参数常常被随机初始化,然后在训练期间经
过反向传播进行更新。损失函数 Loss 被用于评估神经网络输出和目标输出之间的
差距。而训练的过程就是最下化损失函数。最小化损失函数采用梯度下降算法优化
网络参数θ,使损失最小化。如公式(2.9)所示。这里η被称为步长或学习率,是一
个超参数。
Loss
t +1 = t − (2.9)
t
(如 32/40/50)之后更新参
现在常用的一种的训练方法是在每个批量(Batch)
数,这就是所谓的批量训练。每个批次中的样本都是从训练数据中随机划分的,不
需要替换,用这个批量训练来训练的模型,损失函数 Loss 使用随机梯度下降算法
(SGD)在更新网络参数θ时,都需要所有的训练样本。然而,这种方式使大型训
练数据的训练过程非常缓慢,并且每个训练数据都会迭代更新一次,但是又无法保
证向着最优的方向进行。SGD 算法有两个主要问题。首先,必须手动选择学习率
η的值。如果设置得太高,神经网络可能在训练过程中不会收敛,如果设置得太低,
收敛速度会非常缓慢。其次,以相同的学习速率更新所有参数,但是,神经网络中
的不同参数可能需要不同的学习速率才能得到适当的优化。为了解决这些问题,研
究者们提出了几种自适应优化算法,令模型的收敛速度加快,加速神经网络的学习
速度和效果,如适应性梯度算法 Adagrad,均方根传播(PMSProp)算法和 Adam。
这些优化算法在训练期间对每个参数的学习率η进行不同的调整优化。所以在本
文的模型实验过程中使用 Adam 优化算法,它是随机梯度下降法的扩展式,更适合
解决大规模数据和参数优化问题,被广泛应用于计算机视觉(CV)和自然语言处
理等包含噪声较多或者稀疏梯度问题的任务。
神经网络训练的另一个重要方面是反向传播。神经网络由多层组成,每一层都
有自己的参数。神经网络需要根据损失函数更新所有层的参数,这是通过链式求导
规则实现的。首先更新输出层的参数,然后更新其上一层的参数,依此类推。重复
此过程,直到更新所有层的参数。这种以反向方式从输出层向输入层更新网络参数
的过程称为反向传播。
2.2 语言表示模型
文本挖掘被用来从无结构化文本中提取知识。多年来,将神经网络和深度学习
应用于自然语言处理(NLP)任务,在解决实际语言问题方面取得了许多成就。其
中语言表示模型一直是自然语言处理史上的一个重要研究领域。考虑到这些复杂
11
合肥工业大学学术硕士研究生学位论文
的文本数据信息丰富,可以广泛应用于各种应用程序,非常成功地解决了大量 NLP
任务。
单词嵌入也是一种 NLP 技术的中间产物,指的是将语料库中的文本映射为空
间向量。换句话说,它是一种学习型表征,允许相同意义的词具有相同的表征。它
是文本(单词和文档)的分布式表示,可以更好地应用于 NLP 相关任务。单词嵌
入的最大好处是,通过保持上下文的单词相似性和低维向量,它提供了更高效、更
具表现力的表示。如今,单词嵌入被用于许多不同的应用,如语义分析、语言学、
精神病学、认知科学、社会科学和心理学。单词嵌入有多种不同的实现方式。其中
最直接的方法是独热码,它的维度是词汇表中存在的单词数量,词汇表中的每个单
词都表示为二进制变量,随着词汇量的增加,向量的长度也会增加,大量的“0”
会导致稀疏矩阵,无法捕捉单词的句法和语义。这些模型的缺陷导致研究人员开始
研究低维空间中的分布式单词嵌入方法,它们可以分为上下文无关和融合上下文
的单词嵌入。
分布式单词嵌入方法是一种特征自动学习技术,其中词汇表中的每个 token 都
一个符合分布假设 N 维向量的索引。根据这一点,在相似的语境中出现的单词往
往能保证相同的含义。所以这些向量往往包含相邻单词的属性,可以捕捉单词之间
的相似性。Bengio[64]等人提出了一个使用分布式表示学习词嵌入的模型:NNLM,
和传统的语言模型一样,对于第 n 个词,NNLM 使用前 n-1 个词在训练时预测第 n
个词的方式获得单词嵌入。之后人们提出了不同的词嵌入模型,词嵌入常作为深度
神经网络的输入,使用这些嵌入技术已被证明在许多 NLP 任务中是有用的,因为
它不会丢失单词的顺序并捕获单词的含义(单词的语法和语义信息)。
Word2vec[45]是一种可以捕捉语义信息的语言表示模型,使用两个隐藏层,在
浅层神经网络中使用这两个隐藏层来创建每个单词的向量。Word2Vec 在许多 NLP
“small”
相关任务中都很有用。这种方法展现语料库中的词与词之间的相似性。例如,
和“smaller”这两个词在向量空间词向量的表示更加接近。但是 Word2vec 主要关
注预定义的上下文窗口内的知识,而忽略了全局的信息。Glove[46]是 word2Vec 的
扩展,首先从语料库中创建共现矩阵,然后根据因子分解以获得词嵌入向量。Glove
在庞大的语料库中进行训练获得不同维度(100、200、300 维)的预训练词嵌入,
它的目标函数如公式(2.10)所示:
v
J= f (X
k , j =1
kj )( wkT w j ' + bk + b j − log X kj ) (2.10)
12
相关理论与技术
文相关: 表示
文 关: 表示
图 2-4“Bank”的不同表示
图 2-5ELMo 的模型结构
13
合肥工业大学学术硕士研究生学位论文
第 k 个词 wk 的后向预测概率公式如(2.12)所示:
N
p( w1 , w2 ,..., wN ) = p( wk | wk +1 , w2 ,..., wN ) (2.12)
k =1
连接前向和后向的隐藏层,在训练阶段使用了句子的对数似然函数来计算,从而
获得在针对后续任务时可以动态获取的词向量
ELMo 使用双向 LSTM 实现,但是仅仅是前向和后向的融合,词表示上仍有缺
陷。与 ELMo 不同,GPT 使用基于 Transformer 的解码器对语言建模,因为它是
一个单向语言模型,模型根据之前的内容预测下一个单词,所以它的缺点是它是
单向的,即表示模型只能看到当前位置之前的内容,只能获取单方向的上下文信
息。为解决这一问题 Devlin J[29]等人提出基于 Transformer 的双向语言编码器
BERT 预训练模型,能够获取融合双向上下文信息的词嵌入,并用于下游任务。
BERT 分为 Pre-training 和 fine-tune 微调两个阶段。整体的模型架构如图 2-6 所
示:
图 2-6BERT 的模型结构
14
相关理论与技术
2.3 注意力机制
当我们看到某种场景或图片时,视觉系统会关注场景/图像中具有更多信息和
重要性的某些特定部分,而忽略信息较少或不太重要的部分。例如当阅读一篇文章
时,特别是当我们想尝试快速阅读时,我们的视觉系统或模型快速浏览数据,只关
注句子中更有信息量的单词[60]。机器学习模型也尝试模仿人类的视觉系统应用于
自然语言处理(NLP)[66]和视觉深度学习技术[67],这种技术被称作注意力机制。注意
力的概念可以在机器学习中建模,是数据的简单加权,在注意机制中,数据信息越
丰富或越重要的部分被赋予较大的权重,以获得更多的关注。注意力也被广泛应用
于 NLP 领域,例如上一部分语言表示模型提到的 Transformer 在自然语言处理中被
广泛应用[68],它的实现就是仅由注意模块组成。
Encode-Decode 模型无论使用 RNN 还是 LSTM,都会导致序列中存在的重要
上下文信息丢失的概率更高。因为简单的 CNN 和 LSTM 网络对待句子中的所有单
词分配一样的权重,这不适用于大多数 NLP 任务,其中一些单词比其他单词携带
更多信息,所以需要能够自动学习哪些单词比其他单词更重要的神经模型。这类网
络被称为注意力网络。注意力网络包括一个或多个注意层,其中每个层包含可训练
的参数,在训练过程中学习这些参数的权重。注意层为所有单词分配标准化后的注
意力得分,其中一些单词的分数较高,一些单词的分数较低。通过这种方式,重要
的词比其他词对当前预测的贡献更大。这种方法可以提高任务的执行效率。Yan[69]
等人使用这样的注意力神经网络进行神经机器翻译。Vaswani[58]等人表明,具有注
意力的简单前馈神经网络实现了与 LSTM 网络类似的性能。
Cho [70]等人将注意力机制描述为通过对 Encode 编码器的隐藏层输出执行加权
平均来计算下一个 Decode 解码器的对应向量的过程,即在解码过程中对不同的单
词赋予不同的权重,加入注意力机制的编码层能够更大程度的动态保留语义信息,
改善了传统深度学习模型信息丢失的问题。通常情况下,注意力机制可以用下面的
15
合肥工业大学学术硕士研究生学位论文
公式来概括:给定一个查询序列 q 值为(v1,…,vn)和键值(k1,…,kn),计算
输出 z 的过程(值得注意的是,键和值可以是不同的向量),如公式(2.13)所示:
exp f ( ki , q)
ai = n
(2.13)
exp f (k , q)
i =1
i
使用点积方法计算注意力得分速度更快,但是点积的特性会导致在归一化计算时,
所得值会落在梯度小的区域,为了最小化最小影响,使用 d ,来缩小点积。
q T ki
f ( ki , q ) = (2.15)
d
图 2-7 注意力机制
16
相关理论与技术
2.3.1 自注意力机制
采用 Vaswani[17]等提出的多头注意力机制,对输入序列进行 h 次不同的线性操
作,使其不仅注意序列内部的关联程度,还多方角度的学习句子中的因果依赖关系。
如图 2-8 所示:描述了多头注意力机制的架构:
h parallel heads
SoftMax
MatM l
Scale
Mas
H
h h h
t
MatM l
head
h M
Concat head head head
h
图 2-8 多头注意力机制
该过程由以下公式(2.20)描述:
MultiHead (Q, K , V ) = Concat (head1 ,..., head h ) (2.20)
其中
headi = Attention( HWi Q , HWi K , HWiV ) (2.21)
17
合肥工业大学学术硕士研究生学位论文
18
相关理论与技术
线性 CRF 包含状态函数和特征转移函数两种特征函数,状态函数只能是满足
条件或者不满足,所以它们的取值只能是 0 或 1。其中状态特征函数仅和当前节点
i 相关,表示为 sl ( yi , X , i ), l = 1, 2,..., L ,L 是该节点的状态函数的总数。特征转移函
数则和当前节点和上一节点有关,表示为 tk ( yi −1 , yi , x, i ), k = 1,..., K ,K 是特征转移
函数的总数。同时,可以对两个特征函数分别赋予权重系数, l 和 k ,则可以算
出给定观测序列 X,状态序列 Y 的概率如公式(2.22-2.23)所示:
1
P( y | x) = exp( k tk ( yi −1 , yi , x, i) + k sl ( yi , x, i)) (2.22)
Z ( x) i ,k i ,l
其中 Z(x)表示泛化因子代表所有状态序列的得分之和。CRF 模型对局部特征进行
加权求和,作用于整个状态序列进行优化。通过对目标函数 P(y|x)不断训练优化,
使得预测的状态序列与真实序列之间的误差不断缩小,达到提升整体模型预测的
效果,例如对于序列标注任务,经过这样训练后的 CRF 模型可以得到最准确的标
注序列。
2.5 序列标注
序列标注被广泛应用于信息抽取任务,是自然语言处理中的最基本的任务之
一。序列常常表示为含有时序信息一段文字或者数字的输入,标注则就是为每一个
输入序列的 token 打标签,例如词性标注,分析,命名实体识别等。在命名实体识
别任务中,常用的标注体系有,BIO,BIOES 等其中 B 指实体的 Begin,I 指的是
Inside,E 指的是实体的 End,S 指的是实体是由一个单词构成 Single,O 则表示
other 非实体的标注,常常结合实体类型一起使用,而在一些实体关系联合抽取任
务中,还可以将实体和关系一起标注,是联合抽取任务必不可少的一部分。
2.6 本章小结
本章主要介绍了本文中所使用的方法:循环神经网络、语言表示模型、注意力
机制、条件随机场等的相关理论和技术,奠定了下文实体关系联合抽取方法的基础。
公式章 3 节 1
19
合肥工业大学学术硕士研究生学位论文
3.1 引言
实体关系抽取任务的定义为,给定一个非结构化文本,它的目标是提取具有语
义关系的实体对,形式为(头实体、关系、尾实体)的关系三元组。实体关系抽取
任务在许多 NLP 应用中起着至关重要的作用,如信息提取[72]和知识问答[72]。例如,
在信息提取任务中,给定生物医学文本[5],需要同时提取生物医学实体和它们之间
的关系的三元组,例如(病毒,病因,呼吸道感染)等。
然而传统的管道工程将该任务分为两个独立的子任务:命名实体识别(NER)
和关系分类(RC)。具体来说,它们首先识别所有实体,然后预测提取的实体之间
的关系。这种方法往往会受到错误传播的影响,并忽略两个子任务之间的交互信息。
为了解决这些问题,后续研究提出在一个模型中对实体和关系进行联合学习,其中
包括基于参数共享的模型和基于序列标注的模型,但是仍然存在关系重叠的问题。
所以针对以上管道模型中存在的问题,本章研究提出基于 BERT 预训练语言模型
和头实体注意力机制的实体关系联合抽取方法,加强实体模型和关系模型之间的
信息交互,该方法在不引入外部复杂特征的情况下,即可获得丰富的语义信息,达
到充分利用实体和关系之间的关联信息,实现特征增强的效果。
具体的做法是采用 BERT 获得词嵌入,将其输入到 CRF 解码实体及其类型。
然后利用实体信息作为注意力机制中 Query,融合词嵌入,获得整合实体信息的高
效语义表示,同时整合实体标签嵌入、实体相对位置实现特征增强,用于关系解码
中。
本章将具体介绍融合实体注意力机制实现特征增强的联合抽取模型,其中包
括头实体信息的获取与融合、模型的整体架构、模型的损失函数、模型实验的设置
以及结果和分析。
3.2 特征增强模型设计
文本序列的实体关系提取的定义如下:给定一个句子 S,提取句子中标记的实
体{E1,E2…,En},从预定义的关系集合 R 中找到 S 中实体之间的关系 r(Ei,Ej)∪{NA}。
NA 表示 R 中的任何关系都不适用于句子中的两个实体。其中实体之间的关系
r(Ei,Ej)和 r(Ej,Ei)不一样,所以可以把问题转化为先识别头实体,再抽取尾实体与关
系的任务。即在本章节中把问题定义为:输入文本序列 S,对于头实体 Ei,输出所
有尾实体及其关系或者 NA。
20
基于特征增强的联合抽取模型
3.2.1 模型的整体结构
头实体信息的注意力机制
t ag
ht
i
BiLSTM
start
end
图 3-1 模型的整体结构图
21
合肥工业大学学术硕士研究生学位论文
目 前 自 然 语 言 处 理 领 域 最 为 常 用的 文 本 表示 方 法 是 基 于 词 向 量 , 例 如
Word2vec,Glove,ELMo 等由词向量工具构成文本表示方式,可为后续的实体关
系抽取做铺垫,但是 Word2vec 作为词向量编码,无法获取上下文信息。Glove 模
型基于全局语料库,提高了词向量在大语料上的训练速度且稳定性高。
然而上述方法得到的词向量是固定表征的,无法解决一词多义等问题。为更好
的表现语言特征,ELMo 使用双向 LSTM 实现,缓解了一词多义的问题,但是词表
示上仍有缺陷。为解决这一问题 Devlin J[29]等人提出基于 Transformer 的双向语言
编码器 BERT 预训练模型,为给定句子中的每个单词创建上下文关联的嵌入
(Embedding),这些词嵌入将被输入到后续任务中。使模型较于 CNN 能够更好的
考虑到文本上下文语义信息,较于 RNN 能够解决长时间单词依赖问题提高计算效
率。BERT 将每个文本序列开始添加特殊标记[CLS]。[SEP]代表一个句子的结束。
首先将 W 中的每一个词(token)转换成固定维度的向量(包含 token Embedding、
Segment Embedding、Position Embedding 输入到 BERT 模型)。如图 3-2 所示,以
“I like strawberries”为例,wi 代表评论的第 i 个字,每个词向量 768 维。
BERT 共包含 12 层双向 Transform 块,每一层含有 768 个隐藏单元,12 个
heads,共计 340 million 个参数。本章使用预先训练好的 BERT-Base-Uncased 模型,
再进一步 Fine-tune 操作。训练过程中利用词与词之间的相互关系,动态调整每个
词的权重。首先使用词级别 Tokenizer 分词器,将文本切分,本章中实体关系抽取
是句子级别的,所以只在首位加入标记[CLS],[SEP],对于英文语境下,由于在词表
中没有查到“Strawberries”,所以被拆分为可查找的“straw”,
“##berries”,拆分的
词生成的输出值的平均值作为该词的输出。如果是中文文本,则直接按字拆分。设
输入序列 =[w1,w2,…,wn],经过 BERT 编码后最后一个隐藏编码层有两个输出,一
个 是 为 每 一 w 输 出 一 个 768 维 的 词 向 量 , 整 体 表 示 为
( N + 2)*d T
H = [h 0 , h1 , h2 ,..., hn , hn +1 ] R ,h0 对应[CLS],hn+1 对应[SEP],dT 是隐藏层的维度
为 768。另一个输出是句子级别的 768 维的向量。为了后续头实体抽取任务,选取
第一个输出 H 作为特征表示向量。
22
基于特征增强的联合抽取模型
##berrie
Inp t [CLS] I like straw [SEP]
s
E0 E1 E2 E3 E4 E5
osition
S eg ent EA EA EA EA EA EA
多层双向
Average
T0 T1 T2 T4
3.2.3 头实体识别模块
(5) 实体标注方式
表 3-1BIEOS 标注示例
Input Dillard and other colleges and universities in the New orleans
23
合肥工业大学学术硕士研究生学位论文
在训练期间,正确标记序列概率应最大化,则其对数也应最大化,所以公式表
示为(3.3):
log( P( w, y )) = score( w, y ) − log( yY e score ( w, y ) ) (3.3)
w
反过来而言,实体识别模型的训练阶段应采用最小化损失函数,即公式(3.4)所
示:
Lner = − log( p ( w, y )) (3.4)
24
基于特征增强的联合抽取模型
关系抽取是从文本中自动检测和识别实体之间的某种语义关系。这项任务的
最大挑战是关系重叠问题。关系重叠包含两种情况:实体对重叠(EPO)和单实体
重叠(SEO),如图 3-3 所示:总的来说,EPO 发生在三元组共享同一实体对,但
存在多种关系的情况下,SEO 存在于三元组内单个实体对用多种关系。以前的大
多数工作都不能有效地解决重叠三元组问题,传统的序列标记方案每个实体只代
表一种关系(Zheng 等人,2017)。这也给现在的关系抽取方法带来了很大的困难,
即一个实体最多只能拥有一个关系的问题。为解决这个问题本文通过 BERT-CRF
抽取头实体,使用基于实体注意力机制和 BiLSTM 神经网络同时抽取尾部实体-关
系(TER)。并解决 SEO 问题。
John S iths lives and wor s in aris the capital and an ad instrative division of France
25
合肥工业大学学术硕士研究生学位论文
3.3 模型 损失函数
根据上述模块可以完成抽取出三元组的任务。具体流程就是,对于每个输入样
本,首先使用头实体抽取模块(BERT-CRF)提取实体。然后,对于每个检测到的
实体,我们利用 TER 抽取器,获得涉及该实体的所有关系三元组。例如,从“John
Smiths lives and works in Paris ,France”的输入样本中,实体抽取模块检测头实体:
“John Smiths”、
“Paris”。然后,对于每个提取的实体,例如“Paris”,TER 抽取器
使用其两个子模块提取包含“John Smiths”,“Paris”的所有尾实体-关系组成三元
组。
26
基于特征增强的联合抽取模型
为了增强两个模块之间的相互作用,在训练阶段本文结合了它们的损失函数,
形成了本章模型的整个损失函数,具体如公式(3.14)所示:
L( ) = * LNER + LTER (3.14)
3.4 实验结果与分析
3.4.1 实验数据与评价方法
本章在两个广泛使用的中、英文数据集上评估了本章提出的方法:NYT[74]和
DuIE[75]。表 3-2 给出了这两个数据集的统计数据:
表 3-2 数据集统计信息
Pr ed Real
Re call = (3.16)
Re al
2* Pr ecision * Re call
F1 − score = (3.17)
Pr ecision + Re call
27
合肥工业大学学术硕士研究生学位论文
3.4.2 实验环境配置
表 3-3 模型参数值
28
基于特征增强的联合抽取模型
后 通 过 全 连 接 层 进 行 降 维 输 出 。 训 练 过 程 使 用 Adam 优 化 器 其 训 练 过 程 中
学 习 率 设 置 为 0.0001。为 防 止 训 练 过 拟 合 ,Dropout 率 设 置 为 0.4,此 外 ,
最 终 损 失 函 数 ( 公 式 3.14) 中 的 α 值 在 NYT 上 设 置 为 0.3, 在 DuIE 上 设
置 为 0.2,其 中 α 在 范 围( 0,1)内 。我 们 在 两 个 数 据 集 上 对 模 型 分 别 进 行
了 100 个 Epoch 的 训 练 。
3.4.3 头实体注意力机制实验与分析
为了验证特征增强可以提高实体关系抽取的准确率,在控制模型其它模块不
变的情况下,设置对比实验:
No_Att:代表不使用实体信息;
Concat_hhe:代表使用实体信息与文本特征序列连接;
Att_hhe:代表使用实体注意力机制融合文本特征信息:
实验结果如表 3-4 所示:
表 3-4 基于头实体注意力信息的对比实验结果
以上对比实验的结果可知,引入实体信息机制,虽然对于三元组的抽取的准确
率没有较大的提升,但是大幅提升了 F1 值,这表明引入实体信息机制能够有效的
加强模型的健壮性,在测试阶段也能表现良好。其中,简单通过连接实体信息嵌入,
使实体关系抽取模型的 F1 值分别提升了 2.5%,1.8%。引入实体注意力机制让模
型的 F1 值分别提升了 6.0%,4.3%,这说明相比较简单的实体信息连接词嵌入的
方式,实体注意力机制更可以获取有效的抽取三元组的信息,并且减少训练参数,
减少训练时间。所以在后续的实验中,特征增强实体信息嵌入的方式均采用基于实
体的注意力机制。
29
合肥工业大学学术硕士研究生学位论文
3.4.4 联合抽取模型对比实验分析
模型 NYT
Precision Recall F1
30
基于特征增强的联合抽取模型
Seq2UMTree[78](Zhang 等人,2020):使用编码器-解码器的结构完成实体关系
抽取任务,在关系解码部分使用简单的树结构抽取三元组信息。
FETI[79](陈仁杰等人,2021):在联合任务中融合了实体类型信息实现头尾实体
预测。
KRAtt[80](Gu 等人,2021):在实体关系任务中使用知识图谱中的实体关系信息,
并融合注意力机制提升抽取任务的效果。
模型 DuIE
Precision Recall F1
31
合肥工业大学学术硕士研究生学位论文
3.4.5 模型的消融实验
在实体增强模块,主要采用了实体注意力机制,实体标签信息,实体相对位置
的特征向量连接。为了验证各个部分对于整体的影响,通过控制不同部分,在 NYT
数据集上来评估测试:如果删掉某一部分,对模型整体的影响程度:
BERT+实体标签信息:文本表示词向量+实体标签
BERT+实体相对位置:文本表示词向量+实体相对位置
BERT+实体注意力机制:文本表示词向量+实体注意力机制
OURS:本章提出的特征增强模型
模型 Precision Recall F1
从表 3-7 可以看出只使用某个特征与特征增强方法相比较评价指标均有所下
降,其中只使用相对位置下降幅度最大,而只使用实体注意力机制则更接近本章模
型达到的最好效果,则表明加入实体注意力机制能够更好的捕捉实体信息,更有利
于尾实体-关系抽取的效果。但是如果将这些特征融合,特征增强可以进一步提升
模型准确率。
32
基于特征增强的联合抽取模型
3.5 本章小结
本章主要介绍了基于特征增强的联合实体关系抽取模型的基本架构,之后又
详细介绍了 BERT 预训练模型的基于上下文内容词向量的获取,头实体识别部分
使用 CRF 对实体标签加入约束,实现标签预测的应用原理。接着介绍了尾实体-关
系抽取中如何加强实体模型和关系模型之间的信息交互,实现特征增强:利用实体
信息作为注意力机制中 Query,获得整合实体信息的高效语义表示,同时融合实体
标签嵌入、实体相对位置实现特征增强,用于关系解码中。最后分别从实体注意力
机制,联合模型实验结果对比,组件消融在数据集上的结果进行分析,论证基于特
征增强的联合实体关系抽取模型的有效性。
公式章 4 节 1
33
合肥工业大学学术硕士研究生学位论文
4.1 引言
34
基于改进的分解标注策略的联合抽取模型
本章提出一种改进的分解标注策略,将实体关系联合抽取任务转化为命名实
体识别(NER),尾实体-关系抽取(TER)。NER 任务由两个序列标记任务进行建
模,一个用于识别实体的起始位置,另一个用于识别实体的结束位置。同时,对于
每个已识别的实体,TER 提取任务也由两个分层的指针标注任务建模,分层指针
标注的任务是检测当前实体作为头部实体时所对应关系的实体位置指针标记。所
以总的来说 TER 任务中一个用于检测相应尾部实体的起始位置,另一个用于检测
相应尾部实体的结束位置。
图 4-1 展示了上述标记方案的一个示例。从输入样本中,NER 检测实体标签:
“John Smiths”,
“France”和“Paris”,作为三元组中的头部实体。然后,对于给定
的实体抽取相对应的尾实体-关系。
图 4-1 指针标注的示例
35
合肥工业大学学术硕士研究生学位论文
“Capital_of”,
针标注序列中可得三元组(“Paris”, “France”), “Located_in”
(“Paris”, ,
“France”),
(“Paris”,
“Administrative_division_of”,
“France”)。从这个例子也可
以看出改进的分解策略可以有效解决 EPO 问题
4.2.1 模型结构
start
Live in
end
John Smiths lives in Paris France SEP
start
Capital of
end
start
Located in
end
BiLSTM
ht
i
Entity Extractor
start O ...
end 1 1
头实体信息的注意力机制
图 4-2 模型结构图
4.2.2 基于指针标注的解码器
本章采用指针标注方式解码实体和与其对应的尾实体和关系。首先通过指针
标注抽取输入文本序列中实体的起始和结束位置。如图 4-3 所示:
36
基于改进的分解标注策略的联合抽取模型
图 4-3 实体指针标注输出示例
之后将每一个实体作为先验知识,融合实体特征增强的方法,输入 BiLSTM 层采
用分层指针标记网络依次在每一种关系下抽取尾实体,使用的级联指针标记是标
记每个跨度的开始和结束,多个实体的标记不会相互干扰。如果涉及多个类别(在
TER 多关系情况下),可以将其转换为级联指针标记(N 指针网络,N 代表类别总
数)。这样就很好地解决了实体重叠的问题。
4.2.3 基于多头自注意力机制的实体识别模块
37
合肥工业大学学术硕士研究生学位论文
获得丰富语义信息之后,通过指针标注的方式检测所有实体。将多头自注意力
机制的输出向量再输入到两个二进制指针网络查找所有实体的起始位置和结束位
置。每个 Token 上实体标注的具体操作如公式(4.4-4.5)所示:
1 N
Lossestart = − ( pi start _ e log( pˆ i start _ e ) + (1 − pi start _ e ) log(1 − pˆ i start _ e ))
N i =1
(4.6)
1 N
Losseend = −
N i =1
( pi end _ e log( pˆ i end _ e ) + (1 − pi end _ e ) log(1 − pˆ i end _ e )) (4.7)
其 中 pˆ i start _ e , pˆ i end _ e 分 别 是 样 本 中 第 i 个 单 词 的 预 测 的 开 始 和 结 束 标 记 ,
pi start _ e , pi end _ e 是真实的标记(gold label),N 表示是样本的长度。
4.2.4 尾实体和多关系抽取模块
TER 任务根据每个提取的实体,使用分层的指针标注检测当前实体作为头部
实体时所对应关系的实体位置指针,以此解决 EPO 问题。在本文第三章的实验中
已经验证了实体注意力机制融合相对位置信息与实体标签类型,进行实体特征增
强可以有效提高 TER 的性能(在第三章已详细描述,此处不再赘述)。
但是对于 EPO 问题,实体对之间可能存在多种关系,即表示在实体对之间,
实体的类型也可能不止一种,例如表 4-1 所示:对于实体对(Addis Ababa, Ethiopia),
在 EPO 问题中,常常伴随着实体在同一实体对中不仅存在多种关系,还会存在不
止代表一种实体类型,虽然在 NER 任务中检测了实体类型,但结果是一个实体对
应一种实体类型的信息,所以在本章特征增强的处理中,只使用实体标注指针获取
实体位置信息,不再融合实体类型的信息。经过实验证明,仍然取得了更进一步的
效果。
38
基于改进的分解标注策略的联合抽取模型
表 4-1 EPO 示例
示例 Though officials in Addis Ababa, Ethiopia’s capital, have said their troops should not
enter downtown Mogadishu, many are camped in the former American Embassy, a
decrepit building that was closed more than 15 years ago after American soldiers
suffered a humiliating defeat at the hands of warlords.
(“Ethiopia”,“/location/country/administrative_division”,“Addis Ababa”)
将特征融合序列输入到 BILSTM,不同的是,本章的模型使用分层的指针网络
完成 TER 任务,在预定义的关系类别中,在其每一类关系下构建头尾指针标注网
络。总的来说为解决 EPO 问题,针对每一个实体,对特定关系构建指针网络,获
取尾实体的头尾标注,实现尾实体-关系任务。针对特定关系的操作公式与实体识
别指针网络类似,如公式(4.7-4.8)所示:
pi start _ t = f (Wstart
k
_ t hi + bstart _ t )
k
(4.9)
pi end _ t = f (Wend
k
_ t hi + bend _ t )
k
(4.10)
1 N k +1
Losstend = − ( pi, j end _ t log( pˆ i, j end _ t ) + (1 − pi, j end _ t ) log(1 − pˆ i, j end _ t ))
N i =1 j =1
(4.12)
39
合肥工业大学学术硕士研究生学位论文
4.3 模型 损失函数
因为模型分为实体识别、尾实体-关系抽取两个子任务,因此模型整体的损失
函数为两个任务损失函数的和,如公式(4.14)所示:
Loss = * LossNER + LossTER (4.14)
为调节超参数。
4.4 实验结果与分析
4.4.1 实验数据与评价方法
本章在两个广泛使用的数据集上评估了本文提出的方法:NYT 和 WebNLG[83]。
这两个数据集的统计数据,还报告了测试集中属于每个类别的样本数量。值得注意
的是,样本可以同时属于 SEO 和 EPO 类别,此外,WebNLG 的关系数被误写为
246,如(Fu 等人 2019;Yu 等人 2020),这是原始 WebNLG 数据集中的关系总数,
而不是他们所使用的子集关系总数。本章实验重新计算并提供了正确的数字。其中
NYT 数据集包含预定义关系数量为 24,WebNLG 则是 216 种。为了进一步研究本
模型提取关系重叠和多关系的能力,所以将测试集划分为三类:正常、EPO 和 SEO。
如果样本的三元组没有重叠,则样本属于正常样本;如果样本的多种关系共享同一
实体对,则样本属于 EPO 样本。此外,如果样本的多个关系共享一个公共实体,
则该样本属于 SEO。表 4-2 给出了这两个数据集的统计数据:
表 4-2 数据集统计信息
40
基于改进的分解标注策略的联合抽取模型
实体关系联合抽取的任务本质上是分类问题,所以采用的评价标准为 Precision,
Recall,并综合这个指标得到 F1 值。例如分类问题中,最常用的二分类混淆矩阵,
如表 4-3 示:
表 4-3 二分类问题的混淆矩阵
预测类别
正例 负例
真实类别 正例 TP FN
负例 FP TN
计算方式如公式(4.11-4.12)所示:
TP
P= (4.15)
TP + FP
TP
R= (4.16)
TP + FN
本章实验中对于每一种关系预测的总和取平均代表平均正确率,如公式(4.13-
4.14)所示:
1 n
Macro _ p = Pi
n i =1
(4.17)
1 n
Macro _ R = Ri
n i =1
(4.18)
为了更加公平准确的评估三元组抽取的性能,引入新的指标 F 值,对准确率和召
回率加权调和,表达式如(4.19)所示:
(1 + ) Macro _ P * Macro _ R
F= (4.19)
2 ( Macro _ P + Macro _ R)
其中 Pi,Ri,分别代表每一种关系的准确率,召回率。 表示权值,用于调和权重,
当其值为 1 时,则表示为 F1 值,鉴于以往的模型均采用 F1 值作为评价标准,所
以本章也采用 F1 值作为三元组抽取的评价标准。
值得注意的是第一个任务实体识别的预测结果主要判断是否抽取出对应的实体,
头尾指针位置预测准确则判定实体预测正确。整体三元组抽取任务在本章中,实体
类别如果对应多种类别,则抽取出包含在内的类别则判定实体类型正确。并且要求
41
合肥工业大学学术硕士研究生学位论文
三元组中(实体,关系,尾实体)都符合要求,并且要保证次序正确,方可判定关
系分类正确。
4.4.2 模型结果与分析
表 4-4 模型的超参数
Head 12 多头注意力数
为了验证本章模型在联合抽取任务中的性能更优,所以将其与其它联合抽取
模型进行对比,除了第三章在 NYT 数据集上使用的对比模型,分别又加入了 Wei[61]
等人提出的 CasRel 模型和 Hang[82]等人(2021 年)提出的模型 BERT-JEORE,并加
入另外一个数据集 WebNLG 经行实验结果对比分析。在两个数据集的对比实验结
果如表 4-5 所示。
由于本文第三章的特征增强模型(Ours-3)在不能解决 EPO 问题时,因此在
TER 抽取器的模块使用多标签分类器。使用该解决方案,每个标记位置可以保持
多个关系类型,从而达到可以提取同一实体对的多个关系。在此之前也有许多研究
42
基于改进的分解标注策略的联合抽取模型
表 4-5 与现有联合抽取模型的实验结果对比
43
合肥工业大学学术硕士研究生学位论文
4.4.3 重叠问题实验
首先本章比较了模型在样本中提取重叠和多重关系的能力。具体来说,进一步
将 NYT,WebNLG 测试集的样本分为五个类别,其中每个类别划分规则是:按样
本中所包含的实体对数量划分,包含 1 组、2 组、3 组、4 组或者实体对超过 5 组。
统计数据见表 4-6:
表 4-6 数据集中不同三元组的数量统计
NYT
100
90
80
F1值(100%)
70
60
50
40
N=1 N=2 N=3 N=4 N>=5
Fig. 4-4F1-scores with different numbers of triplets on the NYT test set.
44
基于改进的分解标注策略的联合抽取模型
WebNLG
96
93
90
87
84
81
78
75
F1值(100%)
72
69
66
63
60
57
54
51
48
45
42
39
36
33
30
N=1 N=2 N=3 N=4 N>=5
Fig. 4-5 F1-scores with Different Numbers of Triplets on the WebNLG Testset
45
合肥工业大学学术硕士研究生学位论文
100
92 93.6 91.492.6 GrapRel
88.587.390.3 87.6
90 ETI-Span
80 CasRel
69.6 Ous-4
70
58.260.3
60
51.2
F1值
50
40
30
20
10
0
NOR EPO SEO
Fig. 4-6 F1-scores for Different Overlapping Patterns on the NYT Dataset
4.4.4 预测示例比较
表 4-7 三元组抽取效果对比
本章模型 (“Athens”,“country”,“Greece”)
(“Greece”,“leaderName”
,“Alexis Tsipras”)
真实示例 (“Athens”,“country”,“Greece”)
(“Greece”,“leaderName”
,“Alexis Tsipras”)
(“Athens International Airport”,“cityServerd”,“Athens”)
46
基于改进的分解标注策略的联合抽取模型
续表 4-7 三元组抽取效果对比
示例 2 Faber and Faber are the publishers of The Secret Script re, a sequel to
A Long Long ay. That book comes from Ireland which is located in
E rope and where there is an ethnic group of white people.
4.5 本章小结
本章提出了一种改进的分解策略,并为联合实体关系抽取任务提出了相应的
模型框架。本章的模型主要集中在解决,实体识别任务中未能找到有效的头实体,
导致错过所有相关三元组的问题和实体对关系重叠问题,这也是联合抽取任务的
挑战。本章模型使用 BERT-ATT 和基于指针标注的方式来提取所有相关的实体,
并且对于每个提取的实体,利用 TER 来考虑所有实体作为头实体时所有相关的三
元组。在两个广泛使用的数据集(NYT 和 WebNLG)上的实验结果表明,与基线
模型相比,我们的模型取得了显著的性能。并通过进一步分析实验的结果表明,本
章的方法在处理实体对重叠问题上是有效可行的。
47
合肥工业大学学术硕士研究生学位论文
第五章 总结与展望
5.1 本文工作总结
信息提取(IE)可以同时提取实体和关系,研究人员们也一直致力于从非结构
化文本中提取三元组,使其可以直接用于自动知识图的构建。本文通过针对实体关
系抽取的深入研究,发现早期的研究大多数集中于以管道的方式处理改任务,但是
忽略了任务之间的相关性,随着神经网络的发展,联合模型通过参数共享,新的标
注方式等方法实现抽取任务,并且相继获得了进步的结果。虽然这些方法可以进一
步利用两个任务之间的潜在信息,以缓解错误传播的缺点,但是通常忽略了关系重
叠问题,没有充分的利用实体所提供的语义信息,为解决上述问题,经过大量的深
入研究,本文提出了两种模型,并通过充足的实验验证了模型的有效性。文本完成
了如下工作内容:
(1) 提出基于特征增强融合上下文语义的端到端实体关系联合提取方法。该方法采
用 BERT-CRF 解码头实体及其类型。利用头实体信息作为注意力机制中 Query,
同时融合实体类型标签嵌入、实体相对位置实现特征增强,用于关系解码。在
常用的英文数据集 NYT,中文数据集 DuIE 的实验中,本方法较于其它联合抽
取模型取得了较高的抽取精度和 F1 值。证明了该模型不仅可以充分利用语义
信息缓解关系重叠问题,并在中,英文情境下均具有有效性。
(2) 提出基于改进的分解策略的实体关系联合提取模型。在实体识别部分融合多头
自注意力机制获得丰富语义信息,通过指针标注的方式检测所有实体,不区分
头/尾实体,解决了如果未能找到有效的头实体,那么模型将错过包含该头实体
的所有相关三元组的问题。
(3) 针对实体对重叠(EPO)问题,在解码关系三元组时使用分层的指针标注,检
测当前实体作为头部实体时所对应关系的实体位置指针,以此解决 EPO 问题。
本方法在 NYT,WebNLG 数据集上通过实验证明该模型(OUR_4)在三种情
况下都得到了提升,通过在 NYT 数据集上的进一步实验,验证了对于 EPO 问
题可以得到改善。
5.2 未来展望
本文提出的两种模型虽然效果均有提升,但是当存在较大噪声的数据集和数
据长尾问题时,模型训练效果会受到较大的影响并且训练时间较长,成本较高。并
且在实体抽取阶段没有有效解决嵌套实体的问题,存在曝光偏差的问题,在关系重
48
总结与展望
叠问题上仍有提升空间,例如考虑如何根据标签是否是真实标签的子集来改变标
签的权重,以及将实体的可用知识库集成到当前模型中以提高系统性能。
除此之外模型均在通用数据集进行联合抽取的效果验证,例如证券领域知识
图谱的构建,医疗诊断的电子信息提取、知识库填充和语音问答系统等实际的 NLP
或混合领域的应用更有意义,例如,医疗知识图谱对于完善医学问答系统至关重要,
金融领域人物关系图谱的构建等。接下来会针对医疗领域的知识图谱任务进行研
究。
另外值得一提的是随着 Text-to-Text 的发展,生成式预训练模型得到了发展,
这种 Seq2Seq 的架构可以实现针对各种复杂的信息抽取任务的统一模型,而不再
是针对不同领域,不同任务创造不同的模型,即一个模型可以同时解决多个问题。
例如 T5,GTP-3,这种方式极大的改善了多任务和迁移学习任务,也不用针对某一个
任务设置特定的损失函数,提高数据的利用率和任务之间的交互效果,但是这种方
式训练时间长,推断速度慢,目前的可控制性也很差,可以作为以后的重点关注方
向,探究更进一步的 NLP 领域的变革发展。
49
第六章 参考文献
[1] Cheng D, Yang F, Wang X, et al. Knowledge graph-based event embedding framework for
financial quantitative investments[C]. Proceedings of the 43rd International ACM SIGIR
Conference on Research and Development in Information Retrieval, 2020: 2221-2230.
[2] Elhammadi S, Lakshmanan L V, Ng R, et al. A high precision pipeline for financial knowledge
graph construction[C]. Proceedings of the 28th International Conference on Computational
Linguistics, 2020: 967-977.
[3] 陈志豪, 余翔, 刘子辰. 基于注意力和字嵌入的中文医疗问答匹配方法[J]. 计算机应用,
2019, 39(6): 7.
[4] 乔凯, 陈可佳, 陈景强. 基于知识图谱与关键词注意机制的中文医疗问答匹配方法[J].
模式识别与人工智能, 2021, 34(8): 9.
[5] 丁泽源, 杨志豪, 罗凌. 基于深度学习的中文生物医学实体关系抽取系统[J]. 中文信息
学报, 2021, 35(5): 7.
[6] 高龙, 张涵初, 杨亮. 基于知识图谱与语义计算的智能信息搜索技术研究[J]. 情报理论
与实践, 2018, 41(7): 6.
[7] 杨鹤, 于红, 孙哲涛. 基于双重注意力机制的渔业标准实体关系抽取[J]. 农业工程学报,
2021, 37(14): 9.
[8] Ratinov L, Roth D. Design challenges and misconceptions in named entity recognition[C].
Proceedings of the Thirteenth Conference on Computational Natural Language Learning
(CoNLL-2009), 2009: 147-155.
[9] 鄂海红, 张文静, 肖思琪. 深度学习实体关系抽取研究综述[J]. 软件学报, 2019, 30(6):
26.
[10] Riedel S, Mccallum A. Robust biomedical event extraction with dual decomposition and
minimal domain adaptation[C]. Proceedings of BioNLP Shared Task 2011 Workshop, 2011:
46-50.
[11] 程淑玉, 黄淑桦, 印鉴. 融合知识图谱与循环神经网络的推荐模型[J]. 小型微型计算机
系统, 2020, 41(8): 6.
[12] Vu N-T, Tran V-H, Doan T-H-T, et al. A Method for Building a Labeled Named Entity
Recognition Corpus Using Ontologies[M]. Springer, 2015: 141-149.
[13] 陈宇, 郑德权, 赵铁军. 基于 Deep Belief Nets 的中文名实体关系抽取[J]. 软件学报,
2012, 23(10): 14.
[14] 田佳来, 吕学强, 游新冬. 基于分层序列标注的实体关系联合抽取方法[J]. 北京大学学
报:自然科学版, 2021.
[15] Malouf R. A comparison of algorithms for maximum entropy parameter estimation[C].
COLING-02: The 6th Conference on Natural Language Learning 2002 (CoNLL-2002), 2002.
[16] Zhang J, Zhou W, Xie C, et al. Chinese sign language recognition with adaptive HMM[C].
2016 IEEE international conference on multimedia and expo (ICME), 2016: 1-6.
50
[17] Carreras X, Màrquez L, Padró L. A simple named entity extractor using AdaBoost[C].
Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003,
2003: 152-155.
[18] Collier N, Doan S, Kawazoe A, et al. BioCaster: detecting public health rumors with a Web-
based text mining system[J]. Bioinformatics, 2008, 24(24): 2940-2941.
[19] Chieu H L, Ng H T. Named entity recognition with a maximum entropy approach[C].
Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003,
2003: 160-163.
[20] Fritzler A, Logacheva V, Kretov M. Few-shot classification in named entity recognition
task[C]. Proceedings of the 34th ACM/SIGAPP Symposium on Applied Computing, 2019:
993-1000.
[21] Bari M S, Joty S, Jwalapuram P. Zero-resource cross-lingual named entity recognition[C].
Proceedings of the AAAI Conference on Artificial Intelligence, 2020: 7415-7423.
[22] Collobert R, Weston J. A unified architecture for natural language processing: Deep neural
networks with multitask learning[C]. Proceedings of the 25th international conference on
Machine learning, 2008: 160-167.
[23] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J].
Journal of machine learning research, 2011, 12(ARTICLE): 2493− 2537.
[24] Luo G, Huang X, Lin C-Y, et al. Joint entity recognition and disambiguation[C]. Proceedings
of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015: 879-
888.
[25] Ma X, Hovy E. End-to-end sequence labeling via bi-directional lstm-cnns-crf[J]. arXiv
preprint arXiv:.01354, 2016.
[26] Chiu J P, Nichols E.Named entity recognition with bidirectional LSTM-CNNs[J].
Transactions of the association for computational linguistics, 2016, 4: 357-370.
[27] Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity
recognition[J]. arXiv preprint arXiv:.01360, 2016.
[28] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations, 2018:
arXiv:1802.05365.
[29] Devlin J, Chang M-W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for
language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[30] Straková J, Straka M, Hajič J. Neural architectures for nested NER through linearization[J].
arXiv preprint arXiv:.06926, 2019.
[31] 李冬梅, 张扬, 李东远. 实体关系抽取方法研究综述[J]. 计算机研究与发展, 2020,
57(7): 25.
[32] 王久阳. 基于实体关系联合抽取方法的情感倾向性分析研究[D]. 2020.
[33] Mintz M, Bills S, Snow R, et al. Distant supervision for relation extraction without labeled
data[C]. Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the
51
4th International Joint Conference on Natural Language Processing of the AFNLP, 2009:
1003-1011.
[34] Yao L, Riedel S, Mccallum A. Collective cross-document relation extraction without labelled
data[C]. Proceedings of the 2010 Conference on Empirical Methods in Natural Language
Processing, 2010: 1013-1023.
[35] Hoffmann R, Zhang C, Ling X, et al. Knowledge-based weak supervision for information
extraction of overlapping relations[C]. Proceedings of the 49th annual meeting of the
association for computational linguistics: human language technologies, 2011: 541-550.
[36] Surdeanu M, Tibshirani J, Nallapati R, et al. Multi-instance multi-label learning for relation
extraction[C]. Proceedings of the 2012 joint conference on empirical methods in natural
language processing and computational natural language learning, 2012: 455-465.
[37] Ren X, Wu Z, He W, et al. Cotype: Joint extraction of typed entities and relations with
knowledge bases[C]. Proceedings of the 26th International Conference on World Wide Web,
2017: 1015-1024.
[38] Zeng D, Liu K, Lai S, et al. Relation classification via convolutional deep neural network[C].
Proceedings of COLING 2014, the 25th international conference on computational linguistics:
technical papers, 2014: 2335-2344.
[39] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-
supervised learning[C]. Proceedings of the 48th annual meeting of the association for
computational linguistics, 2010: 384-394.
[40] Zeng X, He S, Liu K, et al. Large scaled relation extraction with reinforcement learning[C].
Thirty-Second AAAI Conference on Artificial Intelligence, 2018.
[41] Shen Y, Huang X-J. Attention-based convolutional neural network for semantic relation
extraction[C]. Proceedings of COLING 2016, the 26th International Conference on
Computational Linguistics: Technical Papers, 2016: 2526-2536.
[42] Jat S, Khandelwal S, Talukdar P J a P A. Improving distantly supervised relation extraction
using word and entity based attention[J]. arXiv preprint arXiv:.06987, 2018.
[43] Lin Y, Liu Z, Sun M. Neural relation extraction with multi-lingual attention[C]. Proceedings
of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1:
Long Papers), 2017: 34-43.
[44] Ye Z-X, Ling Z-H. Distant supervision relation extraction with intra-bag and inter-bag
attentions[J]. arXiv preprint arXiv:.00143, 2019.
[45] Goldberg Y, Levy O. word2vec Explained: deriving Mikolov et al.'s negative-sampling word-
embedding method[J]. arXiv preprint arXiv:1402.3722, 2014.
[46] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[C].
Proceedings of the 2014 conference on empirical methods in natural language processing
(EMNLP), 2014: 1532-1543.
52
[47] Joshi M, Chen D, Liu Y, et al. Spanbert: Improving pre-training by representing and predicting
spans[J]. Transactions of the Association for Computational Linguistics, 2020, 8: 64-77.
[48] Nan G, Guo Z, Sekulić I, et al. Reasoning with latent structure refinement for document-level
relation extraction[J]. arXiv preprint arXiv:.06312, 2020.
[49] Katiyar A, Cardie C. Going out on a limb: Joint extraction of entity mentions and relations
without dependency trees[C]. Proceedings of the 55th Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers), 2017: 917-928.
[50] Miwa M, Bansal M. End-to-end relation extraction using lstms on sequences and tree
structures[J]. arXiv preprint arXiv:.00770, 2016.
[51] Bekoulis G, Deleu J, Demeester T, et al. Joint entity recognition and relation extraction as a
multi-head selection problem[J]. Expert Systems with Applications, 2018, 114: 34-45.
[52] Nguyen D Q, Verspoor K. Convolutional neural networks for chemical-disease relation
extraction are improved with character-based word embeddings[J]. arXiv preprint
arXiv:.10586, 2018.
[53] Zheng S, Wang F, Bao H, et al. Joint extraction of entities and relations based on a novel
tagging scheme[J]. arXiv preprint arXiv:.05075, 2017.
[54] Zeng X, Zeng D, He S, et al. Extracting relational facts by an end-to-end neural model with
copy mechanism[C]. Proceedings of the 56th Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers), 2018: 506-514.
[55] Takanobu R, Zhang T, Liu J, et al. A hierarchical framework for relation extraction with
reinforcement learning[C]. Proceedings of the AAAI conference on artificial intelligence,
2019: 7072-7079.
[56] Fu T-J, Li P-H, Ma W-Y. Graphrel: Modeling text as relational graphs for joint entity and
relation extraction[C]. Proceedings of the 57th Annual Meeting of the Association for
Computational Linguistics, 2019: 1409-1418.
[57] Li J, Huang G, Chen J, et al. Dual CNN for relation extraction with knowledge-based attention
and word embeddings[J]. Computational intelligence neuroscience, 2019, 2019.
[58] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural
information processing systems, 2017, 30.
[59] Zeng D, Zhang H, Liu Q. Copymtl: Copy mechanism for joint extraction of entities and
relations with multi-task learning[C]. Proceedings of the AAAI conference on artificial
intelligence, 2020: 9507-9514.
[60] Yu B, Zhang Z, Shu X, et al. Joint extraction of entities and relations based on a novel
decomposition strategy[J]. arXiv preprint arXiv:.04273, 2019.
[61] Wei Z, Su J, Wang Y, et al. A novel cascade binary tagging framework for relational triple
extraction[J]. arXiv preprint arXiv:.03227, 2019.
[62] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating
errors[J]. nature, 1986, 323(6088): 533-536.
53
[63] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural computation, 1997, 9(8):
1735-1780.
[64] Bengio Y, Ducharme R, Vincent P. A neural probabilistic language model[J]. Advances in
Neural Information Processing Systems, 2000, 13.
[65] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word representations[J]. arXiv
preprint arXiv:.05365, 2018.
[66] Indurkhya N, Damerau F J. Handbook of natural language processing[M]. Chapman and
Hall/CRC, 2010.
[67] Frome A, Corrado G S, Shlens J, et al. Devise: A deep visual-semantic embedding model[J].
Advances in neural information processing systems, 2013, 26.
[68] Wolf T, Debut L, Sanh V, et al. Transformers: State-of-the-art natural language processing[C].
Proceedings of the 2020 conference on empirical methods in natural language processing:
system demonstrations, 2020: 38-45.
[69] 师岩, 王宇, 吴水清. 基于 Self-Attention 模型的机器翻译系统[J]. 计算机与现代化,
2019(7): 9-14.
[70] Cho K, Van Merriënboer B, Gulcehre C, et al. Learning phrase representations using RNN
encoder-decoder for statistical machine translation[J]. arXiv preprint arXiv:. 2014.
[71] Sutton C, Mccallum A. An introduction to conditional random fields[J]. Foundations Trends®
in Machine Learning, 2012, 4(4): 267-373.
[72] 叶子, 陈小平, 张波. 融合预训练模型的中文知识图谱问题生成方法[J]. 小型微型计算
机系统, 2020.
[73] Ouchi H, Shindo H, Matsumoto Y. A span selection model for semantic role labeling[J]. arXiv
preprint arXiv:.02245, 2018.
[74] Riedel S, Yao L, Mccallum A. Modeling relations and their mentions without labeled text[C].
Joint European Conference on Machine Learning and Knowledge Discovery in Databases,
2010: 148-163.
[75] Li S, He W, Shi Y, et al. Duie: A large-scale chinese dataset for information extraction[C].
CCF International Conference on Natural Language Processing and Chinese Computing,
2019: 791-800.
[76] Zheng S, Wang F, Bao H, et al. Joint extraction of entities and relations based on a novel
tagging scheme[J], 2017.
[77] Zeng X, He S, Zeng D, et al. Learning the extraction order of multiple relational facts in a
sentence with reinforcement learning[C]. Proceedings of the 2019 conference on empirical
methods in natural language processing and the 9th international joint conference on natural
language processing (EMNLP-IJCNLP), 2019: 367-377.
[78] Zhang R H, Liu Q, Fan A X, et al. Minimize exposure bias of seq2seq models in joint entity
and relation extraction[J]. arXiv preprint arXiv:.07503, 2020.
54
[79] 陈仁杰, 郑小盈, 祝永新. 融合实体类别信息的实体关系联合抽取[J]. 计算机工程,
2021, 48(3): 8.
[80] Gu D, Wang Y, Song B. Joint Entity and Relation Extraction Method Based on Knowledge
Representation Attention[C]. 2021 6th International Symposium on Computer and
Information Processing Technology (ISCIPT), 2021: 760-763.
[81] Zhao K, Xu H, Cheng Y, et al. Representation iterative fusion based on heterogeneous graph
neural network for joint entity and relation extraction[J]. Knowledge-Based Systems, 2020,
219: 106888.
[82] Hang T, Feng J, Wu Y, et al. Joint extraction of entities and overlapping relations using source-
target entity labeling[J]. Expert Systems with Applications, 2021, 177: 114853.
[83] Gardent C, Shimorina A, Narayan S, et al. Creating training corpora for nlg micro-
planning[C]. 55th annual meeting of the Association for Computational Linguistics (ACL),
2017.
55
第七章 攻读硕士学位期间 学术活动及成果情况
1) 参加 学术交流与科研项目
(1). 安徽省质量工程项目,项目名称:互联网+信息聚合与安全创客实验室,项目编号:
2016ckjh141,2017-2019.
2) 发表 学术论文(含专利和软件著作权)
(1). Cheng W, Chen S. Sentiment Analysis of Financial Texts Based on Attention Mechanism of
FinBERT and BiLSTM[C]. 2021 International Conference on Computer Engineering and
Application (ICCEA), 2021: 73-78.(EI 收录)
56
特别声明
本学位论文是在我的导师指导下独立完成的。在硕士研究生学习期间,我的
导师要求我坚决抵制学术不端行为。在此,我郑重声明,本论文无任何学术不端
行为,如果被发现有任何学术不端行为,一切责任完全由本人承担。
学位论文作者签名:
签字日期:2022 年 5 月 21 日
57