You are on page 1of 40

开放域中文知识图谱自动构建技术

!"#$%&'
()*+,-./01234
56 789:;<=>

2021年3月24日
人工智能的发展

实现对知识持续增量的自动获取,形成涵盖数十亿
实体规模的多源、多学科和多数据类型的知识图谱。

认知智能
感知智能 能理解会思考
能听会说,能看会认

计算智能
能存会算

完胜人类 与人类媲美 与人类有一定差距


知识的使用

知识的结构化表
示和存储

知识图谱
《大词林》

背 知
景 识
知 提
识 取
文本理解
知识图谱:知识图谱构建核心问题

明星 省会 城市

1 [赵丽颖], 1987年10月16日出生于[河北省][廊坊市],华
语影视女演员、制片人、流行歌手,毕业于[廊坊市电子
命名实体识别(小样本、跨语言、开放域) 信息工程学校] 。 高校

2
关系的自动识别(上下位关系、开放域横向关系)

3
上下位关系 横向关系
水果
香蕉
苹果
实体缺失属性的自动补全

颜色 科目 属 颜色 属
知识图谱:命名实体识别

传统命名实体识别 开放域命名实体识别
细粒度命名实体识别


公司 人 自
金融 动
预 产品
人名 生
先 股票 姓名 成
定 实
义 明星 手机 品牌 体
标 地名

签 娱乐 成功人士 CEO 型
体 节目 科技产品 标
系 签
机构名 影院
… …
【乔布斯】发明了【苹果】手机
知识图谱:命名实体识别

• 传统命名实体识别
• 通用领域:人名、地名或机构名

B-ORG O O B-PER I-PER

中文句 美联储 主席 是 本 · 伯南克

监督学习+统计模型
半监督+Bootstrapping 深度学习模型

词典+启发式规则

1991 1999 2003 2013 …


知识图谱:LSTM+CNN+CRF
Skip-gram word embedding
知识图谱:跨语言命名实体识别

• 借助英文丰富资源帮助中文实体识别
• 不同的语言之间包含互补的实体线索
• 中文“本”很少作为实体,但是其英文翻译“Ben”经常作为实体

Chinese Sentence:

Bilingual Lexicon
is; Bernanke;
Ben;
FED ; am;
books;
Federal Reserve ; chairman; are;
originally;
president; right

English Translation: Federal Reserve Chairman is Ben Bernanke.

• 利用双语词典作为桥梁丰富源语言语义表示
• 构建一个词典映射函数来学习未登录词的跨语言语义表示

<Improving Low Resource Named Entity Recognition using Cross-lingual Knowledge Transfer . IJCAI 2018.>
知识图谱:跨语言命名实体识别

B/I/O B/I/O B/I/O veci


CRF layer A A A A
LSTM layer
Start End

POS-tag Vector
tj-2 tj-1 tj tj+1
Hidden Bilingual lexicon representations by LSTM-based Network

veci=∑! 𝛼𝑗t𝑗
BiLSTM layer

tj-2 tj-1 tj tj+1 wi


Input Bilingual lexicon representations by attention-based Network
wi-1 ci-1 veci-1 wi ci veco wi+1 ci+1 veci+1

Model Dutch Spanis Chines


h e veco = M ×
wi
LSTM-CRF 81.74 83.41 74.13
Bilingual lexicon representations by mapping function
+6.2% LM-LSTM-CRF 86.24 85.13 79.65
LSTM-CRF+BL+Mlstm 87.94 86.03 82.64
LSTM-CRF+BL+Mlstm 88.39 86.42 83.07
知识图谱:阅读理解命名实体识别

多个命名实体出现嵌套情况

机构名

【【天津市】商业银行】

城市名 人名

Q:
【【张自忠】路】
A:

街道名
知识图谱:阅读理解命名实体识别

自动构建问题

<A Unified MRC Framework for Named Entity Recognition, ACL 2020>
知识图谱:阅读理解命名实体识别
识别步骤:
Step1:确定篇章每个词语是否为
开始或结束标记(多个二分类)。
Step2:确定某个起始和结束标记
对应的Span是否为命名实体。
知识图谱:阅读理解命名实体识别

训练语料数量

零样本领域迁移
知识图谱:开放域命名实体识别

• 类别均为事先定好的,仍为分类问题
• 开放域命名实体:类别更多,且不限定

• 药品名:阿司匹林、双黄连口服液;
人 自
• 会议名:20国集团伦敦峰会、中央经济工作会议; 产品 动
• 电影名:《泰囧》、《苹果》; 生
姓名 成
• …… 实
手机 品牌 体

成功人士 CEO 型
• 类别更细,且有层次 科技产品 标
? 签
• 球队名:达拉斯小牛队、国际米兰;
@
• 企业名:微软、中石油;
A 【乔布斯】发明了【苹果】手机
• 高校名:哈尔滨工业大学、麻省理工学院;
• ……
知识图谱:基于多信息源的上位词抽取

对一个陌生实体的认知过程

猜 & 问
按字面信息推理 & Web 挖掘

可口可乐公司

认知类别,融合到知识体系中 获取类别,融入语义词典中
知识图谱:基于多信息源的上位词获取

l BCDEFGHIJK-.LMN
1 O0PQ
2 RSTUDEFV
3W4X
lYZX[DEFG\]^
知识图谱:上位词获取

① ②
获 获
取 取
候 多来源获取命名实体类型,无需任何标注数据 候
选 (EMNLP) 选
类 类
别 别
词 词
知识图谱:知识图谱构建核心问题

明星 省会 城市

1 [赵丽颖], 1987年10月16日出生于[河北省][廊坊市],华
语影视女演员、制片人、流行歌手,毕业于[廊坊市电子
命名实体识别(小样本、跨语言、开放域) 信息工程学校] 。 高校

2
关系的自动识别(上下位关系、开放域横向关系)

3
上下位关系 横向关系
水果
香蕉
苹果
实体缺失属性的自动补全

颜色 科目 属 颜色 属
知识图谱:关系挖掘

1 上下位关系挖掘 2 横向关系挖掘
知识图谱:基于知识库弱监督的关系抽取

• 优点
• 自动标注语料,数据量增多 Barack Obama, EmployedBy, United States
Knowledge Base
• 不受领域限制,关系丰富 Triples: Barack Obama, BornIn, United States

• 发现新的关系实例
Latent Label Sentence

• 缺点 EmployedBy
S1: United States President Barack Obama meets with
NBA player LeBron James Today.
Latent
Sentence
• 知识库回标过程引入大量噪声 Label
BornIn
S2: Obama was born in the United States just as he
EmployBy has
S1:always
United said.
States President Barack Obama meets with
NBA player LeBron James Today.
--- S3: Obama ran for the united States Senate in 2004.
BornIn S2: Obama was born in the United States just as he has
always said.
EmployBy S2: Obama was born in the United States just as he has
需要抗噪模型 always said.
BornIn S1: United States President Barack Obama meets with
NBA player LeBron James Today.
知识图谱:基于深层记忆网络的弱监督关系抽取算法

Entity-Pair Representation
Entity Pair = (Obama, United States ) Sentence Representation
Relation 1
Obama is the 44 th President of the United States. Relation 2
Obama ran for the United States Senate in 2004. ... Binary
... ... Classification
... ... Relation i
Obama was born in the United States as he said. ...
Word-Level Relation-Level Relation k
Memory Network Memory Network

vec

Embedding
hop 2 ∑

Attention Linear

Sentence 不同词对于实体对间关系建模的
Context words
Obama was born in the United as
Context words
he said
hop 1 ∑ 重要程度不一样
States Attention Linear

Entity Pair
Obama United
States

基于上下文的注意力模型
知识图谱:基于深层记忆网络的弱监督关系抽取
Entity-Pair Representation
Entity Pair = (Obama, United States ) Sentence Representation
Relation 1
Obama is the 44 th President of the United States. Relation 2
Obama ran for the United States Senate in 2004. ... Binary
... ... Classification
... ... Relation i
ObamaBarack
was born inObama, United States
EmployedBy,
the United States as he said. ...
Knowledge Base Barack Obama, EmployedBy, United States
Knowledge Base Word-Level Relation-Level
Triples: Barack Obama, BornIn, United States Relation k
Triples: Memory
Barack Obama, BornIn, United Network
States Memory Network

建模某一关系时,不同的实例重要性不一致
atent Label Sentence
Latent Label Sentence Sentence
Representation
S1: United
S1: States President
PresidentBarack
BarackObama
Obamameets
meetswith
with Layer 2
判断
Layer 2 Layer 2
mployedBy United States
EmployedBy NBA player LeBron James Today. Attention Attention Attention
工作 NBA player LeBron James Today.
关系
BornIn S2: Obama
S2: was born
Obama was born in
inthe
theUnited
UnitedStates
Statesjust
justasashehe ...
BornIn has
...
has always said. Layer 1 Layer 1 Layer 1
always said.
Attention Attention Attention
---
--- S3: 建模不同关系之间的依赖
S3: Obama
Obama ran for
ran for the
the united
unitedStates
StatesSenate
Senateinin2004.
2004.
Relation 1
… Relation i
… Relation 26

(A, capital, B) (A, contains, B)


基于关系实例的注意力模型 基于关系依赖的注意力模型
<Feng et al. Effective Deep Memory Networks for Distant Supervised Relation Extraction. IJCAI 2017.>
知识图谱:基于深层记忆网络的弱监督关系抽取

Entity-Pair Representation
Entity Pair = (Obama, United States ) Sentence Representation
Relation 1
Obama is the 44 th President of the United States. Relation 2
Obama ran for the United States Senate in 2004. ... Binary
... ... Classification
... ... Relation i
Obama was born in the United States as he said. ...
Word-Level Relation-Level Relation k
Memory Network Memory Network

获得了远超于当前关系分类结果的准确率
vec

Embedding Sentence
hop 2 ∑ Representation Layer 2 Layer 2 Layer 2

Attention Linear Attention Attention Attention

Sentence ...
Context words Context words hop 1 ∑ ... Layer 1 Layer 1 Layer 1
Obama was born in the United as he said
States Attention Linear Attention Attention Attention

Entity Pair
Obama United
States
Relation 1
… Relation i
… Relation 26

基于上下文的注意力模型 基于关系实例的注意力模型 基于关系依赖的注意力模型


知识图谱:实体关系异步抽取

4类主要的实体关系联合抽取方法皆采用异步联合抽取

实体集优先法 实体驱动法

元组⽣成法 实体图法
知识图谱:实体关系异步抽取

p 中间冗余信息
p 遍历全部实体对建模关系(N*N遍历)

p 实体模型和关系模型间交互有限
p 关系建模反馈实体建模(“出生地”->人物)

p 预测时错误累计
p 实体模型或关系模型的错误会向下传递
!"#$%&'(
知识图谱:实体关系联合抽取

p 动机1:关系扮演重要的角色,不应只作为输出层的预测类别标签
p 采用阅读理解框架,将关系作为输入查询实体(头尾实体)

p 为关系构造自然语言描述,用以语义建模

p 动机2:重叠元组的关系类别通常是不同的
(美国,总统,奥巴马),(奥巴马,出生于,檀香山市)

p 关系可以解码大多数重叠元组,以关系为驱动而非实体为驱动可以应对重叠元组问题

p 逐次输入关系描述,模型每次仅关注一种关系类别的实体关系元组抽取
知识图谱:实体关系联合抽取

同步联合抽取模型技术层面涉及两个方面:关系问询策略和同步联合建模
同步联合建模分为四个子任务:关系类别判定、NER识别、元组头实体识别、元组尾实体识别
知识图谱:知识图谱构建核心问题

明星 省会 城市

1 [赵丽颖], 1987年10月16日出生于[河北省][廊坊市],华
语影视女演员、制片人、流行歌手,毕业于[廊坊市电子
命名实体识别(小样本、跨语言、开放域) 信息工程学校] 。 高校

2
关系的自动识别(上下位关系、开放域横向关系)

3
上下位关系 横向关系
水果
香蕉
苹果
实体缺失属性的自动补全

颜色 科目 属 颜色 属
知识图谱:属性补全

• 属性是刻画一个实体的重要知识,是知识图谱中重要的核心知识。
• 在自动构建知识图谱时,实体类别与其属性类型无预先定义,需要自动获取。

分布区域 科目 名称 营业额

功用 产地 成立时间 员工数
苹 苹
果 果
味道 经营范围
CEO
颜色

纲 界 总部 官网

这是一个水果 这是一家公司
知识图谱:属性补全

例子:借助百度百科补全知识库属性

l 从《大词林》中随机抽取687,392个实体。
l 属性数据:根据随机选择的实体,从百度百科中获取2,808,161 对实体属性关系

l 属性覆盖结果:
l 有395,327 实体具有至少一个属性,292,065 实体没有属性

l 属性覆盖率为57.51%

同样的上位词
知识图谱:基于路径表示的属性补全

物 抽象事物
thing abstract thing

生物
biology
机构


organization

… …
食品
food 植物
plant

ℋ … … … 公司
水果
ℛ! company
fruit

𝑒# , ℎ$ , (ℎ# , ℎ$ )
苹果
apple

界(Kingdom) 总部地点(location)
ℰ 门(Phylum) 成立时间
纲(Class) 经营范围
目(Order) 公司性质
科(Family) 公司口号
ℛ" 属(Genus) 创始人
(𝑒# , 𝑎$ ) 𝒜 种(Species) 现任董事长
分布区域(distribution area) 首席执行官
营养价值(Nutritional 首席财务官
value ) 首席设计师
禁忌(dietetic restraint )

h+r=t ? f(ph)=at phMa = at


知识图谱:基于路径表示的属性补全

正例 反例
知识图谱:基于路径表示的属性补全
知识图谱:条件性知识图谱构建

样例句子: 巴拉克·奥巴马(Barack Obama)从2009年至2017


年担任美国总统。
- 事实: (Barack Obama, 总统, 美国)

事实: (Barack Obama, 总统, 美国) 2019年这个事实还正确吗?

巴拉克·奥巴马(Barack Obama)从2009年至2017年担任美国总统

条件在陈述事实中起着至关重要的作用:如果没有精确给出的条
件,我们将无法验证事实的真实性。

(奥巴马, 总统,美国) (第五任总统,任职,2007-2012)

Condition
知识图谱:融入条件的知识图谱构建
S1. 二酰基甘油激酶参与位于Jurkat T细胞的白介素-2合成物的调节。 … … S6. 我们发现,细胞外酸性pH降低位于Jurkat T细胞的
TRPV5 / V6通道的活性,而碱性pH增加该TRPV5 / V6通道的活性。
元组抽取

事实: ( 二酰基甘油激酶, 参与, {白介素-2合成物: 调节} ) S1.


条件: (白介素-2合成物, 位于, Jurkat T 细胞 )


S6.
事实: ( 细胞外酸性pH, 降低, {TRPV5/V6通道: 活性} )
事实: ( 碱性pH, 增加, {TRPV5/V6通道: 活性})
条件: ( TRPV5/V6通道, 位于, Jurkat T细胞 )

<The Role of "Condition": A Novel Scientific Knowledge Graph Representation and Construction Model. ACM SIGKDD 2019>
知识图谱:融入条件的知识图谱构建
S1. 二酰基甘油激酶参与位于Jurkat T细胞的白介素-2合成物的调节。 … … S6. 我们发现,细胞外酸性pH降低位于Jurkat T细胞的
TRPV5 / V6通道的活性,而碱性pH增加该TRPV5 / V6通道的活性。
元组抽取

事实: ( 二酰基甘油激酶, 参与, {白介素-2合成物: 调节} ) S1.


条件: (白介素-2合成物, 位于, Jurkat T 细胞 )


S6.
事实: ( 细胞外酸性pH, 降低, {TRPV5/V6通道: 活性} )
事实: ( 碱性pH, 增加, {TRPV5/V6通道: 活性})
条件: ( TRPV5/V6通道, 位于, Jurkat T细胞 )

事实 / 无条件

!"#$%&
二酰基甘油激酶
细胞外酸性pH
参与

增加 白介素-2合成物

TRPV5/V6通道
碱性pH

知识图谱(无条件性)
知识图谱:融入条件的知识图谱构建
S1. 二酰基甘油激酶参与位于Jurkat T细胞的白介素-2合成物的调节。 … … S6. 我们发现,细胞外酸性pH降低位于Jurkat T细胞的
TRPV5 / V6通道的活性,而碱性pH增加该TRPV5 / V6通道的活性。
元组抽取
'()#$%& K2
事实: ( 二酰基甘油激酶, 参与, {白介素-2合成物: 调节} ) S1. K1
事实
条件: (白介素-2合成物, 位于, Jurkat T 细胞 )
事实
… 事实
S6. 条件 条件 条件
事实: ( 细胞外酸性pH, 降低, {TRPV5/V6通道: 活性} ) 事实
事实: ( 碱性pH, 增加, {TRPV5/V6通道: 活性})
条件: ( TRPV5/V6通道, 位于, Jurkat T细胞 )

事实 / 无条件 增加 参与
减弱 位于
位于

j.
.
bj

ob
!"#$%&

subj.
二酰基甘油激酶

su

subj.
obj.

ob
su

obj.

subj

ob
bj

j.
细胞外酸性pH

j.
.

.
参与

细胞外 调节

酸性pH 活性 二酰基甘油激酶
增加 白介素-2合成物
at
tr 碱性pH attr.
TRPV5/V6通道 .
碱性pH TRPV5/V6通道 Jurkat T细胞 白介素-2合成物

知识图谱(无条件性) 条件性知识图谱
知识图谱:条件性知识图谱构建

'()#$%& S1. S6.

_`abcde
• fg_`bc 事实
事实
• hi,_`jklm 条件 条件
• fginoa 事实
• pqrP@st
增加 参与
减弱 位于
位于

j.
.
bj

ob
!"#$%&

subj.
二酰基甘油激酶

su

subj.
obj.

ob
su

obj.

subj

ob
bj

j.
细胞外酸性pH

j.
.

.
参与

*+,-.

细胞外 调节

酸性pH 活性 二酰基甘油激酶
增加 白介素-2合成物
at
tr 碱性pH attr.
TRPV5/V6通道 .
碱性pH TRPV5/V6通道 Jurkat T细胞 白介素-2合成物

知识图谱(无条件性) 条件性知识图谱
知识图谱:条件性知识图谱构建

任务:从文本中提取事实和/或条件元组

方法:动态的多输入多输出模型

( 任务标签𝒴 ) :给定一个句子,每个词语将被分配一个标签,该标签表示它在元组中的角色。
非“ O”标签的格式为“ B / I-XYZ”,其中
• B: beginning, I: inside;
• X ∈ { fact, condition };
• Y ∈ { 1: subject; 2: relation; 3: object };
序列标注
• Z ∈ { entity, attribute, predicate }.

alkaline pH increases the activity of TRPV5/V6 channels

B-f1c I-f1c B-f2p O B-f3a O B-f3c I-f3c

fact entity in subject fact predicate for relation fact attribute in object fact entity in object
<Multi-Input Multi-Output Sequence Labeling for Joint Extraction of Fact and Condition Tuples from Scientific Text, EMNLP 2019.>
感 谢 聆 听!

You might also like