You are on page 1of 15

计算机研究与发展 DOI:

10.
7544
?is
sn1000-1239.2016.20160020

our
nal
 of 
Compu
ter 
Res
ear
ch 
and 
Deve
lopmen
t  53( 2):247-261,2016

知识表示学习研究进展

刘知远   孙茂松   林衍凯   谢若冰


(清华大学计算机科学与技术系   北京  100084)
(智能技术与系统国家重点实验室(清华大学)  北京  100084)
(清华信息科学与技术国家实验室(筹)  北京  100084)

li
uzy@t
singhua. cn)
edu.

Knowl
edg
e Repr
esen
tat
ion 
Lea
rnng:A 
i Rev
iew

iu 
Zhyuan,Sun 
i Maosong,L
in  i,and 
Yanka Xie 
Ruob
ing
( tmen
Depar t of 
Computer 
Science and 
Technology,Ts
inghua 
Univ
e r
siy,Be
t ijng100084)


Sta
t Key 
e  Labora
to of 
ry  In
telligen Te
t  chnol
ogy and 
Sys
tems (
Tsi Un
nghua  i
versi
ty),Bei
jing100084)

Tsnghua 
i Nai
tona
l  o
Labra
to fo
ry  r  rma
Info tion 
Scenc
i e and 
Techno
logy,Be
ijng100084)

Abst
rac
t Knowledge basesa
 re 
usual
ly r
epre
sented 
as 
networks with 
ent
itie
s a
s nodesand
  r
 el
ati
onsa
 s
edge
s.Wit
h ne
two rk 
r epr
esentat
ion o
f knowledge 
base ,
s spe c
ific
 algor
ithms havet
 o be 
des
igned
 to
st
oreand 
  u t
il
ize 
knowledge ba
ses,which 
are usual
lyt
 imeconsumi
  ng 
and suf
ferf
 rom dat
a spars
ity

ssue.Recenty,r
l epr
esentat
ionl
 ea
rnng,de
i legated 
by de
epl
 ea
rning,hasa
 tt
ract
ed m
 anya
 ttent
ions
 in
na
tural
 language proc
e s
sing,computerv
 is
ion and spe
ech ana
lys
is.Repre
sentat
ion
 learn
ing 
aims
 to
pr
oje
ct thei
 ntere
sted obje
cts
 in
to 
a dense,rel-va
a l
ued and
 low-d
imens
ional
 semant
ics
 pace,wher
eas
knowl
edge
 repr
esen
tat
ion
 le
arn
ing
 focus
es on r
epr
esen
tat
ion
 le
arn
ing o
f en
tit
ies
 and
 re
lat
ions
 in
knowledge 
bas e
s.Repr e
senta
tion l
earn
ing 
can e
ffi
cien
tl me
y  asures
 emanti
c co
r r
elat
ions o
f en
tit
ies and
rel
atons,a
i ll
eviate spa
rsi
ty i s
sues, and i
 sgnif
icant
ly im rove
  p  t  p he erf
o rmance f
 o k nowledge
acqui
sit
ion,f usion and
 inference.In this paper, we will
 introduc
e t he recent
 advanc e
s o f

epr
esen
tat
ion
 le
arn
ing,summa
riz
e t
he key cha
llenge
s and pos
sib
le so
lut
ions,and
 fur
the
r i
 gve
 a

utur
e ou
tlook 
ont
 he
 re
sea
rch 
and 
app
lic
ati
on 
dir
ect
ions.

Ke
y wo
rds knowl
edge
 repr
esen
tat
ion;r
epr
esen
tat
ion
 le
arn
ing;knowl
edge g
raph;de
ep l
earn
ing;

ist
ribu
ted
 repr
esen
tat
ion

摘   要   人们构建的知识库通常被表示为网络形式,节点代表实体,连边代表实体间的关系 .在网络表示
形式下,人们需要设计专门的图算法存储和利用知识库,存在费时费力 的 缺 点,并 受 到 数 据 稀 疏 问 题 的
困扰 .最近,以深度学习为代表的表示学习技术受到广泛关注 .表示学习 旨 在 将 研 究 对 象 的 语 义 信 息 表
示为稠密低维实值向量,知识表示学习则面向知识库中的实体和关系进行表示学习 .该技术可以在低维
空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知 识 获 取、融 合 和 推 理 的 性 能 得 到
显著提升 .介绍知识表示学习的最新进展,总结该技术面临的主要挑战 和 可 能 解 决 方 案,并 展 望 该 技 术
的未来发展方向与前景 .
关键词   知识表示;表示学习;知识图谱;深度学习;分布式表示
中图法分类号  TP391

2016-01-12;修回日期:
  收稿日期: 2016-01-15
  基金项目:国家“九七三”重点基础研究发展计划基金项目(
2014CB340501);国家自然科学基 金 项 目( 61532010);清 华 大 学 自 主 科
61572273,
研计划基金项目(
2015THZ)
Th
is 
work 
was
 suppo
rted 
byt
 he 
Nat
iona
l Ba
sic 
Res
ear
ch 
Prog
ram 
of 
Chna(
i 973Pr
ogam)(
r 2014CB340501),t
he 
Nat
iona
l Na
tur
al
Sc
ienc
e Founda
tion 
of 
Chna (
i 61572273,
61532010),and 
Tsi
nghua 
Uni
ver
sit
y I
nit
iat
ive 
Sci
ent
if
ic 
Res
ear
ch 
Prog
ram (
2015THZ).
248 计算机研究与发展  2016,53(
2)

   知识库将人类 知 识 组 织 成 结 构 化 的 知 识 系 统 . 涉及它们,对这些实 体 的 语 义 或 推 理 关 系 的 计 算 往
人们花费大量精力 构 建 了 各 种 结 构 化 的 知 识 库,如 往准确率极低 .
语言知识库 Wo
r t 、世界知 识 库 Fr
dNe

1]
eeba
se 等.

2]
近年来,以深 度 学 习 [4]为 代 表 的 表 示 学 习 [5]技
知识库是推动人工智能学科发展和支撑智能信息服 术异军突起,在语音识别、图像分析和自然语言处理
务应用(如智能搜索、智能问答、个性化推荐等)的重 领域获得广泛关注 .表 示 学 习 旨 在 将 研 究 对 象 的 语
要基础技术 .为了改进信息服务质量,国内外互联网 义信息表示为稠密 低 维 实 值 向 量 .在 该 低 维 向 量 空
公司(特别是搜索 引 擎 公 司)纷 纷 推 出 知 识 库 产 品, 间中,
2 个对象距离越近则说明其语义相似度越高 .
如谷歌知识图谱、微软 B
i Sa
ng  t
ori、百度知心以及搜 顾名 思 义,知 识 表 示 学 习 是 面 向 知 识 库 中 的 实
狗知立方等 .著 名 的 IBM 
Wason 问 答 系 统 和 苹 果
t 体和关系进行表示 学 习 .该 方 向 最 近 取 得 了 重 要 进

iri语音助理的背后,知识库 也 扮 演 着 重 要 角 色 .如 展,可以在低维空间 中 高 效 计 算 实 体 和 关 系 的 语 义
谷歌在介绍知识图 谱 时 所 说 的 “构 成 这 个 世 界 的 是 联系,有效解决数 据 稀 疏 问 题,使 知 识 获 取、融 合 和
实体,而非字符串”.可以说,知识库的兴起拉开了智 推理的性能得到显著提升 .
能信息检索从字符串匹配跃迁至智能理解的序幕 . 由于 上 述 优 点,知 识 表 示 学 习 引 起 了 广 泛 关 注
知识库描述 现 实 世 界 中 实 体 (
eni
tty)间 的 关 系 和研究兴趣,但该方向仍然面临着诸多挑战 .本文将

rea
lton).这些知识蕴藏在无(半)结 构 的 互 联 网 信
i 介绍知识表示学习 的 最 新 进 展,总 结 该 技 术 面 临 的
息中,而知识库则 是 有 结 构 的 .因 此,知 识 库 的 主 要 主要挑战和可能解 决 方 案,并 展 望 该 技 术 的 未 来 发
研究目标是:从无(半)结 构 的 互 联 网 信 息 中 获 取 有 展方向与前景 .
结构知识,自动融合构建知识库、服务知识推理等相
关应用 .知识表示是知识获取与应用的基础,因此知 1  知识表示学习简介
识表示学习问题是贯穿知识库的构建与应用全过程
的关键问题 . 在正式介绍知识表示学习的主要模型和挑战之
人 们 通 常 以 网 络 的 形 式 组 织 知 识 库 中 的 知 识, 前,本节首先介绍表示学习的基本概念和理论基础,
网络中每个节点代表实体(人名、地名、机构名、概念 以及知识表示学习的重要意义 .
等),而每条连边则代表实体间的关系 .因此,大部分 1  表示学习的基本概念
1.
知识往往可以用三元组(实体 1,关系,实体 2)来表 如前所述,表示学习的目标是,通过机器学习将
示,对应着知识库网络中的一条连边及其连接的 2 个 研究对象的语义信 息 表 示 为 稠 密 低 维 实 值 向 量 .本
实体 .这是知识库的通用表示方式,例如万维网联盟 文用黑斜体表示研 究 对 象 所 对 应 的 向 量 .以 知 识 库
(W3C)发 布 的 资 源 描 述 框 架 (rsour
e ce 
des
cri
pti
on 中的实体e 和关 系r 为 例,我 们 将 表 示 学 习 得 到 的
rk,RDF)技 术 标 准 ,就 是 以 三 元 组 表 示 向量表示为le 和lr.在该向量空间中,我们可以通过
[3]

ramewo
为基础的 .特别 是 在 谷 歌 提 出 知 识 图 谱 (
knowl
edge 欧氏距离或余弦距 离 等 方 式,计 算 任 意 2 个 对 象 之

gaphs)的概 念 后,这 种 网 络 表 示 形 式 更 是 广 受 认 间的语义相似度 .
可 .然而,基于网络形式的知识表示面临诸多挑战性 实际上,在表示学习之外,有更简单的数据表示
难题,主要包括如下 2 个方面: 方案,即独 热 表 示 (
one-ho
t r
epr
esen
tat
ion)6 .该 方
[]

1)计 算 效 率 问 题 .基 于 网 络 的 知 识 表 示 形 式 案也将研究对象表 示 为 向 量,只 是 该 向 量 只 有 某 一


中,每个实体均用不同的节点表示 .当利用知识库计 维非零,其他维度上的值均为 0.显而易见,为了将不
算实体间的语义或 推 理 关 系 时,往 往 需 要 人 们 设 计 同对象区分开,有多少个不同的对象,独热表示向量
专门的图算法来实现,存在可移植性差的问题 .更重 就有多长 .独热表示 是 信 息 检 索 和 搜 索 引 擎 中 广 泛
要的是,基于图的 算 法 计 算 复 杂 度 高、可 扩 展 性 差, 使用的词袋模型(
bag-o
f-wo
rds  l)7 的基础 .以
mode
[]

当知识库达到一定 规 模 时,就 很 难 较 好 地 满 足 实 时 中文为例,假如 网 页 中 共 有 W 个 不 同 的 词,词 袋 模


计算的需求 . 型中 的 每 个 词 都 被 表 示 为 一 个 W 维 的 独 热 表 示 向
2)数据稀疏问题 .与其他类型的大规模数据类 量 .在此基础上,词袋模型将每个文档表示为一个 W
似,大规模知识库也遵守长尾分布,在长尾部分的实 维向量,每一维表示对应的词在该文档中的重要性 .
体和关系上,面临 严 重 的 数 据 稀 疏 问 题 .例 如,对 于 与表示学习相比,独热表示无需学习过程,简单
长尾部分的罕见实 体,由 于 只 有 极 少 的 知 识 或 路 径 高效,在信息检索和自然语言处理中得到广泛应用 .
刘知远等:知识表示学习研究进展 249

但是独热表示的缺 点 也 非 常 明 显 .独 热 表 示 方 案 假 综上,我 们 在 表 1 总 结 了 现 实 世 界 与 内 隐 世 界
设所有对象都是相互独立的 .也就是说,在独热表示 的特点 .可以说,分布式表示和层次结构是人类智能
空间中,所有对象的向量都是相互正交的,通过余弦 的基础,也是表示学习和深度学习的本质特点 .
距离 或 欧 氏 距 离 计 算 的 语 义 相 似 度 均 为 0.这 显 然
Tab
le1 Cha
  rac
ter
ist
ics
 of 
Rea
l Wo
rld 
and
 In
terna
l Wo
rld
是不符合实际情 况 的,会 丢 失 大 量 有 用 信 息 .例 如, 表 1  现实世界与内隐世界的特点
“苹果”和“香蕉”虽 然 是 2 个 不 同 的 词,但 由 于 它 们
Cha
rac
ter
ist
ics  Di
scr
etene
ss  Hi
era
rchy
都属于水果,因 此 应 当 具 有 较 高 的 语 义 相 似 度 .显
Re
al 
Wor
ld  Di
scr
ete  Hi
era
rch
ica

然,独热表示无法有 效 利 用 这 些 对 象 间 的 语 义 相 似

nte
rna
l Wo
rld  Con
tinuous  Hi
era
rch
ica

度信息 .这也是词袋模型无法有效表示短文本、容易
受到数据稀疏问题影响的根本原因 .
3  知识表示学习的典型应用
1.
与独热表示相比,表示学习的向量维度较低,有 知识表示学习是面向知识库中实体和关系的表
助于提高计算效率,同 时 能 够 充 分 利 用 对 象 间 的 语 示学习 .通过将实体或关系投影到低维向量空间,我
义信息,从而有效缓解数据稀疏问题 .由于表示学习
们能够实现对实体 和 关 系 的 语 义 信 息 的 表 示,可 以
的这些优点,最近出现了大量关 于单词 [6]、短语 [8-9]、
高效地计算实体、关系及其之间的复杂语义关联 .这
实体 [10]、句子 [11-13]、文 档 [12]和 社 会 网 络 [14-16]等 对 象
对知识库的构建、推理与应用均有重要意义 .
的表示学习研究 .特别是在词表示方面,针对一词多
知识表示学习得到的分布式表示有以下典型
义 [17-19]、语义 组 合 [9,20-22]、语 素 或 字 母 信 息 [23-25]、跨
应用:
语言 [26-28]、可解释 性 [29-32]等 特 点 提 出 了 相 应 表 示 方
1)相 似 度 计 算 .利 用 实 体 的 分 布 式 表 示,我 们
案,展现出分布式表示灵活的可扩展性 .
可以快速计算实体 间 的 语 义 相 似 度,这 对 于 自 然 语
2  表示学习的理论基础
1.
言处理和信息检索的很多任务具有重要意义 .
表示学习得到的低维向量表示是一种分布式表
2)知 识 图 谱 补 全 .构 建 大 规 模 知 识 图 谱,需 要
示(
dit
sri
but
edr
 epr
esen
tat
ion)6 .之所以如此命名,
[]

不断补充实体间的关系 .利用知识表示学习模型,可
是因为孤立地看向 量 中 的 每 一 维,都 没 有 明 确 对 应
以预测 2 个实体的 关 系,这 一 般 称 为 知 识 库 的 链 接
的含义;而综合各维形成一个向量,则能够表示对象
预测( l
ink pr
edi
cton),又称为知识图谱补全(
i know-
的语义信息 .这种表示方案并非凭空而来,而是受到

edge 
graph 
complet
i )
on .
人脑的工作机制启发而来 .
我们知道,现实世界中的实体是离散的,不同对 3)其他应用 .知识表示学习已被广泛用于关系
抽取、自动问答、实 体 链 指 等 任 务,展 现 出 巨 大 的 应
象之间有明显的界 限 .人 脑 通 过 大 量 神 经 元 上 的 激
活和抑制存储这 些 对 象,形 成 内 隐 世 界 .显 而 易 见, 用潜力 .随着深度学 习 在 自 然 语 言 处 理 各 项 重 要 任

每个单独神经元的 激 活 或 抑 制 并 没 有 明 确 含 义,但 务中得到广泛应用,这 将 为 知 识 表 示 学 习 带 来 更 广

是多个神经元的状 态 则 能 表 示 世 间 万 物 .受 到 该 工 阔的应用空间 .

作机制的启发,分布 式 表 示 的 向 量 可 以 看 作 模 拟 人 4  知识表示学习的主要优点
1.
脑的多个神经元,每维对应一个神经元,而向量中的 知识表示学习实现了对实体和关系的分布式表
值对应神经元的激 活 或 抑 制 状 态 .基 于 神 经 网 络 这 示,它具有以下主要优点:
种对离散世界的连 续 表 示 机 制,人 脑 具 备 了 高 度 的 1)显著提升计算效率 .知识库的三元组表 示实
学习能力与智能水 平 .表 示 学 习 正 是 对 人 脑 这 一 工 际就是基于独热表示的 .如前所分析的,在这种表示
作机制的模仿 . 方式下,需要设计专 门 的 图 算 法 计 算 实 体 间 的 语 义
还 值 得 一 提 的 是,现 实 世 界 存 在 层 次 结 构


33] 和推理关系,计算 复 杂 度 高、可 扩 展 性 差 .而 表 示 学
一个对象往往由更 小 的 对 象 组 成 .例 如 一 个 房 屋 作 习得到的分布式表 示,则 能 够 高 效 地 实 现 语 义 相 似
为一个对象,是由门、窗户、墙、天花板和地板等对象 度计算等操作,显著提升计算效率 .
有机组合而成的,墙 则 由 更 小 的 砖 块 和 水 泥 等 对 象 2)有效缓解数据稀疏 .由于表示学习将对 象投
组成,以此类推 .这种层次或嵌套的结构反映在人脑 影到统一的低维空 间 中,使 每 个 对 象 均 对 应 一 个 稠
中,形成了神经网络的层次结构 .最近象征人工神经 密向量,从而有效缓解数据稀疏问题,这主要体现在
网络复兴的深度学习 技 术,其 津 津 乐 道 的 “深 度”正 2 个方面 .一方面,每个对象的向量均为稠密有值的,
是这种层次性的体现 . 因此可以度量任意对象之间的语义相似程度 .而基于
250 计算机研究与发展  2016,53(
2)

独热表示的图算法,由 于 受 到 大 规 模 知 识 图 谱 稀 疏 线性模型、张量神经网络模型、矩阵分解模型和翻译
特性的影响,往往无法有效计算很多对象之间的语义 模型等 .
相似度 .另一方面,将大量对象投影到统一空间的 过 1  距离模型
2.
程,也能够将高频对 象 的 语 义 信 息 用 于 帮 助 低 频 对 结构 表 示 (
struc
tur
ed 
embedd
ing,SE)34 是 较
[ ]

象的语义表示,提高低频对象的语义表示的精确性 . 早的几个知识表示方法 之 一 .在 SE 中,每 个 实 体 用


3)实现异质信息融合 .不同来源的异质信息需 d 维 的 向 量 表 示,所 有 实 体 被 投 影 到 同 一 个 d 维 向
要融合为整体,才 能 得 到 有 效 应 用 .例 如,人 们 构 造 量空间中 .同时, SE 还 为 每 个 关 系 r 定 义 了 2 个 矩
了大量知识库,这些 知 识 库 的 构 建 规 范 和 信 息 来 源 Mr,2 ∈Rd×d ,用于三元组中头实体和尾 实 体
阵 Mr,1 ,
均 有 不 同,例 如 著 名 的 世 界 知 识 库 有 DBPed
ia, 的投影操作 .最后,
SE 为每个三元组(
h, t)定 义 了
r,
YAGO, Fr
eeba
se等 .大量实体和关系在不同知识库 如下损失函数:
中的名称不同 .如何实现多知识库的有机融合,对知 fr(
h,t)=|Mr,1lh - Mr,2lt|L1 .
识库应用具有重要意义 .如果基于网络表示,该任务    我们可以 理 解 为,
SE 将 头 实 体 向 量lh 和 尾 实
只能通过设计专门图算法来实现,效果较差,效率低 体向量lt 通过关系r 的 2 个矩阵投影到r 的对应空
下 .而通过设计合理的表示学习模型,将不同来源的 间中,然后在该空间中计算两投影向量的距离 .这个
对象投影到同一个 语 义 空 间 中,就 能 够 建 立 统 一 的 距离反 映 了 2 个 实 体 在 关 系 r 下 的 语 义 相 关 度,它
表示空间,实现多 知 识 库 的 信 息 融 合 .此 外,当 我 们 们的距离越小,说明这 2 个实体存在这种关系 .
在信息检索或自然 语 言 处 理 中 应 用 知 识 库 时,往 往 实体向量和关系矩阵是 SE 模型的参数 .
SE 将
需要计算查询词、句子、文档和知识库实体之间的复 知识库三元组作为 学 习 样 例,优 化 模 型 参 数 使 知 识
杂语义关联 .由于这些对象的异质性,计算它们的语 库三元组的损失函 数 值 不 断 降 低,从 而 使 实 体 向 量
义关联往往是棘手 问 题 .而 表 示 学 习 亦 能 为 异 质 对 和关系矩阵能够较好地反映实体和关系的语义信息 .
象提供统一表示空 间,轻 而 易 举 实 现 异 质 对 象 之 间 SE 能够利用学 习 得 到 的 知 识 表 示 进 行 链 接 预
的语义关联计算 . 测,即通过计算
综上,由 于 知 识 表 示 学 习 能 够 显 著 提 升 计 算 效 a
rg  n|Mr,1lh - Mr,2lt|L1
mi

率,有效缓解数据 稀 疏,实 现 异 质 信 息 融 合,因 此 对 找到让两实体距离 最 近 的 关 系 矩 阵,这 就 是 它 们 之
于知识库的构建、推理和应用具有重要意义,值得广 间的关系 .
受关注、深入研究 . 然而,
SE 模型有一个重要缺陷:它对头、尾实体
使用 2 个不同的矩阵进行投影,协同性较差,往往无
2  知识表示学习的主要方法 法精确刻画两实体与关系之间的语义联系 .
2  单层神经网络模型
2.
知识 表 示 学 习 是 近 年 来 的 研 究 热 点,研 究 者 提 单层神经网络模型(
si
ngl
e l
aye
r mod

[ ]
l,SLM)35
出了多种模型,学习知识库中的实体和关系的表示 . 尝试采用 单 层 神 经 网 络 的 非 线 性 操 作,来 减 轻 SE
本节将主要介绍其 中 几 种 代 表 方 法 .为 了 介 绍 这 些 无法协同精确刻画 实 体 与 关 系 的 语 义 联 系 的 问 题 .
方法,我们首先定义几种符号,便于下文使用 .首先, SLM 为每个三元组( h, t)定义了如下评分函数:
r,
我们将知识 库 表 示 为 G= (
E, S),其 中 E = {
R, e1 , fr(
h,t)= urg(

Mr,1lh + Mr,2lt),
e|E|}是知识库中的实体集合,其中包含|E|种
e2 ,…, 其中, Mr,2 ∈Rd×k 为投影 矩 阵,
Mr,1 , urT ∈Rk 为 关 系r
不同实体; R= {
r1 , r|R|}是知识库中的关系集
r2 ,…, 的表示向量, g()是t anh 函数 .
合,其中包含|R|种不同关系;而 SE×R×E 则代 虽然 SLM 是 SE 模型的改进版本,但是它 的 非
表知识库中 的 三 元 组 集 合,我 们 一 般 表 示 为 (
h,r, 线性操作 仅 提 供 了 实 体 和 关 系 之 间 比 较 微 弱 的 联
t),其中h 和t 表示头实体和尾实体,而r 表示h 和t 系 .与此同时,却引入了更高的计算复杂度 .
之间的关系 .例如三 元 组 (史 蒂 夫·乔 布 斯,创 始 人, 3  能量模型
2.
苹果公司)就表示实体 “史 蒂 夫·乔 布 斯”和 “苹 果 公 语义 匹 配 能 量 模 型 (
seman
tic 
mat
chi
ng 
ene
rgy,
司”之间存在“创始人”的关系 . SME)36-37 提出更复杂的操作,寻找实体和关系之间
[ ]

接下 来,我 们 介 绍 知 识 表 示 学 习 的 几 个 代 表 模 的语义联系 .在 SME 中,每个实体和关系都用低维向


型,包括距离模型、单层神经网络模型、能量模型、双 量表示 .在 此 基 础 上,
SME 定 义 若 干 投 影 矩 阵,刻 画
刘知远等:知识表示学习研究进展 251

实体与关 系 的 内 在 联 系 .更 具 体 地,
SME 为 每 个 三 值得注意的是,与 以 往 模 型 不 同,NTN 中 的 实
元组(h,r,t)定义了 2 种评分函数,分别是线性形式: 体向量是该实体中 所 有 单 词 向 量 的 平 均 值 .这 样 做
fr(
h,t)= (
M1lh +M2lr+b1)


M3lt+M4lr+b2) 的好处是,实体中的单词数量远小于实体数量,可以
和双线性形式: 充分重复利用单词 向 量 构 建 实 体 表 示,降 低 实 体 表
fr(
h,t)= (
M1lh M2lr+b1) T

M3ltM4lr+b2), 示学习的稀疏性问题,增强不同实体的语义联系 .
其中 M1 ,
M2 ,M3 ,M4 ∈Rd×k 为 投 影 矩 阵; 表 示 按 由于 NTN 引入了张量操作,虽然能够更精确地
位相乘(即 Ha
dama
rd积); b2 为偏置向量 .此外,也
b1 , 刻画实体和关系的复杂语义联系,但是计算复杂度非
有研究工作用三阶张量代替 SME 的双线性形式 [
36]
. 常高,需要大量三元组样例才能得到充分学习 .实 验
4  双线性模型
2. 表明,NTN 在大规模稀疏知识图谱上的效果较差 41 .
[ ]

隐变 量 模 型 (
laen
t t
 fa
cto
r mode

l,LFM )38-39

6  矩阵分解模型
2.
提出利用基于关系 的 双 线 性 变 换,刻 画 实 体 和 关 系 矩阵 分 解 是 得 到 低 维 向 量 表 示 的 重 要 途 径 .因
LFM 为 每 个 三 元 组 (
之间的二 阶 联 系 . h, t)定 义
r, 此,也有研究者提出 采 用 矩 阵 分 解 进 行 知 识 表 示 学
了如下双线性评分函数: 习 .这方面的代表方法是 RESACL 模型 [42-43].
fr(
h,t)=lhT Mrlt, 在该 模 型 中,知 识 库 三 元 组 构 成 一 个 大 的 张 量
其中,
Mr ∈R d×d
是 关 系r 对 应 的 双 线 性 变 换 矩 阵 . X,如果三元组 (
h, t)存 在,则 Xhrt =1,否 则 为 0.
r,
LFM 取 得 巨 大 突 破:通 过 简 单 有
与以往模型相 比, 张量分解旨在将 每 个 三 元 组 (
h, t)对 应 的 张 量 值
r,
效的方法刻画了实 体 和 关 系 的 语 义 联 系,协 同 性 较 Xhrt 分解为实体和关系表示,使得 Xhrt 尽量地接近 于
好,计算复杂度低 . lhMrlt.
后来的 DISTMULT 模型 [
还探索 了 LFM 的
40] 可 以 看 到 RESACL 的 基 本 思 想 与 前 述 LFM
简化形式:将 关 系 矩 阵 Mr 设 置 为 对 角 阵 .实 验 表 类似 .不 同 之 处 在 于,RESACL 会 优 化 张 量 中 的 所
明,这种简化不仅极大降低了模型复杂度,模型效果 有位置,包括值为 0 的 位 置;而 LFM 只 会 优 化 知 识
反而得到显著提升 . 库中存在的三元组 .
5  张量神经网络模型
2. 7  翻译模型
2.
张量 神 经 网 络 模 型 (
neur
al t
enso
r ne rk,
two 表示学习在自然语言处理领域受到广泛关注起
NTN)35 的基本思 想 是,用 双 线 性 张 量 取 代 传 统 神
[ ] 源于 Mi
koov 等人于 2013 年提出的 wo
l c词表
rd2ve
经网络中的线性变换层,在不同的维度下将头、尾实 示学习模型和 工 具 包 [
8,44]
.利 用 该 模 型,Miko
lov 等
体向量联系起来 .其基本思想如图 1 所示: 人发现词向量空间 存 在 有 趣 的 平 移 不 变 现 象 .例 如
他们发现:
C(kng)-C(
i en)≈C(
que man)-C( woman),
这里 C(
w )表 示 利 用 rd2ve
wo c 学 习 得 到 的单词 w
的词向量 .也 就 是 说,词 向 量 能 够 捕 捉 到 单 词 k
ing
en 之间、
和 que man 和 woman 之间的某种相同的隐
含语义 关 系 .Mi
kolov 等 人 通 过 类 比 推 理 实 验 8 44
[, ]

发现,这种平移不变 现 象 普 遍 存 在 于 词 汇 的 语 义 关
系和句法关系中 .有 研 究 者 还 利 用 词 表 示 的 这 种 特

ig.1 Neu
ral
 tens
or 
netwo
rk(
NTN)mode
l. 性寻找词汇之间的上下位关系 [45].
图 1  张量神经网络模型 受到该现 象 的 启 发,
Bod
res等 人 提 出 了 T
ran
sE
NTN 为每个三元组( h,
r,t)定义了如下评分 函 模型 [
,将知识库中的关系看作实 体 间 的 某 种 平 移
41]

数,
评价2个实体之间存在某个特定关系r 的可能性: 向量 .对于每个三元组(
h,r,
t),
TransE 用 关 系 r 的
fr(h,
t)=urTg(
lhMrlt+Mr,1lh +Mr,2lt+br), 向量lr 作为头实体向 量lh 和 尾 实 体 向 量lt 之 间 的
其中 u 是一个与关系相关的线性层,

r g()是t anh 函 平移 .我们也可以将lr 看 作 从lh 到lt 的 翻 译,因 此
数,
Mr∈R d×d×k
是一个三阶张量, Mr,2 ∈Rd×k 是
Mr,1 , ansE 也被称为翻译模型 .
Tr
与关系r 有关的投 影 矩 阵 .可 以 看 出,前 述 SLM 是 如图 2 所 示,对 于 每 个 三 元 组 (
h,r,
t),
TransE
NTN 的简化版本,是 NTN 将其 中 张 量 的 层 数 设 置 希望
为 0 时的特殊情况 . lh +lr≈lt.
252 计算机研究与发展  2016,53(
2)

ansE 模型定义了如下损失函数:
Tr 作来表 示 该 实 体 对 .这 里,循 环 相 关 * :Rd ×Rd →
fr(h,
t)=|lh +lr-lt|L1?L2 , Rd 操作如下:
即向量lh +lr 和lt 的L1 或 L2 距离 . d-1

lh *lt]
[ ,
k =
∑ll
i=0
hi t(
i+k)mod 

循环相关操作可以 看 作 张 量 乘 法 特 殊 形 式,具 有 较
强的表达能力,具有 以 下 3 个 优 点:
1)不 可 交 换 性 .
循环相关是不可交换的,即lh *lt≠lt*lh .而知识库
中很多关系是不可 交 换 的,因 此 该 特 点 具 有 重 要 意
2)相关性 .循环相关操作得到的向量每一维都衡
义.
量了向量lh 和lt 的 某 种 相 似 性 .例 如,循 环 相 关 的
d-1

ig.2 Tr
ansE 
mode
l.
第一位[
lh *lt] 相当于向量lh 和lt 的内
图 2 Tr
ansE 模型
0=
∑ll
i=0
hi t

积 .该性质处理头、尾实体比较相似的关系(例如“夫
在实 际 学 习 过 程 中,为 了 增 强 知 识 表 示 的 区 分
妻”关系)时具有重要意义 .
3)计算效率高 .循环相关
能力,
TransE 采用最 大 间 隔 方 法,定 义 了 如 下 优 化
操作还可以使用如下公式进行优化:
目标函数:
珚(
lh *lt=F-1(
F lh )⊙F(
lt)),
L= ∑ ∑ max(
0,fr(
h,t)+ 这里 F(
x), x)为傅里叶变换与逆傅里叶 变 换,
F-1(

h,r,
t)∈S ( -
h′,
′,
r ′)∈S

可以用快速傅里叶变换加速计算 .
γ-fr′ (
h′,
′)),

其中, 对于 每 个 三 元 组 (
h,r,
t),Ho
le定 义 了 如 下 评
S 是合 法 三 元 组 的 集 合,
S- 为 错 误 三 元 组 的
分函数:
集合,
max(
x,y)返 回 x 和y 中 较 大 的 值,
γ 为合法
fr(
h,t)=σ(
lr (
lh *lt)),

三元组得分与错误三元组得分之间的间隔距离 .
错误 三 元 组 并 非 随 机 产 生 的,为 了 选 取 有 代 表 这里σ( 1 为
x)= s
igmo
id 函数 .
1+e-x
性的错误三元组,
TransE 将 S 中每个三元组的头实
由于该模型刚刚提出,尚未验证其效果,但是无
体、关系和尾实体其 中 之 一 随 机 替 换 成 其 他 实 体 或
疑为知识表示学习提供了全新的视角,值得关注 .
关系来得到 S- ,即:
S- = {(
h′,
r,t)}∪ {(
h,′,
r t)}∪ {(
h,r,
′)}.

3  知识表示学习的主要挑战与已有解决方案
与以 往 模 型 相 比,
TransE 模 型 参 数 较 少,计 算
复杂度低,却能直接 建 立 实 体 和 关 系 之 间 的 复 杂 语 以 Tr
ansE 为代表的知识表示学习模型,已经在
义联 系 .
Bo s 等 人 在 Wo
rde t 和 Fr
rdNe eeba
se等 数 知识图谱补全、关系抽取等任务中取得了瞩目成果 .
据集上进行链接预测等评测任务,实验表明 Tr
ansE 但是,知识表示学习仍然面临很多挑战 .这里我们以
的性能较以往模型 有 显 著 提 升 .特 别 是 在 大 规 模 稀 ansE 为代表模型,总 结 认 为 Tr
Tr ansE 面 临 的 3 个
疏知识图谱上,
TransE 的性能尤其惊人 . 主要挑战,目前已有相关工作提出一些解决方案,具
由于 Tr
ansE 简单有 效,自 提 出 以 来,有 大 量 研 体介绍如下 .
ansE 进行扩展和应用 .可以说,
究工作对 Tr TransE 1  复杂关系建模
3.
已经成为知识表示学习的代表模型 .在第 3 节,我们 ansE 由于模型简单,在大规模知识图谱上 效
Tr
ansE 为 例,介 绍 知 识 表 示 学 习 的 主 要 挑 战
将以 Tr ansE 在 处 理
果明显 .但是也由于 过 于 简 单,导 致 Tr
与解决方案 . 知识库的复杂关系时捉襟见肘 .
8  其他模型
2. 这里 的 复 杂 关 系 定 义 如 下 .按 照 知 识 库 中 关 系
ansE 提出 之 后,大 部 分 知 识 表 示 学 习 模
在 Tr 两端连接 实 体 的 数 目,可 以 将 关 系 划 分 为 1-1,
1-
ansE 为基础的扩展 .在 Tr
型是以 Tr ansE 扩展模型 N-1 和 N-N 四种类型 41 .例 如 N-1 类 型 关 系 指
[ ]
N,
以外,这 里 主 要 介 绍 全 息 表 示 模 型 (
hoog
l r
aph
ic 的是,该类型关系中 的 一 个 尾 实 体 会 平 均 对 应 多 个
embedd
ings,Ho
le) .

46]
头实体,即 i∈ {
0,1,…,
m},(
hi,
r,t)∈S.我 们 将
Ho
le提出使用头、尾实体向量的“循环相关”操 N-1 和 N-N 称为复杂关系 .
1-N ,
刘知远等:知识表示学习研究进展 253

研究 发 现,各 种 知 识 获 取 算 法 在 处 理 4 种 类 型 于一个 三 元 组 (
h,r,
t),
TransH 首 先 将 头 实 体 向 量
关系时的性能差异较大 .以 Tr
ansE 为例,在处理 lh 和尾实体向量lt 沿 法 线 wr 投 影 到 关 系r 对 应 的

41]

复杂 关 系 时 性 能 显 著 降 低,这 与 Tr ansE 模 型 假 设 超平面上,用lhr 和ltr 表示如下:


有密 切 关 系 .根 据 TransE 的 优 化 目 标,面 向 1-N , lhr =lh -wrTlhwr,
N-1 和 N-N 三 种 类 型 关 系,我 们 可 以 推 出 以 下 结 ltr =lt-wrTltwr,
论:如果关 系 r 是 N-1 关 系,我 们 将 会 得 到lh0 ≈lh1 因此 Tr
ansH 定义了如下损失函数:
≈ … ≈lhm .同 样,这 样 的 问 题 在 关 系 r 是 N-1 关 系 fr(
h,t)= lhr +lr-ltr L1?L2 .
时也会发生,得到lt0 ≈lt1 ≈ … ≈ltm . 需要注意的是,由 于 关 系 r 可 能 存 在 无 限 个 超
例如,假 如 知 识 库 中 有 2 个 三 元 组,分 别 是 (美 平面,
TransH 简单地令lr 与wr 近 似 正 交 来 选 取 某
国,总统,奥巴马)和(美国,总统,布什).这里的关系 一个超平面 .
ansR 模型 48
[ ]
“总统”是 典 型 的 1-N 的 复 杂 关 系 .如 果 用 Tr
ansE 3.
1. ansR?CTr
2 Tr
从这 2 个三元组学习知识表示,如图 3 所示,将会使 虽然 TransH 模型使每个实体在不同关系下 拥
奥巴马和布什的向量变得相同 . 有了不同的表示,它 仍 然 假 设 实 体 和 关 系 处 于 相 同
的语义空间 Rd 中,这 一 定 程 度 上 限 制 了 Tr
ansH 的
表示能力 .
TransR 模 型 则 认 为,一 个 实 体 是 多 种 属
性 的 综 合 体,不 同 关 系 关 注 实 体 的 不 同 属 性 .
ansR 认为不同的关系拥有不同的语义空间 .对每
Tr
个三元组,首先应将实体投影到对应的关系空间中,
然后再建立从头实体到尾实体的翻译关系 .
ansR 模 型 的 简 单 示 例 .对 于
如图 5 所 示 是 Tr

ig.3 The
 examp
le 
ofc
 omp
lex 
rel
ati
ons.
图 3  复杂关系示例 每个三元组( h, t),我 们 首 先 将 实 体 向 量 向 关 系 r
r,
空间投影 .原来在实 体 空 间 中 与 头、尾 实 体 (用 圆 圈
这显然不符合事实:奥巴马和布什除了作为美国
表示)相似的实体(用三角形表示),在关系r 空间中
总统这个身份上比 较 相 似 外,其 他 很 多 方 面 都 不 尽
被区分开了 .
相同 .因此,由于这些复杂关系的存在,导致 Tr
ansE
学习得到的实体表示区分性较低 .
那么应当如何实现表示学习对复杂关系的建模
呢?最近有大量关于 T
r sE 的扩展模型尝试解决这
an
一挑战问题 .这里我们简要介绍其中 7 个代表模型 .
ansH 模型 47
[ ]
3.
1.1 Tr
为了 解 决 Tr
ansE 模 型 在 处 理 1-N ,
N-1,
N-N
复杂关系 时 的 局 限 性,
TransH 模 型 提 出 让 一 个 实

ig.5 Tr
ansR 
mode
l.
体在不同的关系下拥有不同的表示 .
图 5 Tr
ansR 模型
如图 4 所示,对 于 关 系 r,
TransH 模 型 同 时 使
具体而言,对 于 每 一 个 关 系 r,Tr
ansR 定 义 投
用平移向量lr 和 超 平 面 的 法 向 量 wr 来 表 示 它 .对
影矩阵 Mr∈Rd×k ,将实体向量从实体空间投影 到 关
系r 的子空间,用lhr 和ltr 表示如下:
lhr =lhMr,
ltr =ltMr,
然后使lhr +lr ≈ltr .因 此, TransR 定 义 了 如 下 损 失
函数:
fr(
h,t)= lhr +lr-ltr L1?L2 .
相关研 究 还 发 现,某 些 关 系 还 可 以 进 行 更 细

ig.4 Tr
ansH 
mode
l. 致的 划 分 .例 如 Fr
eeba
se中的 “
?loc
ati
onl
?oc
ati
on?
图 4 Tr
ansH 模型 con
tans”关系,可能是一个国家包含一个城市,可能

254 计算机研究与发展  2016,53(
2)

是一个国家包含一 所 大 学,也 可 能 是 一 个 州 包 含 一 3.
1.4 Tr
anSpa
rse模型 50
[ ]

个城市等 .如果将该关系做更细致的划分,就可以更 知识库中实体和关系的异质性和不平衡性是制


精确地建立投影关系 . 约知识表示学习的难题:
因此,L
in 等 人 进 一 步 提 出 了 CTransR 模 型, 1)异质性 .知识库中某些关系可能会与大量的
通过把关系r 对应的实体对的向量差值lh -lt 进 行 实体有连接,而某些 关 系 则 可 能 仅 仅 与 少 量 实 体 有
聚类,将关系r 细分为多个子关系rc. CTransR 模型 连接 .
为每一个子关系rc 分别学习向量表 示,对 于 每 个 三 2)不 均 衡 性 .在 某 些 关 系 中,头 实 体 和 尾 实 体
元组(
h, t),定义了如下损失函数:
r, 的种类和数量可能差别巨大 .例如,“国籍”这个关系
fr(
h,t)= lhr +lrc -ltr L1?L2 . 的头实体是成千上 万 不 同 的 人 物,而 尾 实 体 只 有 几
ansD 模型 49
[ ]
3.
1.3 Tr 百个国家 .
虽然 TransR 模 型 较 Tr ansE 和 Tr ansH 有 显 为了解决实体和 关 系 的 异 质 性,
TranSpa
rse提
著改进,它仍然有很多缺点:
出使用稀疏 矩 阵 代 替 Tr
ansR 模 型 中 的 稠 密 矩 阵,
1)在同一 个 关 系 r 下,头、尾 实 体 共 享 相 同 的 其中矩阵 Mr 的稀疏度由 关 系r 连 接 的 实 体 对 数 量
投影矩阵 .然而,一 个 关 系 的 头、尾 实 体 的 类 型 或 属
决定 .这里头、尾实体共享同一个投影矩阵 Mr.投影
性可能差异巨大 .例 如,对 于 三 元 组 (美 国,总 统,奥
矩阵 Mr(
θr)的稀疏度θr 定义如下:
巴马),美国和奥巴马的类型完全不同,一个是国家,
θr=1- ( 1-θmin) Nr?Nr* ,
一个是人物 .
0≤θmin ≤1 为 计 算 稀 疏 度 的 超 参 数,
其中, Nr 表 示
2)从实体空 间 到 关 系 空 间 的 投 影 是 实 体 和 关
关系r 连接的实体 对 数 量, r 表示连接实体对数量

ansR 让 投 影 矩 阵 仅 与
系之间的交 互 过 程,因 此 Tr
最多的关系 .这样,投影向量可定义为
关系有关是不合理的 .
lhr =lhMr(θr),
ansE 和 Tr
3)与 Tr ansH 相比, ansR 由于引
Tr
ltr =ltMr θr).

入了空间投影,使得 Tr ansR 模 型 参 数 急 剧 增 加,计
为了解决关系的 不 平 衡 性 问 题,
TranSpa
rse对
算复杂度大大提高 .
于头实体和 尾 实 体 分 别 使 用 2 个 不 同 的 投 影 矩 阵
为了 解 决 这 些 问 题,
J ansD 模
i等 人 提 出 了 Tr
θr )和 Mr(
θr).两者的稀疏度定义如下:
h h t t
Mr (
型 .如图 6 所示:

1-θmin)
θr=1- ( Nl l
?Nr* ,

其中, r 表示关系r 在位置l 处 连 接 不 同 实 体 的 数


Nl
l 可能是头实 体 或 尾 实 体),
量( Nlr* 表 示 Nr 中 最 大

的数 .这样,投影向量可定义为
h h
lhr =lhMr (
θr ),
ltr =ltMt
r(

θr).
Tr
anSpa
rse对于以上 2 种 形 式,均 定 义 如 下 损

Fg.6 Tr
ansD 
mode
l.
失函数:
图 6 Tr
ansD 模型 fr(h,t)= lhr +lr-ltr L1?L2 .
ansA 模型 51
[ ]
给定三元组 ( 3.
1.5 Tr
h,r,
t),
TransD 模 型 设 置 了 2 个
分别将头实体和尾实体投影到关系空间的投影矩阵 ao 等人认为 Tr
Xi ansE 及其之后的扩展模 型均
1)损失函数只采用 L1 或 L2 距离,
存在2个重要问题:
Mrh 和 Mrt ,具体定义如下:
d×k
Mrh =lrplhp +I , 灵活性不够;
2)损失函数过于简单,实体和关系向量
Mrt =lrpltp +Id×k , 的每一维等同考虑 .
这里lhp ,
ltp ∈Rd ,lrp ∈Rk ,下标 p 代表该向量为投影 为了解决 这 2 个 问 题,
Xiao 等 人 提 出 Tr
ansA
向量 .显然, Mrh 和 Mrt 与实体和关系均相关 .而且,利 模型,将损失函数中的距离度量改用马氏距离,并为
用 2 个投影向量 构 建 投 影 矩 阵,解 决 了 原 来 T
ran
sR 每一维学习不同 的 权 重 .对 于 每 个 三 元 组 (
h,r,
t),
模型参数过 多 的 问 题 .最 后,
TransD 模 型 定 义 了 如 ansA 模型定义了如下评分函数:
Tr
下损失函数: fr(
h,t)= (
lh +lr-lt)

Wr(
lh +lr-lt),
fr(
h,t)= lhMrh +lr-ltMrt  L1?L2 . 其中 Wr 为与关系r 相关的非负权值矩阵 .
刘知远等:知识表示学习研究进展 255

如图 7 所示,(
h1 , t1 )和 (
r1 , h2 , t2 )两 个 合 法
r2 , He等人提出 KG2E,使 用 高 斯 分 布 来 表 示 实 体
此,
三元组, t3 是错误 的 尾 实 体 .如 果 使 用 欧 氏 距 离,如 和关系 .其中高斯分 布 的 均 值 表 示 的 是 实 体 或 关 系
a)所 示,错 误 的 实 体 t3 会 被 预 测 出 来 .而 如
图 7( 在语义空间中的中 心 位 置,而 高 斯 分 布 的 协 方 差 则
b)所示,
图 7( TransA 模 型 通 过 对 向 量 不 同 维 度 进 表示该实体或关系的不确定度 .
行加权,正确的实体由于 在 x 轴 或 者y 轴 上 距 离 较 图 9 为 KG2E 模型示例,每个圆圈代表不同实体
近,从而能够被正确预测 . 与关系的表示,它们分别与“比尔·克林顿”构成 三元
组,其中圆圈大小表示的是不同实体或关系的不确定
度,可以看到“国籍”的不确定度远远大于其他关系 .


 Fg.7 Compa
ris
on 
betwe
ent
 rad
iti
ona
l mode
lsand
 
Tr
ansA.
ansA 模型比较
图 7  传统模型和 Tr

ansG 模型 52
[ ]
3.
1.6 Tr
ansG 模型提出使用高斯混合模型描述头、尾
Tr

Fg.9 KG2E mode
l.
实体之间的关系 .该模型认为,一个关系会对应多种
图 9 KG2E 模型
语义,每种语义用一个高斯分布来刻画,即:
M KG2E 使 用lh -lt 来 表 示 头、尾 实 体 之 间 的 关
lt -lh |lr ~ ∑πr,mN (
μr,m ,
I), 系 .这里lh -lt 可以用一个概率分布来表示:
m =1

其中I 表示单位矩阵 . Pe~N(μh -μt,∑h +∑t),


ansG 模型与传统模型的对比如图 8 所示 .其
Tr 而关系r 同样是 一 个 高 斯 分 布 Pr ~N (
μr,∑r ).因
中三角形表示正确 的 尾 实 体,圆 形 表 示 错 误 的 尾 实 此,可以根据 2 个概率分布 Pe 和 Pr 的相 似 度 来 估

a)中 为 传 统 模 型 示 例,由 于 将 关 系 r 的 所
体 .图 8( KG2E 考 虑 2 种 计 算 概 率 相 似 度
计三元组的评分 .
有语义混为一谈,导致错误的实体无法被区分开 .而 的办法:KL 距离和期望概率 .
如图 8(
b)所 示,
TransG 模 型 通 过 考 虑 关 系 r 的 不 KL 距离是 一 种 不 对 称 相 似 度,其 得 分 函 数 定
同语义,形成多个高斯分布,就能够区分出正确和错 义如下:
误实体 . N(x;μe,∑e)
fr(
h,t)= N(
x;μr,∑r)
∫ k
x∈Re
log ( ; dx=
N x μr,∑r)
1 { ( -1 ) (
tr ∑r ∑e + μe-μr)

∑r (
-1
μe-μr)-

det(∑e)

og +ke}.
det(∑r)
期望 概 率 是 一 种 对 称 相 似 度,其 得 分 函 数 定 义
如下:

fr(
h,t)= N(
x;μr,∑r)
N(x;
μe,∑e)

 Fg.8 Compa
ris
on 
betwe
ent
 rad
iti
ona
l mode
lsand
 
∫ k
x∈Re
dx=

1 {(
e - r) (∑e+∑r) ( μe-μr)+
T -1
Tr
ansG.
2 μ μ
图 8  传统模型和 Tr
ansG 模型比较
og(
l det(∑e+∑r))+kel
og 2π}.
3.
1.7 KG2E 模型 53
[ ]
需要注意的是,为了防止过拟合,
KG2E 使用了
He 等 人 认 为,知 识 库 中 的 关 系 和 实 体 的 语 义 对参数进行了强制限制:
本身具有不 确 定 性,这 在 过 去 模 型 中 被 忽 略 了 .因 l∈E∪R,
cminI≤∑l≤cmaxI,
cmin>0.
256 计算机研究与发展  2016,53(
2)

3.
1.8  小结 有一些研究工作,但总体来讲还处于起步状态,这里
可以看到,在 Tr
ansE 之 后,在 如 何 处 理 复 杂 关 简单介绍其中 2 个代表性工作 .
系建 模 的 挑 战 问 题 上,提 出 了 TransH,TransR, 3.
2.1 DKRL 模型
ansD,
Tr TranSpar
se,Tr
ansA,TransG 和 KG2E 等 考虑实体描述的知识表示学习模型(
dec
sri
pti
on-
[ ]
多种模型,从不同角度尝试解决复杂关系建模问题, embo
die
d knowl
ede
g r
epr
ese
nta
tion
 le
arn
ing,DKRL)54
可谓百花齐放 .在相关数据集合上的实验表明,这些 提出在知识 表 示 学 习 中 考 虑 Fr eebase等 知 识 库 中
ansE 有 显 著 的 性 能 提 升,验 证 了 这 些
方法 均 较 Tr 提供的实体描述文本信息 .在文本表示 方 面,
DKRL
方法的有效性 . 考虑了 2 种模型:一种是 CBOW[8,44],将文本中的词
2  多源信息融合
3. 向量简单相加作为 文 本 表 示;一 种 是 卷 积 神 经 网 络
k,CNN)55-56 ,能 够 考
[ ]
知识 表 示 学 习 面 临 的 另 外 一 个 重 要 挑 战,是 如 (
convo
lut
iona
l neur
aln
 etwo

何实现多源信息融 合 .现 有 的 知 识 表 示 学 习 模 型 如 虑文本中的词序信息 .

ansE 等,仅利用知识图谱的三元组结构信息进行
Tr 如图 10 和图 11 所 示,
DKRL 可 以 利 用 CBOW
表示学习,尚有大量 与 知 识 有 关 的 其 他 信 息 没 有 得 和 CNN 根据实 体 描 述 文 本 得 到 实 体 表 示,然 后 将
到有效利用,例如: ansE 的目标函数学习 .
该实体表示用于 Tr

1)知识库中的其他信息,如实体和关系的描述
信息、类别信息等 .
2)知识库外的海量信息,如互联网文本蕴含了
大量与知识库实体和关系有关的信息 .
这些海量的多源异质信息可以帮助改善数据稀
疏问题,提高知识表示的区分能力 .如何充分融合这
些多源异质信息,实现知识表示学习,具有重要意义 . F
ig.10 DKRL (
CBOW)mode
l.
图 10 DKRL(
CBOW)模型
在融 合 上 述 信 息 进 行 知 识 表 示 学 习 方 面,已 经


ig.11 DKRL (
CNN)mode
l.
图 11 DKRL(
CNN)模型

  DKRL 的优势在 于,除 了 能 够 提 升 实 体 表 示 的 可能接近,从而实现文本与知识库融合的表示学习 .


区分能力外,还能实现对新实体的表示 .当新出现一 ng等人还将类似的想法用于融合实体描述信息 57 .
Wa
[ ]

DKRL 可 以 根 据 它 的
个未曾在知识库中 的 实 体 时, 3.
2.3  小结
简短描述产生它的 实 体 表 示,用 于 知 识 图 谱 补 全 等 已有 工 作 表 明,多 源 信 息 融 合 能 够 有 效 提 升 知
任务 .这对于不断扩充知识图谱具有重要意义 . 识表示的性能,特别 是 可 以 有 效 处 理 新 实 体 的 表 示
2  文本与知识库融合的知识表示学习 问题 .但是,也可以 看 出,多 源 信 息 融 合 的 知 识 表 示

47]
3.
2.
Wang等人提出在表示学习中考虑文本数据,利 学习仍处于非常起步的阶段,相关工作较少,考虑的
用 wo
rd2v
ec 学 习 维 基 百 科 正 文 中 的 词 表 示,利 用 信息源非常有限,有大量的信息(如实体类别等)未被

r sE 学习知识库中的知识表示 .同时,利用维基百
an 考虑,具有广阔的研究前景 .
科正文中的链接信息(锚文本与实体的对应关系),让 3  关系路径建模
3.
文本中实体对应的词表示与知识库中的实体表示尽 在知 识 图 谱 中,多 步 的 关 系 路 径 也 能 够 反 映 实
刘知远等:知识表示学习研究进展 257

体之间的语义关系 .
Lao 等人曾提出 Pa
th-Con
str
ain
t 的 .为 此, ansE 提 出 Pa
PTr th-Cons
tra
int 
Resour
ce
hm 等算法, on 图算法度量关系路径的可靠性 .

58] [
59]
Random ,
Pa
Wal
kth 
Ranking 
Algor
it Al
loc
ati
利用两实体间的关 系 路 径 信 息 预 测 它 们 的 关 系,取 2)PTransE 需要建立关系路径的向量表示,参
得显著效果,说明关系路径蕴含着丰富的信息 . 与从头实体到尾实 体 的 翻 译 过 程 .这 是 典 型 的 组 合
ansE 等模型 孤立学习每个三元 组
为了突破 Tr 语义问题,需要对路 径 上 所 有 关 系 的 向 量 进 行 语 义
的局限性,
Lin等人提出考虑关系路径的表示学习 组合产生路径向 量 . ansE 尝 试 了 3 种 代 表 性 的
PTr
ansE 作 为 扩 展 基 础,提 出 Pa
方 法,以 Tr th-ba
sed 语义组合操作,分别是相加、按位相乘和循环神经网
ansE(
Tr PTransE)模型 . 络 .相关数据实验表明,相加的组合操作效果最好 .
图 12 展示的是 PTr
ansE 考虑 2 步 关 系 路 径 的 几乎 同 时,也 有 其 他 研 究 团 队 在 知 识 表 示 学 习
示例 . ansE 模型面临的挑战在于:
PTr 中成功考虑了关系路径的建模 [60].关 系 路 径 的 表 示
1)并不是所 有 的 实 体 间 的 关 系 路 径 都 是 可 靠 学习也被用来进行基于知识库的自动问答 [61].


ig.12 PTr
ansE 
mode
l.
图 12 PTr
ansE 模型

ansE 等研究 的 实 验 表 明,考 虑 关 系 路 径 能


  PTr 型划分标准 .
够极大提升知识表 示 学 习 的 区 分 性,提 高 在 知 识 图 近期发表在 Sc
i e等 权 威 期 刊 的 认 知 科 学 研
enc
谱补全等任务上的 性 能 .关 系 路 径 建 模 工 作 还 比 较 究成果 [62-63]总结认为,人类知识包括以下 4 种结构:
初步,在关系路径的可靠性计算、关系路径的语义组 1)树状关系,表示实体间的层次分类关系(如生物界
合操作等方面,还有很多细致的考察工作需要完成 . 的分类系统等);2)二 维 网 格 关 系,表 示 现 实 世 界 的
空间信息(如地理位置信息等);
3)单维顺序关系,表
4  知识表示学习未来研究方向展望 示实体间的偏序关 系 (如 政 治 家 的 左 右 倾 谱 系 分 布
等);
4)有向网络关系,表示实体间的关联或因果关系
近年 来 知 识 表 示 学 习 已 经 崭 露 头 角,在 很 多 任 (如疾病之间的传染关系等).
ansE 等 模 型
务中 展 现 了 巨 大 的 应 用 潜 力 .对 于 Tr 认知 科 学 关 于 人 类 知 识 类 型 的 总 结,与 许 多 知
面临的挑战,也已 经 提 出 了 很 多 改 进 方 案 .然 而,知 识库的组织形式有一定契合之处,但不完全相同 .例
识表示学习距离真 正 实 用 还 很 远,本 节 将 对 知 识 表 如 Fr
eeba
se等大部分知识库采用有 向 网 络 结 构(即
示学习的未来方向进行展望 . 三元组形 式 )组 织 人 类 知 识 [2];Wo t则 首 先 将
rdNe
1  面向不同知识类型的知识表示学习
4. 同义词聚集成 同 义 词 集 合 (
Syns
et),然 后 再 以 同 义
如 3.
1 节 所 述,已 有 工 作 将 知 识 库 的 关 系 划 分 词集合为单位用有向网络结构表示集合之间的关系
为 1-1, N-1 和 N-N 四 类,并 面 向 复 杂 关 系 建
1-N , (如上下位 关 系、整 体 -部 分 关 系 等)[1].在 大 部 分 知
模开展了大量研究工作 .研究表明,面向不同类型的 识库中,树状关系等类型的知识均用有向网络表示,
关系,需要设计专门的知识表示模型 . 这并不利于在知识表示中充分利用不同类型知识的
然而,
1-1, N-1 和 N-N 的 关 系 类 型 划 分
1-N , 结构特点 .
略显粗糙,无法直观地解释知识的本质类型特点 .我 认知 科 学 对 人 类 知 识 类 型 的 总 结,有 助 于 对 知
们需要面向知识表 示 任 务,有 针 对 性 地 设 计 知 识 类 识图谱中知识类型 的 划 分 和 处 理 .未 来 有 必 要 结 合
258 计算机研究与发展  2016,53(
2)

人工智能和认知科 学 的 最 新 研 究 成 果,有 针 对 性 地 信性,实现知识融合,建成统一的大规模知识库及其


设计知识类型划分 标 准,开 展 面 向 不 同 复 杂 关 系 类 融合表示 .
型的知识表示学习研究 . 3  考虑复杂推理模式的知识表示学习
4.
2  多源信息融合的知识表示学习
4. 考虑 关 系 路 径 的 知 识 表 示 学 习,实 际 上 是 充 分
在多 元 融 合 的 知 识 表 示 学 习 方 面,相 关 工 作 还 利用了两 实 体 间 的 关 系 和 关 系 路 径 之 间 的 推 理 模
比较有限,主要是考 虑 实 体 描 述 的 知 识 表 示 学 习 模 式,来为表 示 学 习 模 型 提 供 更 精 确 的 约 束 信 息 .例
型,以及文本与知识库融合的知识表示学习,这些模 如,根据三元组(康熙,父亲,雍正)和(雍正,父亲,乾
型无论是信息来源,还是融合手段都非常有限 . 隆)构成的“康熙”和“乾 隆”之 间“父 亲 + 父 亲”的 关
我们认为在多源信息融合的知识表示学习方 系路径,再结合三元组(康熙,祖父,乾 隆), ansE
PTr
面,有以下 3 个方面的工作需要开展: 实际上 额 外 提 供 了 “父 亲 + 父 亲 = 祖 父”的 推 理 模
1)融合知识库中实体和关系的其他信息 .知识 式,从而提升知识表示的精确性 .
库中拥有关于实体和关系的丰富信息,如描述文本、 实际 上,关 系 路 径 只 是 复 杂 推 理 模 式 中 的 一 种
层次类型等 .有机融合这些信息,将显著提升知识表 特殊形式,它要求头实体和尾实体必须保持不变 .但
示学习的表示能力 . 实际上,知识库中还有其他形式的推理模式,例如三
2)融合互联网文本信息 .互联网海量文本数据 元组(美国,总统,奥巴马)和(奥巴马,是,美国人)之
是知识库的重要知识来源.人们提出远程监督(d
ist
ant 间就存在着推理关系,但是两者的头、尾实体并不完
superv
isi

64-68]
on) 、开放 信 息 抽 取 (
openi
 nformat
i on 全一致 .如果能将这 些 复 杂 推 理 模 式 考 虑 到 知 识 表
extr
acti
on )[
69-73]
等技术, 从开放文本 中 抽 取 知 识 .这 示学习中,将能更进一步提升知识表示的性能 .
个过程也自然而然地建立起了知识库和文本之间的 在该 问 题 中,如 何 总 结 和 表 示 这 些 复 杂 推 理 模
联系,如何充分利用这些联系融合互联 网文本信息, 式 是 关 键 难 题 .目 前 来 看,一 阶 逻 辑 (
fis
rt-o
rde

意义重大 .值得一提的是,目前大部分工 作 主 要 关 注 l
ogc,FOL)是对复杂推理模式的较佳表示方案,未

面向实体表示的融合 .实际上,若干研究工作已经利 来我们需要探索一阶逻辑的分布式表示及其融合到
CNN)建 立 起 了 关 系 表 示 74-76 ,这
用卷积神经网络( [ ]
知识表示学习中的技术方案 .
为面向关系表示的 信 息 融 合 提 供 了 技 术 基 础,最 终 4  其他研究方向
4.
实现融合文本信息和知识库的知识表示 . 除了 以 上 3 个 主 要 研 究 方 向,还 有 很 多 关 于 知
3)融合多知识库信息 .人们利用不同的信息源 识表示学习的研究工作亟待开展,简单总结如下:
构建了不同的知识 库 .如 何 对 多 知 识 库 信 息 进 行 融 1)面向大规模知识库的在线学习和快速学习 .
合表示,对于建立统一的大规模知识库意义重大 .融 大规模知识库稀疏性很强 .初步实验表明,已有表示
合多源知识库信息,主要涉及实体融合、关系融合与 学习模型在大规模 知 识 库 上 效 果 堪 忧,特 别 是 对 低
事实融合 . 频实体和关系的表 示 效 果 较 差,而 且 知 识 库 规 模 不
首先,由于存在大量别名现象,需对多信息源进 断扩大,我们需要设计高效的在线学习方案 .除了充
行实体对齐和关系对齐 .这在分布式表示中,是典型 分融合多源信息降 低 稀 疏 性 之 外,我 们 还 可 以 探 索
的 多 表 示 空 间 投 影 问 题,可 以 采 用 学 习 匹 配 如 何 优 化 表 示 学 习 的 样 例 顺 序,借 鉴 Cur
ricu
lum
h) 等 思 想,利 用 PS ng 等算法 思 想,优 先 学 习 核 心 知 识,然 后

77] [
81]

ler
ani
ng to ma
tc I( l
poynomi
al Le
arni

emantic
 indexi

78]
ng) ,SSI(super
vis
ed semant
ic 学习外围知识,也许能够一定程度改善表示效果 .
ng)79 等技 术,建 立 多 源 表 示 空 间 投 影 关 系, 2)基于知识分布式表示的应用 .知识表示 学 习
[ ]

ndex

实现实体对齐与关系对齐 .此外,还可以充分利用多 还处于起步阶段,在知识获取、融合和推理等方向均
表 示 空 间 之 间 的 一 致 性,实 现 多 空 间 协 同 映 射 有广阔的应用空间 .我 们 需 要 在 若 干 重 要 任 务 上 探

col
lec
tive
 fus
ion). 索和验证知识表示学习的有效性 .例如,关系抽取任
然后,在实体对齐和关系对齐的基础上,可对多 务如果能 够 基 于 知 识 表 示 学 习 有 效 利 用 知 识 库 信
信息源获取的知识 进 行 融 合 .由 于 大 量 知 识 来 自 海 息,将能够极大提 升 抽 取 性 能 和 覆 盖 面 .再 如,我 们
量互联网文本,无法确保获取知识的真实性,存在大 可以充分利用表示 学 习 在 信 息 融 合 上 的 优 势,实 现
量互相矛盾的知识 .可以综合考虑信息源可信性、多 跨领域和跨语言的知识融合 .此外,人脑强大的学习
信息源一致性 等 要 素,利 用 Trus
tRank

80]
等可信性 与推理能力 [82],说明在低维语义空 间 中 进 行 知 识 的
度量技术,检测实体 间 知 识 的 矛 盾 并 分 别 度 量 其 可 学习与推理极具潜力,相关机理值得深入探索 .
刘知远等:知识表示学习研究进展 259


9] Zhao 
Y,L
i Z,Sun 
u  M.Phr
ase
 type
 sens
iti
vet
 ens
ori
 ndex
ing
on [
C]?
5  结束语 mode
l f
ors
 eman
tic
 compo
sit
i ?Pr
oc 
of 
AAAI.Men
lo
rk,CA:AAAI,2015:2195-2202
Pa

10] Zhao Y, L
iu Z, Sun M. Rep
res
ent
ati
on e
 lar
ning
 fo

通过以上对知识表示学习相关代表方法的梳 me
asur
ing 
ent
ity
 re
lat
edne
ss 
wit
h r
ich
 in
forma
tion [
C]?
?Pr
oc
理,我们认为知识表示学习具有重要意义:现有知识 o
f I
JCAI.San Fr
anc
iso,CA: Mo
c r fmann,2015:
gan Kau
库的构建与应用主 要 依 赖 于 离 散 符 号 表 示,而 分 布 1412-1418

11] Hu 
B,Lu Z,L
i H,e
t a
l.Convo
lut
iona
l neur
al ne
two
rk
式表示方案则为实体与关系的语义信息的统一精确

rch
ite
ctur
esf
 or 
mat
chi
ng 
nat
ura
l l
anguage
 sen
tenc
es[
C]?
?
表示提供了可行方案 .在分布式表示学习的支持下,
Pr
oc o
f NIPS.San Fr
anc
iso, CA: Mo
c r fmann,
gan Kau
将极大推动知识的自动获取、融合与推理能力,实现 2014:2042-2050
知识库更加广泛而深入的应用 . [
12] Le 
Q V,Mi
kol
ov 
T.Di
str
ibu
ted
 rep
res
ent
ati
ons 
ofs
 en
tenc
es

本文 还 对 知 识 表 示 学 习 面 临 的 主 要 挑 战、已 有 and do
cumen
ts[
C]?
?Pr
oc o
f rk: ACM,
 ICML. New Yo
2014:873-882
解决方案以及未来 研 究 方 向 进 行 了 总 结 .我 们 认 为
13] B
[ l om P, Gr
uns efens
tet
te E, Ka
lchbr r N,e
enne t a
l. A
知识表示学习虽然 展 现 出 巨 大 的 潜 力,但 距 离 广 泛

onvo
lut
iona
l neur
alne
  two
rkf
 or 
mode
ll
ing 
sen
tenc
es[
C]?
?
应用还有很长的路要走 .可以说,大规模知识表示学 Pr
oc o
f t
he 52nd Annua
l Me
eti
ng o
f t
he As
soc
iat
ion
 fo

习是人工智能学科 发 展 的 学 术 前 沿 问 题,是 智 能 信 Compu
tat
iona
l L
ingu
ist
ics.S
tr g,PA:ACL,2014.
oudsbur

息处理和服务发展 的 基 础 技 术 保 障 .知 识 表 示 学 习 a v:1402.
rXi 2188

14] Pe
roz
ziB,Al-Rf
  R,Sk
ou  iena 
S.De
epwa
lk:On
line
 le
arn
ing
技术将推动人工智 能 学 科、智 能 信 息 服 务 产 业 以 及

f s
oci
al r
epr
esen
tat
ions [
C]?
?Pr
oc o rk:
f KDD.New Yo
创新社会管理与社会服务的发展 .
ACM,2014:701-710
期待更多研究者加入到知识表示学习的研究行 15] Tang J, Qu M, Wang M, e
[ t l. LINE: La
 a rge-s
cal

列中来,希望本文对 于 知 识 表 示 学 习 在 国 内 的 研 究 i
nfo
rma
tion 
netwo
rk 
embedd
ing[
C]?
?Pr
oc 
ofI
 nt 
Wor
ld 
Wide

发展提供一些帮助 . Web 
Con
fer
enc
es S
tee
ring Commi
tte rk: ACM,
e.New Yo
2015:1067-1077
16] Yang C,L
[ iu Z,Zhao D,e
t a
l.Ne
two
rk r
epr
esen
tat
ion
参 考 文 献

ear
ni wi
ng  t
h r
ich
 tex
t i
nfo
rma
tion [
C]?
?Pr
oc 
ofI
 JCAI.San
Fr
anc
iso,CA:Mo
c rgan  fmann,2015
Kau

1] Mi
lle
r G 
A.Wo
r t:A 
dNe lex
ica
l da
taba
sef
 or 
Eng
lish [
J]. [
17] Huang 
E H,So
che
r R,Mann
i C 
ng  D,e
t a
l.Imp
rov
i wo
ng  r

Commun
ica
tions 
oft
  ACM,1995,38(
he  11):39-41 r
epr
esen
tat
ions v
ia g
loba
l on
 c t
ext
 and mu
lti
ple wo
rd

2] Bo
lla r K, Evans C, Pa
cke rit
osh P,e
t a
l.Fr
eeba
se: A r
pot
ot s[
ype C]?
?Pr
oc o
f ACL.S
tr g,PA: ACL,
oudsbur

oll
abo
rat
ive
l c
y re
ated 
graph 
dat
aba
sef
 or
 st
ruc
tur
i human
ng  2012:873-882
edge [
knowl C]?
?Pr
oc o rk:ACM,2008:
f KDD.New Yo [
18] Re
isi
nge
r J, Mooney R J. Mu
lti-p
roo
ttype ve
ctr-s
o pac

1247-1250 mode
ls o
f wo
rd me
anng [
i C]?
?Pr
oc o
f HLT-NAACL.

3] Mi
lle
r E. An
 in
troduc
tion
 to
 the
 re
sour
ce de
scr
ipt
ion S
tr g,PA:ACL,2010:109-117
oudsbur

r rk [
amewo J]. Bu
lle
tin o
f he Ame
 t ric
an So
cie
ty f
or [
19] Ti F,Da
an  i H,B
ian J,e
t a
l.A p
robab
ili
sti
c mode
l f
or

nfo
rma
tion 
Sci
enc
e and 
Techno
logy,1998,25(
1):15-19 l
ear
ning mu
lti-p
roo
ttype wo
rd embedd
ings [
C]?
?Pr
oc o


4] Beng
io Y. Le
arn
ing  de
ep  a
rch
ite
ctur
es o
 fr AI [
J]. COLING.New 
York:ACM,2014:151-160
Founda
tions
 and 
Trends
 in 
Mach
ine 
Lea
rnng,2009,2(
i 1): 20] So
[ r R, Baue
che r J, Mann
ing C D,e
t a
l.Pa
rsi
ng wi
th
1-127 c
ompo
sit
iona
l ve
cto
r r
 gamma
rs [
C] ?
?Pr
oc o
f ACL.

5] Beng
i Y,Cour
o  vil
l A,Vi
e  ncen
t P.Rep
res
ent
ati
onl
 ea
rnng:
i S
tr g,PA:ACL,2013:455-465
oudsbur
A 
rev
iew 
and 
new 
per
spe
cti
ves[
J].IEEE 
Trans 
on 
Pat
ter
n [
21] So r R,Pe
che rel
ygn A, Wu J Y,e
i t a
l.Re
cur
sive de
ep
Ana
lys
isand 
  Mach
ine
 In
tel
li e,2013,35(
genc 8):1798-1828 mode
ls o
 fr eman
 s tic
 compo
sit
iona
lit
y ove
r a
 sen
timen


6] Tur
ian J,Ra
ti L,Beng
nov  io 
Y.Wo
rd r
epr
esen
tat
ions:A t
reebank [
C]?
?Pr
oc 
of 
EMNLP.S
tr g,PA:ACL,
oudsbur

imp
leand 
  gene
ral 
met
hod
 fo
r emi-supe
s rvi
sed
 le
arn
ing[
C]?
? 2013:1642-1653
Pr
oc 
of 
ACL.S
tr g,PA:ACL,2010:384-394
oudsbur [
22] So r R, Huva
che l B, Mann
ing C D, e
t l. Seman
 a tic

7] Mann
ing C D, Raghavan P,Schü
tze H.I
ntr
oduc
tion
 to c
ompo
sit
iona
lit
y t
hrough 
recur
sive 
mat
rix-ve
cto
r s
pac
es[
C]

nfo
rma
tion Re
tri l [M]. Cambr
eva idge, UK: Cambr
idge ?Pr
? oc 
o EMNLP-CoNLL.S
f  tr g,PA:ACL,2012:
oudsbur
Un
ive
rsi
t Pr
y  e
ss,2008 1201-1211

8] Mi
koov T, Su
l tskeve
r I, Chen K, e
t l. Di
 a str
ibu
ted [
23] Luong  M, So r  R, Mann
che ing  C. Be
tte
r  wo
rd

epr
esen
tat
ions  o
f  wo
rds
  and  phr
ase
s  and
  t
hei
r r
epr
esen
tat
ions  wi
th  r
ecur
sive  neur
al  ne
two
rks
 fo


ompo
sit
iona
liy[
t C]?
?Pr
oc 
of 
NIPS.Cambr
idge,MA:MIT mo
rpho
logy[
C]?
?Pr
oc 
of 
CoNLL.S
tr g,PA:ACL,
oudsbur
Pr
ess,2013:3111-3119 2013:104-113
260 计算机研究与发展  2016,53(
2)


24] Bo
tha
  A,B
J  luns
om 
P.Compo
sit
iona
l mo
rpho
logy
 fo
r wo
rd [
40] Yang B, Yi
h W, He X,e
t a
l.Embedd
ing en
tit
ies
 and

epr
esen
tat
ions
 and
 language 
mode
ll
ing[
C]?
?Pr
oc 
ofICML.
  r
ela
tions
 fo
r l
ear
ning 
and
 in
fer
enc
e i
n knowl
edge 
bas
es[
C]?
?
New 
York:ACM,2014 Pr
oc ofI
 nt 
Con
f on 
Lear
ning Rep
resen
tat
ions (
ICLR).2015

25] Chen 
X,Xu 
L,L
i Z,e
u  t a
l.J
oin
t l
ear
ning 
ofcha
  rac
ter
 and [
41] Borde
s A,Usun i
er N,Garca-Dur
i an A,eta
 l.Trans
lat
ing
wo
rd 
embedd
ings[
C]?
?Pr
oc 
ofI
 JCAI.San 
Franc
iso,CA:
c embedd
ings
 fo
r mode
ling 
mul
ti-r
ela
tiona
l da
ta[
C]?
?Pr
oc 
of
Mo
rgan  fmann,2015:1236-1242
Kau NIPS.Cambr
idge,MA:MIT 
Pre
ss,2013:2787-2795

[ [
42] Ni
cke
l M, Tr
esp V, Kr
iege
l H.A t
hre-way mode
e l f
or
26] Kl
emen
ti A,Ti
ev  t  I,Bha
ov tta
rai
 B.I
nduc
ing c
ros
sli
ngua


ist
ribu
ted
 rep
res
ent
ati
ons 
of 
wods[
r C]?
?Pr
oc 
of 
COLING. c
oll
ect
ive
 le
arn
ing on mu
lti-r
ela
tiona
l da
ta[
C]?
?Pr
oc o

New 
York:ACM,2012:1459-1474 ICML.New 
York:ACM,2011:809-816
43] Ni
[ cke
l M,Tr
e V,Kr
sp  iege
l H.Fa
cto
riz
i YAGO:Sc
ng  alab
le

27] Lau
l S,La
y  roche
ll H,Khap
e  r M,e
a  t a
l.An 
aut
oenc
ode

ma
chi
nel
 ea
rni
ngf
 or
 li
nked 
daa[
t C]?
?Pr
oc 
of 
WWW.New
app
roa
cht
 o l
ear
ning b
ili
ngua
l wo
rd r
epr
esen
tat
ions [
C]?
?
rk:ACM,2012:271-280
Yo
Pr
oc o
f NIPS.San Fr
anc
iso, CA: Mo
c r fmann,
gan Kau

44] Mi
kol T,Chen 
ov  K,Co
rr G,e
ado  t a
l.Ef
fic
ien
t e
stima
tion
2014:1853-1861

f wo
rdr
 ep
res
ent
ati
ons
 in 
vec
tor
 spa
ce[
J].Pr
oc 
ofICLR.
 

28] Sh
i T,L
iu Z,L
iu Y,e
t a
l.Le
arn
ing c
ros-l
s ingua
l wo
rd
a v:1301.
rXi 3781.2013
embedd
ings 
via ma
tri o-f
x c act
ori
zat
ion [
C]?
?Pr
oc o
f ACL.

45] Fu 
R,Guo
 J,Qi
n B,e
t a
l.Le
arn
ing 
seman
tic 
hie
rar
chi
es 
via

tr g,PA:ACL,2015:567-574
oudsbur
wo
rd embedd
ings [
C]?
?Pr
oc o
f ACL.S
tr g,PA:
oudsbur
29] Luo H, L
[ iu Z, Luan H, e
t l. On
 a line
 le
arn
ing o

ACL,2014:1199-1209

nte
rpr
etab
le wo
rd embedd
ings [
C] ?
?Pr
oc o
f EMNLP. [
46] Ni
cke
l M,Ro
sas
c L,Pogg
o  io 
T.Ho
log
raph
icembedd
  ings 
of

tr g,PA:ACL,2015:1687-1692
oudsbur
knowl
edge 
graphs [
J].a
rXi
v p
rep
rin
t a v:
rXi 1510.
04935.

30] Mur B,Ta
phy  lukda
r  P,Mi
P  tche
ll 
T M.Le
arn
ing 
eff
ect
ive 2015
and
 in
ter
pre
tab
les
 eman
tic 
mode
ls 
usi
ng 
non-ne
gai
tve
 spa
rse [
47] Wang Z, Zhang J, Feng J, e
t l. Knowl
 a edge g
raph
embedd
ing [
C]?
?Pr
oc 
of 
COLING.New 
York:ACM,2012: embedd
ing by
 tr
ans
lat
ing on hype
rpl s[
ane C]?
?Pr
oc o

1933-1950 AAAI.Men
lo 
Park,CA:AAAI,2014:1112-1119

31] Fyshe 
A,Ta
lukda phy B,e
r P P, Mur t a
l.I
nte
rpr
etab
le [
48] L
i Y,L
n  i Z,Sun M,e
u  t a
l.Le
arn
ing en
tiy and
t  re
lat
ion

eman
tic 
vec
tor
s f
rom 
a o
jin
t mode
l o
f br
ain-and
 tex
t-ba
sed embedd
ings
 fo
r knowl
edge g
raph c
omp
let
ion [
C]?
?Pr
oc o

me
anng [
i C]?
?Pr
oc 
of 
ACL.S
tr g,PA:ACL,2014:
oudsbur AAAI.Men
lo 
Park,CA:AAAI,2015
489-499 [
49] J
i G,He 
S,Xu 
L,e
t a
l.Knowl
edge 
graph 
embedd
i v
ng ia

32] Fa
r i M, Ts
uqu vekov Y, Yoga
t tama D, e
t l. Spa
 a rse dynami
c mapp
i ma
ng  t
rix[
C]?
?Pr
oc 
of 
ACL.S
tr g,
oudsbur
ove
rcomp
let
e wo
rd ve
cto
r ep
 r r
esen
tat
ions [
C]?
?Pr
oc o
f PA:ACL,2015:687-696
ACL.S
tr g,PA:ACL,2015:1491-1500
oudsbur 50] J
[ i G,L
i K,He 
u  S,e
t a
l.Knowl
edge 
graph 
comp
let
ion 
wit


33] Hawk
i  J, B
ns lake
sle
e S. On
 In
tel
li e [M].London:
genc adap
tive
 spa
rse
 tr
ans
fer 
mat
rix[
J].AAAI.2016

51] Xi H, Huang M, Hao Y,e
ao  t a ansA:An adap
l.Tr tive
Ma
cmi
llan,2007
[ app
roa
chf
 or 
knowl
edge 
graph 
embedd
ing[
J].a
rXi
v r
pep
rin

34] Bo
rde
s A,We
st J,Co
on  llobe
r R,e
t  t a
l.Le
arn
i s
ng tr
uct
ured
a v:
rXi 1509.
05490.2015
embedd
ings 
ofknowl
  edge 
bas
es[
C]?
?Pr
oc 
of 
AAAI.Men
lo

52] Xi H,Huang M,Hao Y,e
ao  t a ansG:A gene
l.Tr rat
ive
rk,CA:AAAI,2011:301-306
Pa
mi
xtur
e mode
l f
or knowl
edge g
raph embedd
ing [
J].a
rXi

35] So
[ che
r R,Chen D, Mann
ing C D,e
t a
l.Re
ason
ing wi
th

pep
rin
t a v:
rXi 1509.
05488.2015
neur
alt
 ens
or 
netwo
rks
 fo
r knowl
edge 
bas
e c
omp
let
ion [
C]?
?

53] He 
S,L
i K,J
u  i G,e
t a
l.Le
arn
ing
 to
 rep
res
ent
 knowl
edge
Pr
oc 
of 
NIPS.Cambr
idge,MA:MIT 
Pre
ss,2013:926-934

gaphs 
wit
h Gaus
sian 
embedd
ing [
C]?
?Pr
oc 
of 
CIKM.New

36] Bo
rde
s A,Gl
oro
t X,We
st J,e
on  t a
l.A 
seman
tic 
mat
chi
ng
rk:ACM,2015:623-632
Yo
ene
rgy
 func
tion
 fo
r l
ear
ning wi
th mu
lti-r
ela
tiona
l da
ta[
J].

54] Xi
e R, L
iu Z,J
ia J,e
t a
l. Rep
res
ent
ati
on l
ear
ning o

Ma
chi
ne 
Lea
rnng,2014,94(
i 2):233-259
knowl
edge g
raphs wi
th en
tit
y de
scr
ipt
ions [
C]?
?Pr
oc o


37] Bo
rde
s A,Gl
oro
t X,We
st J,e
on  t a
l.J
oin
t l
ear
ning 
of 
wor
ds
AAAI.Men
lo 
Park,CA:AAAI,2016
and 
mean
ing
 rep
res
ent
ati
ons
 fo
r open-t
ext
 seman
tic 
par
sing [
55] Co
llobe
rt R, We
ston J.A un
ifi
ed a
rch
ite
ctur
e f
or na
tur
al

C]?
?Pr
oc 
of 
AISTATS.Cad
iz,Spa
in:JMLR,2012:127- l
anguage 
pro
ces
sing:De
ep neur
al ne
two
rks wi
th mu
lti
task
135 l
ear
ning[
C]? rk:ACM,2008:160-
?Pr
oc 
ofICML.New 
  Yo

38] J
ena
tt R,Roux N L,Bo
on  r s A,e
de t a
l.A l
aten
t f
act
or 167
mode
l f
or h
igh
ly mu
lti-r
ela
tiona
l da
ta[
C]?
?Pr
oc o
f NIPS. [
56] Co
llobe
rt R, We
ston J, Bo
ttou L E O,e
t a
l. Na
tur
al
Cambr
idge,MA:MIT 
Pre
ss,2012:3167-3175 l
anguage p
roc
ess
ing (
almo
st)f
rom s
cra
tch [
J].JMLR,

39] Su
tskeve
r I,Tenenbaum 
J B,Sa
lakhu
tdi
nov 
R.Mode
ll
ing 2011,12:2493-2537

ela
tiona
l da
ta us
ing Baye
sian c
lus
ter
ed t
ens
or f
act
ori
zat
ion [
57] Zhong 
H,Zhang 
J,Wang 
Z,e
t a
l.Al
ign
ing 
knowl
edge
 and

C]?
?Pr
oc o
f NIPS.Cambr
idge, MA: MIT Pr
ess,2009: t
ext
 embedd
ings by en
tit
y de
scr
ipt
ions [
C] ?
?Pr
oc o

1821-1828 EMNLP.S
tr g,PA:ACL,2015:267-272
oudsbur
刘知远等:知识表示学习研究进展 261


58] Lao 
N,Cohen 
W W.Re
lat
iona
l r
etr
ieva
l us
ing 
a c
omb
ina
tion rks[
two
ne C]?
?Pr
oc 
of 
EMNLP.S
tr g,PA:ACL,
oudsbur

f pa
th-c
ons
tra
ined
 random wa
lks [
J].Ma
chi
ne Le
arn
ing, 2015:1753-1762
1):53-67
2010,81( [
75] Zeng D,L
iu K,La
i S,e
t a
l.Re
lat
ion c
las
sif
ica
tion v
ia

59] Lao 
N,Mi
tche
l T,Cohen 
l  W W.Random 
wal
k i
nfe
renc
e and c
onvo
lut
iona
l de
ep 
neur
alne
  rk [
two C]?
?Pr
oc 
of 
COLING.

ear
ning
 in a
 la
rge
 sc
ale knowl
edge ba
se[
C]?
?Pr
oc o
f New 
York:ACM,2014:2335-2344
EMNLP.S
tr g,PA:ACL,2011:529-539
oudsbur [
76] Do
s San
tos 
C I 
C N,Xi B,Zhou 
ang  B.C
las
sif
ying
 re
lat
ions

60] Ga
rcI A-Dur A N A,Bo
  r s A,Usun
de ier N.Compo
sing by
 rank
ing 
wit
h c
onvo
lut
iona
l neur
alne
  rks[
two C]?
?Pr
oc 
of

ela
tionsh
ips wi
th r
 tans
lat
ions [
C] ?
?Pr
oc o
f EMNLP. ACL-I
JCNLP.S
tr g,PA:ACL,2015:626-634
oudsbur

tr g,PA:ACL,2015:286-290
oudsbur 77] L
[ i H,Xu 
J.Seman
tic 
mat
chi
ngi
 n 
sea
rch [
J].Founda
tions

61] Gu 
K,Mi
lle
r J,L
iang 
P.Tr
ave
rsi
ng 
knowl
edge 
graphs
 in and 
Trends? i
n I
nfo
rma
tion 
Ret
ri l,2013,7(
eva 5):343-469
ve
cto
r spa
ce[
C]?
?Pr
oc o
f EMNLP.S
tr g, PA:
oudsbur [
78] Ba
i B, We
ston J,Gr
ang
ier D,e
t a
l.Po
lynomi
al s
eman
tic
ACL,2015 i
ndex
ing [
C]?
?Pr
oc 
of NIPS.San Fr
anc
iso,CA: Mo
c rgan

62] Tenenbaum 
J B,Kemp 
C,Gr
iff
iths 
T L,e
t a
l.How 
to 
grow fmann,2009:64-72
Kau
a 
mind:S
tat
ist
ics,s
truc
t e,and 
ur abs
tra
cton [
i J].Sc
i e,
enc [
79] Ba
i B, We
ston J,Gr
ang
ier D,e
t a
l.Supe
rvi
sed s
eman
tic
6022):1279-1285
2011,331( i
ndex
ing [
C]?
?Pr
oc o rk: ACM,2009:
f CIKM.New Yo

63] Kemp 
C,Tenenbaum J B.S
truc
tur
ed s
tat
ist
ica
l mode
ls o
f 187-196

nduc
tive
 re
ason
ing [
J].Ps
ycho
log
ica
l Rev
iew,2009,116 [
80] Gy 
O Ngy
i Z 
A N,Ga
rci
a-Mo
li H,Pede
na  rsen 
J.Comba
ting
1):20
( Web spam wi
th r
 tus
trank [
C] ?
?Pr
oc o
f VLDB. San

64] Mi
nt M,B
z  ils S,Snow R,e
l t a
l.Di
stan
t supe
rvi
sion
 fo
r Fr
anc
iso,CA:Mo
c rgan  fmann,2004:576-587
Kau

ela
tion 
ext
rac
tion 
wit
hou
t l
abe
led 
daa[
t C]?
?Pr
oc 
of 
ACL- [
81] Beng
io Y, Lour  J E R O, Co
adour llobe
rt R, e
t l.
 a
JCNLP.S
I tr g,PA:ACL,2009:1003-1011
oudsbur Cur
ricu
lum 
lea
rnng[
i C]?
?Pr
oc 
ofICML.New 
  York:ACM,

65] Sur
de M,Ti
anu  bsh
iran
i J,Na
llapa
t R,e
i  t a
l.Mu
lt-i
i ns
tanc
e 2009:41-48
mu
lt-l
i abe
l l
ear
ning
 fo
r r
ela
tion ex
tra
cton [
i C]?
?Pr
oc o
f [
82] Lake 
B M,Sa
lakhu
tdi R,Tenenbaum 
nov  J B.Human-l
eve

EMNLP.S
tr g,PA:ACL,2012:455-465
oudsbur c
onc
ept
 le
arn
ing
 thr
ough 
probab
ili
sti
c r
pog
ram 
induc
tion [
J].
66] Seba
[ sti R,Yao 
an  L, Mc
cal
lum A.Mode
li  r
ng e
lat
ions
 and Sc
ienc 6266):1332-1338
e,2015,350(

hei
r men
tions wi
thou
t l
abe
led
 t t[
ex C]?
?Pr
oc o
f ECML-
PKDD.Be
rln:Sp
i ri r,2010:148-163
nge L
i Zh
u  yuan,bo
i rni
  1984.PhD,a
n  ssi
stan

67] Ho
[ f R,Zhang C,L
fmann  ing X,e
t a edge-ba
l.Knowl sed r
ese
arche
r. Sen
ior  membe
r o
f  Ch
ina
we
ak 
supe
rvi
sion
 fo
r i
nfo
rma
tion ex
tra
cti
on o
f ove
rlapp
ing Compu
ter  Fede
rat
ion. Hi
s  r
ese
arch

ela
tions[
C]?
?Pr
oc 
of 
ACL-HLT.S
tr g,PA:ACL,
oudsbur i
nte
res
ts  i
ncl
ude  na
tur
al  l
anguage
2011:541-550 r
poc
ess
ing,r
epr
esen
tat
ion
 le
arn
ing,and

68] Takama
t S,Sa
su  toI,Nakagawa 
  H.Reduc
i wr
ng  ong
 labe
ls c
ompu
tat
iona
l s
oci
als
 ci
enc
es.

n d
ist
ant
 supe
rvi
sion
 fo
r r
ela
tion ex
tra
cton [
i C]?
?Pr
oc o

ACL-HLT.S
tr g,PA:ACL,2012:721-729
oudsbur S Ma
un  o
sog,bo
n rni
  1962.PhD,p
n  rof
ess
or

69] Et
zi i O, Ca
on far
ela M, Downey D, e
l t l. Web-s
 a cal
e a
nd 
PhD 
sup
erv
iso
r.S
eni
or 
memb
ero
 f 
Chi
na

nfo
rma
tion 
ext
rac
tion
 in 
knowi
tal:(
l pre
limi
nar
y r
esu
lts)[
C] Compu
ter 
Fed
era
tion.Hi
s r
ese
arc
h i
nte
res
ts
?Pr
? oc 
of 
WWW.New 
York:ACM,2004:100-110 i
ncl
ude  nat
ural
 language  p r
ocess
ing,

70] Ya
te A,Ca
s  far
ell
a M,Banko 
M,e
t a
l.Tex
tr r:Open
unne , ,
Chi
nese
 comput
ing Web int
ell
igenc
e and

nfo
rma
tion ex
tra
cti
on on
 the Web [
C]?
?Pr
oc o
f HLT-

ompu
tat
iona
l s
oci
als
 ci
enc
es.
NAACL.S
tr g,PA:ACL,2007:25-26
oudsbur

71] Ca
rlon A, Be
s tte
ri  J, Ki
dge sie
l B, e
t a
l. Towa
rd an L
i i,bo
Yanka
n  rni
 n 
1991.PhD 
cand
ida
te.

rch
ite
ctur
e f
or  i
r-end
neve ng
 language
 le
arn
ing.[
C]?
?Pr
oc 
of S
tuden
t  membe
r o
f  Ch
ina  Compu
ter
AAAI.S
tr g,PA:ACL,2010:3-10
oudsbur
Fede
rat
ion.Hi
s r
ese
arch
 in
ter
est
s i
ncl
ude

72] Wu 
W,L
i H, Wang H,e
t a
l.Pr
oba
se: A p
robab
ili
sti

knowl
edge  g
raphs
  and
 rep
res
ent
ati
on

axonomy
 fo
r t
ext
 unde
rst
and
ing [
C]?
?Pr
oc o
f t
he 2012

ear
ning.
ACM S
IGMOD I
nt Con
f on Managemen
t o
f Da
ta. New
rk:ACM,2012:481-492
Yo
e Ruob
Xi ing, bo
rn n 1992. Ma
 i ste


73] Wu F, We
ld D S. Open
 in
forma
tion ex
tra
cti
on us
ing

and
ida
te. S
tuden
t membe
r f Ch
 o ina
Wi
kiped
ia[
C]?
?Pr
oc o
f ACL.S
tr g,PA: ACL,
oudsbur
Compu
ter  Fede
rat
ion. Hi
s  r
ese
arch
2010:118-127
[ i
nte
res
ts i
ncl
ude knowl
edge g
raphs
 and
74] Zeng 
D,L
iu K,Chen Y,e
t a
l.Di
stan
t supe
rvi
sion
 fo


ela
tion ex
tra
cti
on  v
ia  p
iec
ewi
se c
onvo
lut
iona
l  neur
al r
epr
esen
tat
ion
 le
arn
ing.
     

You might also like