You are on page 1of 13

① 全日制博士研究生; ② 全日制硕士研究生;

研究生 ③ 工程硕士; ④ MBA;


类别 ⑤ 高校教师在职攻读硕士学位; ⑥ 中职教师在职攻读硕士学位。
⑦ 同等学历史申请硕士学位

研究生学位论文开题报告申请表

学 号: 2112112059

研究生 姓名: 吴志伟

学科 、专业: 计算机科学与技术

学 院:计算机科学与技术学院

指 导 教 师: 潘建
浙江工业大学研究生院制
年 月 日填
关于研究生学位论文开题报告的有关说明

1、开题报告主要内容包括:
(1)论文选题的目的和意义;
(2)国内外关于该课题的研究现状及趋势;
(3)本人的研究计划,包括研究目标、内容、技术路线、拟突破的难点或
攻克的难关、自己的创新或特色、实验方案或写作计划等;
(4)主要参考文献目录。
开题报告的书面材料不得少于 3000 字。
2、研究生在选题、系统查阅国内外有关文献及调研的基础上写出开题报告,
并在所在学科、专业范围内报告及论证,由导师主持,并邀请有关学科、专业
的专家三至五人组成开题报告评议组。评议组对开题报告进行评议表决,并由
研究生导师在申请表上填写综合评语。
4、开题报告通过后,研究生方可进入论文工作阶段。如未通过者,在 3 个
月内可补做开题报告,仍未通过者,则中止其学业,按退学处理。
5、开题报告通过后,原则上一般不再随意改题。如确有特殊原因需改题者,
须由研究生写书面报告,经指导教师签署意见,学院负责人审批后,报研究生
院备案,并补做开题报告。
姓 名 职 称 所 在 工 作 单 位









表决票数 不同意
评议结果 □可行 □修改后重新评议 □不可行
开题报告综合评语:









指导教师签名:_____________

年 月 日
拟定学位论文题目 基于 BERT 的中文零样本实体链接模型研究与应用

开题报告具体内容:
一、论文选题的目的和意义
人工智能领域作为一门用于模拟延伸与扩展人类智能的技术学科,主要分为计算智
能、感知智能和认知智能三个阶段 [1]。当前人工智能研究正处于从感知智能向认知智能
迈进的阶段。机器实现认知智能的一个重要支撑就是知识库。知识库是一种大规模语义
网络,表达了实体、概念、值之间丰富的语义关系。知识库是由节点和连接节点的边组
成的多关系有向图,其中的节点表示实体、概念或者值,边表示节点之间的关系。机器
认知智能的两个核心能力是“理解”与“解释”。这两者都可以通过知识库实现。前者
可以看作是建立起从数据到知识库中实体、概念、关系映射的一个过程,而后者则可以
看作是利用知识库中实体、概念、关系解释现象的过程[2]。
近年来,网络数据的数量呈指数级增长,网络已成为世界上最大的数据库之一。网
络上的大量数据是以自然语言的形式存在的。实体链接的任务就是建立起自然语言文本
到知识库中实体的映射。将网络数据与知识库链接起来有助于注释网络上大量原始且有
噪声的数据。实体链接可以促进许多不同的任务,如知识库填充(KBP)、信息检索、
智能标注、问答系统和信息集成等。随着世界的发展,新的事实被生成并在网络上以各
种形式表达出来。因此,利用新的事实丰富现有的知识基础也变得越来越重要。
一般来说,实体链接的两个主要挑战分别是自然语言的歧义性和多样性。歧义性即
一词多义,是指相同的词或短语可以用来指代不同的实体。比如“苹果”既可以是“水
果苹果”也可以认为是“苹果公司”或“苹果手机”。多样性即多词同义,是指同一实
体可以用不同的词或短语来指代。比如“姚明(篮球运动员)”有许多别名,如移动长
城、小巨人、大姚等。在实体链接任务中,文本中的实体指称项通常作为已知条件给
出,主要解决文本中实体指称项和知识库中实体的多对多映射关系,即一个实体指称项
在知识库中可能对应多个实体,一个实体可能有多个不同的实体指称项表示。实体链接
的目标就是将文本中的实体指称项关联到知识库中的正确实体[3]。
传统的实体链接系统借助其大量的人工标注数据集和背景知识 [3],包括实体的表名
表,实体的知名度,以及链接先验概率等在某些通用领域取得了不错的效果。但是由于
大量的人工和背景知识的收集,导致传统的实体链接系统很难直接扩展到其他专业领
域。因此,零样本实体链接[4]被提出,即只使用通用领域的标注数据集以及实体的摘要
信息作为背景知识来进行训练,然后在其他专业领域进行实体链接。零样本实体链接给
传统的实体链接系统带来了三个挑战。第一个挑战是缺少了别名表知识,每个实体指称
项都必须与知识库中所有的候选实体进行匹配,才能找到正确的实体。第二个挑战是缺
少了实体之间的语义关系和先验概率等背景知识,知识库中只包括实体的描述信息。第
三个挑战是训练集和测试机都来自不同的领域,这对实体链接模型的泛化性提出了更高
的要求。
实体链接的研究具有非常重要的价值,是很多自然语言处理领域任务的基石。在问
答系统中,实体链接系统返回与问题最契合的文档进行问答以减少问答系统对所有文档
检索的时间。在搜索引擎中,实体链接系统根据用户问题中的实体指称项和知识库中的
实体来匹配最佳答案。
目前,大部分零样本实体链接的模型都是基于英语来训练的,即数据集中的问题和
答案都是英语。中文实体链接数据集和模型方面的工作还不够完善,研究中文零样本实
体链接模型具有重大意义。
二、国内外研究现状及趋势
实体链接的输入是一段文本和该文本中出现的实体指称项(Mention)以及一个给
定的知识库,输出是这些实体指称项在知识库中对应的实体。实体链接的过程主要分为
候选实体生成和候选实体排序两个阶段。候选实体生成是指在知识库中找到与文本中的
实体指称项相关联的实体,作为实体指称项对应的候选实体集合。候选实体排序是指对
上一步候选实体生成的候选实体集合中的候选实体进行排序,然后选出与实体指称项最
相关的候选实体并将其链接到知识库中的过程。候选实体生成阶段的效果好坏会直接影
响候选实体排序的结果,可能会导致实体指称项无法找到候选实体。根据是否包含背景
知识,实体链接可以分为传统实体链接方法和零样本实体链接方法。
(1)传统实体链接研究现状
传统实体链接中的候选实体生成方法主要包括基于名称字典的生成方法、基于词面
匹配的生成方法、基于搜索引擎的生成方法等。基于名称字典的生成方法首先构建一个
名称到实体集合的映射字典,然后通过查询字典找到给定实体指称项(键)对应的实体
集合(值)[3]。其中,字典中的键代表字体的名称或别名字符串,字典的值代表知识库
中的实体,一个字符串可能对应多个不同的实体。Varma 等[5]利用实体在维基百科描述
页面第一段文本中出现的黑体短语作为实体指称项构造实体的名称字典,其中页面标题
作为键,黑体短语作为值。Chakrabarti 等[6]利用维基百科文章中的超链接构造名称字
典,其中页面标题作为键,超链接锚文本作为值。Chen 等[7]利用维基百科中实体名称与
名称字典中键的匹配程度来扩充名称字典。这些利用维基百科各种特征构造名称字典不
仅过程繁琐,而且候选实体集的噪声太大。基于词面匹配的生成方法中实体指称项和候
选实体之间的名称字符串比较是最直观的方式。Hachey 等[8]通过计算实体指称项和实体
名称之间相同的单词的数量来确定候选实体集合。Han 等[9]通过实体指称项附近的括号
内容得到候选实体集合。Zhang 等[10]利用 N-Gram 的方法在全文中找到缩写实体指称项的
词面扩展,并将其作为候选实体。Zheng 等[11]选择使用与实体指称项首字母相同并其后
不超过 2 个停止词或者标点符号的最长字符串作为实体指称项的候选实体。实体指称项
与候选实体之间的名称字符串比较中使用字符串相似度度量,包括编辑距离 (Edit
Distance)[11],Dice 系数(Dice Coefficient)[12]等。这种基于词面匹配的方法无法获取
异形同义的词。基于搜索引擎的生成方法主要是利用谷歌、百度等搜索引擎实现。Han
等[9]使用谷歌 API,将实体指称项及其简短上下文通过搜索引擎获得的维基百科的网页
所描述的实体作为候选实体。Dredze 等[13]利用搜索引擎得到前 20 个网页中的维基百科
页面,并将维基百科页面的标题作为候选实体。但是这种方法对网络资源要求很高,同
时网络的复杂性和不确定性导致难以构建出高质量的候选实体集合。
传统实体链接中的候选实体排序方法分为基于机器学习的实现方法和基于深度学习
的实现方法。在综合考虑了实体的别名表以及实体类型等人工特征的前提下,基于机器
学习的候选实体排序方法一共分为三种。第一种是基于二分类的方法,将候选实体排序
任务构建成二分类任务,预测当前实体指称项是否能够指代候选实体 [10-15]。第二种是基
于概率统计的方法,其根据文档中的实体指称项在很大程度上指代的都是主题连贯的实
体这一前提,利用这种实体的话题一致性对候选实体进行排序 [16-18]。第三种是基于图的
方法,Han 等[19]提出了基于图的候选实体排序方法,利用实体别名表以及实体类型等信
息,对文档中的不同实体指称项根据全局的主题相关性进行建模。Sozio 等[20]使用一种
加权无向图来完成集体链接后利用贪心算法完成对候选实体的排序任务。基于深度学习
的方法主要是将实体指称项和候选实体进行向量化表示,然后利用候选实体排序模型计
算两者的相关性分数。在对实体指称项进行编码时通常将指称项的上下文考虑在内,以
便消除指称项的歧义。早期一般利用 LSTM 编码器对候选实体和实体指称项进行编码
[21,22]
。Kolitsas 等[23]是使用 LSTM 隐藏层的向量作为实体指称项的编码表示。Titov 等
[22]
使用双向的 LSTM 神经网络对实体指称项以及候选实体进行编码。Zhang 等[24]首先使
用双向 LSTM 对实体指称项以及实体进行编码,然后使用注意力机制对两者进行编码,
最后将编码经过池化层后进行二分类,得到最终的预测结果。Peters 等[25]利用 BERT 对
实体指称项所有单词编码后利用最大池化得到编码,并利用额外的自注意力块对候选实
体进行编码。Yamada 等[26]通过基于预训练 BERT 的自注意力模型将实体指称项以及候选
实体进行编码,在得到实体指称项以及实体相关信息的向量化表示之后,通过相似度函
数(余弦相似度、点积等)计算出实体指称项和候选实体之间的相似度,然后对将得分
最高的候选实体作为实体指称项应该链接的实体。
(2)零样本实体链接研究现状
与传统的实体链接相比,零样本实体链接任务中实体缺少了背景知识,只包含一段
描述信息。因此,传统的实体链接方法很难用于零样本场景下。在候选实体生成阶段,
需要将每个实体指称项与全部实体进行比对。为了提高效率,Logeswaran 等[4]提出了基
于 BM25(关键字匹配+TF-IDF 权重)的方法来加速选择知识库中的候选实体。BM25 方法
逻辑简单、功能强大且十分高效。但是这种基于关键字的检索方法可能会忽略了异形同
义的候选实体。 Ledell 等[27]提出了基于 BERT 的双塔模型架构(Bi-Encoder)来得到实
体指称项的候选实体,即使用 BERT 编码器对实体指称项以及知识库中的实体分别进行
编码,得到在同一向量空间中的向量化表示,然后利用相似度函数计算出实体指称项与
每个实体之间的相似性分数,并选取分数最高的 K 个实体作为该实体指称项的候选实
体。这两种方法过分追求效率,实体指称项和候选实体之间没有充分进行交互,导致召
回率不高,直接影响下一阶段。在候选实体排序阶段,Ledell 等 [27] 提出了 Cross-
Encoder 模型用来对候选实体生成的 K 个候选实体进行精细排序,即将实体指称项及其
上下文与实体名称及其描述进行拼接,之后送入 BERT 编码器中进行编码,获取输出编
码的[CLS]位经过线性层得到每个候选实体的分数。然后这些分数经过激活函数后得到
每个候选实体的概率分布,选取最大值作为该实体指称项相应的链接实体。Yao 等[28]提
出了长距离候选实体排序模型,在将实体指称项与实体信息进行拼接后将拼接结果再次
重复,然后利用改造后的 BERT 编码器得到候选实体与当前实体指称项的相关性,并选
择最高分的实体作为预测结果。Xu 等[29]提出了一个关于中文的零样本实体链接的数据
集,填补了中文零样本实体链接数据集的空缺。候选实体排序阶段只考虑了候选实体与
实体指称项之间的交互,缺少了候选实体之间的比较,从而影响最终结果。
三、研究方案
(1) 研究目标
本课题的研究内容主要集中在中文的零样本实体链接模型上。本课题的研究目标为
1)设计一个基于 BERT 的中文零样本实体链接模型,通过 BERT 设计不同的编码器,然
后利用不同的编码器去捕获更深层次的信息,双编码器分别对文本和知识库实体进行充
分自我交互,交叉编码器将文本和知识库实体结合起来捕获两者之间的联系;2)研究
中文字符或词语的附加特征,以加强词嵌入的健壮性和 BERT 模型捕获信息的能力 3)设
计一个关于政务方面的零样本测试集,将该中文零样本实体链接模型应用到专业领域。
(2) 研究内容
 研究一个基于 BERT 的中文零样本实体链接模型
实体链接的过程分为候选实体生成和候选实体排序两部分,所以设计一个基于
两阶段的实体链接模型。在候选实体生成阶段,设计一个双编码器如图 1 所示。使
用 BERT 模型分别对带有实体指称项的文本和知识库中实体进行独立的编码,然后
采用一种后期交互的方式来计算指称项和候选实体的相似度。也就是,先计算实体
指称项的每一个词编码与实体所有词向量编码的余弦相似度,选出最大者作为实体
指称项当前词编码的最大相似度分数。将实体指称项每一个词编码的最大余弦相似
度分数相加,便得到当前实体与实体指称项的相关性分数。然后根据相关性分数排
序获取 top-K 个候选实体。
在候选实体排序阶段,设计一个交叉编码器如图 2 所示。将实体指称项和上一
步生成的候选实体集分别进行拼接,然后输入到 BERT 模型中训练得到[CLS]令牌

图 1 候选实体生成模型

图 2 候选实体排序模型
输出的最后一层,再经过一个线性层得到实体指称项和候选实体的分数。分数最高
者就是该实体指称项对应知识库中的候选实体。
 研究中文字符或词语的附加特征
利用神经网络模型处理文本时,需要将连续的文本分成离散的词(中文分词)
或字(每个字单独处理)。并将词或字映射成词向量后输入到神经网络中进行后续
的处理。在英文自然语言处理中,除了单纯的使用词向量作为神经网络模型的输入
之外,还有在组成单次的字符上做卷积得到额外的特征作为附加特征与词向量链接
后作为神经网络模型的输入。对于中文,可以借鉴英文的处理方式,寻找除了词向
量外的中文附加特征作为神经网络的输入,通过附加特征提高模型捕获文本信息的
能力,从而获得更好的性能。
如图 3 所示,BERT 模型的输入是每一个 token 对应的分词嵌入、分段嵌入和
位置嵌入,分别代表了 token 的单词信息、分段信息以及位置信息。BERT 模型的

图 3 BERT 的输入模块

输入以[CLS]特殊标志位开始,[SEP]特殊标志位结束,当编码的文本是两句话时,
中间用[SEP]特殊标志位隔开。
我们通过研究对中文的附加特征后,可以训练一个中文附加特征的向量文件,
然后加入到 BERT 模型的输入中。如图 4,可以将附加特征向量作为一个新的输入
模块,结合 BERT 输入的三个嵌入一起作为 BERT 输入。

图 4 增加中文附加特征的 BERT 输入模块


 研究中文零样本实体链接模型在政务领域的应用
目前中文零样本实体链接数据集较少,对能否将一个零样本实体链接应用到专
业领域还有待考验。通过利用 BERT 将从大量无标注数据集中学习到的信息转移到
目标任务中能够有效的提升模型的训练效率和模型在数据量不足的任务中的表现。
本课题的研究内容之一就是设计一个关于政务领域的零样本测试集,实现该中文零
样本实体链接系统在专业领域中的应用。通过收集知识库中不存在实体来验证零样
本实体链接的准确度。如图 5,先通过对政务领域网站进行爬虫,爬取领域相关文
章。然后对文章进行分类,每一篇文章进行分词和命名实体识别。识别出可能存在
的实体和实体上下文。对实体和实体上下文进行筛选(需要实体不在知识库中,对
于现有知识库来说是不可见的)。最后,构建出政务领域的数据集进行测试。
(3) 研究难点
本课题的研究难点主要如下所述:

图 5 政务领域数据集构建过程

 基于 BERT 设计各种不同的编码器
目前基于 BERT 的编码器模型都是针对英语数据集。根据在英语数据集上使用
的 BERT 编码器改进成在中文数据集上的 BERT 编码器有一定难度。带有实体指称
项的文本和知识库中的实体分别经过双编码器进行编码后如何选择后期交互的方式
来计算两者的相关性分数也是一大难点。众所周知,基于 BERT 的编码器训练量都
过亿。在候选实体排序阶段,使用交叉编码器来进行训练如何减少训练量提高效率
也是设计编码器的一大难点。
 中文文本的处理
中文句子不像英文句子那样可以通过空格(即一个一个单词)来进行分词。中
文文本字词之间不存在间隙,如果将每个中文字符当作最小的单位进行处理不仅会
割裂的中文词语的意思,而且会使得整个文本数据集的输入特征急剧减少。如果使
用中文分词工具对文本进行分词处理,那么分词工具的选择就显得尤为重要,分词
工具的性能会对模型的性能造成一定的影响。其次,中文词语不像英文单词由字符
组成,英文单词可进行字符级别的卷积获得单词特征。而中文词语是象形字的代表
之一,由多个中文字符组成,多个中文字符的笔画不一定具有单词字符那样的表达
能力。因此,设计一种合适的中文文本处理的附加特征是研究的难点之一。
 构建政务专业领域的中文零样本测试集
数据集的从零构建需要使用到爬虫技术、分词技术和命名实体识别技术。同时
也伴有很大的工作量。为了保证数据集的可用性,需要在收集的同时确保质量。这
是从未有过的挑战。数据集作为零样本实体链接的测试集使用,为了测试基于
BERT 的中文零样本实体链接模型在政务领域上的应用。
(4) 研究创新
本文的创新点主要体现在三个地方:
 基于 BERT 的中文零样本实体链接模型的设计
现有的基于 BERT 编码器的实体链接模型大多数都是基于英文或非零样本的。
设计基于中文的 BERT 编码器是本文创新点之一。在候选实体生成阶段使用不同的
后期交互方法来进行候选实体集的选择也是本文创新点之一。
 研究中文字符或词语的附加特征
通过利用中文分词工具得到中文分词后的词向量表示。设计一种基于中文字符
或词语的附加信息作为神经网络模型的输入补充,从而达到提高模型性能的目的。
通过结合额外的附加特征信息和不同的编码器为中文零样本实体链接领域提供一种
思路,从而实现模型的创新与性能的提升。
 研究中文零样本实体链接模型在政务专业领域的应用
目前中文零样本实体链接数据集较少,对能否将一个零样本实体链接应用到专
业领域还有待考验。本课题的创新点之一就是设计一个关于政务领域的零样本测试
集,实现该中文零样本实体链接系统在专业领域中的应用。
(5) 研究计划
2023.01-2023.03 查阅相关文献,了解对比目前国内外相关研究技术,深入学习并总
结,准备学位论文开题;
2023.04-2023.05 完成基于 BERT 的中文零样本实体链接模型的设计;
2023.06-2023.08 完成中文附加特征信息的选择及训练;
2023.09-2023.12 完成研究模型的实验及对其他模型和不同数据集上的对比试验;
2024.01-2024.04 完成毕业论文的撰写、修改和答辩准备。
四、参考文献
[1] 李生,苏功臣. 人工智能正在从感知走向认知[J]. 民主与科学,2019(6):25-29.
[2] 肖仰华、徐波、林欣、李直旭等. 知识库概念与技术[M].电子工业出版社,
2020,107- 530.
[3] W. Shen, J. Wang and J. Han, "Entity Linking with a Knowledge Base: Issues,
Techniques, and Solutions," in IEEE Transactions on Knowledge and Data
Engineering, vol. 27, no. 2, pp. 443-460.
[4] Logeswaran L, Chang M W, Lee K, et al. Zero-shot Entity Linking by Reading
Entity Descriptions[C]//Proceedings of the 57th Annual Meeting of the
Association for Computational Linguistics. 2019: 3449-3460.
[5] Varma V, Pingali P, Katragadda R, et al. IIIT Hyderabad at TAC 2009[C]//TAC.
2009(07):41-50.
[6] Chakrabarti K, Chaudhuri S, Cheng T, et al. A framework for robust discovery of
entity synonyms[C]//Proceedings of the 18th ACM SIGKDD international
conference on Knowledge discovery and data mining. 2012: 1384-1392.
[7] Chen Z, Tamang S, Lee A, et al. CUNY-BLENDER TAC-KBP2010[J].
2010(03):21- 28.
[8] Hachey B, Radford W, Nothman J, et al. Evaluating entity linking with
wikipedia[J]. Artificial intelligence, 2013, 194: 130-150.
[9] Han X, Zhao J. NLPR_KBP in TAC 2009 KBP Track: A Two-Stage Method to
Entity Linking[C]//TAC. 2009(05):35-45.
[10] Zhang W, Tan C L, Sim Y C, et al. NUS-I2R: Learning a Combined System for
Entity Linking[C]//TAC. 2010(08):83-90.
[11] Z. Zheng, F. Li, M. Huang, and X. Zhu, “Learning to link entities with knowledge
base,” in NAACL, 2010: 483–491.
[12] J. Lehmann, S. Monahan, L. Nezda, A. Jung, and Y. Shi, “Lcc approaches to
knowledge base population at tac 2010,” in TAC 2010 Workshop, 2010:1-11.
[13] M. Dredze, P. McNamee, D. Rao, A. Gerber, and T. Finin, “Entity
disambiguation for knowledge base population,” in COLING, 2010:277–285.
[14] Zhang W, Sim Y C, Su J, et al. Entity linking with effective acronym expansion,
instance selection and topic modeling[C]//Twenty-Second International Joint
Conference on Artificial Intelligence. 2011(12):70-80.
[15] Zhang W, Su J, Tan C L, et al. Entity linking leveraging automatically generated
annotation[C]//Proceedings of the 23rd International Conference on
Computational Linguistics (Coling 2010). 2010: 1290-1298.
[16] Kulkarni S, Singh A, Ramakrishnan G, et al. Collective annotation of wikipedia
entities in web text[C]//Proceedings of the 15th ACM SIGKDD international
conference on Knowledge discovery and data mining. 2009: 457-466.
[17] Han X, Sun L. A generative entity-mention model for linking entities with
knowledge base[C]//Proceedings of the 49th Annual Meeting of the Association
for Computational Linguistics: Human Language Technologies. 2011: 945-954.
[18] Demartini G, Difallah D E, Cudré-Mauroux P. Zencrowd: leveraging probabilistic
reasoning and crowdsourcing techniques for large-scale entity
linking[C]//Proceedings of the 21st international conference on World Wide
Web. 2012: 469-478.
[19] Han X, Sun L, Zhao J. Collective entity linking in web text: a graph-based
method[C]//Proceedings of the 34th international ACM SIGIR conference on
Research and development in Information Retrieval. 2011: 765-774.
[20] Sozio M, Gionis A. The community-search problem and how to plan a successful
cocktail party[C]//Proceedings of the 16th ACM SIGKDD international
conference on Knowledge discovery and data mining. 2010: 939-948.
[21] Sil A, Kundu G, Florian R, et al. Neural cross-lingual entity linking[C]//Thirty-
Second AAAI Conference on Artificial Intelligence. 2018: 120-145.
[22] Le P, Titov I. Distant Learning for Entity Linking with Automatic Noise
Detection[C]//Proceedings of the 57th Annual Meeting of the Association for
Computational Linguistics. 2019: 4081-4090.
[23] Kolitsas N, Ganea O E, Hofmann T. End-to-End Neural Entity
Linking[C]//Proceedings of the 22nd Conference on Computational Natural
Language Learning. 2018: 519-529.
[24] Zhang L, Li Z, Yang Q. Attention-Based Multimodal Entity Linking with High-
Quality Images[C]//International Conference on Database Systems for Advanced
Applications. Springer, Cham, 2021: 533-548.
[25] Peters M E, Neumann M, Logan R, et al. Knowledge Enhanced Contextual Word
Representations[C]//Proceedings of the 2019 Conference on Empirical Methods
in Natural Language Processing and the 9th International Joint Conference on
Natural Language Processing (EMNLP-IJCNLP). 2019: 43-54.
[26] Yamada I, Washio K, Shindo H, et al. Global entity disambiguation with
pretrained contextualized embeddings of words and entities[J]. arXiv preprint
arXiv:1909.00426, 2019: 53-74.
[27] Wu L, Petroni F, Josifoski M, et al. Scalable Zero-shot Entity Linking with Dense
Entity Retrieval[C]//Proceedings of the 2020 Conference on Empirical Methods in
Natural Language Processing (EMNLP). 2020: 6397-6407.
[28] Yao Z, Cao L, Pan H. Zero-shot Entity Linking with Efficient Long Range
Sequence Modeling[C]//Findings of the Association for Computational
Linguistics: EMNLP. 2020: 2517-2522.
[29] Zhenran Xu, Zifei Shan, Yuxin Li, Baotian Hu, and Bing Qin. 2023. Hansel: A
Chinese Few-Shot and Zero-Shot Entity Linking Benchmark. // In Proceedings of
the Sixteenth ACM International Conference on Web Search and Data Mining
(WSDM '23).
[30] Omar Khattab and Matei Zaharia. 2020. ColBERT: Efficient and Effective
Passage Search via Contextualized Late Interaction over BERT. In Proceedings of
the 43rd International ACM SIGIR Conference on Research and Development in
Information Retrieval (SIGIR '20).
[31] Zeng, W., Zhao, X., Tang, J., Tan, Z., & Huang, X. (2020, May). Cleek: A
chinese long-text corpus for entity linking. In Proceedings of The 12th Language
Resources and Evaluation Conference (pp. 2026-2035).
[32] Gong, S., Xiong, X., Li, S., Liu, A., & Liu, Y. (2022, February). Chinese Entity
Linking with Two-stage Pre-training Transformer Encoders. In 2022 International
Conference on Machine Learning and Knowledge Engineering (MLKE) (pp. 288-
293). IEEE.
[33] Diao, X., Shi, D., Tang, H., Wu, L., Li, Y., & Xu, H. (2022). REZCR: A Zero-
shot Character Recognition Method via Radical Extraction. arXiv preprint
arXiv:2207.05842.
[34] Li, Y., Zhao, Y., Hu, B., Chen, Q., Xiang, Y., Wang, X., ... & Ma, L. (2021).
Glyphcrm: Bidirectional encoder representation for chinese character with its
glyph. arXiv preprint arXiv:2107.00395.
[35] Zhang-Li, D., Zhang, J., Yu, J., Zhang, X., Zhang, P., Tang, J., & Li, J. (2022,
May). HOSMEL: A Hot-Swappable Modularized Entity Linking Toolkit for
Chinese. In Proceedings of the 60th Annual Meeting of the Association for
Computational Linguistics: System Demonstrations (pp. 214-223).

You might also like