You are on page 1of 10

情报学报 2021 年 2 月 第 40 卷 第2期

Journal of the China Society for Scientific and Technical Information, Feb. 2021, 40(2): 184-193

DOI: 10.3772/j.issn.1000-0135.2021.02.008

基于三维引文关联网络的潜在知识流动探测
——以基因编辑领域为例
王菲菲 1,王筱涵 1,徐 硕 1,芦婉昭 1,宋艳辉 2
(1. 北京工业大学经济与管理学院,北京 100124;2. 杭州电子科技大学管理学院,杭州 310018)

摘 要 在知识经济时代,知识流动在激发知识创新和促进科技发展等方面的价值逐步凸显出来。本文在直引-共被
引-耦合三维引文关联网络融合的基础上,对主题关联层面进行映射,对领域内潜在的知识流动进行挖掘。链路预测
指标作为特征值,分别应用于构建分类器和回归器。其中,分类器用于预测目前尚未存在、在未来极有可能发生的知
识流动;回归器主要用于预测目前链接权重较低的,尚未引起广泛关注、但在未来具有较高链接权重的知识流动。两
种预测层面综合互补,可更全面地探测领域内的研究前沿或新兴趋势。利用该思路对当前热门的基因编辑技术领域进
行探索研究,得到了该领域中的潜在知识流动和潜在研究的热点,为科研人员选择研究方向提供参考。

关 键 词 三维引文关联融合;知识流动;链路预测;基因编辑

Potential Knowledge Flow Detection from an Integrated Perspective


of Three-Dimensional Citations: A Case Study of Gene Editing
Wang Feifei1, Wang Xiaohan1, Xu Shuo1, Lu Wanzhao1 and Song Yanhui2
(1. School of Economics and Management, Beijing University of Technology, Beijing 100124;
2. School of Management, Hangzhou Dianzi University, Hangzhou 310018)

Abstract:In the era of knowledge economy, the value of knowledge flow in stimulating knowledge innovation and pro‐
moting scientific and technological development has gradually become more prominent. Based on the fusion of direct-co-
citation-coupling citation association, this paper mines the potential knowledge flow in the domain at the subject associa‐
tion level. Indicators of link prediction are used as the feature values to construct the classifier and regressor, respectively.
The classifier is used to predict the knowledge flow that is not yet present but is likely to occur in the future. The regressor
is mainly used to predict the current knowledge flow with low link weights, which has not attracted widespread attention
but has high link weights in the future. The two-layer prediction method is comprehensive and complementary, which can
more fully detect research frontiers and emerging trends in the field. Using this idea to explore the currently trending field
of gene editing technology, we have obtained the potential knowledge flow and research hotspot in this field, which can
serve as a reference for the future research direction for researchers.
Key words:three-dimensional citation association fusion;knowledge flow;link prediction;gene editing

收稿日期:2019-08-16;修回日期:2020-03-03
基金项目:北京市社会科学基金项目“‘一带一路’沿线国际科技交流互惠与协同创新研究”(19GLC057);北京市属高校高水平教师队伍
建设支持计划-青年拔尖人才培育计划项目 (PXM2020_014204_000019)。
作者简介:王菲菲,女,1985 年生,博士,副教授,主要研究领域为科学计量与科技管理;王筱涵,女,1994 年生,硕士研究生,主要研
究领域为科学计量;徐硕,男,1979 年生,博士,教授,主要研究领域为技术预见与科学前沿探测;芦婉昭,女,1996 年生,
硕士研究生,主要研究领域为科学计量与数据分析;宋艳辉,男,1981 年生,博士后,副教授,主要研究领域为信息计量与科
学评价,E-mail:syh687@163.com。
第2期 王 菲 菲 等 :基 于 三 维 引 文 关 联 网 络 的 潜 在 知 识 流 动 探 测 —— 以 基 因 编 辑 领 域 为 例 185

1 引 言 2 相关研究概述

随着知识经济时代的到来,知识的价值被逐渐 2.1 三维引文关联融合


挖掘出来。同时,知识流动的活力凸显,在知识创
在文献中,主题是知识的直接表征。文献之间
新 和 科 学 发 展 方 面 发 挥 着 不 可 替 代 的 作 用 [1] 。 作 为
的引证关系本质上揭示的是知识之间的流动与转
技术创新的基础,知识创新是经济增长与科技进步
移,因而在刻画知识流动网络方面具有较为广泛的
的动力源泉。知识流动是知识创新的必要条件,当
应用。文献间传统的引证关系主要包括:直引关
创 新 主 体 中 的 知 识 转 移 (流 动) 到 其 他 创 新 主 体
系、共被引关系以及耦合关系。其中,直引关系作
时,通过融合、内化、创新等形式又转化为新的知
为最直接的一种引文关联方式,最能刻画领域内的
识,从而激发知识创新的产生 [2] 。
知 识 流 动 现 状 。 Shibata 等 [6] 研 究 表 明 , 相 比 共 被 引
潜在知识流动,又称未来知识流动,是指目前
与文献耦合网络而言,对直引网络分析作为引文分
尚未产生,但在未来很有可能发生的知识流动,可
析中最为直接的关联挖掘方式,其在探测领域内的
用于揭示学术领域内未来的知识创新。通过对已有
的知识流动进行分析,推测出可能发生的创新方 研究现状、挖掘知识交流情况等诸多方面的应用中

向,即探测潜在知识流动。潜在知识流动探测有助 具有最佳的表现。目前,已有的关于知识流动的研

于科研工作人员追踪研究前沿与新兴研究趋势,为 究多是以引文网络为基础,且多集中于直引网

研究人员选择研究方向提供参考。 络 [7-8] 。直引分析固然重要,但是另两种引文关联方

科学文献作为学术界最为普遍的知识载体,在 式同样也不可忽视,它们亦可作为直引网络在领域

学术生态圈中充当着学术媒介的角色。文献间的引 内 实 现 更 全 面 的 关 联 发 现 中 的 有 益 补 充 [9] 。 三 种 引

证关系,本质上揭示的是知识流动与知识转移的过 文关联在刻画领域研究现状各有侧重,单一引文关

程 [3] 。 被 引 方 通 过 科 技 文 献 , 将 自 身 的 知 识 进 行 传 联不足以涵盖科学研究领域的全貌,不能反映真实

播,同时所传播的知识被引用方接受与吸收。施引 的知识交流情况。相关研究表明 [10] ,不同学术网络


方和被引方构成知识流动的线段,此线段的载体为 所揭示的学科知识结构及未来演化情况侧重于不同
科技文献。这种领域内知识的交叉融合有利于激发 的方面,多重引文关联的融合将更全面地揭示领域
和 启 迪 开 拓 思 维 , 促 使 重 大 科 学 创 新 的 产 生 [4] 。 目 内科学知识结构与研究现状。
前,关于知识流动的研究大多数是以引文网络为基 鉴于上述现状,本研究尝试对三种不同的引文
础展开的,且多集中于直引网络,在此基础上抽取 方式进行适度融合,进而实现更加全面的、真实的
到 知 识 (主 题) 层 面 , 构 建 知 识 流 动 网 络 。 实 际 知识流动探测分析。迄今为止,有些学者提出了具
上,除了直引这种最为基本的引文关联外,共被引 体的思路来实现不同的引用关系的融合,最具代表
和耦合也是非常具有分析价值的两种典型引证关 性的是由 Persson[11] 提出的研究思路,其研究是基于
系。两者均是通过第三方文献的直引关系所建立的 一种被普遍认同的假设:如果两篇论文引用了相同
间接关联,而这种间接关联的存在会进一步强化原 的文献或者被相同的文献所引用,那么两者原本存
有的直引关联强度,这也成为三种引文关联融合的 在的直引关联将会被进一步增强 [12] 。Persson[11] 的研
一 项 充 分 条 件 。 此 外 , Morris 等 [5] 曾 用 一 张 盲 人 摸 究表明,在文献层面将共被引与耦合两种关联强度
象图比喻从单一特征或关系来揭示领域内科学知识 进行加权处理,进一步作为直引强度的附加,能够
结构的片面性与局限性,形象地反映出单一分析维 更好地实现领域内知识关联的探测。除此之外,在
度对科学知识领域体系解释不够全面的问题,这也 研究对象的价值计量研究中,引文网络融合的趋势
成为多重引文关联融合应用的一项必要条件。在这 较为明显,且已经在科学文献或专利技术的价值测
种背景下,本文的研究议题应运而生,旨在对直 度中均有一定的应用 [13] 。鉴于此,本文旨在从三维
引-共被引-耦合三维引文关联网络进行融合的基础 引文关联的文献层面,进一步抽取到主题层面,即
上,映射到主题层面构建知识流动网络,进行预测 构 建 三 维 引 文 关 联 下 知 识 流 动 网 络 (主 题 关 联 网
分析,挖掘领域内潜在知识流动,进而探测领域内 络),实现主题间更加全面的知识流动 (引文关联)
的研究前沿或新兴趋势。 的识别。
186 情 报 学 报 第 40 卷

2.2 潜在知识流动发现 种知识关联的发现,鉴于这种知识关联的有向性,


可将其视为一种知识流动的发现。翟东升等 [22] 利用
潜在知识流动通过对现有知识流动网络进行分
专利间的引用关系,构建 IPC 引用网络表征知识间
析推导,预测将来有可能发生的创新知识。多数研
的流动,以此网络为基础进行链路预测,进而实现
究通过对引文网络进行分析,知识流动方向与引用
技术关联发现。李睿 [23] 从专利对论文的引用视角出
方向相反。潜在知识流动,即运用此种分析方式进
发,探讨了有向知识关联下的知识流动,揭示了基
行推测,将现有知识流动网络整合,预测出新的知
础研究学科与技术发明领域之间存在的知识关联。
识节点关联。
在上述文献中,大多数文献是以直引网络为基
引文分析中的引证关系本质上揭示的是知识之
础,通过知识流动层面来探究知识关联,预测将来
间的流动与转移,当一个主题中的知识转移到其他
可能发生的知识流动,即潜在知识流动探测。三维
主题,通过融合、内化、创新等形式又转化为新的
引文关联融合主体间的多重引文关系,可以更全面
知识。从知识论关于知识的发展模式来看,梁永霞
真实地揭示领域内的知识交流与知识转移现状,有
等 [14] 认为文献引用的过程是在前人知识的基础上知
助于更真实、准确地对潜在知识流动进行识别。因
识进化的过程,是知识的选择、遗传和变异的过
此,本文尝试基于一种新的研究视角,通过三维引
程,也是知识的生产、传播和应用的过程,其认为
文关联融合下的知识流动网络链路预测,实现潜在
引文分析的过程就是对知识流动过程和知识活动系
知识流动的发现与探究。
统的分析。Yan[15] 根据 JCR (Journal Citation Reports)
的主题分类,构建了主题间的知识交流网络,分析 3 研究方法与工具
结果发现,相对于自然科学,社会科学与其他学科
交流较少,具有独立性特征;Jo 等 [16] 通过期刊引文 3.1 三维引文关联融合
网络分析了纳米学与技术领域的学科结构及其跨学
传统的引文关联有三种,包括直引关联、共被
科特征,利用中介中心性确定了重要期刊,并分析
引关联和耦合关联。显而易见,直引关联是通过施
了 重 要 期 刊 在 学 科 间 知 识 流 动 中 的 作 用 ; Ma 等 [17]
引与被引关系而建立,表现为文献之间一种更为直
利用作者引证网络研究不同学科间的知识交流模
接的引用关联;而共被引关联与耦合关联是通过第
式,并提出两个定量指标对知识交流进行测度。张
三方文献所建立的较为间接的引用关联。针对三维
艺蔓等 [18] 提出将引文内容分析与全文本引文分析相
引文关联融合,本文参考 Persson[11] 提出的加权直接
结合的方法,分析知识流动情况,从而探测出学科
引 用 理 论 (weighted direct citations, WDC), 将 共
内部与学科间的知识流动趋势;宋凯等 [19] 从文献引
被引与耦合两种间接关联通过加权变换附加到直引
证 角 度 , 将 知 识 转 移 与 知 识 转 化 结 合 , 利 用 LDA
关联上,形成一种新型的融合后的引用强度;同
(latent Dirichlet allocation, LDA) 模 型 进 行 主 题 提
时,进一步将共被引和耦合两种关联结果进行标准
取,进而探讨一国与其他国家间的知识流动情况;
化处理再重新加权,得到标准加权直接引用结果
李 盈 等 [20] 构 建 医 学 领 域 内 期 刊 论 文 间 的 引 文 网 络 ,
(normalized weighted direct citation, NWDC)。 加 权
通过可视化的引文网络表征知识的创造和传递过,
直接引用理论具体算法原理如图 1 所示。
利用社会网络分析方法揭示医学领域内各个学科间
的知识流动特点和规律,为医学信息服务提供
参考。
上述文献均以引文网络为基础,来探究知识流
动的现状,或是挖掘知识流动的特点与规律,少有
研究基于知识流动视角来实现未来知识流动的探
图1 加权直接引用理论算法原理图
究。本文在前期研究中,利用三种引文关系来预测
学者间未来可能的显性交流,可视为从知识流动视 图 1 中的箭头方向代表文献施引的方向,即文
[21]
角下探究未来交流情况的一种尝试 。但该研究仅 献 A 施引于文献 B;m 表示文献 C 的被引频次;n 表
停留在作者层面,并未延展到具体的知识细粒度 示 文 献 D 的 施 引 频 次 (即 总 参 考 文 献 数)。 在 图 1
层面。 所 示 的 引 用 关 系 中 , 文 献 A 引 用 文 献 B 的 WDC 值
究其根本,基于引文关联的知识流动发现是一 为 3,文献 A 引用文献 B 的 NWDC 值为(1+1/m+1/n)。
第2期 王 菲 菲 等 :基 于 三 维 引 文 关 联 网 络 的 潜 在 知 识 流 动 探 测 —— 以 基 因 编 辑 领 域 为 例 187

3.2 知识流动网络构建 文献 B 的主题数量为 3。从文献 A 到文献 B 的三维引


文关联,可映射为 6 项知识流动事件,即文献 B 所
鉴于主题是文献中知识的直接表征,本文用
研究的主题 Topic_B1、Topic_B2、Topic_B3 向文献 A
LDA 主题模型提取文献中的主题以代表知识。本文
所研究的主题 Topic_A1、Topic_A2 产生了知识流动。
在三维引文关联融合的基础上,从文献层面进一步
各文献内主题贡献度存在差异性,根据 LDA 抽
提取主题层面,进而构建三维引文关联视角下的知
取后所获得的文档-主题分布文档,获得各文档下
识流动网络。
不同主题的概率分布,进而实现文献中各主题权重
首 先 , 利 用 LDA 模 型 对 文 献 集 合 进 行 主 题 提
取。LDA 模型是“词-主题-文档”为层次结构的三 的分配与赋值。值得注意的是,本文中知识流动方

层贝叶斯概率模型,该模型具有较好的主题识别能 向与文献间的引用方向恰好相反。根据上述原理,
力,能够从文本语料库中抽取潜在的主题,因此, 通过文献间的引用关系、文献-主题贡献分布,将
被广泛应用于科学文献的主题发现。为了确定所抽 主题对之间的信息转换为知识流动矩阵,最终转化
取的主题的数量,本文利用困惑度 (perplexity) 来 为具有加权有向特性的知识流动网络。
评估主题模型对于待处理数据的预估能力,困惑度
3.3 基于链路预测的潜在知识流动发现
值 越 小 , 其 模 型 预 估 能 力 越 强 , 代 表 LDA 对 于 主
题聚类能力越强 [24] ,计算公式为 链路预测方法是通过分析社会网络的拓扑特

ï ∑ln p ( w d ) ï
ì M ü 征,来评估网络中两个节点之间产生链接的可能
ï ï 性,是目前应用最为广泛的一种预测节点间是未来
Perplexity ( D test ) = exp í- d = 1 M ý (1)
ï
ï
î
∑d =1
ï
Nd ï
þ
否存在链接的方法 [25] 。在某种程度上来说,潜在知
识流动的预测就是主题之间的未来链接预测,本文
其 中 , Dtest 是 测 试 集 ; wd 是 文 档 d 中 单 词 序 列 ; Nd 利用链路预测方法分析网络中的知识流动,即未来
是文档 d 中的单词数目。
可能发生的知识流动以及知识流动的变化,将基于
其次,以三维引文关联网络为基础,根据 LDA
三维引文关联网络所映射出的主题知识流动网络进
模型所提取各文献所对应的主题,将文献层面的三
行特征分析,预测将来节点间产生链接的可能性,
维引文关联网络映射到主题层面,构建领域内的知
挖掘未来可能发生的新的知识融合趋势与未来演化
识流动网络。知识流动网络表征领域内各研究主题
趋势,进而预测未来的研究热点或者研究前沿问题。
之间流动与转移过程,其作为多知识融合创新的表
潜在知识流动存在于满足以下两个假设的有向
征,可从中挖掘特定领域内的研究前沿或新兴趋
主题对中 [22] :①有向主题对之间目前不存在知识流
势。知识流动网络原理如图 2 所示。
动 ; ② 两 个 主 题 之 间 存 在 产 生 知 识 流 动 (存 在 链
接) 的可能性。本文采用链接预测指标来衡量有向
主题对之间的发生链接的可能性。
鉴于知识流动网络的加权有向的特性,本文选
取了适用于加权有向网络的链路预测指标特征。具
体 选 取 指 标 包 括 加 权 有 向 的 共 同 邻 居 (common
neighbor,CN) 指标、加权有向的 admic-adar (AA)
指 标 、 加 权 有 向 的 资 源 分 配 (resource allocation,
RA) 指标以及加权有向的优先连接 (preferential at‐
tachment,PA) 指标。
(1) 加权有向网络的 CN 指标。无权无向的共同
邻居指标是通过两个节点的共同邻居数量来定义两
个主题的相似性。针对加权有向网络,计算公式为
图2 知识流动示意图
CN x → y = ∑
I wx → z + wz → y
(2)
图 2 中,文献 A 与文献 B 存在三维引文关联,通 zϵΓ ( x ) ∩ Γ ( y )
2

过 LDA 模型抽取到文献 A 的主题数量为 2,抽取到 其中, Γ ( x ) 表示与主题 x 相关联的主题集合; w x → z


188 情 报 学 报 第 40 卷

表 示 为 主 题 x 向 主 题 z 流 动 的 知 识 量 (链 接 权 重 节点对的数据与训练好的模型相匹配,研究知识节点
值)。该指标越大,说明主题 x 未来向主题 y 产生知 对之间的链接权重的变化,实现链接边权的预测。
识转移的可能性越大。
(2) 加 权 有 向 网 络 的 AA 指 标 。 该 指 标 对 共 同 4 数据获取与预处理
邻居节点赋予权重,并且共同邻居节点的度越小其
基 因 编 辑 领 域 诞 生 于 20 世 纪 80 年 代 初 , 初 期
贡献越大,
研究人员多见于欧美等地,在近十年,特别是

I wx → z + wz → y
AA x → y = (3) CRISPR/Cas9 技 术 问 世 以 来 , 成 为 世 界 性 热 点 学 科
zϵΓ ( x ) ∩ Γ ( y ) 2 log ( 1 + s'z )
领 域 。 CRISPR/Cas9 (clustered regulatory interspaced
其 中 , s'z 表 示 邻 居 主 题 节 点 z 除 去 自 身 强 度 的 度 ,
short palindromic repeats/CRISPR-associated protein 9)
该指标越大,说明主题 x 未来向主题 y 产生知识转
是 最 近 发 现 的 一 种 新 型 的 基 因 组 定 点 编 辑 技 术 [26] ,
移的可能性越大。
这项划时代的靶向基因操作技术,在生物医学、遗
(3) 加 权 有 向 网 络 的 RA 指 标 。 受 资 源 分 配 的
传学、细胞学领域都得到了广泛关注。
启发,知识流动网络中不存在知识流动的两个主题
为了更加全面地获得整个基因编辑领域内的论
x 与 y, 因 此 主 题 x 能 够 利 用 其 共 同 邻 居 主 题 z 向 主
文数据,本研究选定 Web of Science 数据库,并将检
题 y 传递知识资源,主题 z 在该过程中承担传输媒 索年限定于 1980—2017 年,以“gene edit* or crispr”
介角色。假设每个媒介都有一单位的资源平均分配 为 主 题 在 数 据 库 中 检 索 共 获 得 18717 篇 文 献 , 截 取
给其邻居,那么主题 y 接受的资源数就是可定义为 article、 proceedings paper、 review、 book review 四 类
两主题的相似度,即 文 献 共 14943 篇 作 为 本 研 究 的 基 本 数 据 源 。 数 据 检
= ∑
I wx → z + wz → y
RA x → y (4) 索与获取时间是 2018 年 1 月 5 日。最终选定被引频
zϵΓ ( x ) ∩ Γ ( y ) 2s'z
次≥10 的 7072 篇文献为本研究的论文集合。按论文
(4) 加 权 有 向 网 络 的 PA 指 标 。 新 链 接 连 接 到 的发表时间,对论文集合时间切片,分别构建发表
主题 x 与主题 y 的概率与两节点的度乘积成正比, 年 限 介 于 T1 时 期 (1980—2013 年 ) 与 T2 时 期
推广到加权有向网路,定义为 (2014—2017 年) 的 标 准 加 权 直 接 引 用 (NWDC)
PA x → y = S xout' × S yin' (5) 网络,形成两个时期持续变化的引文关联融合网络。
out'
其中,S x 表示主题 x 除去自身强度外的点出度; 为了科学、规范地提取基因编辑领域内的主
in'
S 表示主题 y 除去自身强度外的点入度。
y 题,本研究提取上述 7072 篇文献的标题、摘要以及
根据上述链路预测指标特征进行机器学习建 关键词作为实验数据集,并对该数据集进行数据预
模,采用机器学习中的集成学习方法随机森林 处 理 。 利 用 Python 中 提 供 的 分 词 工 具 , 实 现 分 词 、
(random forest,RF) 算法构造分类器,融合不同的 去除停用词、词干化等自然语言处理规范化过程,
特征。以某时间切片下网络中的各链路预测为特 获 得 最 终 的 文 本 语 料 库 。 利 用 LDA 主 题 模 型 对 提
征,将其下一时间切片网络中是否存在链接 (0、1 取的语料库进行主题提取,主题数-困惑度的曲线
表示) 作为分类结果训练模型,挑选出当前尚未产 如 图 3 所 示 , 当 主 题 数 为 200 时 , 困 惑 度 指 标 达 到
生链接的有向节点对,与训练好的模型相匹配,从 最低值;后续随着主题数的增加,困惑度指标逐渐
而探究出未来可能发生链接的有向知识节点对。 升高。因此,本文选取的主题数目为 200。
链接权重的预测在网络预测中也占据十分重要
的地位,但是鲜有学者研究链接权重的预测。当一
对存在链接的有向知识节点对,目前链接权重较
低,尚未引起学者广泛关注,未来若链接权重增长
较大,则该有向知识节点对可能在未来成为研究热
点或者研究前沿,并得到广泛地学术认可。同样
地,以上述 4 个链接预测指标为特征值,采用随机
森 林 构 造 回 归 器 , 以某时间切片下网络中的各链路
预测为特征,并将其下一时间切片网络中链接的权重
作为目标变量 y 进行回归模型的训练。将网络中所有 图3 主题数-困惑度折线图
第2期 王 菲 菲 等 :基 于 三 维 引 文 关 联 网 络 的 潜 在 知 识 流 动 探 测 —— 以 基 因 编 辑 领 域 为 例 189

5 三维引文关联视角下的潜在知识流动 网络映射到主题层面,最终构建出三维引文关联融
合 视 角 下 的 知 识 流 动 网 络 (图 4)。 本 文 采 用 Gephi
发现
进行可视化分析,为了使得可视化效果更佳清晰,
5.1 知识流动网络构建 设置阈值为 0.5。在图 4 中,节点的大小与度中心性
成 正 比 , 在 T1 时 期 中 , topic60、 topic7、 topic41 等
在三维引文关联融合分析中,本文采用标准加 主 题 具 有 较 高 的 度 中 心 性 ; T2 时 期 中 , topic47、
权直接引用 (NWDC) 网络来表示文献层面的多重 topic60、 topic5 主 题 具 有 高 的 度 中 心 性 。 这 些 主 题
引 文 关 联 ; 根 据 第 3.2 节 中 构 建 知 识 流 动 网 络 的 方 在整个基因编辑领域内的知识流动与传播过程中占
法,通过文献到主题的映射,将文献层面的 NWDC 据着核心地位,是重要的研究关注点。

图4 三维引文关联融合视角下的知识流动网络

由于知识流动网络属于加权有向网络,因而选
取了点入度与点出度作为衡量主题重要程度的两个 表1 知识流动网络的点入度与点出度
网络指标。由表 1 可知,T1 时期,topic60 (原核生 T1 时期 T2 时期

物基因编辑)、topic7 (RNA 编辑) 和 topic41 (人类 主题 点入度 主题 点出度 主题 点入度 主题 点出度

细 胞 基 因 编 辑) 是 较 为 重 要 的 研 究 主 题 ; T2 时 期 topic60 3294 topic60 3774 topic47 4713 topic47 5038


topic41 2272 topic7 2437 topic5 4450 topic60 4891
时,topic47 (真核生物基因编辑)、topic5 (基因编
topic7 2259 topic41 2184 topic76 4209 topic5 4747
辑技术的开发) 和 topic76 (人类疾病治疗技术) 得
topic195 1869 topic195 1731 topic60 3204 topic29 2481
到了更多学者的关注,成为该领域内关注度最高的
topic160 1466 topic63 1556 topic29 2379 topic76 2450
研究主题。
topic63 1432 topic160 1530 topic143 2282 topic143 2333
T1 时期,最强的知识流动为:topic60 (原核生 topic20 1113 topic20 1321 topic81 1558 topic164 2329
物 基 因 编 辑) →topic7 (RNA 编 辑)、 topic7 (RNA topic5 954 topic47 962 topic145 1524 topic145 1148
编 辑) →topic195 (植 物 基 因 编 辑)、 topic195 (植 topic47 913 topic5 879 topic164 1457 topic81 1004
物 基 因 编 辑) →topic8 (植 物 物 种 研 究); T2 时 期 , topic150 865 topic30 807 topic107 713 topic87 774

最 强 的 知 识 流 动 为 : topic60 (原 核 生 物 基 因 编 辑)
→topic5 (基 因 编 辑 技 术 的 开 发)、 topic5 (基 因 编 技术的开发)、topic47 (真核生物基因编辑) →top‐
辑 技 术 的 开 发) →topic47 (真 核 生 物 基 因 编 辑)、 ic76 (人类疾病治疗技术)、topic60 (原核生物基因
topic47 (真 核 生 物 基 因 编 辑) →topic5 (基 因 编 辑 编辑) →topic76 (人类疾病治疗技术)。
190 情 报 学 报 第 40 卷

5.2 链路预测模型训练 MAE 指 标 均 为 最 小 值 , 且 R2 值 最 大 值 , 为 0.784。


因此,本文采用基于随机森林算法的回归模型,对
5.2.1 潜在知识流动发现预测模型训练
基因编辑领域内的知识流动权重进行预测。
对 T1 时 期 的 知 识 流 动 网 络 , 针 对 每 一 组 有 向 表3 各回归器评价结果
主题对,计算相对应的链路预测指标作为特征值 x; 各回归器算法 MSE MAE R2
并以 T2 时期所对应的分类数据 (有连接为 1、无连 线性回归器 5.287 1.822 0.392
接为 0) 作为目标变量 y 值。将上述数据输入到多个 决策树回归器 2.262 1.186 0.739
分类器中进行训练,以期找到最合适的分类器模型。 SVM 回归器 2.859 1.313 0.671
为了检验模型的准确度,本研究采用“留出 AdaBoost 回归器 2.290 1.200 0.736
法 ” 划 分 数 据 集 , 随 机 选 取 80% 的 数 据 作 为 训 练 GBRT 回归器 2.029 1.121 0.766
集 , 其 余 20% 数 据 作 为 测 试 集 。 针 对 各 分 类 器 模 ET 回归器 2.950 1.290 0.660
型,本研究经过参数调整得到了该模型下的最优结 随机森林回归器 1.880 1.047 0.784
果。表 2 为训练好的各分类器算法基于测试数据集 注:粗体表示最优方法值。
的 评 价 指 标 : 准 确 率 (accuracy)、 精 确 率 (preci‐
5.3 潜在知识流动发现
sion)、召回率 (recall) 与 F1 分数 (F1-score)。
本 研 究 基 于 上 述 训 练 好 的 模 型 , 以 T2 时 期 中
表2 各分类器评价结果
未存在知识流动的主题对链路预测指标为输入特
各分类器算法 accuracy precision recall F1-score
征 , 进 行 结 果 预 测 分 析 , 采 用 Scikit-learn[27] 进 行 分
逻辑回归分类器 0.792 0.83 0.79 0.80
类 器 学 习 训 练 , 参 数 feature_importances_ 表 征 了 各
SVM 支持向量机分类器 0.821 0.83 0.82 0.83
特征值的重要程度,作为各特征值的参考权重。本
朴素贝叶斯分类器 0.641 0.41 0.64 0.50
研究将各特征值与对应权重加权求和得到综合指
K 近邻分类器 0.840 0.84 0.84 0.83
标,即表征知识流动出现可能性。按照综合指标值
决策树分析分类器 0.839 0.84 0.84 0.84
的 大 小 倒 序 排 序 , 最 有 可 能 在 未 来 发 生 链 接 的 Top
线性判别分类器 0.643 0.41 0.64 0.50
10 主题对,如表 4 所示。
梯度提升树(gradient boosting 0.846 0.87 0.85 0.84
decision tree,GBDT)分类器 表4 潜在知识流动发现
随机森林分类器 0.854 0.87 0.85 0.85
综合
主题组合 主题含义
注:粗体表示最优方法值。 指标
topic75→topic60 免疫细胞治疗→原核生物基因编辑 0.625
随机森林属于机器学习中的集成学习方法,通
topic60→topic162 原核生物基因编辑→癌细胞基因编辑 0.590
过集成学习的思想把多棵决策树集成一种算法,并
topic47→topic162 真核生物基因编辑→癌细胞基因编辑 0.554
且其输出的类别是由个别决策树输出的类别的众数
topic5→topic162 基因编辑技术的开发→癌细胞基因编辑 0.507
而定。由表 2 可知,随机森林算法在各分类器算法
topic60→topic170 原核生物基因编辑→人类蛋白质组计划 0.478
中表现最优,识别准确率高达 85%,这也证明了随
topic100→topic47 老鼠及哺乳动物研究→真核生物基因编辑 0.427
机森林算法的优越性。因此,本文采用随机森林算
topic162→topic47 癌细胞基因编辑→真核生物基因编辑 0.420
法进行基因编辑领域中的潜在知识流动发现。
topic47→topic170 真核生物基因编辑→人类蛋白质组计划 0.389
5.2.2 潜在知识流动权重预测模型训练 topic162→topic5 癌细胞基因编辑→基因编辑技术的开发 0.377
topic162→topic60 癌细胞基因编辑→原核生物基因编辑 0.366
针 对 知 识 流 动 权 重 的 预 测 , 本 研 究 利 用 T1 时
期的知识流动网络,计算各组有向主题对的链路预 从表 4 可知,“免疫细胞治疗→原核生物基因编
测 指 标 ; 并 且 以 T2 时 期 所 对 应 的 链 接 边 的 权 重 作
辑”这项主题对之间的知识流动在未来最可能发生;
为 目 标 变 量 y 值 。 同 样 地 , 采 取 “ 留 出 法 ”, 随 机
“原核生物基因编辑→癌细胞基因编辑”“真核生物
抽取 80% 样本数据作为训练集,其余 20% 为测试集
基因编辑→癌细胞基因编辑”“基因编辑技术的开发
数据。如表 3 所示,针对各个回归模型的性能评
估 , 分 别 选 取 了 均 方 误 差 (MSE)、 平 均 绝 对 误 差 →癌细胞基因编辑”和“原核生物基因编辑→人类
(MAE) 以 及 决 定 系 数 (R2) 评 价 各 模 型 的 好 坏 。 蛋白质组计划”等主题对之间在未来同样存在知识
通过对各个模型评价指标对比分析,本研究发现基 流动的可能性。目前,有学者表示,CAR T 细胞免
于随机森林算法构建的回归模型效果最佳,MSE 与 疫疗法与基因编辑技术的组合仍是个前景绝佳的研
第2期 王 菲 菲 等 :基 于 三 维 引 文 关 联 网 络 的 潜 在 知 识 流 动 探 测 —— 以 基 因 编 辑 领 域 为 例 191

究领域 [28] ,两者的结合可看作精准医疗和干细胞治 前网络中已存在链接权重的预测。基于上述训练好


疗行业的完美结合 [29]
。免疫细胞治疗向基因编辑技 的 权 重 预 测 模 型 , 以 T2 时 期 中 存 在 知 识 流 动 主 题
术的引入,推动基因编辑技术真正从研发走向临床。 对的链路预测指标为输入特征,进行结果预测分
同时,随着基因编辑技术研究热度的迅速提升与拓 析 , 并 计 算 预 测 权 重 与 T2 时 期 实 际 权 重 的 差 值 ,
展,基因编辑技术在疾病基因治疗中探索发展,为 即权重差值=预测权重-T2 时期权重。根据权重差值
肿瘤等多种重大疾病的治疗提供了新的治疗路径。 进行倒序排列,取权重差值最大的 Top 10 主题对为
未来具有发展潜力的主题组合 (表 5),取权重差值
5.4 潜在知识流动权重预测
最小的 Top 10 主题对作为未来知识流动将会消失的
针对潜在知识流动权重的预测,本文关注于目 主题组合 (表 6)。

表5 未来热点研究主题(未来研究前沿)
主题组合 主题含义 预测权重 T2 时期权重 权重差值
topic5→topic41 基因编辑技术的开发→人类细胞基因编辑 110.5 7.8 102.7
topic41→topic47 人类细胞基因编辑→真核生物基因编辑 103.3 6.2 97.1
topic47→topic89 真核生物基因编辑→病原菌研究 105.9 16.2 89.7
topic47→topic41 真核生物基因编辑→人类细胞基因编辑 93.0 6.6 86.4
topic60→topic41 原核生物基因编辑→人类细胞基因编辑 94.6 15.2 79.4
topic60→topic195 原核生物基因编辑→植物基因编辑 35.3 8.6 26.7
topic60→topic91 原核生物基因编辑→HIV 病毒研究 43.7 18.9 24.8
topic47→topic7 真核生物基因编辑→RNA 编辑 37.2 17.3 19.9
topic47→topic184 真核生物基因编辑→基因表达调控 29.4 10.6 18.8
topic5→topic195 基因编辑技术的开发→植物基因编辑 27.6 14.9 12.7

表6 未来消失的知识流动
主题组合 主题含义 预测权重 T2 时期权重 权重差值
topic41→topic73 人类细胞基因编辑→RNA 和小 RNA 0.17 92.7 -92.5
topic73→topic41 RNA 和小 RNA→人类细胞基因编辑 0.16 88.0 -87.9
topic145→topic107 基因编辑应用医学治疗→干细胞相关研究 0.48 57.8 -57.3
topic91→topic145 病毒相关研究→基因编辑应用医学治疗 0.40 43.2 -42.8
topic7→topic195 RNA 编辑→植物基因编辑 0.20 39.4 -39.2
topic135→topic60 蛋白质结构研究→原核生物基因编辑 0.26 37.6 -37.4
topic65→topic60 医学治疗→原核生物基因编辑 0.26 37.2 -36.9
topic195→topic141 植物基因编辑→基因表达 0.24 36.6 -36.4
topic195→topic7 植物基因编辑→RNA 编辑 0.17 36.1 -35.9

由表 5 可知,第一,“基因编辑技术的开发→人 物 基 因 编 辑 ”“ 真 核 生 物 基 因 编 辑 →RNA 编 辑 ” 主
类 细 胞 基 因 编 辑 ”“ 真 核 生 物 基 因 编 辑 → 人 类 细 胞 要针对基因编辑技术本身的发展,持续衍生并产品
基因编辑”与“原核生物基因编辑→人类细胞基因 化开发了更为精准、高效、低成本的基因编辑技
编辑”三组涉及“人类细胞基因编辑”的主题对融 术。总体而言,未来研究热点主要集中于基因编辑
合事件将在未来成为领域内的研究热点,传统的基 理论研究本身到其他方面的拓展。
因编辑技术将有效助力人类细胞基因编辑的发展, 在 表 6 中 ,“ 人 类 细 胞 基 因 编 辑 ↔ RNA 和 小
尤其是关于基因编辑技术在人类疾病方面中的探索 RNA”“RNA 编 辑 ↔ 植 物 基 因 编 辑 ” 两 组 主 题 组 合
发展 [30]
;第二,“真核生物基因编辑→病原菌研究” 之 间 在 T2 时 期 具 有 较 强 的 知 识 流 动 链 接 , 视 为 未
与“原核生物基因编辑→HIV 病毒研究”主要涉及 来 最 可 能 消 失 的 主 题 节 点 对 。“ 基 因 编 辑 应 用 医 学
基因编辑技术在病原菌、病毒等生命科学基础研究 治 疗 → 干 细 胞 相 关 研 究 ”“ 病 毒 相 关 研 究 → 基 因 编
领 域 的 拓 展 应 用 ; 第 三 ,“ 原 核 生 物 基 因 编 辑 → 植 辑应用医学治疗”等主题对之间的知识流动在未来
192 情 报 学 报 第 40 卷

同样可能会消失。 主要用于预测目前链接权重较低的,尚未引起广泛
由 表 5 和 表 6 可 知 , 未 来 研 究 者 针 对 RNA 基 因 关注、但在未来具有较高链接权重的知识流动。这
编辑与植物基因编辑的关注度将会较少,而更关注 两种预测层面综合互补,从不同角度探究学术领域
于基因编辑在人类疾病治疗与防护方面的应用。 内的潜在知识流动与未来研究的热点。同时,本研
究 中 也 存 在 遗 憾 之 处 , 例 如 , 在 为 LDA 主 题 模 型
6 结 论 中所提取的各主题确认主题名称时,借鉴了专家的
评审意见,这种定性分析方法,无法避免主观判断
直 引 -共 被 引 -耦 合 三 维 引 文 关 联 网 络 所 映 射 出
所造成的可操纵性与不确定性。在未来研究中,将
的知识流动网络,全面揭示目前领域内的知识交流
努力探索是否存在定量分析方法确认各主题名称,
与知识转移的现状,但科研工作者与科研管理机构
以期采用定性与定量分析相结合的方法,更精准有
人员对未来可能出现的知识流动更感兴趣。当一个
效地实现主题名称的定位。
主题内的知识转移到其他主题时,会内化为新的知
识,加以创新模式的转换,形成领域内的研究热点 参 考 文 献
或研究前沿。因此,本文提出了一种三维引文关联
[1] 华 连 连 , 张 悟 移 . 知 识 流 动 及 相 关 概 念 辨 析 [J]. 情 报 杂 志 ,
融合视角下未来潜在知识流动预测的框架,主要包
2010, 29(10): 112-117.
括三个步骤:第一,根据文献之间的引用关系,基
[2] 魏奇锋, 顾新 . 基于知识流动的产学研协同创新过程研究[J].
于标准加权直接引用 (NWDC) 理论并通过 LDA 主
科技进步与对策, 2013, 30(15): 133-137.
题模型提取主题,构建三维引文关联融合视角下的 [3] 赵蓉英, 吴胜男 . 基于引证关系的知识转移的理论研究[J]. 情
知识流动网络;第二,计算网络中主题对的链路预 报理论与实践, 2014, 37(12): 28-32.
测指标作为特征值,分别使用随机森林分类器与回 [4] 徐晓艺, 杨立英 . 基于合著论文的学科知识流动网络的特征分
归器对特征值进行训练,获得未来链接预测模型与 析——以“药物化学”学科为例[J]. 图书情报工作, 2015, 59(1):

未来边权预测模型;第三,基于基因编辑领域的实 89-98.
[5] Morris S A, van der Veer Martens B. Mapping research specialties
证研究,预测该领域内未来可能出现的研究热点或
[J]. Annual Review of Information Science and Technology,
者研究前沿问题,以及未来具有发展潜力的研究
2008, 42(1): 213-295.
主题。
[6] Shibata N, Kajikawa Y, Takeda Y, et al. Comparative study on
采用预测潜在知识流动的思路,本研究发现了 methods of detecting research fronts using different types of cita‐
一些未来可能出现的知识流动。通过专家评审的定 tion[J]. Journal of the American Society for Information Science
性分析方法,确认预测结果中潜在知识流动的发现 and Technology, 2009, 60(3): 571-580.
[31]
与实际领域情况相吻合 , 可视为基因编辑领域内 [7] 王亮, 张庆普 . 基于引文网络的知识流动过程与机制研究[J].

的研究前沿与热点问题,主要集中在三个方面:①基 哈尔滨工业大学学报(社会科学版), 2014, 16(1): 110-116.


[8] 赵蓉英, 吴胜男, 陈瑞 . 基于引证关系的知识转移模式及其实
因编辑技术在免疫细胞、病 毒 细 胞 等 生 命 科 学 基 础
研究领域的拓展应用;②基因编辑技术本身的发
证 研 究 —— 以 知 识 管 理 研 究 为 例 [J]. 情 报 杂 志 , 2013, 32(3):
137-143.
展,为持续衍生并开发出更精准、高效的基因编辑
[9] Yan E J, Ding Y. Scholarly network similarities: How biblio‐
技术;③基因编辑技术在疾病基因治疗中探索发 graphic coupling networks, citation networks, cocitation net‐
展,为肿瘤等多种重大疾病提供新的治疗途径。因 works, topical networks, coauthorship networks, and coword net‐
此,基因编辑领域内的研究方向展现出了“宏观基 works relate to each other[J]. Journal of the American Society for
础研究→细粒度基础研究→临床治疗”的发展态 Information Science and Technology, 2012, 63(7): 1313-1326.
势,未来一系列知识流动的产生将会真正推动 [10] Qiu J P, Dong K, Yu H Q. Comparative study on structure and

CRISPR 技术从研发迈向临床。 correlation among author co-occurrence networks in bibliometrics


[J]. Scientometrics, 2014, 101(2): 1345-1360.
基因编辑领域内的实证研究,进一步印证了本
[11] Persson O. Identifying research themes with weighted direct cita‐
文中三维引文关联融合视角下探究潜在知识流动的
tion links[J]. Journal of Informetrics, 2010, 4(3): 415-422.
可行性与有效性。知识流动预测中的随机森林算
[12] Egghe L, Rousseau R. Co-citation, bibliographic coupling and a
法,无论是分类器还是回归器,两种预测层面都表 characterization of lattice citation networks[J]. Scientometrics,
现出了最优的评价结果。分类器用于预测目前尚未 2002, 55(3): 349-361.
存在、在未来极有可能出现的知识流动;而回归器 [13] Iwami S, Mori J, Sakata I, et al. Detection method of emerging
第2期 王 菲 菲 等 :基 于 三 维 引 文 关 联 网 络 的 潜 在 知 识 流 动 探 测 —— 以 基 因 编 辑 领 域 为 例 193

leading papers using time transition[J]. Scientometrics, 2014, 101 法[J]. 情报学报, 2016, 35(10): 1090-1100.
(2): 1515-1533. [23] 李睿 . 专利引文分析法与共词分析法在揭示科学-技术知识关
[14] 梁永霞, 杨中楷, 刘则渊 . 引文分析学的学科地位[J]. 情报理论 联方面的差异对比[J]. 图书情报工作, 2010, 54(6): 91-93, 140.
与实践, 2010, 33(5): 18-20. [24] 关鹏, 王曰芬 . 科技情报分析中 LDA 主题模型最优主题数确定
[15] Yan E J. Finding knowledge paths among scientific disciplines[J]. 方法研究[J]. 现代图书情报技术, 2016, 32(9): 42-50.
Journal of the Association for Information Science and Technolo‐ [25] 吕 琳 媛 , 周 涛 . 链 路 预 测 [M]. 北 京 : 高 等 教 育 出 版 社 , 2013:
gy, 2014, 65(11): 2331-2347. 50-66.
[16] Jo H, Park Y, Kim S E, et al. Exploring the intellectual structure [26] 李聪, 曹文广 . CRISPR/Cas9 介导的基因编辑技术研究进展[J].
of nanoscience and nanotechnology: journal citation network 生物工程学报, 2015, 31(11): 1531-1542.
analysis[J]. Journal of Nanoparticle Research, 2016, 18(6): 1-21. [27] Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn: ma‐
[17] Ma R M, Yan E J. Uncovering inter-specialty knowledge commu‐ chine learning in python[J]. Journal of Machine Learning Re‐
nication using author citation networks[J]. Scientometrics, 2016, search, 2011, 12(10): 2825-2830.
109(2): 839-854. [28] 基因编辑助力攻克癌症, 成功案例登上 Science 子刊[EB/OL].
[18] 张艺蔓, 马秀峰, 程结晶 . 融合引文内容和全文本引文分析的 (2017-02-27) [2018-10-15]. http://www. medsci. cn/article/show_
知识流动研究[J]. 情报杂志, 2015, 34(11): 50-54, 49. article.do?id=781f9011006.
[19] 宋凯, 李秀霞, 赵思喆, 等 . 基于 LDA 模型的国家间知识流动分 [29] 年 度 猛 料 : 细 胞 治 疗 娶 了 基 因 编 辑 , 生 了 娃 叫 啥 ? [EB/OL].
析[J]. 情报杂志, 2017, 36(6): 55-60. (2016-01-29) [2018-10-15]. http://www. sohu. com/a/57274356_
[20] 李盈, 许萍 . 基于引文网络的医学各学科间知识流动的规律与 183834.
启示[J]. 中华医学图书情报杂志, 2014, 23(12): 1-5. [30] 基 因 编 辑 技 术 CRISPR-Cas9 是 如 何 改 变 世 界 的 ? [EB/OL].
[21] Wang F F, Wang X H, Yang S L. Mining author relationship in (2018-03-05) [2018-10-15]. http://med. sina. com/article_detail_
scholarly networks based on tripartite citation analysis[J]. PLoS 103_2_42121.html.
One, 2017, 12(11): e0187653. [31] 国 际 基 因 编 辑 科 技 发 展 报 告 -2017[EB/OL]. (2018-02-11)
[22] 翟东升, 刘鹤, 张杰, 等 . 一种基于链路预测的技术机会挖掘方 [2018-10-15]. http://www.biotech.org.cn/information/153439.

(责任编辑 马 兰)

You might also like