基于作者主题模型的学者聚类与学术影响力评价方法研究逯万辉

理论探讨情报资料工作 2020年7月第41卷第4期
DOI:10.12154/j.qbzlgz.2020.04.008
基于作者主题模型的学者聚类与学术影响力
评价方法研究
逯万辉荆林波（中国社会科学院中国社会科学评价研究院北京 100732）
摘要：[目的/意义]准确地把握学者的领域研究主题，
对学者在该领域的学术影响力进行探测，
是开展学者评价
工作的一个重要方面。[方法/过程]采用作者主题模型算法，
对作者研究内容的主题抽取与表示，
构建了作者-主
题分布矩阵，
并进行作者研究主题聚类，
在此基础上分别对作者的主题内合作网络和跨主题合作网络的点度中心
度和中介中心度指标进行了测度，
以此来反映作者在研究领域的研究专业性和知识创新性，
并以图书情报与档案
学领域学术期刊 2012—2016 年发表的 45 494 篇学术论文及其所涉及的 35 586 位作者为实验样本进行了实证研
究。[结果/结论]结果表明基于主题内合作网络的点度中心度和跨主题合作网络的中介中心度指标的学者学术影
响力评价方法是对经典的普赖斯定律中基于作者发文量的核心作者遴选方法的有效补充。
关键词：作者主题模型学者主题聚类学术影响力合作网络
Research on Scholar Clustering and Academic Influence Evaluation Method Based on Author Topic Model
Lu Wanhui Jing Linbo （Chinese Academy of Social Science Evaluation Studies, CASS, Beijing，100732）
Abstract: [Purpose/significance] It is an important aspect of carrying out the evaluation of scholars to accurately
grasp the scholars′ research topic and compute their academic influence in this field. [Method/process] Used the au⁃
thor topic model to extract the topic of the author′s research content, and constructed the author-topic distribution ma⁃
trix, and then researched on the scholars clustering. Based on the scholars clustering, the author′s intra-topic coopera⁃
tion network and cross-topic cooperation network are measured respectively, so as to reflect the author′s research ex⁃
pertise and knowledge innovation in the research field. An empirical study was conducted on the authors of the papers
published in academic journals in the field of library information and archives from 2012 to 2016. [Result/conclusion]
The result shows that the academic influence evaluation method based on the degree centrality of intra-topic coopera⁃
tive network and the betweenness centrality of cross-topic cooperative network is an effective supplement to the core
author selection method.
Keywords: author topic model scholars topic clustering academic influence collaborative networks
个重要问题，其研究难点主要表现在人才相关信息获
1 引言取的及时性和准确性、多源异构信息的处理和融合等
面对散落在互联网和各类文献数据库中的大量的方面[1]。在此背景下，
利用大数据技术进行开放互联网
科研人员及其学术成果信息，如何快速准确地发现在中的科学知识网络构建与学者研究画像绘制工作已成
特定研究领域研究成就突出且具有较强发展潜力的科为近年来学术界的一项研究热点问题，学者研究画像
研创新人才，是当前科技人力资源管理部门面临的一的目标是通过提取学者各维度的属性信息并进行信息
60
情报资料工作 2020年7月第41卷第4期理论探讨
挖掘和分析，从而实现学者信息的精准化展示与重点布具有非均衡性，不同作者在一定时期内撰写的论文
研究领域的刻画，这也是大型专业智库或研究团队实数量不一致，因此对学科的贡献率也不同，其中对学科
现领域专家发现、进行学术人才评估等活动的重要基发展贡献率大的作者被认为是核心作者，核心作者集
础[2]。与此同时，中共中央办公厅、国务院办公厅印发聚成群从而形成核心作者群。在核心作者的测度方
的《关于分类推进人才评价机制改革的指导意见》面，张敏等[5]基于普赖斯定律，既考虑反映作者文献贡
（以
下简称“意见” ）中指出，人才评价标准设置要“注重考献水平的发文量指标，又考虑反映作者影响力水平的
察各类人才的专业性、创新性和履责绩效、创新成果、被引量指标，在此基础上构建了综合指数法对国际知
实际贡献” 等多个方面。从这个角度来说，学者画像绘
识发现领域的核心研究群体进行了测评，并认为综合
制是展现学者专业性与创新性的重要途径，也是进行指数法的测评结果更具有可靠性，但是从发文指标与
学术人才评价的一项基础工作。被引指标的结合程度来看，基于普赖斯指数的核心作
准确地把握学者的领域研究主题，并对学者的学者遴选方法仍然是在分别计算两者的基础上的汇总。
术影响力进行探测，是开展学者评价工作的一个重要 2005 年，
美国物理学家 Hirsch[6]提出的 h 指数巧妙地将
方面，这不仅是准确绘制学者画像的需要，也是客观评
论文数量与被引量综合到二维平面上的一个简单的数
价学者在其所处领域的学术贡献和创新能力、实现领字里来实现作者学术影响力评价，该指数一经提出就
域专家精准发现过程中至关重要的一个方面。为了研在学术界产生了广泛的影响。但 h 指数也存在一些不
究和解决这一问题，本文将从作者研究内容出发，采用
足，其中突出的一点就是对高被引论文表现不敏感，为
作者主题模型（Author Topic Model，简称 ATM）的相关
了修正这个问题， Egghe 于 2006 年提出了 g 指数，
[7]
具体
算法，进行文本层面的研究主题识别和研究内容层面计算方法是将论文按被引次数高低排序，并且计算排序
的学者聚类，在此基础上结合“意见”中指出的专业性序号的平方，将被引次数逐次累加，当序号平方等于（或
与创新性评价标准，研究和探索基于学者知识网络的小于且最近接）累计被引次数时, 该序号就被定义为 g
学者学术影响力评价指标，以期为后续更加准确和客指数。之后众多学者也在 h 指数的基础上又进行了深
观地评价学者创新能力、实现领域专家精准发现等现入的研究和修正，进一步提出了 hm 指数、 e 指数、 k 指数
实问题提供技术和方法层面的参考和支撑。和 w 指数等。2010 年，Prathap 在前人针对 h 指数与发
[8]
文及被引关系的拟合基础上提出了 p 指数，并认为该指

2 相关研究梳理数具有模拟 h 指数的功能，同时能解决 h 指数区分度不
2.1 基于文献计量指标的学者影响力测度够的问题。目前关于学者学术影响力测评的方面研究
有关学者影响力测度与核心作者遴选方法的研仍然是文献计量学领域的一个热点研究方向，众多学者
究，最早起源于 Price（普赖斯）的经典著作《小科学，大对此开展了细致和深入的研究，如 Prathap 为了改进 p
[9]
科学》一书，他在洛特卡有关科学生产率研究的基础指数不能反映引文分布情况的缺陷，于 2014 年进一步

上，进一步研究了科学家人数与科学文献数量，以及不又在 p 指数的基础上提出了 z 指数， Bihari 等[10]在对 e 指
同能力层次的科学家之间的定量关系。认为“科学家数和多维 h 指数的优劣加以讨论的基础上，提出了 EM
的总人数，大致是按杰出科学家人数的平方增长的。指数以更全面地反映h核心中未被使用的那些引用。
即在同一主题中，半数的论文为一群高生产能力作者 2.2 基于知识交互视角的学者影响力测度
所撰，这一作者集合的数量上约等于全部作者总数的有关学者影响力测度的另一个重要方面是基于知
[3]
平方根” ，形成了著名的普赖斯定律，后续众多学者在识传播与交互的视角。在科学研究领域，由个人、团体
此基础上开展了较为广泛的研究和应用，将普赖斯定或者机构为实现共同的研究目标而进行的思想、知识
律中基于发文量的核心作者测度指标进一步扩展，分交互行为，从一定程度上有助于拓展合作者之间的研
别从发文和被引两个角度来进行科学作者测度。当前究领域、共享科学资源、降低研究风险，从而促进高水
对于某一学科领域内核心作者的确定目前在学界还没平科研成果产生。因此，基于个体合作网络中学者位
有统一标准或定义，通常是以发表学术成果的数量以置关系测度的中心度指标也是学者影响力评价中的一
及其对学界的贡献为依据，从发文与被引量两个角度种常用方法，众多学者在此方面也展开了大量的研究
进行核心作者的遴选。如在核心作者的定义方面，邱工作，并认为基于合著网络的中心度指标的学术人才
均平等[4]认为在学科的发展过程中作者与论文数量分评价方法，可以在一定程度上弥补传统评价方法（如同
61
行评议的主观性、引文评价的自引、马太效应、引用偏
见、引用曲解等）过程中出现的不足，并且认为该方法 3 模型与方法构建
与传统的评价方法相结合可以得到更为全面和客观的图 1 描述了本文所构建的基于作者主题模型的学
评价结果[11]，
范如霞等[12]在此基础上进一步引入时间因者聚类与学者学术影响力评价模型。其基本思路是：
杜建等[13]将
素进行了学者的学术动态影响力测评研究，基于文献数据库检索获取某一领域某一时间段内的学
引用影响力和合作影响力作者学术影响力二维测度框术成果信息并构建文本数据集，处理和作者与文献集
架，研究了从引用和合作两个角度遴选领域高影响力合之间的对应关系，采用作者主题模型（Author Topic
近年来随着对 Altmetrics
学者的人才评价方法。另外， Model，简称 ATM）进行文本主题抽取与表示并计算作
研究的不断深入，国内外众多学者都认为利用 Altmet⁃ 者所属主题分布情况。在主题抽取与作者主题分布识
rics 是进行学者影响力评价的一种有效的补充，
通过将别的基础上，进一步对作者研究主题的倾向性和主题
基于 Altmetrics 的学者评价与基于文献计量指标的学内作者的贡献度进行测度，根据作者的研究倾向进行
者影响力评价结果进行了对比分析，发现二者具备一学者聚类，构建作者主题内合作网络及跨主题合作网
定的相关性[14]，并认为其中 Altmetrics 更适合于评价研络并测度不同网络内学者的中心度，探索学者学术影
究人员的科学普及度和网络使用能力而不是引文影响响力测度方法。
两种评价方法是对学者影响力不同维度的评价[15]。
力，
总体而言，不论是基于文献计量学指标的学者影
响力测度方法还是基于社会网络分析方法中网络中心
度指标的学者影响力测度指标，都是从学者发表文献
的基础特征入手，综合发文量、被引频次、合作关系等
外在特征对学者发表成果的量化测度进而判断学者学
术影响，
这种方法有其相对客观性，
但是也存在其自身
图1 基于作者主题模型的学者聚类与学术影响力评价模型
的局限性，如文献计量学指标中的被引量指标中涉及
的引用动机与引用的价值倾向问题一直以来广为诟 3.1 基于作者主题模型的学者研究主题探测
病，基于合作网络中心度的计量指标又对学者的知识作者主题模型（Author Topic Model，简称 ATM）是
一种从大规模文本数据集中抽取文本主题信息的一种
创新程度揭示不充分等问题。伴随着科学研究的不断
非监督机器学习算法[18]。作者主题模型在经典主题模
深入，学科研究内容呈现出既高度分化又深度融合的
型的基础上将作者信息加入文本建模中，通过两阶段
特点，不同领域间知识的交叉和融合被认为是推动科
的随机过程对作者-主题分布以及主题-词分布进行抽
学创新发展的关键因素[16]。从这个角度来说，
在基于社
样和参数估计，该模型的概率图模型如图2所示。
会网络分析的合作网络挖掘中进一步研究学者的跨主
该模型中文档集内词 w 和文档作者集合 αd 为可观
题合作能力，可以作为展示学者知识创新能力的一个
测变量，可以从文档集内直接得到，在图上表示为有填
辅助维度，而开展这一工作的前提则是进行作者研究充的圆，其他变量作者 x、主题 z、作者-主题概率分布 θ、
主题识别。随着大数据技术的快速发展，基于计算情主题-词概率分布 φ 均为潜在变量，在主题模型中一般
报的信息分析与挖掘技术在情报学研究过程中起到越通过采用变分推断 EM 算法或 Gibbs sampling 方法进行
来越重要的作用，对传统的基于文献计量学的情报分估计，并以此得到作者-主题概率分布（K）和主题-词概
析手段的极大扩展[17]，
这些技术和方法使得对学者进行率分布（T）。该模型的公式表示为：
研究主题划分成为现实。基于此，本文将采用作者主 P(词语|作者)=∑主题 P(词语|主题)×P(主题|作者)
题模型的相关算法进行作者研究主题识别与学者聚基于上述模型和方法，在给定文档集合及作者信息
类，并在此基础上基于合作网络对体现学者专业性的的基础上，可以分别计算出文档集内的主题-词分布和
主题内合作强度与体现作者知识创新能力的跨主题合作者-主题分布情况，从而作为后续相关计算的基础。
作强度进行测算，探讨学者研究内容的倾向性与广泛 3.2 学者聚类与学术影响力评价指标
性等问题，以期为学术人才的评价问题提供不同维度在上文基于作者主题模型的作者-主题分布测度
的参考和支撑。的基础上，通过对作者所属研究主题的倾向性与作者
62
网络的中心位置。其计算公式如下：
CDi=∑
j
x ij j ∈ V
其中 i 为网络中的任一节点，j 为网络中的其他节
xij 表示节点i与节点j相连。
点，
中介中心度（Betweenness centrality）：网络中的其
他节点对间的最短路径经过该节点的数量，中介中心
度越大说明该节点在网络中控制资源的能力越强。其
算公式为：
CBi=∑
j<k
b jk ( i ) j,k ∈ V
其中 i 为网络中的任一节点， j,k 为网络中的其他节

bjk (i)表示节点j与节点k间的最短路径经过节点i。
点，
图2 作者主题模型概率图
4 实证研究
对该主题的贡献情况，将主题视为作者的研究特征进 4.1 实验样本与数据描述
行作者刻画，即实现 author-embedding，将稀疏的作者- 为了验证本文所构建的学者学术影响力测度方法
词语矩阵进一步映射为作者-主题矩阵，并在此矩阵的的可行性，以及后续研究中能够从演化的视角对基于
基础上采用 Kmeans 算法进行学者聚类。此外，通过对本方法的学者学术影响力测度结果在后续时间的表
作者发文中主题词的抽取及可视化展示也可以直观地现情况进行追踪研究，以图书情报与档案学领域 42 种
描述出作者的主要研究领域及其主题分布情况。学术期刊为实验数据源，对其 2012—2016 年所刊载的
在学者学术影响力测度指标设计上，本研究重点 45 494 篇学术论文及其所涉及的 35 586 位作者为样本
考虑学者研究主题的专业性与创新性两个维度，并具进行实证研究。图书情报与档案学是一门专注于信息
体通过学者在该领域内研究主题上的合作网络中心度资源全生命周期管理的教育与研究的学科，为人类提
来体现。合作网络中心度作为学者学术影响力的测度供记录、保存、组织、检索、获取、分析与开发利用各行
指标，在情报学界已经有较为广泛的研究和应用，通过业各领域数据、信息和知识的思想、方法及技术[20]，
既具
对作者所处合作网络中的位置来测度学者的资源掌握有人文社会科学学科特征，也广泛使用自然科学的技
能力与学术影响能力，可以从一定程度上弥补传统评术与方法，具有较强的交叉学科特征，且学者的研究领
价方法的不足。但是在具体计算过程中，往往以数据域与研究主题也较为广泛。同时，图书情报与档案学
集内整体网络为计算对象，对网络内学者的跨学科、跨科的学术合作率在我国人文社会科学领域内也居于相
主题合作研究关系的挖掘并不充分。伴随着学术研究对中间的位置，以该学科为例进行实证研究，具有较强
的不算深入和细化，学科研究领域也在无限细分，众多的代表性，同时也可以兼顾人文学科与社会学科的特
研究已经表明学科交叉性已经成为当前促进学术创新点，可以较好地验证方法的适用性。
的重要途径之一[19]。从这个角度来说，领域或主题的学图书情报与档案学领域学者发文与合作情况如表
术合作网络中心度可以体现学者研究的专业性与专业 1所示。
影响能力，而跨领域或跨主题合作网络中心度则可以表1 2012—2016年图书情报与档案学作者发文情况
从一定程度上反映学者的创新性。因此，本文在基于发文数作者占比发文数作者占比
学者研究主题聚类的基础上，对学者学术影响力测度 1 61.19% 6 1.64%
2 17.43% 7 1.11%
指标将分别采用反映学者专业性的主题内合作网络中 3 7.91% 8 0.80%
心度和反映学者创新性的跨主题合作网络中心度指 4 4.18% 9 0.62%
标。在具体计算过程中，中心度指标分别采用点度中 5 2.54% ≥ 10 2.60%
心度和中介中心度两个指标：从论文的学术合作情况来看，我国人文社会科学
点度中心度（Degree centrality）：网络中的一个节领域学术合作情况呈现出较为明显的上升趋势，作者
点与其他节点直接相连的顶点数越多表明该点越处于合作率从 2000 年的 22.28% 上升到 2014 年的 40.37%，
63
提升了 18 个百分点，年均增长率达 4.34%，

越来越多的表4 2012—2016年图书情报与档案学期刊论文中
学者倾向于通过学术合作来促进学术成果产出与创作者研究主题分布
作者 Topic1 Topic2 Topic3 Topic4 Topic5
新，学术合作已经成果促进学术产出和提升学术创新
邱均平@武汉大学 0.61 0.01 - - 0.23
力的重要方面[21]。其中图书情报与档案学期刊论文的朱庆华@南京大学 0.35 - 0.06 - -
学术合作情况也呈现出较为显著的上升趋势，且略高郑建明@南京大学 - - 0.18 0.54 0.03
邓仲华@武汉大学 0.77 - - 0.08 -
于人文社会科学平均水平。因此，本文以图书情报与
李纲@武汉大学 0.52 0.04 0.03 0.01 -
档案学期刊论文为实验数据源，可以同时兼顾交叉学毕强@吉林大学 - 0.02 0.12 0.04 -
科的研究主题多样性、学术合作与知识交流较为频繁袁红军@郑州师范学院 0.47 0.01 - - -
肖希明@武汉大学 0.14 - - 0.38 0.19
等学科特点。孙建军@南京大学 0.22 - - 0.04 -
表2 2012—2016年图书情报与档案学期刊论文学术合作情况赵蓉英@武汉大学 0.22 - 0.04 - -
年份 2012年 2013年 2014年 2015年 2016年
作者合作率 39.04% 39.31% 41.56% 44.58% 46.43% Coefficient）确定作者的最优聚类数目为 14 时轮廓系数
4.2 作者-主题分布与学者聚类达到最大值，
以此为类簇数目初始设定值进行聚类，
得
基于上述实验数据源，并采用作者主题模型对该到作者聚类结果，
并将其投影到二维平面进行展示，
其
数据源中的作者-主题分布情况进行测度。在采用主结果如图 3 所示。从该图中可以较为直观地看出，
在图
题模型进行主题抽取与表示的过程中，需要事先指定书情报与档案学领域，学者间研究主题存在较为明显
文档集内所包含的主题数目，一般采用困惑度（Per⁃ 的区别，
不同群体的研究领域和研究重点也不相同，
聚
plexity）指标来进行词袋（bag-of-words）模型的语言建类效果上呈现出较为显著的边界划分。
模效果评估指标。本文通过对图书情报与档案学期刊
论文的文本信息（题目+摘要）的困惑度计算，得到该文
档集的主题数目为 16 时在困惑度曲线上构成拐点，因
此将主题数目设置为 16，并建立作者与文档集之间的
映射关系，在此基础上进行主题模型运算，得到该文档
集的主题分布。部分主题的识别结果及作者的主题分
布情况分别如表 3 和表 4 所示，其中作者展示结果按照
2012—2016年的作者发文量顺序排列。
在作者主题分布测度结果的基础上，为了更进一
步研究和展示作者间研究主题的相似性，识别和划分
不同研究不同作者的研究兴趣与主要研究内容，考虑
不同作者研究主题的分布情况，本文进一步采用 K-
means 算法对作者进行研究主题分布层面上的聚类划
图3 基于研究主题分布的作者聚类结果二维投影
分。具体操作过程中，通过采用轮廓系数（Silhouette
表3 2012—2016年图书情报与档案学期刊论文的 4.3 学者知识扩散能力与学术影响力评价
部分主题识别结果在前面作者主题分布测度结果与基于研究主题分
主题主题词及概率布的学者聚类的基础上，从主题层面研究领域内的知
知识*0.062 用户*0.028 信息*0.014 理论*0.013 模型*0.012 行为*0.012 基识交流与扩散能力，对反映主题内学者的知识扩散专
Topic1
于*0.011 管理*0.011 网络*0.01 影响*0.01
业性指标和主题间学者的知识扩散创新性指标，并以
数据*0.08 风险*0.012 时代*0.01 科技*0.009 发展*0.007 安全*0.007 科学
Topic2
*0.006 问题*0.006 重要*0.006 档案*0.005 此来展示学者的学术影响力，可以补充现有学者学术
Topic3
信息*0.121 网络*0.024 专利*0.024 资源*0.016 微博*0.016 企业*0.016 平影响力的评价方法。在具体计算过程中，对学者学术
台*0.016 服务*0.012 进行*0.012 微信*0.011
影响力测度指标将分别采用反映学者专业性的主题内
图书馆*0.055 数字*0.035 资源*0.032 建设*0.03 文化*0.02 公共*0.016 发
Topic4 合作网络中心度和反映学者创新性的跨主题合作网络
展*0.015 模式*0.013 资源共享*0.01 区域*0.009
图书馆*0.045 高校*0.023 我国*0.022 图书*0.02 发展*0.016 图书馆学* 中心度指标，并将其计算结果加权后表示为作者的综
Topic5
0.013 进行*0.011 美国*0.011 方面*0.011 调查*0.009 合影响力。
64
综合影响力=α·C D CDi+β·C B
i i 其中， R(u)是按照中心度指标计算出的前 N 个作者
上式中的 C D 是群内合作网络的点度中心度，
i 反映列表， T(u)是与之对应的发文量作者列表及其发文量排
作者的专业影响力指标， C B 是群间合作网络的中介中
i 名。根据该算法，得出基于中心度的学者影响力与基于
心度，反映作者的知识扩散与知识创新能力的影响力发文量的作者排名的前 10、 50、
100、
200、
500、
1000 位作
指标，α 和 β 分别为两个影响力的权重，本研究中采用者的P值结果如图4所示，在基于发文量的核心作者识别
α:β=1 的权重设置。基于该方法的学者学术影响力计结果与基于中心度的学者影响力排名的整体重合度约为
算结果如表5所示。 50%，
这一结果也表明，基于中心度的学者影响力评价可
表5 学者学术影响力计算结果（top20，
按综合影响力排序）以较好地补充基于发文量的核心作者遴选方法。
作者群内中心度群间中介中心度综合影响力
朱庆华@南京大学 1.00 0.65 1.65
夏立新@华中师范大学 0.10 1.00 1.10 5 结论与讨论
毕强@吉林大学 0.52 0.52 1.04 有关人的评价一直以来都是一个特别复杂的问
孙建军@南京大学 0.32 0.56 0.87
郑彦宁@中国科学技术信息研究所 0.10 0.73 0.83 题，特别是在学术研究领域，学者学术影响力的测度工
潘云涛@中国科学技术信息研究所 0.47 0.34 0.81 作更为复杂，众多学者在此方面展开了较为深入和系
黄鲁成@北京工业大学 0.60 0.16 0.76
统的研究工作。在学者学术影响力的量化测度方面，
柯平@南开大学 0.17 0.59 0.76
翟东升@北京工业大学 0.72 0.04 0.75 基于文献计量学方法和社会网络分析方法的学者学术
张杰@北京工业大学 0.68 0.03 0.71 影响力测度是当前学界研究较为深入和较为常用的方
邱均平@武汉大学 0.03 0.62 0.65
司莉@武汉大学 0.53 0.11 0.64 法。从科学知识交流的角度来看，学者之间的学术合
苏新宁@南京大学 0.35 0.23 0.58 作关系可以测度学者在科学知识网络中所处的位置和
夏翠娟@上海图书馆 0.50 0.07 0.57
作用，以及该学者在网络中的资源支配能力，是对现有
顾立平@中国科学院 0.08 0.48 0.56
张斌@中国人民大学 0.33 0.23 0.56 基于文献计量指标的学者学术影响力进行补充。但是
刘炜@上海图书馆 0.50 0.05 0.55 当前基于学术合作网络的学者学术影响力评价主要基
李长玲@山东理工大学 0.52 0.02 0.53
钱力@中国科学院 0.47 0.06 0.52
于整体网络的合作情况的整体分析，在当前研究领域
张晓林@中国科学院 0.32 0.18 0.50 不断细分与学科知识交叉的背景下，跨主题合作研究
4.4 中心度指标与发文量指标的对比分析与知识交流能力成为推动学术创新的重要途径，本文
根据普赖斯提出的核心作者识别算法，他认为对从该视角出发，采用作者主题模型的方法对学者的研
某一个特定领域而言，核心作者的科研产出为整个领究主题进行了划分和聚类，并在此基础上对学者的跨
域科学产出的 1/2，
并通过实证研究将核心作者数量与主题学术合作和主题内的学术合作情况进行了测度，
发文量之间的关系做了量化研究公式：m≈0.749 N，
其以此来反映学者的知识溢出能力，进而为学者学术影
中 N 为该领域全部作者中的最高发文量。根据该计算响力评价提供一个新的视角。从该思路出发，本文采
我们得到图书情报与档案学学科 2012—2016 年
公式，用作者主题模型算法，通过对作者研究内容的主题抽
的核心作者的发文数量需在 9 篇及以上，
利用该方法我取与表示，构建了作者-主题分布矩阵，之后对作者进
们可以得到该领域的核心作者群人数为 1143 人，
约占行了研究主题聚类划分，并在作者主题聚类的基础上，
该数据集内全部作者的比例为3.22%。分别对作者的主题合作网络和跨主题合作网络的点度
为了对比基于中心度指标的学者学术
影响力评价结果与基于发文量指标的学者
排名情况，
本文采用信息检索领域较为经典
的 topN 推荐指标来进行两者的对比分析。
将基于中心度指标的学者影响力排名结果
作为待测指标，
以发文量指标排名我靶向指
标，通过计算不同排名范围内的重合率，来
对比两者的差异。该指标的计算公式为：
R(u) ∩T(u)
P@N=
N 图4 基于中心度的学者影响力评价结果与发文量排名的对比分析
65
中心度和中介中心度指标进行了测度，以此来反映作 [ 6 ] Hirsch J E. An index to quantify an individual′s scientific re⁃

者在研究领域的研究专业性和知识创新性，并将其加 search output[J]. Proceedings of the National Academy of Sci⁃
ences of the United States of America, 2005, 102(46): 16569-
权整合后构建了学者学术影响力评价指标，并以图书
16572.
情报与档案学领域学术期刊上 2012—2016 年发表的
[ 7 ] Egghe L. Theory and practise of the g-index[J]. Scientometrics,
论文为样本进行了实证研究。 2006,69(1):131-152.
从计算结果来看，基于主题内合作网络中心度和 [ 8 ] Prathap G. The 100 most prolific economists using the p-index
跨主题合作网络中心度指标的学者学术影响力评价方 [J]. Scientometrics, 2010,84(1):167-172.
法的计算结果与经典的普赖斯定律中基于作者发文量 [ 9 ] Prathap G. A three-class, three-dimensional bibliometric per⁃
的核心作者遴选方法的重合度在 50% 左右，其中约一 formance indicator[J]. Journal of the Association for Informa⁃
tion Science and Technology, 2014,65(7):1506-1508.
半以上发文量并不是特别高的学者的综合中心度影响
[10] Bihari A, Tripathi S. EM-index: a new measure to evaluate the
力排名相对较高。中心度指标可以有效地展示学者在
scientific impact of scientists[J]. Scientometrics, 2017, 112(1):
整个学科领域的知识扩散与影响能力，为学者学术影 659-677.
响力评价提供了一个新的视角和维度。但是该方法也 [11] 刘璇, 段宇锋, 朱庆华. 基于合著网络的学术人才评价方法
存在一些不足：
（1）在作者主题划分与聚类的基础上，研究[J]. 情报杂志, 2014,33(12):77-82.
进行学者学术影响力评价仍然必须依赖于发文、引文 [12] 范如霞, 曾建勋, 高亚瑞玺. 基于合作网络的学者动态学术影
响力模式识别研究[J]. 数据分析与知识发现, 2017,1(4):30-37.
等传统文献计量评价方法，本研究仍是对基于文献计
[13] 杜建, 张玢, 唐小利 . 作者学术影响力双重测度探讨:引
量学的学术影响力评价的一种扩展和修正，后续仍需
用影响力和合作影响力之整合[J]. 情报学报, 2014,33(4):
要在学术影响力评价方面展开更加深入和具有创新性 388-395.
的评价方法的研究工作。
（2）在基于学术合作的学者影 [14] Ortega J L. Relationship between altmetric and bibliometric in⁃
响力评价方面，不同学科领域的学术合作模式与规律 dicators across academic social sites: the case of CSIC′s mem⁃
也不尽相同，本研究仅以同时具有人文社会科学学科 bers[J]. Journal of Informetrics, 2015,9(1):39-49.
[15] 曹丽江 . 基于 Altmetrics 的学者影响力综合评价研究[D]. 苏
特征和自然科学的技术与方法特征的图书情报学为例
苏州大学, 2017.
州：
进行了实证研究，后续仍需要对不同学科的学术合作
[16] 路甬祥 . 学科交叉与交叉科学的意义[J]. 中国科学院院刊,
模式与规律进行深入的研究和探讨，
并在此基础上对基 2005(1):58-60.
于该方法在不同学科领域的具体应用参数进行调整，
研 [17] 李广建, 江信昱 . 情报分析计算化:背景、
作用及关键问题[J].
（3）不管是主题内
究和完善本方法的学科适用性问题。图书情报工作, 2017,61(16):24-30.
合作网络还是跨主题合作网络，
都仅能从知识的交互视 [18] Steyvers M, Smyth P, Rosen-Zvi M, et al. Probabilistic author-
角反映学者在该学术研究领域的学者群体中的非正式 topic models for information discovery[C]. Proceedings of the

Tenth ACM SIGKDD International Conference on Knowledge
影响力，
同时也无法避免因虚假挂名现象所造成的知识
Discovery and Data Mining, New York, 2004.
交互网络失真现象，
而这一问题在科研诚信建设过程中
[19] 张琳, 孙蓓蓓, 黄颖. 跨学科合作模式下的交叉科学测度
则需要引起我们学术界的特别关注。研究——以 ESI 社会科学领域高被引学者为例[J]. 情报学
参考文献报, 2018,37(3):231-242.
[ 1 ] 武帅, 罗威, 钱旭, 等. 基于文献大数据分析的人才创新 [20] 闫慧. 青年学者论图情档一级学科核心知识及发展方向——
能力感知方法研究[J]. 情报理论与实践, 2018,41(12):41-45. 2019 年图书情报与档案管理青年学者沙龙会议述评[J]. 中
[ 2 ] 袁莎, 唐杰, 顾晓韬. 开放互联网中的学者画像技术综述国图书馆学报, 2019,45(1):121-127.
[J]. 计算机研究与发展, 2018,55(9):1903-1919. [21] 郝若扬, 逯万辉 . 我国人文社会科学学术合作特征演变研究
[J]. 情报杂志, 2018,37(6):124-132.
[ 3 ] Price D J. Little Science, Big Science[M]. New York:Columbia
University Press, 1963.
[作者简介]逯万辉，男，1987 年生，中国社会科学评价研究院助理研
[ 4 ] 邱均平, 楼雯 . 近二十年来我国索引研究论文的作者分析
究员。
[J]. 情报科学, 2013,31(3):72-75. 荆林波，
男，1966 年生，
中国社会科学评价研究院研究员，
博士生
[ 5 ] 张敏, 沈雪乐 . 国际知识发现研究领域核心作者群成熟度导师。
分析[J]. 情报杂志, 2014,33(8):111-116. 2019-10-19
收稿日期：
66

基于作者主题模型的学者聚类与学术影响力评价方法研究逯万辉

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于作者主题模型的学者聚类与学术影响力评价方法研究逯万辉

Uploaded by

Copyright:

Available Formats

理论探讨情报资料工作 2020年7月第41卷第4期

逯万辉荆林波（中国社会科学院中国社会科学评价研究院北京 100732）

文及被引关系的拟合基础上提出了 p 指数，并认为该指

科学》一书，他在洛特卡有关科学生产率研究的基础指数不能反映引文分布情况的缺陷，于 2014 年进一步

其中 i 为网络中的任一节点， j,k 为网络中的其他节

提升了 18 个百分点，年均增长率达 4.34%，

中心度和中介中心度指标进行了测度，以此来反映作 [ 6 ] Hirsch J E. An index to quantify an individual′s scientific re⁃

角反映学者在该学术研究领域的学者群体中的非正式 topic models for information discovery[C]. Proceedings of the

You might also like

基于作者主题模型的学者聚类与学术影响力评价方法研究 逯万辉

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于作者主题模型的学者聚类与学术影响力评价方法研究 逯万辉

Uploaded by

Copyright:

Available Formats

理论探讨 情报资料工作 2020年7月 第41卷 第4期

逯万辉 荆林波 （中国社会科学院 中国社会科学评价研究院 北京 100732）

文及被引关系的拟合基础上提出了 p 指数， 并认为该指

科学》一书，他在洛特卡有关科学生产率研究的基础 指数不能反映引文分布情况的缺陷， 于 2014 年进一步

其中 i 为网络中的任一节点， j,k 为网络中的其他节

提升了 18 个百分点，年均增长率达 4.34%，

中心度和中介中心度指标进行了测度，以此来反映作 [ 6 ] Hirsch J E. An index to quantify an individual′s scientific re⁃

角反映学者在该学术研究领域的学者群体中的非正式 topic models for information discovery[C]. Proceedings of the

You might also like

基于作者主题模型的学者聚类与学术影响力评价方法研究逯万辉

基于作者主题模型的学者聚类与学术影响力评价方法研究逯万辉

理论探讨情报资料工作 2020年7月第41卷第4期

逯万辉荆林波（中国社会科学院中国社会科学评价研究院北京 100732）

文及被引关系的拟合基础上提出了 p 指数，并认为该指

科学》一书，他在洛特卡有关科学生产率研究的基础指数不能反映引文分布情况的缺陷，于 2014 年进一步