You are on page 1of 7

情报科学

Information Science
ISSN 1007-7634,CN 22-1264/G2

《情报科学》网络首发论文

题目: LOV 词表特征及网络结构分析


作者: 贾君枝,李衎
收稿日期: 2020-03-30
网络首发日期: 2020-10-23
引用格式: 贾君枝,李衎.LOV 词表特征及网络结构分析[J/OL].情报科学.
https://kns.cnki.net/kcms/detail/22.1264.G2.20201022.1508.010.html

网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间:2020-10-23 14:54:51
网络首发地址:https://kns.cnki.net/kcms/detail/22.1264.G2.20201022.1508.010.html

LOV 词表特征及网络结构分析

贾君枝 1,2,李 衎1

山西 太原 030006;2.中国人民大学 信息资源管理学院,
(1.山西大学 经济与管理学院, 北京 100872)

摘 【目的/意义】关联开放词汇表(LOV)作为关联开放数据云(LOD)的重要组成部分,旨在提供对 LOD 中所
要:
使用词表的便捷访问,对 LOV 词表特征与网络结构进行探讨,一定程度上揭示了关联数据的演化和动态规律。
【方
法/过程】本文从 LOV 数据网络的基本特征、结构特征两个角度入手,借助数理统计与复杂网络分析方法,对从
LOV 官网收集到的数据进行深入分析。
【结果/结论】了解词表基本特征的分布规律、集中趋势、离散程度以及词表
的网络结构特征,并验证 LOV 网络结构遵循了复杂网络中的无标度特性和小世界理论。从度量学的角度来观察
LOV 网络,可为全面了解 LOV 词表特征和结构,在映射和使用重要词表时提供参考。
关键词:关联开放词汇表;关联开放数据云;复杂网络

Analysis of LOV vocabulary features and network structure

JIA Jun-zhi1,2,LI Kan1


(1.School of Economics and Management,Shanxi University,Taiyuan 030006,China;
2.School of Information Resource Management,Renmin University of China,Beijing 100872,China)
Abstract:【Purpose/significance】Linked Open Vocabulary (LOV) is an important part of Linked Open Data Cloud (LOD),
which aims to provide easy access to the vocabulary used in LOD . To explore the characteristics of LOV vocabulary and
network structure,which reveals the evolution and dynamic law of linked data.【Method/process】This paper starts from the
two aspects of the basic characteristics and structural characteristics of the LOV network. Through the mathematical statis⁃
tics and complex network analysis methods, the data collected from the LOV official website is analyzed in depth.【Result/
conclusion】Understand the distribution law, concentration trend, degree of dispersion, and network structure characteris⁃
tics of vocabulary, and verify that the LOV network structure follows the scale-free characteristics and small world theory in
complex networks.Observing the LOV network from a metrics perspective provides a comprehensive understanding of the
LOV vocabulary features and structure, and provides a reference for mapping and using important vocabularies.
Keywords:Linked Open Vocabulary(LOV);Linked Open Data Cloud(LOD);Complex network

用增加了困难。为了解决该问题,万维网之父 Tim Bern⁃


1 引 言 ers-Lee 制定了在网络上发布和互联结构化数据的原则,即
利用 URI(统一资源标识符)命名数据实体,采用 RDF 数据模
万维网改变了人们交流和商业运作的方式,已成为全球 型,通过 HTTP 协议揭示并获取数据,提供与其他 URI 的
信息空间的基础设施。如今该基础设施被认为是一个数据 RDF 数据互联,以便发现更多相关信息【1】。其中 RDF 作为网
网络平台,也称为语义网,其提供了各种类型的数据,并且用 络数据交换语言,提供了基于三元组的连接两个资源的关系
结构化语言进行互联,从而使数据可以被机器理解和使用。 模型,使不同数据集之间数据交换成为可能。这些原则的使
当大规模数据开始进入人们视野时,不同类型发布的数据具 用导致了全球分布式数据空间的出现,
即形成关联数据网。
有不同的访问机制,并且以不同的格式提供,从而为数据使 关联数据云(LOD)作为关联数据发布的数据集目录,将

2020-03-30
收稿日期:
基金项目:国家社会科学基金项目 (19BTQ023)
“数据开放环境中的词表重用问题研究”
作者简介:贾君枝(1972-),女,
教授,博士生导师,主要从事信息组织与信息检索研究.

- 836 -
不同领域的关联开放数据资源整合为一个互联网络并将其
2.2 分析步骤
可视化,通过利用 RDF 语言建立不同数据集之间的联系【2】,
开展数据整合服务,
链接现存、分散的数据来创造知识, 实现 为描述各个词表的特征,LOV 提供了 VOAF(vocabulary
数据的增值。这些数据集由不同的机构或个人提供,供公众 of a friend)的词表,以实现对各个词表的统一描述。VOAF 词
自由使用。截止至 2019 年 5 月,世界各机构已经基于 LOD 表的属性可以分为两种类型:①用于描述语言或语言等常见
标准发布了 1239 个数据集,包含 16147 条链接,形成了一个 特征属性。②是用于描述词表之间的相关性。基于此,我们
巨大的关联数据网络 。 【3】
将围绕第一组属性分析各个词表的基本特征,围绕第二组属
词表是关联数据网特定领域的术语集合,包括类和属 性,将构建社会网络分析表,其中将词表定义为节点,属性定
性,用来描述特定类型或特定领域的事物 。词表术语,都 【4】
义为边,由于 RDF 链接是有向的, 因此将 LOV 网络看作一个
由公共 URI 标识,并且可以用 RDF 语言来描述。它们可以 有向网络进行分析。
用来在词表之间建立链接,也可以通过词表元数据信息来捕 分析步骤可分为 3 步:①数据预处理。为获得便于分析
获诸如创建者、发布者,版本号、发布日期之类的信息 。关 【5】
csv 文件,利用 API 查询端口查询词表列表及词表基本信息,
联开放词汇表(LOV)项目于 2011 年在法国展开,其初始目 将返回格式的 json 文件转换为 csv 表格,为了解词表内部术
标是帮助关联数据和词表的发布者和用户评估可用于他们 语及关系,利用 python 中的 RDFlib 库解析 rdf dump 文档,之
需求的内容,尽可能地重用词表,并在其中自由插入自己的 后利用 Numpy 和 Pandas 库分析 rdf 数据,生成 csv 数据文件,
词表。LOV 词表收集一组类和属性(简称为词表的术语), 同时对 csv 文档进行数据预处理,包括缺失值检测和异常值
用于描述特定类型或领域的事物,
词表中还提供与关联数据 处理;②基本特征分析。为了解词表基本特征的分布规律、
网的链接。由于使用形式化语言(RDF、RDFS 或 OWL),词 集中趋势和离散程度,获取词汇表的描述性解释,对词表的
表中的术语为描述和链接提供了清晰的语义。以词表 owl 公共属性数据利用 SPSS 生成图表并进行描述性统计分析和
为例,<http://ab.dbpedia.org/resource/\u0411\u0435\u0440\u04 关联分析;③结构特征分析。为获取探究 LOV 词表整体的
3B\u0438\u043D><owl:sameAs><http://dbpedia.org/resource/B 结构特征,验证 LOV 网络结构是否遵循复杂网络中的无标
erlin>,两个实体之间通过 owl 中的 sameAs 属性连接,表明这 度特性和小世界理论,并确定其连通性和集群性,利用 mat⁃
两个实体间的关系等价。LOV 词表就是这样为关联数据提 lab Curve Fitting Tool 添加拟合曲线绘制累计度分布拟合曲
供了语义粘合【6】,使数据成为有意义的数据。 线,以测试数据是否遵循幂律分布,再利用 python networkx
LOV 作为 LOD 的重要组成部分,旨在提供对 LOD 中使 和 math 库生成同等规模的随机网络进行小世界特性检验,
用的词表的便捷访问端口,其提供了关于词表如何互联的信 同时为验证 LOV 词表入度值和出度值之间的相关性,用
息,以及在 LOD 中的使用情况 。 【6】
SPSS 进行 spearman 相关性分析,之后利用 gephi 绘制 LOV 的
不过,LOV 中并不包含所有在 LOD 中出现的词表,只包 网络图,从全局角度探索 LOV 的连通性与集群性。
含在 LOV 中注册了的词表,且 LOV 项目本身并不提供其所
2.3 分析指标
有词间关系形成结构的总体视图,也不提供一般最常用的
统计或数据,从而用户难以判定和选择这些词表。本文旨 LOV 是一个由词表和词表间关系构成的网络,其将不
在收集整理相关数据的基础上,对 LOV 词表进行了深入分 同领域的词表整合为一个互联的词表网络并将其可视化。
析,从其特点、结构及词表间的关系等入手,探讨 LOV 收录 研究表明,现实生活中存在的真实网络都不属于规则网络和
词表的内外部特征,以便揭示词表在关联数据的应用及发 随机网络,而具有比规则网络和随机网络更复杂的结构特
展过程。 征,称其为复杂网络【7】。复杂网络的理论基础是无标度网络
模型【8】和小世界网络模型【9】。无标度网络中节点的度数分布
2 研究分析方法 符合幂律分布特征,反映了复杂网络具有严重的异质性。小
世界特性又被称之为六度分割理论,聚类系数(由 C 表示,衡
量系统内的信息传递性能)和平均路径长度(由 L 表示,衡量
2.1 数据采集
整个系统架构质量)是小世界网络模型的主要网络结构特
数据来自 LOV 官网中的 API 查询端口、RDF dump 转储 性。与具有相同节点数和平均度的随机网络相比, 小世界网
文件、sparql 查询端口。利用 API 查询端口查询词表列表及 络既具有较短的平均路径长度, 又具有较高的聚类系数【10】。
词表基本信息,将返回格式的 json 文件转换为 csv 表格,通过 在小世界网络中,信息传递速度非常快,少量改变几个连接,
对 csv 表格进行整理,最终得到了 672 行 15 列的数据,包含 就可以剧烈地改变网络的性能【11】。那么,LOV 网络具有怎
词表的基本信息如名称、URI、语言、属性数、类数、实例数、 样的结构属性,是否属于复杂网络,是否具有复杂网络的无
数据类型、入度、出度、表达方式、发布时间、被 LOD 数据集 标度特性和小世界特性?各词表之间的连接是否有特殊规律
使用数量等十五个特征值。RDF dump 转储文件用于对具体 与特征?本文将针对以上问题进行研究。
词表内部类和属性进行分析。 社会网络分析 (social network analysis, SNA) 是对社会关

- 837 -
系结构及其属性加以分析的一套规范和方法, 它主要分析的
是不同社会单元所构成的关系的结构及其属性,
社会网络分 3 结果分析
析方法的应用极大拓宽了情报分析工作的视角【12】,其中 SNA
指标涉及网络的度、密度、平均路径长度、聚类系数等。研究
3.1 LOV 基本特征分析
LOV 网络结构,旨在计算 LOV 网络是否遵循幂律分布来探
究 LOV 网络的结构特征,确定该网络是均匀的还是异质的, 截至 2019 年 7 月 1 日,LOV 项目中共包含 672 个词汇
即词表之间的连接具有严重的不均匀性,少数词表有大量连 表。基本特征分析涉及每个词表的特点,旨在获得具有
接,大多数词表只有少数连接,从数学角度上探究其分布规 LOV 词表的共同特征的一个定量报告。在此使用 VOAF 词
律。同时验证 LOV 网络是否具有小世界理论特性,从而寻 表中的属性与 LOV 官网定义的属性来对 LOV 词表进行分
找 LOV 网络中的关键词表,发现 LOV 网络的集团化程度。 析, 语言、主题、类数、属性数。同时
其中包含四个公共属性,
2.3.1 累计度分布 加入词表在 LOD 中被数据集使用的数量作为第五个特征

图是一种表示对象集合关系的数据结构。该模式下, 值,用以衡量 LOV 词表与 LOD 数据集之间的关联程度。
象是图的节点,关系是图形的连接(边)。图中节点的重要度 3.1.1 语言特征分析
量是它的度,对于有向图,有两种类型的度:入度和出度,分 语言指构建词表所使用语言,语言越丰富,证明该词表
别记录指向节点和离开节点的边的条数。度数能够很好地 的适用地区越多,影响范围越广。除 67 个词表语言不详外,
反映整体连接的情况,对于 LOV 词表来说,入度值指该词表 LOV 总共使用了 50 种语言,单个词表最多使用 41 种语言,
被其他词表使用的数量,反映的是一个词表对其他词表的需 最少使用 1 种语言,单种语言最多被 483 个词表使用,最少被
要程度,出度值指该词表使用其他词表的数量,反映的是一 1 个词表使用。LOV 语言数量分布如图 1 所示。
个词表对其他词表的使用程度。词表的出入度值越高,表明
链接越紧密;反之,表明链接越稀疏。
度分布 P(k)表示随机选取的节点度为 k 的概率。有向网
络的入度分布 P(kin)是网络中随机选取的一个节点的入度为
kin 的概率。出度分布 P(kout)为网络中随机选取的一个节点的
出度为 kout 的概率。累计度分布 P(k)表示度不小于 k 的节点
的概率分布:

Pk=∑P(k') (1)
k'

根据相关研究,如果度分布为幂律分布,即 R(k)∝k-γ,那
么累计度分布函数符合幂指数为γ–1 的幂律分布【13】:

Pk∝∑k' ∝ k' 图 1 单个词表语言数量散点图


-y -(γ-1)
(2)
英语以绝对优势排名第一,总共在 483 个词表中有使
k' = k

2.3.2 聚类系数
用,占比 71.88%。汉语排名第 10,使用汉语的词表有 cwrc、
聚类系数是用来衡量 LOV 网络集团化程度的重要参
dbpedia-owl、geop、lgdo、lingvo、place、time、vivo,这些词表大
数。网络的聚类系数定义为该所有节点的聚类系数的平均
多适用于如时空、百科、军事、语言等综合性基础领域,使用
值。假设某个节点 i 有 ki 条边,则这 ki 条边连接的节点(ki 个)
范围广,所用语言数量较多。使用语言数量最多的词表有
之间最多可能存在的边的条数为 ki(ki-1)/2,ki 个节点之间实
lgdo、dbpedia-owl,
超过语言 30 种。
际存在的边数 Ei 和 ki 个节点之间最多可能的边数之比定义
3.1.2 主题特征分析
为节点 i 的聚类系数 Ci,整个网络的聚类系数 C 是所有节点 i
将相同领域或具有相同特征词表归为一组而形成多个
聚类系数的平均值,即:
主题标识。LOV 官网定义了 43 个词表主题类型,单个词表
2E i
C= 1 ∑
N

(3) 可以被多个主题所标识,
因此可在一个主题类目下发现同样
N i = 1 k i (k i - 1)
2.3.3 平均路径长度 被该主题标识的词表被标识的其它主题,实现词表主题之间
平均路径长度是一个节点到网络中的另一个节点所要 的触类旁通。当前主题主要分布在 7 个领域,如图 2 所示。
走的平均长度。网络直径和平均路径长度,主要用于衡量 反映基础研究领域特征的主题涵盖了科教、工业、人类、
LOV 网络的传输效率。网络中任意两节点 i 和 j 之间的距离 健康、地理、环境、政府、安全、时间等 8 个基础领域。学科领
dij,定义为连接这两个节点的最短路径上的边数。网络的平 域有几何和生物 2 个。反映词表的应用目的有推荐、方法、
均路径长度 L 定义为任意两个节点之间距离的平均值【13】,
即: 支持、分类、服务等 14 个,该类型词表占比较高,其中方法类
1 词表有 50 个,定义了基本术语以及在其它词表或本体中作
1 N(N + 1)∑
L= d ij (4)
ij 为示例或原语。元数据词表有 48 个,定义了高度可重用的
2
- 838 -
元数据。通过对排名前十位的主题进行分析,发现在 LOV ronment、Services、Biology 类数所占比重超过 5%之外,其它
中更多以相同应用目的作为划分依据,
同一主题下的词表包 主题的词表分布并未有明显差异,相对而言,专业化程度高
含了多个领域,从通用领域、专业领域再到特定领域用途的 的词表类数多,如生物医疗、语义、计算机和地理等。属性数
词表数量存在递减趋势。 多的词表有 dicom、dbpedia-owl、schema 等。
3.1.4 词表使用分析
LOV 词表作为关联数据的语义粘合剂,建立的目的是
为了让更多地 LOD 数据集使用。LOV 词表被 LOD 数据集使
用的次数可以表明 LOV 词表与 LOD 数据集间的关联紧密程
度。LOV 词表总计被 LOD 数据集使用了 3131 次,平均每个
词表被 LOD 中 5 个数据集使用,单个词表最多被 LOD 中 504
个数据集使用,据频率统计表可知,只有 125 个词表被 LOD
数据集使用,占 LOV 词表总数的 18.6%,有 5.5%的词表被
LOD 中超过 10 个数据集使用,有 547 个词表没有被 LOD 中
任何数据集使用,占 LOV 词表总数的 81.4%。图 4 给出了
图 2 主题分布图 类、属性和 LOV 词表使用情况的散点图矩阵,类分布和词表
3.1.3 类数和属性数分析 的使用情况、属性分布和词表的使用情况均不具有明显的线
LOV 词表均定义了类和属性,类定义了词表所涉及的 性关系。即类和属性的多少并不是影响词表被 LOD 数据集
主要概念集合,明确了其定义域和值域,能够对 RDF 文档所 使用的原因,类数较多的词表和属性数较多的词表并不一定
具有
表达的资源加以限制。属性用于描述概念之间的关系, 被更多的 LOD 数据集使用。
限制类中概念和实例的功能,
是区分类的标准。类数和属性 LOD 数据集使用次数排名在前的词表,其中 rdf、rdfs、
数可以作为衡量词表语义丰富程度的因素,
类数和属性数越 owl、skos 属于描述性词表,旨在为关联数据建模、约束、定义
多,词表结构也越复杂,表明该词表越适于描述多种资源。 领域语义,因此和数据集间建立链接很多,且这四个词表具
有相关性,表达能力上侧重不一。dcterms、dce、void 词表属
于元数据词表,dcterms、dce 词表描述了都柏林元数据及术
语集,void 词表即为互联数据集词表,可以作为沟通数据发
布机构和用户之间的桥梁,是一个表达 rdf 数据集元数据信
息的词表,因此使用程度很高。foaf、geo、time 词表都属于通
用领域词表。

图 3 类和属性密度图
LOV 总计有 29987 个类,37410 个属性,平均每个词表中
有 45 个类,56 个属性。一个词表中最多拥有 2853 个类,
7033 个属性。仅有 49.3%的词表类数超过了 10,6.2%的词
表类数超过了 100。可以看出高类数的词表少,大多数词表
只定义了极少的类,词表语义丰富程度差异明显。如图 3 所
示,属性和类的密度分布都近似于幂律分布,属性分布远离
均值且离散程度大于类数分布的离散程度,
表明属性分布比 图 4 类、属性和使用的散点图矩阵
类数分布更不均衡。类和属性之间并不存在明显的线性关 可以看出,LOV 整体词表在 LOD 中的利用率很低,词表
系,为探究这两个特征之间是否存在隐藏关系,由于其分布 的应用范围还有待提高。LOV 和 LOD 之间的链接并不紧
均不属于连续型变量且不服从正态分布,因此对两个特征值 密,由于 LOV 官网允许任何个人或机构对词表进行发布,个
进行 spearman 相关性分析,sig 值 0.418 大于 0.05,意味着两 人发布者较多,数据质量参差不齐,且 LOV 官网对数据进行
个变量不存在相关关系,进一步说明类数多的词表属性数不 审查的周期是一年一次,没有及时将更新的词表与数据集建
一定多。从主题分布情况上来看,除 Society、loT、RDF、Envi⁃ 立关联。

- 839 -
图 5 LOV 网络图
此词表需要慎重选择与自己互联的词表。度分布、入度分布
3.2 LOV 结构特征分析
和出度分布均可绘出一条向右偏斜得很厉害, 拖着长长“尾
词 表 与 词 表 之 间 的 连 接 形 成 了 LOV 网 络 。 其 中 有 巴”的累积分布曲线,出度分布的右移更加明显,入度分布、
97.61%的节点度数不为零,即 97.61%的词表至少和一个词 出度分布及度分布的幂指数分别为 1.4295、2.533 和 2.395,
表建立了 RDF 链接,仅有 44.94%的节点度数超过 10(包括 入度分布的幂指数明显小于出度分布,标度指数越大网络越
10),进一定说明关联开放词表的关联性特点,词表之间的未 均匀【17】,由此说明,入度分布的无标度特性明显大于出度分
来链接还有很大的发展空间。 布,入度分布具有更严重的不均匀分布性,其针对随机故障
3.2.1 LOV 出入度分析 的鲁棒性和针对蓄意攻击的脆弱性也更加明显。图 6 所示
LOV 网络中 43.45%的节点入度不为 0,其中 13.01%的 为入度分布的累计度分布图,入度分布的拟合情况较度分布
词表入度值超过了 10;99.56%的词表出度不为 0,有 25.71% 和出度好,其 SSE 值为 0.01,RMSE 值仅为 0.002691 均极接近
的词表出度值超过了 10,表明大部分词表都在使用其它词 于 0,度分布与出度分布的 SSE 值均大于 1,且出度分布的
表。rdfs 以 1382 的入度排名第一,成为 LOV 网络中大部分 RMSE 值为 0.1724,与度分布 RMSE 值 0.0347 及入度分布的
词表的指向,说明其成为当前主要的描述语言。词表的入度 RMSE 值差异明显,因此出度分布的拟合情况最差。这与出
与其在数据流通环节中的作用呈正相关的关系。入度高的 度数据分布数据之间异构性较小,即分布较均匀有关,大多
节点中介性较高,接近中心性——与网络中其它节点之间的 数词表的出度都不太高,最高的出度值仅为 43,但是大多数
距离也会较小【14】。高入度的节点是在数据流通网络中发挥 词表都有出度值,即大多数词表都有使用其它词表,但是词
着重要作用,属于核心词表,使用 gephi 创建图 5,其中节点 表使用的数量差异并不明显。
表示词表,边表示词表间的链接,节点越大代表链接的频次
越高,即节点度值越高,节点之间的连线粗细代表词表间的
连接强度【15】。图中大的节点即核心词表,包含 rdfs、rdf、owl、
dcterms、dce、foaf、vann、skos、cc、vs。入度值与度数值具有明
入度值高,
显的线性关系,入度值直接影响度数值, 度数值也
出度分布与词表
高。出度表明词表对其它词表的需求程度,
出版时间相关性系数为 0.172,存在相关关系,发布时间晚的
词表出度值较高,即该词表使用其他词表数量越多。
LOV 的入度、出度和度分布都近似幂律分布,可以认为
LOV 网络具有无标度网络特性,即 LOV 网络中少数词表起
到了连接多数词表的重要作用,然而如果新词表都倾向与高
度数的中心词表连接, 一旦中心词表失效, 可破坏整个网络
的连通性,这也体现了无标度网络的鲁棒性和脆弱性【16】,因 图 6 LOV 入度累计度分布图

- 840 -
3.2.2 LOV 网络小世界特性 此方面的问题做进一步的讨论。
如果一个网络具有大的聚类系数,而平均路径长度很
参考文献
小, 则该网络称之为小世界网络。为验证本文的小世界特
性,利用 python 生成和 LOV 网络同等规模的随机网络。 1 贾君枝,寇蕾蕾.关联数据云图中出版类数据集特点分析
构造过程:第一步进行初始化处理,接下来按连边概率 [J].国家图书馆学刊,2016,25(1):59-68.
P∈(0,1)在 N 个节点间完成随机连边,两个没有边相连的节 2 Klímek,Jakub,et al.Publication and usage of official
点选择生成随机数 r∈(0,1),只有 r 小于概率 p 时才能连接两 Czech pension statistics Linked Open Data[J].Journal
个节点,重复上述操作使任意两个节点间皆有边相连【18】,最 of Web Semantics,2018,(48): 1-21.
终形成与 LOV 具有同等规模大小的随机网络,在 LOV 的聚 3 LOD[EB/OL].https://lod-cloud.net/,2019-05-28.
类系数 C 远大于随机网络聚类系数 C random 且 LOV 的平均 4 Vandenbussche P Y,Atemezing G A,Poveda-Villalón
路径 L 小于等于随机网络平均路径 L random 时证明 LOV 网 M,et al. Linked Open Vocabularies (LOV): a gateway
络具有小世界性质。通过计算可知, LOV 网络的平均路径 to reusable semantic vocabularies on the Web[J]. Se⁃
长度 L 为 2.015,平均聚类系数 C 为 0.72,同等规模随机网络 mantic Web,2017,8(3): 437-452.
的平均路径长度平均路径长度 L random 为 2.5153,平均聚类 5 Cheng G ,Qu Y . Relatedness between vocabularies
系数 C random 为 0.0302,L 略小于 L random, 但聚类系数 C 远 on the Web of data: A taxonomy and an empirical
大于 C random,即证明 LOV 具有明显的小世界网络特征。 study[J].Web Semantics: Science,Services and Agents
短平均路径长度意味着即使 LOV 词表数量不断增加, 但由 on the World Wide Web,2013,(20):1-17.
于存在核心节点,词表之间的距离依然较近, 这样的结构能 6 Nogales A . Measuring vocabulary use in the Linked
使检索速度加快。高聚类系数表明词表间的连接并不随机, Data Cloud[J]. Online Information Review,2017,41
与词表 A 相连的两个词表 B 和 C,之间相连的可能性也很 (2):252-271.
高。这样的结构使描述同一实体的资源互相连接,丰富了描 7 汪小帆,李 翔,陈关荣.网络科学导论[M].北京:高等教育
述实体的多样性。简而言之,小世界特性使网络既能保证快 出版社,2012:108-115.
速找到数据,又能保证数据的丰富性。 8 Barabasi A L ,Albert R. Emergenceof scaling in ran⁃
dom networks[J]. Science,1999,(286):509-512.
4 结 语 9 Watts D J,Strogatz S H. Collective dynamics of 'small-w
orld' networks.[J].Nature,1998,393(2):440-442.
LOV 作为 LOD 的重要组成部分,在全球范围内实现语 10 汪小帆,李 翔,陈关荣. 复杂网络: 理论及其应用[M].第
义网发挥着重要作用。本文通过对 LOV 数据网络的基本特 4 版. 北京: 清华大学出版社,2006: 22-34.
征及结构特征分析,发现 LOV 数据网络在语言分布、类和属 11 吉艳冰,王伟,赵亚伟.基于复杂网络理论的担保网络研究
性分布、主题分布和词表使用方面均具有近似幂律分布的特 [J].复杂系统与复杂性科学,2014,11(2):17-23.
征,且在多种统计结果中,RDF,RDFS,FOAF,DCTERMS, 12 陈云伟.社会网络分析方法在情报分析中的应用研究[J].
OWL 和 SKOS 等词表可以被认为是“最受欢迎的词表”。然 情报学报,2019,38(1):21-28.
而 LOV 词表集还不够完善,且与 LOD 的关联过少,仅有很少 13 夏立新,谭 荧.LOD 的网络结构分析与可视化[J].现代图
一部分词表被应用在 LOD 数据网络中,且也存在许多词表 书情报技术,2016,(1):65-72.
内容无法开放获取,LOV 官网数据更新速度较慢,与实际数 14 马 捷,蒲泓宇,张云开.基于复杂网络分析的智慧政务信
据有误,均成为影响 LOV 更大程度使用的障碍。LOV 网络 息协同结构及特征研究——以深圳市为例[EB/OL].http:
结构在整体层面上具有近似无标度网络的幂率分布特征, 同 //kns.cnki.net/kcms/detail/11.1762.G3.20190909.0914.002
时具有短平均路径长度和高平均聚类系数的小世界特性。 .html,2019-10-07.
小世界网络的共性能帮助 LOV 优化检索效率, 然而倾向连 15 陈兰兰.基于社会网络分析和共词分析的国内关联数据
接高度数词表的趋势会使整个 LOV 网络的稳定性降低,故 研究[J].图书与情报,2013,(5):129-132.
发布词表时要慎重选择词表与之互联。 16 Albert R,Jeong H,Barabasi A L. Error and attack tolerance
LOV 是词表生态网络,推动了词表的进一步应用,目前 of complex networks[J]. Nature,2000,340(1):378-382.
针对 LOV 的研究还停留在静态的统计分析上,信息的结构 17 吴 俊,谭跃进,邓宏钟,朱大智.无标度网络拓扑结构非均
会随着时间而改变, 新的数据会产生新的属性, 其网络结构 匀性研究[J].系统工程理论与实践,2007,(5):101-105.
也在演化, 对演化过程的研究会帮助人们更全面地认识 18 蔡 创,刘 强.复杂网络 Java 系统程序设计与实现[J].微
LOV 词表,从而从更深层次接近 LOV 生长发展的真相,揭示 型电脑应用,2019,35(4):126-128.
LOV 网络的生长模式与规律。鉴于此,研究者还需要围绕
(责任编辑:张连峰)

- 841 -

You might also like