You are on page 1of 9

第18卷 第2期 中国发明与专利 Vol.18 No.

2
2021年  2月 China Invention & Patent Feb. 2021

基于人工智能专利图谱的技术热点发现
以及演化分析
陈 挺1,2,3 邓启平4 李国鹏3 王小梅3

(1. 中国科学院文献情报中心,北京 100190;2.中国科学院大学经济与管理学院图书情报与档案管理系,

北京 100190;3.中国科学院科技战略咨询研究院,北京 100190;4.电子科技大学图书馆,成都 611731)

摘 要 :人工智能在近几年快速发展并成为最热门的技术之一,如能快速了解人工智能技术热点与发展态势,
对抢抓人工智能发展的重大战略机遇与构筑先发优势具有重要意义。本文提出了一种基于专利可视化图谱发现技术
热点的方法,即在连续时间窗口上绘制图谱,在此基础上运用密度分布变化来识别该领域技术热点。为了提升专
利图谱的准确性,本文使用海量专利文本训练了基于深度学习的 doc2vec 模型,形成了专利文本特征抽取模型。经
过实验对比发现该模型在测试数据集中表现远超经典的词袋模型与主题模型。在实例分析中使用了 2012—2019 年
10457 件三方人工智能专利进行热点发现,共发现研究热点 7 个,并对 7 个热点中关键概念词、专利申请人所属国
家进行深入分析。
关键词:可视化 人工智能 技术热点 三方专利 doc2vec 专利图谱
中图分类号:P315 ;G312 ;G35 文献标识码:A

1 引言 的首选情报源,使得专利计量分析成为了热点技术识
人工智能在近几年快速发展并成为最热门的技术 别的重要手段。早期的热点技术识别方法主要采用基
之一,相关产品和服务得到了广泛应用,为全球经济 于技术分类号或热点词及词组的统计分析方法,分别
发展提供了强大动力,世界主要国家均已将人工智能 从宏观和微观层面分析热点技术,前者由于专利分类
纳入国家战略。分析人工智能技术热点与发展态势, 体系粒度过大,难以描述技术细节,后者存在一词多
对抢抓人工智能发展的重大战略机遇与构筑先发优势 义或一义多词、词间缺乏语义关系等问题,会造成分
具有重要意义,已有不少学者开展了人工智能技术的 析误差,两类方法在实际应用中均存在不足 [5]。近年来,
热点研究,但多是基于学术论文的视角 [1-4]。当今人工 基于专利文献层面的中观热点技术分析方法受到了学
智能已从理论领域转向全球市场和各行各业,本研究 者广泛关注,该类方法以专利文献间的相似性为基础,
提出一种自动分析方法,尝试从产业技术相关的专利 通过主题聚类以及可视化方法构建技术主题图谱自动
文献中自动发现人工智能的热点技术及其变化趋势。 识别热点技术,相关研究主要集中在专利文献相似性
热点技术发现是技术情报分析的重要内容之一,一 测度和技术主题可视化两个方面。
直是研究者关注的焦点之一。专利文献作为技术情报 专利文献相似性测度方法以引证分析、文本挖掘

基金项目 :本文系中国科学院战略研究与决策支持系统建设专项项目“技术结构图谱与《专利技术焦点》的研制”(项目
编号:GHJ-ZLZX-2020-42)的研究成果之一。
作者简介:陈挺 (1984—),男,北京人,博士研究生,助理研究员,研究方向:情报学,数据挖掘;邓启平(1990—),男,
四川绵阳人,硕士,馆员,研究方向:情报分析方法与技术;李国鹏(1983—),男,北京人,硕士,助理研究员,研究方向:
数据科学、文本挖掘、知识服务;王小梅 (1969—),女,北京人,硕士,研究馆员,研究方向:情报分析方法与技术。

• 13 •
陈  挺,等:基于人工智能专利图谱的技术热点发现以及演化分析 2021年第2期

和专利分类为主,不同方法各有优劣。引证分析的方 量和经济价值,反映一个国家技术发明的整体水平及
法虽然能从外部引证关系的角度测度专利相似性,但 在国际市场上的竞争力。在过去二十多年中,“三方专
难以区分引用动机且存在引用滞后性等缺陷 ;基于文 利”指标在 OECD、欧盟统计局、美国国家科学基金
本挖掘的方法可描述专利内容特征,包括文本向量 会(NSF)等国际权威机构的统计报告中被广泛应用,
空间模型、本体和主体 - 行为 - 客体三元组(Subject- 已成为评价创新的一个重要指标。
Action-Object, SAO)等,但受自然语言处理算法和数 本文的分析对象是人工智能专利,而人工智能领
据维度的制约,随着深度学习技术的发展,学者开始 域是一个高速发展的全新领域,新技术、新应用领
尝试利用 Word2Vec、Doc2Vec 等深度学习方法优化传 域、新人工智能产品层出不穷,通常情况下构建人工
统的向量空间模型 [6-8],以解决模型缺乏语义关系和 智能专利遴选策略是一个极其困难的工作。本文在构
数据维度过高的问题 ;基于专利分类的方法清晰直观, 建人工智能技术领域时借鉴了世界知识产权组织报
但 IPC、USPC 等专利分类体系存在着更新频率低、不 告《2019 技术趋势——人工智能》(WIPO Technology
同分类下数量不均、有些分类号下专利过多等问题。 Trends 2019: Artificial Intelligence ,以下简称 WIPO 报
技术主题可视化方面,相关研究以应用为主,方法研 告)中的人工智能专利检索式 [9]。该报告由世界知识
究较少,在实际应用中分析人员多借助免费的文献网 产权组织邀请了数十位顶尖学界与产业界人工智能专
络可视化软件(CiteSpace、VOSViewer 等)或付费的商 家共同打造,极具权威性。本文基于 Orbit 数据库检
业化专利分析软件(Aureka、VxInsight 等)
,但在分析 索最早优先权年(若一个专利家族含有多个优先权日,
的数据源、数据量等方面有一定限制,应用范围有限。 提取最早优先权日)2012—2019 年的三方专利家族数
综上分析,我们认为有必要寻求一种更加科学、 据,数据总量 10457 件。结合表 1 分析三方专利数量
合理的专利技术结构分析方法 , 通过整体宏观结构的 变化情况,可以看出三方专利数量逐年递增(因专利
发现,帮助相关技术领域的科研技术人员、科研单位 从申请到公开的时滞性,近两年的数据仅供参考)。且
以及专利情报分析人员更客观、准确地认识该领域的 最早优先权年从 2014 年开始,三方专利增速进一步加
技术分类和技术热点。本文提出了一种基于人工智能 快,总量首次超过了 2 千件 ;到 2015 年,三方专利总
专利图谱发现整体人工智能技术布局,在布局的基础 量已经达到 2284 件,年均增长率接近 12%。
上进一步聚焦技术热点的方法。 表1 人工智能三方专利数量统计
最早优先 最早公开年
年份 最早优先权年 最早公开年
权年份额 份额
2 分析数据来源
2012 1553 36 14.85% 0.34%
本文选择人工智能领域“三方专利”进行分析, 2013 1682 767 16.08% 7.33%
“三方专利”又名“三方同族专利”
,是指为保护同一 2014 2045 1755 19.56% 16.78%
发明在欧洲专利局、日本特许厅、美国专利与商标局 2015 2284 1892 21.84% 18.09%
2016 1910 2087 18.27% 19.96%
均提交申请的一组专利。如果只使用一个专利局的数
2017 836 2271 7.99% 21.72%
据,存在“本土优势”,易受技术以外因素的影响。此外, 2018 147 1113 1.41% 10.64%
专利价值分布不均衡,简单的计数赋予全部专利相同 2019 0 536 0% 5.13%

的权重,实际上很多专利的价值很低。为避免上述缺点,
经济合作与发展组织(OECD)提出了“三方同族专 3 研究方法
利”这样一个概念,美、日、欧盟是世界科技水平和 笔者所属团队在基于论文的科学知识图谱方面有
创新活力最高的三个国家(地区),是世界最重要的三 较长时间的跟踪研究,但基于专利的技术图谱与基于
个市场,且这三个专利机构的专利申请和维护费用较 论文的科学图谱有很大不同。首先科学结构图谱绘制
高,因此通常“三方专利”被认为具有较高的科技含 多数是基于论文的引文关系,但专利的引用动机与科

• 14 •
2021年第2期 陈  挺,等:基于人工智能专利图谱的技术热点发现以及演化分析

学论文引用动机有较大的不同,在揭示知识关联方面 适用在专利文本上。本研究选用的文本特征抽取模型
[10]
存在较大差异 。其次专利间引用的频繁性相比科学 为 Doc2vec 模型 [12],或者叫做 Paragraph2vec,是一种
论文比例非常低,本研究对过去 6 年全部的三方专利 非监督式语言算法,可以获得句子、段落或者整个文
进行统计发现,专利间存在直接引用关系的专利只有 本的向量表达,是 Word2vec 的拓展。Word2vec 模型
29%,存在共被引关系的专利仅有 37%,因此从数据 受到其底层词袋模型限制,训练时只考虑了词共现关
统计出发,经典的论文引文分析方法也不适用于专利 系而忽略了词序信息与文本主题信息,用于表征长文
的技术图谱分析。 本段落时表现不尽如人意。而 Doc2vec 模型在训练时,
科睿唯安公司旗下的德温特专利分析平台中 首先会训练词向量,但与此同时增加了段落信息,模
ThemeScape 专利地图功能 [11] 是现有技术图谱实际应 型进一步考虑了训练样本段落中词语出现顺序,更适
用最成熟的方案之一,该专利地图采用了关键术语共 用于专利数据中题名与摘要的文本长度。
现关系作为衡量专利相似度的指标。但基于关键词或 本研究首先对超过 3 百万的过往十年美国专利摘
者术语等的文本共现算法的原理较为简单,选择若干 要进行清洗与预处理,包括去停用词、词性还原和词
术语代表一篇专利的方法语义缺失严重,且无法解决 根提取 ;之后最重要的一步为利用上述海量专利文本
一词多义与一义多词的问题,造成文本相似度计算的 训练 Doc2vec 模型,使模型习得过往专利的行文规律,
准确性不高,在大规模数据挖掘时可能会出现较大的 形成专利语义模型。Doc2vec 模型选用 PV-DM 算法进
分析误差。 行 训 练, 两 个 主 要 参 数 min_count 与 window_size 均
本研究提出的基于技术图谱的热点发现方法分为 为 5。最后将人工智能三方专利通过该模型抽取文本
两部分,第一部分为专利特征抽取 :采用基于深度学 特征,每个专利的特征向量维度为 100 维。为了测试
习的文本特征抽取模型,使用海量专利文本作为训练 Doc2vec 专利文本特征抽取模型的准确性,本研究利
数据学习专利的语言规律,训练后形成专利文本特征 用 IPC 代码的层次关系构建两组专利特征抽取模型测
抽取模型,并利用模型抽取人工智能专利的文本特征。 试数据集。
第二部分是利用可视化技术,将人工智能专利映射在 测试数据集的构建方法如下 :测试集中每条测试
二维图谱,以图谱形式将不同时间窗口下人工智能专 样本由三件专利组成(三元组),其中会有两件专利
利的发展脉络系统呈现,并结合领域专家对图谱进行 的 IPC 分类更接近,我们就将它们标注为相似专利,
深入的解读。上述方法实现流程如图 1 所示。 第三件专利为不相似专利。因为 IPC 分类代码包含 :
部、大类、小类、大类组、子组层次分类信息,我们
在选择三元组中相似专利对时只用属于一个子组或者
一个大类组的两个专利,第三个不相似专利则选择与
前两个专利的 IPC 距离最相近的一个上位类中的一个
图1 人工智能技术热点发现流程
其他子类。这样既能保证三元组中前两个专利相似性

3.1 专利特征抽取模型 相对更高,又能保证第三个专利不会与前两个相似专

为了最大程度地保证后续人工智能技术图谱的准 利有一定相关性。比如前两个专利都来自 IPC 大类


确性,提升人工智能专利的文本特征抽取的准确性是 A01B1,第三个专利来自 IPC 大类 A01B3。如果模型
本文的重要研究内容,也是后续一切深入分析先决条 通过计算文本相似度能准确发现测试数据集三元组中
件。专利申请书的文本是一个比较特殊的行文文体, 相似的两个专利,则表明该模型预测正确,反之则表
有自身特殊的撰写模式与遣词方式,与其他新闻、百 示模型预测失败。第一个测试数据集为全专利库随机
科的文章在行文语言上有极大的差别。因此已有的预 生成,共 4000 组三元组。第二个测试数据集为了进一
训练模型如谷歌公布的预训练 Word2vec 模型必然无法 步提升测试集的难度,我们只选用专利手工代码分类

• 15 •
陈  挺,等:基于人工智能专利图谱的技术热点发现以及演化分析 2021年第2期

下的“数字计算机”T01 分类的专利构建测试数据集。 对局部细节结构的揭示还是稳定性方面都有极大的提


也就是说候选专利本身都是属于一个子领域,本身就 升。t-SNE 算法在局部特征可视化表现尤其突出,越
比较类似,从而提高模型判断三元组中更相近专利的 相似的专利在图谱的局部会更集中,且与周边其他专
难度,第二个测试数据集共有 2000 组三元组。为了保 利之间有明显的边界。这样的可视化表现非常适用于
证通过 IPC 分类体系自动构建的测试数据集的准确性, 从海量专利数据中发现其热点内容,一旦图谱中出现
课题组随机选择了 100 个三元组让相关学科背景情报 很小的范围内聚集了大量的专利,这说明有大量内容
分析人员人工判断,判断结果符合自动标注的结果。 相似的专利得到申请与授权,如果再将分析的时间窗
表 2 为本文训练的 Doc2vec 专利文本抽取模型与 口限制在较短的时间,那么这些“热点”区域内的专
经典的文本特征抽取模型的测试结果,从测试结果中 利很可能代表一段时期内的热点技术主题。
可以看出本文训练的 Doc2vec 模型在专利特征抽取上 人工智能三方专利技术图谱如图 2 所示。每个坐
远高于传统的词袋模型 Tf-idf、主题模型 LSA、LDA。 标点代表一个专利,越接近的两个点代表两件专利的
在测试数据集 1(4000 组全领域三元组)中 Doc2vec 相似度越高。可以看出,人工智能专利在图谱中形
模型的准确率达到了 86.5%,超过最好的 LDA 主题模 成了若干个轮廓清晰的簇,这些簇表示大量语义相近
型 8.4%。在难度更高的测试数据集 2(2000 组手工代 的专利在图谱中自然地聚集在一起,形成天然的聚
码 T01 下三元组)中,所有模型的准确率都有所下降, 类。通过人工判读发现这些簇中所含专利确实语义内
但 Doc2vec 的准确率依然达到 76.5%,是所有模型中 容非常接近,几个较大的簇中专利包括了机器学习模
最高的。 型、自动驾驶装置、机器人设备、图像识别算法等

表 2 专利文本特征抽取模型的测试结果 不同主题。技术结构图谱的整体结构也与专家对人
模型 测试数据集 1 准确率 测试数据集 2 准确率 工智能领域认知相符,证明本文使用的可视化图谱
Doc2vec 86.5% 76.5% 算法有较好的可视化效果。该图谱使用的 t-SNE 算
Tf-idf 73.3% 56.6%
法 参 数 为 :perplexity=30,learning_rate=190,early_
LSA 76.9% 64.7%
LDA 78.1% 67.1% exaggeration=30,图谱判读详情见章节 4。
注:测试数据 1 为 4000 组全领域三元组准确率;测试
数据集 2 为 2000 组手工代码 T01 下三元组准确率
3.2  技术图谱与热点发现算法
获取人工智能专利文本特征后,本文选用非线性
降维 t-SNE 算法 [13] 作为专利文本可视化算法,它是一
种非监督降维算法,无需预先给定样本的分类标签信
息。t-SNE 算法是基于 Stochastic Neighbor Embedding
(SNE) 算法改进而来的,优化了原有算法在局部可能
出现坐标点过度重叠的问题。t-SNE 算法相比经典的
线性降维算法,t-SNE 算法的优势是数据局部结构揭
示极其出色,同时兼顾了整体结构相对稳定。在处理
高维数据时能有效帮助分析人员快速识别数据之间的
关联模式。目前 t-SNE 可视化算法已成功应用于很多
真实高维数据集,如图像文字、生物信息、新闻文本
数据等 [14-16]。本课题组也在论文结构图谱与基金图谱
中使用了 t-SNE 算法制作了可视化图谱 [17-18],不论是 图 2  人工智能三方专利技术图谱

• 16 •
2021年第2期 陈  挺,等:基于人工智能专利图谱的技术热点发现以及演化分析

2012—2013 2014—2015 2016—2018

图 3  人工智能热点技术演化图

虽然通过结构图谱能有效掌握总体态势布局,但 所含的方向是很杂且宽泛的对象,因此 h 值选择了较


可以看出整个图谱坐标点的密度分布很不均匀,专利 小的 0.1,这样高密度区域在图谱中技术内容更聚焦,
坐标点在某些区域有很强的重叠效果。只通过目测图 发现的技术热点在文本层面尽量接近。
谱中的坐标分布无法清晰地识别出技术申请热点,因
此本文进一步在图谱基础上计算专利的密度分布,密 4  案例分析

度高的区域表示申请或授权大量申请书语义相似的专 本文将人工智能专利分析数据分为 2012—2013、

利,很有可能代表一个技术热点。 2014—2015 和 2016—2018 三个时间窗口,利用本文

空间点的聚集分析即热点分析在很多领域都有广 提出的可视化方法分别将 3 个时期的人工智能专利映

泛的应用,如地理学、经济学、流行病学等 [19-21]。本 射成三个可视化图谱,并通过计算三期图谱中的密度


分布发现人工智能每个时期内的热点以及趋势变化。
文借鉴了其他领域研究的思路,同时也考虑了技术图
人工智能热点技术 3 个时间窗口演化趋势如图 3 所示。
谱的特点,采用可视化图中计算密度分布的方法发现
本文参考 WIPO 报告把人工智能技术分为“人工
热点主要基于以下两点考虑:
智能基础技术”“人工智能功能应用技术”“人工智能
(1)密度高的区域面积相对较小,能确保该区域
领域应用”三类。通过人工分析对图谱不同区域中的
内所分布的专利在内容上非常接近,相比聚类的结果,
专利内容进行归类,可以分出明显的 8 个主要区域。
密度高的热点中杂项很少。
图谱中右下方为“AI 基础技术”,主要包含了深度学
(2)相比聚类大大减少了专家的判读工作,专家只
习算法与模型、经典机器学习算法、自然语言处理、
需判断几个热点区域内的专利即可,提升了分析效率。
数据挖掘与信息分析算法等。中间为“AI 功能应用”,
本文采用空间点聚集分析最常用的核密度估计
主要包含了生物特征抽取、人脸识别、图像处理、动
(Kernel Density Estimation, KDE)算法 [22] 自动发现技
作捕捉等多种人工智能算法的应用。在图谱的外沿分
术热点区域。核密度估计通过计算空间中坐标点周围 布着 6 个人工智能领域应用,分别是 :右上方“智能
的密度构建平滑表面,实现从离散对象模型到连续场 电器”、右侧“网络通信”、左上方“生物医学”
、左侧
模型的转变,图谱中任意坐标点都可估计一个密度值, “机器人”、左下方“自动驾驶”和左下方靠近中间的
而不仅仅只计算已有的样本坐标的密度值。同时优化 “燃料电池”。
了点密度算法容易出现的边界效应。核密度估计算法 从三个时间窗口的热力图中可以看出,相比前两
中极为重要的一个自由参数是带宽 h,h 的选择对所得 个时间窗口,2016—2018 年热点技术图谱中有非常明
到的估计值有很大影响。笔者不希望挖掘的技术热点 显的变化,“生物医学”“智能电器”和“网络通信”

• 17 •
陈  挺,等:基于人工智能专利图谱的技术热点发现以及演化分析 2021年第2期

呈现热度下降的趋势,而“机器人”“自动驾驶”两 统”“无人机飞行控制系统”“机器人自主控制系统”。
个区域热度明显增强。“AI 功能应用”和“AI 基础技 “自动作业机器人的传感与行驶控制系统”共有专利
术”两个区域中热点区域也有不同程度的增强。图 4 55 篇,主要包含工业制造机器人、自动扫地机器人、
中以上 4 块区域内形成了 7 个明显的“高地”,表明 餐饮服务机器人的控制方法与设备相关专利。在概念
2016—2018 年在这 7 个方向有大量相似专利申请。通 云图(图 5)中出现频率最高的概念词为 :工作车辆、
过专利概念词抽取与人工判读发现:“机器人”区域中 加速感应器、控制面板、障碍以及移动路线。专利申
形成了 3 个热点技术,分别是“自动作业机器人的传 请人所属国家最多的为日本,共有 31 篇专利。其次为
感与行驶控制系统”“无人机飞行控制系统”“机器人 中国和韩国,各有 5 篇专利。
自主控制系统”。“自动驾驶”区域中包含 1 个热点技 “无人机飞行控制系统”共有专利 56 篇,主要包
术“自动驾驶汽车的感知决策控制系统”
。“AI 基础技 括无人机自动飞行避障、线路规划、故障检测、速度
术”区域中的热点技术是“基于深度神经网络的运算 控制技术与设备等相关专利。概念云图中出现频率最
方法与设备”。“AI 功能应用”区域中出现 2 个热点技 高的概念词为 :飞行器、无人机、加速度计以及无线
术,分别是“对象检测方法与设备”“语音识别方法与 通信。专利申请人所属国家最多的为美国,共有 35 篇
设备”。人工智能领域是一个发展日新月异的领域,本 专利。其次为日本和中国,分别为 9 篇与 6 篇专利。
研究认为这三年的专利热点最能代表当下人工智能技 “机器人自主控制系统”共有专利 40 篇,主要包
术发展趋势,因此本文重点解读了这 4 个主要方向中 括机器人行动线路自动规划、机械臂、双足行走机器
的 7 个技术热点。 人控制系统相关专利。在概念云图中出现频率最高的
概念词为 :机器人、机器人运动、机器人环境以及图
像获取。专利申请人所属国家最多的为日本,共有 18
篇专利。其次为美国和中国,分别为 9 篇专利与 4 篇
专利。

图5 自动作业机器人的传感与行驶控制系统(左)、无人机飞行控
制系统(中)、机器人自主控制系统(右)的概念云图

4.2  自动驾驶汽车
“自动驾驶”区域中热点技术随着时间变化有了明
显转移,在第一个时间窗口中,自动驾驶汽车区域内
的热点技术为区域内左侧的“转向控制系统”。但到了
第三个时间窗口,该热点技术热度减弱,热点技术转
图4 2016—2018 年人工智能热点技术图 移为右侧的“自动驾驶汽车的感知决策控制系统”,共

4.1  机器人与无人机控制系统 有专利 63 篇,是单个热点技术中包含专利数量最多

从热点图中可以看出,“机器人”区域近 3 年人工 的。主要包括道路监测装置、行人与其他车辆监测与

智能专利密度最高且密度增长趋势最快。一共形成了 自动避障系统、虚拟路况显示系统、物体运动轨迹预

3 个热点技术,共包含了 151 篇专利。机器人区域中 测技术相关专利。在概念云图(图 6)中出现频率较

的热点技术为:“自动作业机器人的传感与行驶控制系 高的概念词有:行人、变道、自动驾驶汽车、汽车加速、

• 18 •
2021年第2期 陈  挺,等:基于人工智能专利图谱的技术热点发现以及演化分析

声纳传感器、潜在障碍等。该热点专利申请人所属国
家最多的为日本,共有 26 篇专利。其次为美国和德国,
各有 12 篇专利和 3 篇专利。

图7 基于神经网络的运算方法与装置设备的概念云图

4.4  目标识别与语音识别相关技术
从热点图中可以看出,“AI 功能应用”区域共形
成了 2 个热点技术,共包含了 91 篇专利。2 个热点技
图6 自动驾驶汽车的感知决策控制系统的概念云图
术为 :“对象检测分析方法与设备”“语音识别分析方
4.3  神经网络算法 法与设备”。“对象检测分析方法与设备”热点技术有
“AI 基础技术”区域中热点技术同样随着时间变 专利 35 篇。热点技术从第一个时间窗口一直延续到第
化有明显转移,在第一个时间窗口中热点技术为“数 三个时间窗口,是持续的热点。主要包含了基于多张
据挖掘与分析模型”,而到了第三个时间窗口,最热 照片的对象检测方法与设备、人体人像检测、用于移
的热点技术变成“基于深度神经网络的运算方法与设 动个人设备的对象检测方法与设备。图 8(左)为该
备”,该热点技术共有 33 篇专利。主要包含神经网络 热点技术概念云图,可以看出,出现次数最多的概念
运算加速器、神经网络中参数自动适配的方法与设备 为图像处理、图像采集单元、图像捕捉和蓝光光碟等
相关专利。图 7 为该热点技术概念云图,从图 7 中可 概念。35 篇专利的专利申请人所属国家全部为日本。
以看出出现次数最多的概念为 :神经网络、卷积神经 “语音识别分析方法与设备”热点技术有专利 56
网络、神经网络深度、非易失性存储器等。该热点专 篇。热点技术从第二个时间窗口开始显现,到第三个
利申请人所属国家最多的是中国,共有 8 篇专利。其 时间窗口形成比较明显的热点。该热点技术主要包含
次为美国和韩国,各为 7 篇专利。 了基于深度神经网络模型提高语音识别精度、多对象

图8 对象检测分析方法与设备 ( 左 ) 和语音识别分析方法与设备(右)的概念云图

• 19 •
陈  挺,等:基于人工智能专利图谱的技术热点发现以及演化分析 2021年第2期

语音抽取、基于多段语音序列信号处理方法与设备等。 IPC 等分类信息、引用信息、权利要求等,以及研究


图 8(右)为该热点技术概念云图,可以看出,出现 融合深层语义信息,得到更好的专利特征抽取模型,
次数最多的概念为麦克风、信息处理、语音识别、音 最终将形成一整套完善的技术热点分析方法与工具,
频数据等。该热点专利申请人所属国家最多的是日本, 以供情报分析人员与科技决策者使用。
共有 27 篇专利。其次为美国 15 篇专利和韩国 4 篇专利。
参考文献:
5  结语 [1] LUO C,ZHOU L,WEI Q. Identification of research
本文提出一种基于专利申请书文本可视化的热点 fronts in artificial intelligence[C]//IEEE. Intelligent

发现方法,旨在从海量专利数据中快速发现资助热点, Robot Systems. NEW YORK: IEEE,2017 :104-108.


[2] 余厚强,曹嘉君,王曰芬 . 情报学视角下的国际人
并揭示其演化过程。以人工智能三方专利为分析对象,
工智能研究前沿分析 [J]. 情报杂志,2018,37(9) :
将专利文本特征高质量地映射入图谱中,在布局基础
21-26.
上利用密度分布自动发现大量相似专利集中的区域。 [3] 姚艳玲 . 2017 年国际人工智能领域研究前沿的分析
这些“热点”区域出现说明短时间内出现大量文本内 与研究 [J]. 计算机科学,2018,45(9) :1-10.
容相似专利申请,这些区域内的专利很有可能代表这 [4] 邓启平,陈卫静,张玲玲,等 . 基于多维特征测
段时期内的技术热点。此外文章还利用分割时间窗口 度的人工智能领域研究前沿分析 [J]. 情报杂志,
的方式对比三期热点分布变化情况,通过对比图谱中 2020,39(3) :56-62.
[5] 孙涛涛,唐小利 . 专利文献中的技术热点监测方法
位置变化进一步发现热点的演化,并对近期发现的 7
及其应用研究 [J]. 医学信息学杂志,2011,32(10) :
个技术热点进行了深入分析。
40-44.
通过密度图识别专利热点及其演化的分析方法相
[6] LI S, HU J, CUI Y, et al. DeepPatent: patent
比其他主题词或者文本聚类方法具有以下优势: classification with convolutional neural networks and
(1)解释性强。主题词统计过于抽象,存在几个 word embedding[J]. Scientometrics,2018,117(2) :
主题都包含许多相同主题词的情况,在解释热点内容 721-744.
时往往缺乏辨析力。而通过聚类发现研究热点存在聚 [7] HELMERS L, HORN F, BIEGLER F, et al. Automating

类难度高、聚类中存在杂项等的问题。本文提出的分 the search for a patent's prior art with a full text
similarity search[J]. Plos One,2019,14(3) :1-17.
析方法只聚焦在最“热”的区域,保证了热点中专利
[8] CHEN J, CHEN J, ZHAO S, et al. Exploiting word
内容有很高的相似性,不容易出现所谓的杂项,同时
embedding for heterogeneous topic model towards
还能大幅减少专家判读数据的工作量。 patent recommendation[J]. Scientometrics,2020,
(2)算法的全流程的一致性高。从特征选取、可 125(3) :2091-2108.
视化布局发现、热点发现以及演化发现整个流程在算 [9] W I P O Te c h n o l o g y Tr e n d s 2 0 1 9 – A r t i f i c i a l
法层面得到统一,分析结果会有更好的一致性与统一 Intelligence[EB/OL]. [2021-01-12]. https://www.wipo.
性。不会出现可视化与聚类用两套方法,导致结果不 int/publications/en/details.jsp?id=4386.
[10] 李睿,孟连生 . 论专利引用行为与期刊论文引用
统一的矛盾现象。
行为在揭示知识关联方面的差异 [J]. 情报学报,
目前技术热点及其演化发现工作尚处于实验探索
2010,29(3) :474-478.
阶段,通过算法自动发现技术热点的方法缺乏“金标
[11] 德 温 特 创 新 平 台 [EB/OL].[2021-01-12]. https://
准”验证,存在实证难的问题,目前仅是分析结果基 solutions.clarivate.com.cn/products/derwent-
本符合专家与情报分析人员的该领域的认知。此外专 innovation/.
利特征抽取模型尚有较大改进空间,目前模型只考虑 [12] LE Q, MIKOLOV T. Distributed representations
了文本特征,后续希望结合专利的其他特征,比如 of sentences and documents[C]. 31st International

• 20 •
2021年第2期 陈  挺,等:基于人工智能专利图谱的技术热点发现以及演化分析

Conference on Machine Learning,2014 :1188-1196. [18] CHEN T,LI G,DENG Q,et al. Using network
[13] VAN DER MAATEN L,HINTON G. Visualizing data embedding to obtain a richer and more stable network
using t-SNE[J]. Journal of Machine Learning Research, layout for a large scale bibliometric network[J]. Journal
2008,9 :2579-2605. of Data and Information Science (2020 Dec 8 online).
[14] LI W T,CERISE J E,YANG Y N,et al. Application [19] XU X Y,YAN Z,XU S L. Estimating wind speed
of t-SNE to human genetic data[J]. Journal of probability distribution by diffusion-based kernel
Bioinformatics and Computational Biology,2017, density method[J]. Electric Power Systems Research,
15(4) :1750017. 2015,121 :28-37.
[15] PEZZOTTI N,LELIEVELDT B P F,VAN DER [20] XIA Z X,YAN J. Kernel Density Estimation of
MAATEN L, et al. Approximated and user steerable traffic accidents in a network space[J]. Computers
tSNE for progressive visual analytics[J]. IEEE Environment and Urban Systems,2008,32(5) :396-
Transactions on Visualization and Computer Graphics, 406.
2017,23(7) :1739-1752. [21] ANDERSON T K. Kernel density estimation and
[16] LIU S S,BREMER P T,THIAGARAJAN J J,et K-means clustering to profile road accident hotspots[J].
al. Visual exploration of semantic relationships in Accident Analysis and Prevention,2009,41(3) :
neural word embeddings[J]. IEEE Transactions on 359-364.
Visualization and Computer Graphics,2018,24(1) : [22] DEHNAD K. Density estimation for statistics and data
553-562. analysis[J]. Technometrics,1987,29(4) :495-495.
[17] 陈挺,王海名,王小梅 . 基于可视化的基金资助热
点及其演化发现方法研究 [J]. 现代图书情报技术, 责任编辑 唐宇
2020,004(002) :60-67.

Technology Focus and Its Evolution Detection Based on Patent Map of


Artificial Intelligence
CHEN Ting1,2,3, DENG Qiping4, LI Guopeng3, WANG Xiaomei3

(1. National Science Library, Chinese Academy of Sciences, Beijing 100190; 2. Department of Library, Information and
Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing
100190; 3. Institutes of Science and Development, Chinese Academy of Sciences, Beijing 100190; 4. Library, University of
Electronic Science and Technology, Chengdu 611731)

Abstract: Artificial intelligence has been developing rapidly in recent years and has become one of the
hottest technologies. It is important to quickly understand the hot spots and development trends of artificial
intelligence to seize the major strategic opportunities and build first-mover advantages in the development
of artificial intelligence. This study proposes a method to detect technology focus and its evolution, 10457
triadic AI patents were used as a case study dataset. Based on the doc2vec model and t-SNE visualization
algorithm, the patent maps were created with three-time window. After that, the area with higher density
distribution in the map is calculated and regarded as a technology hotspot. Finally, hot focuses and trends
were determined according to focuses location changing on the three-time window maps. A total of seven
research focuses were identified, and in-depth analysis of key concept words and countries of patent
applicants in the seven focuses was conducted.
Key words: visualization; artificial intelligence; technology hotspots; tripartite patents; doc2vec;
patent map

• 21 •

You might also like