You are on page 1of 20

第 3 卷第 1 期 科 技 情 报 研 究 2021 年 1 月

Vol.3 No.1 SCIENTIFIC INFORMATION RESEARCH Jan.2021

古文自动处理研究现状与新时代发展趋势展望❋
邓三鸿 1,2 胡昊天 1,2 王 昊 1,2 王东波 2,3
1. 南京大学信息管理学院,南京 210023
2. 江苏省数据工程与知识服务重点实验室,南京 210023
3. 南京农业大学信息管理学院,南京 210095

摘 要:
[目的/意义]随着数字化古籍文献的普及,利用自然语言处理与大数据分析技术,在古代典籍上开展
文本挖掘与知识发现,逐渐成为数字人文在古文信息处理领域的重要研究方向,也是体现文化自信的重要途
径。
[方法/过程]文章定义了古文自动处理的概念,从古文自动处理的领域划分与模型算法、语料资源与现有
工具、知识库与平台系统 3 个方面,梳理古文自动处理领域的内涵和外延,整体把握该领域研究现状与发展趋
势。
[结果/结论]较全面地归纳总结了当前古文自动处理研究现状,分析了存在的问题与不足。
关键词:古文自动处理;数字人文;传统文化;文化自信;古文信息处理
中图分类号:G255 文献识别码:A 文章编号:2096-7144(2021)01-0001-20
DOI:10.19809/j.cnki.kjqbyj.2021.01.001

索与梳理分析,能够为坚定文化自信,增强文化认
1 引言
同,实现中华民族的伟大复兴,构建人类命运共同体
中华优秀传统文化是中国特色社会主义文化的 做出贡献。
重要来源。习近平总书记在《坚定文化自信,建设社 数字人文(Digital Humanities)的提出,为中华优
会主义文化强国》中指出:
“ 文化是一个国家,一个民 秀传统文化的组织整理与深度挖掘提供了新的理
族的灵魂。没有高度的文化自信, 没有文化的繁荣兴 论、方法与研究范式。数字人文,是由计算机技术和
盛, 就没有中华民族伟大复兴[1]。”当前,中国特色社 人文社会科学相互交融的研究领域[2],通过将信息技
会主义已经进入新时代,对中华民族五千年文明中 术引入人文研究,依靠数字化和数据化的人文资料
包含的哲学、人文、社会、科技等传统文化的不断探 从事人文研究。数字人文是非常重视实践性的领域,

收稿日期:2020-10-23 修回日期:2020-11-20
基金项目:国家社科基金重点项目“大数据环境下领域知识加工与组织模式研究” (编号:20ATQ006)
作者简介:邓三鸿(ORCID:0000-0002-6910-3935),男,1975 年生,博士,教授,博士生导师,主要研究方向:信息检索、信息处理、
信息计量、科学评价,E-mail:sanhong@nju.edu.cn;胡昊天(ORCID:0000-0002-4112-8719)
(通讯作者),男,1997 年生,博士研究
生,主要研究方向:自然语言处理、信息计量,E-mail:hhtdlam@126.com;王昊(ORCID:0000-0002-0131-0823),男,1981 年生,博
士,教授,博士生导师,主要研究方向:智能信息处理和检索、数据挖掘,E-mail:ywhaowang@nju.edu.cn;王东波(ORCID:0000-
0002-9894-9550),男,1981 年生,博士,教授,博士生导师,主要研究方向:自然语言处理与知识挖掘、信息计量、数字人文,E-
mail:db.wang@njau.edu.cn。

1
第 3 卷第 1 期 科 技 情 报 研 究

基于计算机技术,当前对古汉语文本的研究主要有 一。简单的将古文进行数字化存储,虽然实现了对原
古文数字化、自动分词、词性标注、古文专有词汇识 始纸本资源的保护与共享,但组织形式单一,组织粒
别、自动断句标点、异文发现、句法标注、自动校勘、 度较粗,无法实现对诸如某一历史事件下全部相关
自动编纂、古汉语机器翻译、信息检索等方向。 文献的查阅;二是,信息处理层次较浅。目前,已经出
古文信息处理包含了古文数字化、智能处理和 现了古籍全文数据库以及在线检索服务,但是数据
人文计算 3 个递进过程[3]。古文数字化是实现计算机 库中的文本往往并未经过分词标注,且提供的检索
古文处理的重要前提,全国乃至全球各地的原始馆 途径通常为低层次的字符级别检索。此类浅层的数
藏纸本资源,经过影像化和数字化处理后,面向互联 据处理,往往难以支撑对古文深层信息的挖掘研究;
网提供线上检索、阅读、获取的途径,从而使得利用 三是,信息处理效率低下。面对浩如烟海的古代文
计算机和大数据技术分析挖掘古代文献资料成为可 献,无法快速高效的处理数据量庞大的古汉语文本,
能。古文智能处理,或称古籍智能整理[4],则是综合利 也难以进行有效的组织、关联与存储。
用信息标引、组织、分析、挖掘等理论方法与技术工 借助计算机与信息技术,自动化处理古文,不仅
具,从数字化的古代文本中自动整理、总结、提取出 可以实现对古代文献的多维度、多粒度标引、组织、
有意义的知识,实现对古文的深层理解。最后,通过 存储、检索,还可以综合分析海量史书文献,发现隐
人文计算技术手段,实现对古文智能处理结果的智 含规律,开展深层关系挖掘与知识发现。此外,通过
能检索、关系挖掘与可视化呈现等 3[47]。 构建综合性古文自动处理系统,提供覆盖古文处理
古文自动处理,是一种通过自然语言处理算法, 全过程的方法工具,可以进一步为历史学、古汉语语
对原始古代汉语文本自动整序、加工、挖掘,形成新 言学等研究人员提供便利。
的信息的过程。本文所论述的古文自动处理,属于古 因此,本文分别从古文自动处理的领域划分与
文智能处理的范畴。古文自动处理强调了“古文”和 模型算法、语料资源与现有工具、知识库与系统平台
“自动”两个方面。其中,
“ 古文”说明处理对象为古代 3 个方面,总结、梳理古文自动处理的研究现状,并展
典籍、文献资料等一切由古代汉语撰写的文本数据; 望新时代古文自动处理的发展趋势与人才培养模
“自动”表明处理过程为无需人工干预的计算机自动 式,期望能厘清古文自动处理研究的主要思路、方法
化处理过程。 与资源,为相关研究人员提供参考与建议。
中国古代文献记录了中华民族五千年历史的发
2 古文自动处理领域划分与模型算法
展与文化的传承,利用语言学和计算学方法工具,对
古代汉语的内容特征与外部特征进行分析挖掘,可 从处理对象的粒度角度,古文自动处理可以分
以帮助我们阅读理解晦涩难懂的古汉语,了解中国 为词汇层面、句子层面和篇章层面等。
历史文化的变迁,传承中华文明,研究古代社会演变 2.1 词汇自动处理研究现状
模式,梳理汉语言发展史,拓展数字人文在古代汉语 古文词汇自动处理,又称古文自动词法分析,是
研究领域的内涵与外延。 指通过计算机算法,对数字化处理后的古代典籍文
然而,传统依靠人力对古文组织、标引、整理的 献进行自动分词、词性标注、命名实体识别等处理,
方法存在许多弊端。一是,信息组织形式与细粒度单 从而开展词汇层面的知识挖掘。词汇自动处理是古

2
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月

文自动处理的基础,也是实现句子和篇章层面古文 算法进行实验,该方法的分词 F 值达到了 89.46%。段


自动处理的前提条件。此外,也是构建词汇级别语料 磊等[9]综合对比了基于频率、互信息等 6 种方法在《史
库与知识库,实现古文信息检索、机器翻译、自动问 记》语料上自动抽取双字词的能力,实验表明基于频
答的前提。 率的方法速度最快但准确率低,基于 3 次互信息的方
2.1.1 自动分词 法准确率高但无法区分词类,基于卡方检验的方法
汉语不同于英语,无论是现代汉语还是古汉语, 适用于获取特定频率范围的双字词,也是效果最佳
字与字、词与词之间均没有分隔符。对于词汇的切 的 方 法 。Chen 等[10] 构 建 了 基 于 卡 尔 曼 滤 波 器
分,完全是靠人们对于词法、语法等语言学知识的积 (Kalman filter)的改进的古汉语文本统计模型,该方
累与理解。古汉语由于产生年代久远,且不是当前通 法能在分词过程中,不断根据用户的反馈加入语言
用的语言,故对于古汉语的分词较为困难。然而,想 学知识,迭代优化分词性能,并设计了交互式的古文
要开展词汇粒度的相关研究,就必须先要对语料进 在线自动分词平台,用户可以动态查看与改进分词
行分词。此外,分词也是进行词性标注、知识库构建、 结果。与基线模型相比,该方法在《史记》和《宋史》上
智能检索等其他研究的前提[5]。因此,有必要通过计 的分词精确率最高提升了 30%。
算机的方式,自动对典籍文献进行分词处理。 部分学者[11-13] 对比了基于规则的分词和基于统
当前古文自动分词主要有基于规则匹配的分词 计的分词效果差异,实验结果均表明后者性能更优。
方式和基于统计的机器学习分词方式。前者主要基 采用 CRF 等传统机器学习模型和 LSTM 等深度学习
于现有古汉语词典和构建好的领域分词词表进行古 模型,对不同历史时期的古文语料进行自动分词也
文词汇的自动切分,后者则通过从大规模语料中提 是当前研究的主流方式。相关研究及模型算法性能,
取文本特征,建立概率语言模型,在事先标注好的语 见表 1。
料上进行模型的训练,使得语言模型自动学习语料 从上述相关研究中可知,古文自动分词主要经
中的语言特征,实现对未标注语料的自动分词。黄建 历了 3 个发展阶段:基于规则匹配的分词、基于统计
年[6] 通过 N 元语法和词典分词技术设计了农业古籍 的分词、基于机器学习和深度学习模型的分词。第一
自动分词算法,开发了农业古籍自动分词原型系统, 阶段基于规则的分词方式较为传统,通常是人工构
经测试在《方志物产》 《农桑辑要》等 13 本
《齐民要术》 建分词底表,并使用最大正向(逆向)匹配的方式进
农业古籍上具有较好的词汇识别率。Fang 等[7]提出了 行机械的词语切分,这种分词方式操作简便,分词效
一种基于似然比统计方法的分词算法,并通过树剪 率较高,对计算机性能要求较低,但在前期古汉语词
枝算法实现了《茶经》的自动分词。徐润华等[8] 认为, 表和领域词表的构建过程往往需要投入大量的人力
与现代汉语相比先秦典籍的语料规模往往较小,且 资源,且通常只能在特定领域的文本上开展分词,泛
不同典籍之间主题与内容差异较大,不适合开展大 化能力较差。此外,受限于预先制定好的规则库及词
规模机器学习训练,因此,提出了一种基于规则的 典资源,此类方法仅能识别出已登录信息,不具备推
《左传》分词方法,将《左传》与其注疏文献《春秋左传 理能力与学习能力;第二阶段基于统计的分词方法,
正义》进行自动句子对齐、注释对齐和词汇对齐,利 改进了对于未登录词的识别效果,通过对古文语料
用对齐后语料构建注疏词表,并基于最大匹配分词 的词频、词长、韵律、偏旁、字符分类等分布情况进行

3
第 3 卷第 1 期 科 技 情 报 研 究

表 1 基于机器学习和深度学习模型的古文自动分词研究汇总

论文作者 古文语料 模型算法 精确率(%) 召回率(%) F 值(%)

石民等 [5]44 《左传》 CRF 94.26 94.95 94.60


梁社会等 [11]182
《孟子》 CRF 94.30 94.50 94.40
王嘉灵 [12]39 《汉书》 CRF 93.60 95.10 94.40
王姗姗等 [13]191
《诗经》 CRF 97.42
留金腾等 [14] 《淮南子》 CRF 80.23 87.49 83.70
黄水清等 [15]
《左传》
《晏子》 CRF 97.15 97.80 97.47
王晓玉等 [16] 史书、佛经和小说 CRF 95.35 93.61 94.47
Fu 等 [17]
《伤寒论》 HMM 95.62 98.22 96.90
Li 等 [18] 清代医学古籍 Capsule-based CNN 80.33 82.56 81.43
李成名 [19]
《左传》 Bi-LSTM 95.40
程宁等 [20] 《左传》
《梦溪笔谈》
《阅微草堂笔记》
《清史稿》 Bi-LSTM-CRF 85.73

统计,指导计算机自动判断古文词汇边界,实现对未 词性标注任务主要基于传统机器学习模型和深
登录词的识别,且无需构建分词底表,但是该分词方 度学习模型开展。前者需要从语料中人工统计语言
式同样需要研究人员具备丰富的古文语言学知识以 学特征来指导机器学习模型开展模型的训练与测
进行人工统计判断,分词效果虽有提升但仍然无法 试,而后者无需人工进行特征工程,神经网络会自动
令人满意;第三阶段机器学习分词方式,基于语言学 从文本中提取深层语言、语法、语义特征。相关研究
概率统计模型,在人工特征工程的辅助下,往往能够 及成果,见表 2。
在古文自动分词任务中取得较高的分词准确率。基 从上述古文词性标注的相关研究可知,与自动
于深度学习的分词模型更是能够自动从古代文本中 分词任务不同,古文词性标注主要是通过机器学习

提取深层次词汇特征与语境信息,在模型的训练过 模型开展的。常用的模型有传统的 CRF、HMM 序列

程中完全无需人工干预,但是机器学习与深度学习 标注模型和较为前沿的 Bi-LSTM 等深度学习模型。

模型的分词效果与训练集的大小和人工标注的质量 在完成分词后的古文上,开展词性标注的效果一般

密切相关,在训练集的构建过程需要进行大量的人 比直接在未分词语料上进行词性标注的效果更好;

工数据标注与计算机辅助标注,且对计算机的硬件 古文一体化分词标注的效果通常优于先分词再词性

配置具有较高要求。 标注两步走的效果,且前者已经逐渐成为当前古文

2.1.2 词性标注 词性标注的主流形式。基于 CRF 模型的词性标注对


词性标注同样是古文自动处理的基础工作之 特征模板的构建具有较高要求,通过人工特征工程
一。对于分词后的文本,为每个词正确标注所属词 构建复杂的组合模板,充分纳入词频、词长、读音等
性,能够进一步增加词汇的特征信息,提升不同词汇 语言学知识,可以指导模型获得优异的分词效果。深
的区分度。古文自动词性标注,是指通过计算机的方 度学习模型无需人工统计古文的外在与内容特征,
式,根据词汇的上下文语境信息,自动为古汉语文本 与传统机器学习方法相比,一般性能更佳且具有更
中的每一个词汇标注上对应的词性。目前,主要有先 强的泛化能力,但需要构建大规模训练集与测试集,
自动分词再进行词性标注的两步走方式和分词与词 且预训练词向量的质量与超参数的设置,也会对最
性标注一体化处理方式。 终结果造成一定影响。

4
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月

表 2 基于机器学习和深度学习模型的古文词性标注研究汇总

论文作者 古文语料 模型算法 精确率(%) 召回率(%) F 值(%)


石民等 [5]44 《左传》 CRF 89.35 89.95 89.65
朱晓等 [21]
《明史》 CRF >90.00
钱智勇等 [22] 《楚辞》 HMM 52.94 57.72 55.23
王东波等 [23]
先秦典籍 CRF 98.47 91.38 94.79
Fu 等 [17]2497
《伤寒论》 HMM 90.64 90.66 90.65
李成名 [19]33 《左传》 Bi-LSTM 89.96
程宁等 [20]8
《左传》
《梦溪笔谈》
《阅微草堂笔记》
《清史稿》 Bi-LSTM-CRF 72.65

2.1.3 命名实体识别 在《齐民要术》上验证了该方法的可行性。朱锁玲和


命名实体识别是词法分析的重要内容之一。通 包平[25] 通过统计《古今地名对照表》等资料中的古代
过计算机算法对古文中的人名、地名、事件、时间等 地名,构建了地名标引词典,并从《大埔县志》等地方
命名实体进行识别,可以构建领域词典与词汇知识 志中抽取地名的上下文特征构造地名识别规则库,
库,提取各类型实体与关系,为构建知识图谱,实现 最后,基于规则匹配的方法对《方志物产》广东分卷
计算机推理提供知识指导。目前,古文命名实体识别 进行古文地名实体自动识别,F 值达到 71.83%。皇甫
任务主要有基于规则匹配、基于统计学习和两者相 晶和王凌云[26] 提出了一种基于规则的纪传体古籍姓
结合的方式。 名识别算法,结合姓氏字典、姓名用字分类信息、语
基于规则的方法,是指利用现有领域词表,或通 法信息、亲属称谓信息、职官与地名信息和指示动作
过构建实体词典、领域知识库和规则库,将待识别语 信息等确定姓名的左右边界,识别精确率和召回率
料与上述资源进行匹配,从而实现实体的自动抽取。 分别为 91.9%、75.4%,并开发了古代汉语文献姓名识
曾艳和侯汉清[24] 基于 N 元语法提出了一种古文自动 别系统。
抽词方法,使用 N-gram 对古文语料自动分词,利用 基于机器学习与深度学习方法对典籍文献中的
抽词词典和停用词词典匹配人名、地名、书名、官职 命名实体进行识别与抽取得到了较多的研究。相关
名等词汇,最终对 N 元组进行过滤并人工判别选词, 研究内容,见表 3。

表 3 基于机器学习和深度学习模型的古文命名实体识别研究汇总

论文作者 古文语料 模型算法 精确率(%) 召回率(%) F 值(%)


汤亚芬 [27] 《左传》
《国语》 CRF 92.88 90.20 91.52
黄水清等 [28]
《左传》
《国语》 CRF 89.68 92.24 90.94
李娜等 [29] 《方志物产》 CRF 98.16 91.55 94.57
王东波等 [30]
先秦典籍 CRF 90.58 84.39 87.37
袁悦等 [31]
《左传》
《国语》 CRF 77.59 91.73 84.07
李章超等 [32] 《左传》 CRF 85.68 84.32 84.99
崔竞烽等 [33]
菊花相关古诗 BERT 89.54 93.76 91.60
徐晨飞等 [34] 《方志物产》 Bi-LSTM-CRF 81.87 78.30 80.02
刘忠宝等 [35]
《史记》 BERT-Bi-LSTM-CRF 82.50 82.10 82.30

古文新词发现可以看作是一类特殊的命名实体 实现古文词汇的挖掘,可以自动发现潜在古文词汇,
识别任务,将未登录词视为实体,采用序列标注算法 为自动分词标注任务提供更加精准的语料。Li 等[36]将

5
第 3 卷第 1 期 科 技 情 报 研 究

未 登 录 词 识 别 任 务 转 换 为“ 二 元 分 类 ”问 题 ,通 过 命 名 实 体 识 别 研 究 ,均 已 经 出 现 了 诸 如 RNN、Bi -
word2vec 词嵌入工具对原始文本进行向量化表示,选 LSTM、BERT 等深度学习方法的应用,且此类方法的
取字符间激活距离和统计转换概率特征,并最终基 效果均优于同条件下 CRF 模型的效果,这说明深度
于提出改进的半监督 SVM 算法,实现对宋词语料的 学习方法在古籍词汇自动处理中值得进一步推广,
未登录词识别。Xie 等[37]提出了一种改进的 AP-LSTM 但作为基础的自动分词任务在深度学习模型应用方
模型,制定低频词构词规则并融入 Apriori 算法,生成 面仍然存在不足,这应该是下一步研究的重点。此
候选词序列,并通过 LSTM 神经网络模型确定词汇边 外,现在已经出现了一些分词标注一体化处理方式,
界,最终基于过滤规则识别低频新词。在宋词和《宋 与传统单一任务相比,其处理速度快且标注效果佳,
史》文 本 上 的 新 词 发 现 实 验 中 ,取 得 了 89.7% 的 准 应该在未来进一步探究。
确率。 2.2 句子自动处理研究现状
对于古文命名实体识别,最早采用的是基于规 虽然汉字是汉语的最小表意单元,但单个汉字

则的方法。通过从古汉语词典及典籍文献中获取古 的含义毕竟有限,只有词汇连成了句子,才更具有传

文人名、地名、书名、官名等词汇,在此基础上,构建 达信息的能力。由于古文非常精炼,常出现省略、倒
领域词表与实体词典,并通过 N 元语法等匹配方法 装、通假等表达方式,因此,要结合上下文语境信息,
从古文中抽取命名实体,但是此类方法需要具备语 才能准确理解句意。这就反映出,仅针对词汇粒度的
言学背景的研究人员事先分析制定语言规则,且只 挖掘是远远不够的,想要让计算机读懂古文,让计算
能对实体词汇表中出现的实体进行匹配,因此,难以 机辅助人类智能化标引、组织、整理、分析古籍文本,
保证识别的全面性。随着机器学习方法尤其是条件 就必须从句子层面进行更深层次的研究。
随机场模型(CRF)和最大熵模型(MaxEnt)的应用,研 2.2.1 自动断句标点
究者在先秦典籍、明清小说、地方志文献上都取得了 标点是现代汉语用于表示书面语言停顿、断句

不错的实体识别效果。基于深度学习技术的深层神 的一套符号系统。然而,古文的原始书面表示中,并

经网络模型和深层文本表示模型使得古文实体识别 不存在标点符号,古人在阅读典籍文献时,是通过学

性能登上了新的阶梯。通过 word2vec 和 BERT 工具将 习句读知识进行句子切分。通过计算机自动处理的

原始古籍文本映射为字(词)向量,基于 RNN、LSTM 方式对没有标点符号的古文进行自动断句及标点的

等神经网络结构进行实体语义特征与语境信息的提 自动标注,可以极大的帮助读者理解文本含义,便于

取,极大的提高了古典诗词、地方志、史书类古文的 开展更深层次的古文知识组织与挖掘。

命名实体识别精确率与召回率。 掌握句读知识是实现对古文断句的基础,因此,

从上述古文词汇自动处理现有研究可以发现, 利用句读规则指导计算机开展自动断句与自动标

对于古代典籍文献的词法分析,目前最常用的方法 点,最先得到学者的验证。黄建年[6]55 基于规则匹配的


是条件随机场模型(CRF),且与基于规则匹配的方法 方式对农业古籍进行自动断句与自动标点,开发了
相比,添加了人工特征的 CRF 模型往往能够取得更 农业古籍断句标点原型系统,在《氾胜之书》等古籍
优的分词与标注性能。这说明机器学习方法更适合 上验证了可行性,并构建了断句标点模式库和禁用
进行古籍词汇知识挖掘。对于自动分词、词性标注和 模式库。

6
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月

近年来,学者们普遍采用机器学习,尤其是深度 研究内容,见表 4。
学习的方式,开展古籍的自动断句与标点实验。相关 从上述相关研究可以看出,利用计算机技术进

表 4 基于机器学习和深度学习模型的古文自动断句标点研究汇总

论文作者 古文语料 模型算法 精确率(%) 召回率(%) F 值(%)


张开旭等 [38] 《论语》 CRF 76.20
Wang 等 [39]
《宾退录》
《朝野佥载》
《南部新书》
《楚辞补注》 RNNLM 82.43 79.88 81.13
《中吴纪闻》
李成名 [19]57 二十四史 CNN-CRF 86.10 87.29 86.69
Wang 等 [40]
《汉书》
《后汉书》
《三国志》
《晋书》 Bi-LSTM-CRF 77.00 75.00 76.00
俞敬松等 [41] 史藏、诗藏、儒藏、集藏、子藏 BERT 89.54 87.99 88.76
程宁等 [20]8
《左传》
《梦溪笔谈》
《阅微草堂笔记》
《清史稿》 Bi-LSTM-CRF 78.95

行古文自动断句与自动标点,最初的理念是制定一 文句子与注疏文献中引文句子的自动对应,以及自

套断句标点规则,让计算机模仿人类学习句读规则, 动区分注疏中的引文信息与注释内容,还构建了典

自动对原始典籍文献进行句子切分。但是,复杂的古 籍与其注疏文献对齐语料库检索平台。Liu 等[44] 进行

文语言规则是难以穷举的,因此,有学者将自动断句 了 比 句 子 对 齐 更 为 细 粒 的 子 句 对 齐(clause

任务转化为序列标注的问题,并验证了 CRF 模型的 alignment),提出了一种古汉语-现代汉语子句自动

可行性。随着深度学习方法的不断应用,古文自动断 对齐方法,通过同时考虑基于词汇和基于统计的信

句标点的 F 值不仅得到了提升,其泛化能力也得到了 息,实现对子句的双语自动对齐,并构建了包含 120

增强,可以在跨时空和跨类别的典籍文献上取得较 余万条子句对的古现汉语平行语料库。

为精确的断句效果。 最大熵模型(MaxEnt)和 LSTM-CRF 神经网络模

2.2.2 句子对齐 型在古文自动对齐方面的研究成果,见表 5。

古文句子对齐任务,指的是将典籍文献原文和 表 5 基于机器学习和深度学习模型的古文自动对齐研究汇总

论文作者 古文语料 模型算法 精确率 召回率 F值


原文的注疏文本、现代汉语译文和外文译文等进行
刘颖等 [45]
《史记》 MaxEnt 96.30% 96.10% 96.20%
自动配对。经过句子对齐后构建的平行(双语)语料 《礼记》 LSTM-CRF
梁继文等 [46] 《论语》 97.35% 88.42% 92.67%

库和相关对齐算法模型,可以实现对原有知识的再 从上述研究可以发现,对于古文句子对齐任务,
组织,增强语料间关联性,从而服务于自动翻译和自 总体上可以分为 2 类:一是,基于文本相似度计算和
动问答等任务。 规则匹配的古文及其注疏文献对齐;二是,基于统计
[42]
郭锐等 提出了一种古汉语和现代汉语自动对 与机器学习模型的古现与古外平行语料对齐。前者
齐算法,综合考虑了句子长度、字形因素和标点符号 实现的难度相对小,由于无论是对古文做“注(笺)”,
等特征,基于遗传算法与动态规划算法在人工对齐 还是对原文及旧注做“疏(正义)”,通常都包含一定
的《国语》和《战国策》混合语料上取得了 99.11% 的 F 数量的原文内容,因此,容易建立起古文原文与注疏
[43]
值。马创新等 提出了一种基于字面特征的句子相似 文献的对应关系。古现与古外平行语料的对齐任务
度计算方法,将《论语》分别与《论语集注》和《论语注 通常被转换为句子对二分类问题。通过统计古文、现

疏》这两部注疏文献进行句子对齐,实现了典籍中原 代文译文及英文译文的词汇、句子、句法的分布特

7
第 3 卷第 1 期 科 技 情 报 研 究

征,基于机器学习与深度学习模型进行句子对齐。 的自动标注性能最佳,F 值超过了 80%,优于进行对


2.2.3 句法和语义标注 比的最大熵模型和支持向量机模型。周澍绮[53]使用谢
古文的语义和句法标注是在词汇标注的基础 菲 尔 德 大 学 开 发 的 GATE(General Architecture for
上,对古文进行更深层的词汇语义知识和句法组合 Text Engineering)信息抽取系统对《楚辞》自动标注
规则标注[3]46。目前主要有词义标注、句法结构分析、 语义,通过文本特征分析构建了楚辞领域词表以弥
句法依存关系分析和语法分析。 补 GATE 在古文标注方面的不足,并制定标注规则实
词义标注又称词义消歧,即通过自动化的方式 现对词表中出现词汇的识别与未登录词的推理,最
确定文本中多义词在当前语境下的词汇含义。于丽 终完成对《楚辞》的自动语义标注。
丽等[47] 使用待消歧词汇的词长、读音及其上下文的 句法和语义标注更注重古文内容特征的分析。
词、词性等特征构建特征模板,基于条件随机模型对 对于词义消歧,多种传统机器学习分类模型得到了
《左传》中“将”
“ 我”
“ 如”
“ 信” “ 之”等 6 个高频多
“ 闻” 应用,其中 CRF 模型在对比实验中表现最优。基于同
义词进行词义消歧实验,结果表明,优于最大熵模型 义词词典和领域词表的消歧方法也得到了一定的研
和朴素贝叶斯模型,最高 F 值为 83.04%。张颖杰等[48] 究。在语义标注方面,现有研究主要通过有监督的机
使用《汉语大词典 2.0》中的词义信息,基于支持向量 器学习模型开展。
机模型学习词典中各个义项在不同例句中的词义类 从上述古文句子自动处理的相关研究可以发
别信息,并在《左传》语料上开展词义自动标注实验, 现,对于古文本自动断句与自动标点任务,已经出现
平均正确率达到了 67.15%。常娥等[49] 巧妙的将词义 了大量的深度学习模型的应用,断句标点的调和平
消歧问题转化为信息检索问题,从多义词词典中抽 均值 F 几乎都超过了 80%,但效果仍有一定的提升空
取词汇各义项的特征词,构建待匹配向量空间,将待 间。深度学习方法在句子对齐任务中也出现了一些
消歧词汇的下文信息映射为查询向量,通过计算查 尝试,且性能优于用于对比的传统机器学习方法。句
询向量和各义项向量的余弦相似度来确定该词汇的 法和语义标注的研究主要集中在词义消歧方面,但
词义信息。 是对于句中元素间的依存关系和句法结构鲜有研
冯秋香[50]基于左结合语法,从数据库语义学角度 究,深层语义标注应该是未来研究的重点。
对《左传》的基本句法结构和句式特点进行了归纳总 2.3 篇章自动处理研究现状
结,通过添加词汇语义属性,对句子组成成分间依存 由于古文卷帙浩繁、体裁各异,人工方式整理费
关系及深层语义与语用信息进行挖掘。Weng 等[51] 组 时费力,效率低下。通过计算机的方式综合利用篇章
织整理了《黄帝内经》
《伤寒杂病论》
《脾胃论》等中医 文本进行整体分析,可以快速有效的提取篇章信息,
典籍中与脾胃相关的短语,将其分为生理功能、生理 实现对原始文献的重新组织与再编排。提升当前简
解剖、发病机理、疾病症状等 10 个类别,并基于 HMM 单的基于单字匹配的古文全文检索性能,实现典籍
模型进行语义标注,实验微平均 F 值达到 92.2%。丁 文献章节的多细粒度,多维度检索。
长林等[52]将中医文献中的叙述性术语总结为症状、病 2.3.1 自动校勘
因、病机和其他共 4 个类别,基于多种有监督机器学 古代典籍文献由于常存在多个版本,经多人手
习方法对其进行语义标注,实验结果表明,CRF 模型 工抄录,容易出现错字、错断、颠倒、衍文、脱文、坏字

8
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月

等版本差异。这是校勘学和训诂学必须要解决的问 生成。Yi 等[57] 构建了古诗绝句自动生成系统,基于


题,也是语料库质量高低的关键因素。此外,在典籍 RNN 模型的编码器-解码器结构,学习相邻诗句间语
数字化的过程中,由于 ORC 识别错误,也会出现错 义相关性与韵律信息,引入注意力机制(Attention)捕
字、漏字、排版错误、篇章结构丢失等情况。通过设计 获字符间关联,实验表明,对于给定关键词,该系统
算法,自动对数字化典籍中的错误进行识别与纠正, 生成诗句的得分高于用于对比的 SMT 和 DX 系统。黄
可以加快校勘速度,提升校勘的精度。 文明等[58] 将古诗自动生成分为写诗大纲获取和古诗
常娥等[54] 提出了一种基于匹配窗口技术的自动 生成两个阶段,基于 TextRank 算法和 LSTM 神经网络
校勘算法,开发了一套古文自动校勘系统,能够实现 架构,提出了序列到序列的 keseq2seq 模型实现关键
对古文献中错文、脱文和衍文的自动校勘,并提供了 词的提取与拓展,并设计了 pgseq2seq 模型用于自动
诸如古代官名表、异体字表、字词索引等校勘辅助工 生成古诗,该方法在对比实验中,生成五言和七言绝
具,通过选取 4 个版本的《齐民要术》
(仿北宋本、湖湘 句的表现优于用于对比的 SMT、RNNLM 等全部基线
本、渐西本、和缪启愉校释本)古籍测试系统自动校 方法。Zhipeng 等[59] 基于 THULAC 中文词法分析工具
勘性能,发现算法精确率和召回率均达到 90% 以上。 和样式分离模型等,研发了一套人机协作式中国古
周学文和江荻[55] 提出了一种基于语料库统计信息的 典诗歌自动生成系统“九歌”,该系统的新颖之处在
古籍自动校勘方法,对《元朝秘史》中错字型、错音 于可以与用户交互式的共同实现古典诗词的自动
型、和混错型 3 类字级别的错误进行校勘,与人工校 生成。
勘相比,该方法在速度、全面性、准确性、可排列性等 从上述研究可以发现,基于统计的机器学习模
方 面 表 现 更 佳 ,但 对 于 未 登 录 错 误 仍 需 人 工 进 行 型,尤其是深度学习中的 RNN 模型及其变体,被广泛
判断。 的用于中国古典诗词的自动生成任务中,但古诗生
从上述研究可以发现,当前古文自动校勘领域 成属于短文本生成的范畴,且古诗具有较强的格律
研究仍处于探索时期,所采取的计算机校勘方法均 规范,因此,难以直接迁移到对于史书、医书等其他
基于传统的规则匹配技术,存在诸如校勘错误类别 更多类型长文本典籍文献的自动生成任务中。当前
不全面、自动化程度不高、可移植性较差等问题。 对于长文本古文自动生成研究仍然是空白。
2.3.2 自动生成 2.3.3 自动分类
古文自动生成可以根据用户输入的关键词、主 古文自动分类是数字人文领域的重要研究方向
题、体裁等背景信息,自动生成一段符合要求的古文 之一。对于典籍文献的自动分类技术可以实现典籍
样式文本。古文自动生成可以实现对典籍文献的续 体裁与风格的判定,甄别典籍文献作者,确定残缺古
写与再创造,辅助用户学习古文的撰写与行文规则。 文本来自于哪本古籍。
当前在古文自动生成领域,最常见的研究方向 王东波等[60]对比了在 TF-IDF、信息增益、卡方统
为古典诗词的自动生成。蒋锐滢等[56]提出了一种融入 计和互信息 4 种特征下支持向量机自动分类性能,在
诗词领域知识的统计机器翻译模型,通过主题模型 先秦诸子典籍上进行类别自动划分实验,发现当特
拓展诗词意境,并将前后句关系转换为机器翻译模 征 维 数 为 80 时 选 取 TF -IDF 作 为 特 征 F 值 高 达
型中源语言与目标语言关系,从而实现古诗的自动 99.21%。秦贺然等[61] 将命名实体特征引入分类器,基

9
第 3 卷第 1 期 科 技 情 报 研 究

于支持向量机模型对先秦典籍开展自动分类实验, 袭了《四库全书》的四部分类法。由于某一特定主题
发现分类性能最高提升了 22.8%,此外,还应用该模 类型的古代文献通常会具有近似的语言风格,因此,
型对《今文尚书》的真伪进行验证。 本部分第 1 小节对于成规模的语料库进行介绍,对于
中国古典诗词由于创作的时代背景不同,创作 其他语料则以古籍的文献类型作为分类标准,对现
者的个性与境遇不同,从而形成了豪放、婉约、平淡、 有已经用于文本自动挖掘的古代文献资源分别介
典雅等不同风格的诗篇。对诗词风格的分析有助于 绍,第 3 小节列举了古文自动处理常用软件工具。
理解诗词所蕴含的情感态度。Xuan 等[62] 对诗词风格 3.1 规模古籍语料库
自动识别进行了探索,基于 CNN 模型实现了中国古 先秦典籍由于其影响范围之广,文学价值之深,

典诗词的风格自动识别,与贝叶斯模型和信息增益 受到了较多的研究。南京师范大学语言科技研究所

模型相比,该方法在较少人工干预的情况下取得了 面向先秦典籍,构建了包含《论语》
《管子》
《韩非子》

更优的分类效果。 《老子》
《孟子》
《吴子》
《荀子》
《墨子》
《庄子》
《左传》

从上述相关研究可以发现,当前古文自动分类 《公羊传》
《谷梁传》
《吕氏春秋》
《孝经》
《国语》
《礼记》

主要采用机器学习和深度学习模型,在构建的分类 《楚辞》
《商君书》
《尚书》
《诗经》
《孙子兵法》
《晏子春

数据集上开展模型的训练,并调用模型判断待分类 秋》
《仪 礼》 《周 易》等 共 25 典 籍 的 语 料
《周 礼》

文本的来源及风格,但当前应用的古籍类型仍较为 库[28]136,[31]60。该语料库不仅对上述典籍进行了数字化

单一,仅在先秦诸子和古典诗词语料上开展了相关 存储,还对全部语料进行了人工分词与词性标注,此

研究,且对于古文的自动分类,训练集的主题与分布 外还提供了机器学习模型自动分词与词性标注的辅

情况对于模型分类性能的高低具有较大影响。 助校对结果供比较,也是国内现有规模最大的人工

在上述古文篇章层面的相关研究中,可以清楚 标注先秦典籍语料库。

的发现在古文篇章自动处理方面的研究相较于词汇 1998 年,香港中文大学中国古籍研究中心构建了

和句子层面少了很多,虽然学者在古文自动校勘、自 中国上古古籍文库——汉达文库[5]40,[48]68(http://www.

动生成、自动分类等方面均开展了一定的探索,但是 chant.org),该语料库收录了自商周直到魏晋南北朝

其实用性和可拓展性仍然存在不足。例如,古文自动 时期共计 8 000 万字的古籍文献,分为甲骨文资料

校勘是篇章层面处理的重点和难点,是保证文本准 库、竹简帛书资料库、金文资料库、先秦两汉资料库、

确性的关键,但是当前的处理方法仍较为原始,且仍 魏晋南北朝资料库、中国传统类书资料库和中国古

需要人工参与判断。对于篇章层面综合性、深层次的 代词汇资料库,对于前 6 个全文资料库,所收录古籍

古文自动处理,未来应该不断引入高性能的算法模 多为旧刻善本,且全部经过了重新标点与校勘,对于

型进行探究。 词汇资料库,提供了每个词汇的读音、词义及用例
信息。
3 古文自动处理语料资源与现有工具
中国台湾研究院构建了研究院古汉语语料
目前,尚无学界普遍认可的一套典籍文献分类 库[9]37,[14]7(http://lingcorpus.iis.sinica.edu.tw/ancient/),该
标准,既有按照古籍文献类型划分的(如史书、医书、 语料库包含上古汉语标记语料库、中古汉语语料库、
农书、地方志等),也有按照产生时期划分的,还有沿 和近代汉语语料库 3 个次级库,其中,上古汉语和近

10
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月

代汉语库中的部分古籍已经进行了分词和词性标 医 诊 断 古 籍 文 本 语 料 库 ,涵 盖 了 中 医 古 文 常 见 的
注,并提供了面向全语料库的在线检索服务。 证候。
北京大学中国语言学研究中心构建了总字数达 农业古籍承载了古代社会耕种、畜牧等生产技
到 2 亿字的 CCL 古代汉语语料库[14]7(http://ccl.pku.edu. 术知识与经验,反映了不同历史时期的农业思想,是
cn:8080/ccl_corpus/),该语料库未经过分词,但提供汉 研究农业史、经济史,以及农业种植、饲养、利用技术
字级别的检索服务。 的重要语料来源。中国古代农业百科全书《齐民要
国家语言文字工作委员会构建了包含 7 000 万 术》的柯逢时家清抄本、马直卿刻本、渐西村舍刻本、
字 的 古 代 汉 语 语 料 库(http://corpus. zhonghuayuwen. 和缪启愉校释本均已实现了数字化,并取得了一定
org/),收录了自周朝至清代的重要古籍,如部分先秦 的研究成果[54]84。上世纪 50 年代,我国农史学家万国
典籍、四库全书、四大名著等内容。由于语料库没有 鼎先生组织数人,从全国各地方志书中,摘抄了动
经过分词和词性标注,提供基于字符匹配的全文检 物、植物、矿物等物产信息,最终编纂成一套农业专
索服务。 题资料《方志物产》丛书[29]68,[34]89。
农业古籍是与古代记载有关耕种、作物等农业 史书类古籍记录了历朝历代的主要历史人物与
活动相关的书籍。在该方面,南京农业大学农业遗产 重大历史事件,对史书语料的挖掘可以展现朝代兴
研究室构建了包含 600 万字的“中国农业科技遗产信 衰更迭,揭示历史演变规律,反映中华文明的发展历
息数据库”,覆盖了诸如《齐民要术》
《农政全书》
《棉 程。当前古文自动处理涉及的史书类古籍主要有《史
书》等共计 214 部数字化的农业古籍全文数据[49]116。 记》[45]113《汉书补注》[12]8《后汉书》 《北齐书》[16]64
《陈书》
该数据库分为题录库、全文库、图文库 3 类共 5 个子 三国志[26]123《清史稿》等。
库,其中,题录库分为古农书题录数据库和农史论文 先秦诸子典籍具有重要的史学、文学和传统思
题录数据库,可按照题目、作者、分类等途径进行检 想文化价值。除上一小节的南京师范大学语言科技
索;全文库分为农业古籍全文库和农史论文全文库, 研究所“先秦典籍语料库”中所包含的典籍外,其相
提供了全文检索和下载服务;图文库主要收录了《中 关注疏文献也受到了学界的关注。例如,中华书局
古农业遗产选集》中 10 种作物种类,并同样提供多途 1957 年出版的《论语集注》,上海古籍出版社 1990 年
径检索服务。 出版的《论语注疏》[43]222,以及《孟子集注》
《孟子注疏》
3.2 其他各类型语料 《孟子正义》[11]180《春秋左传正义》[8]14 等均为古文自动
医学古籍是中医传承的重要载体,记录了历代 处理的重要支撑语料。
中医基础理论与临床经验。对于医学类古书文献的 此外,还有笔记体百科全书《梦溪笔谈》、韵书
挖掘分析,可以展现中医理论不断演变完善的过程, 《大宋重修广韵》
(《广韵》)、佛经类古籍《撰集百缘
推动现代中医学的进一步发展。
《黄帝内经》是中国 经》 《杂 譬 喻 经》[16]64,小 说 类 古 籍《幽 明
《百 喻 经》
第一部中医古籍,目前,经数字化的有郭霭春版《黄 录》[16]64、
《阅微草堂笔记》,菊花古典诗词语料[33]152 等
帝内经》,胡氏古林书堂《新刊黄帝内经灵枢》,熊宗 得到了相关学者的文本分析与知识挖掘。
立种德堂《黄帝素问灵枢集注》
《重广补注黄帝内经 3.3 自动处理工具
素问》。此外,江西中医药大学中医研究所构建了中 当前,支撑古文自动处理的工具并不丰富,且几

11
第 3 卷第 1 期 科 技 情 报 研 究

乎都为通用性处理软件。其中,学者使用最为广泛的 信息,并最终构建了包含近 50 万个词条的古籍专名


工具是各类程序设计语言及其拓展工具包。例如,用 信息词典数据库。黄建年[6]72 为了实现自动分词,构建
于 数 据 分 析 的 Python 语 言 、R 语 言 、HanLP 工 具 了包含人名、地名、物产名等专有名词的基本词典
包[34]91、Ansj 中文分词工具[17]2495;用于搭建可视化平台 群,和包含虚词、数词等禁用词典群,共 20 万条词汇
系统的 Java 语言[19]46、C#语言、SQL Server 工具[25]121; 信息;为了实现自动断句与标点,构建了包含 1 000
用于网页前端设计的 HTML、CSS、JavaScript 语言[32]27 余 条 规 则 的 断 句 标 点 模 式 库 和 禁 用 模 式 库 。冯 秋
等。此外,还有文本工程通用框架平台 GATE[53]59。市 香[50]16 则以“命题粒”的存储形式,构建了一部《左传》
面上暂未发现专门面向古文自动处理的专业性软件 古汉语-英语对照词典,从而服务于词义消歧等语法

工具。 分析任务。Fu 等[17]2494 构建了包含 15 万中医药术语的


中医药分词词典,并定义了包含 14 个类别 891 个词
4 古文自动处理知识库与平台系统
性的中医 POS 标记集,可用于中医古籍的自动分词
数字化的典籍文献在词汇、句子或篇章层面的 与词性标注任务。Liu 等[44]2 以标点符号为句子分隔
知识挖掘过程中,会产生一系列的中间语料,如领域 符,将古文句子切分为粒度更细的子句(clause),并
分词词典、词性标注规范、古代人名库、地名库、官名 最终构建了包含 120 万个古代-现代汉语对齐子句对
库、句法规则库等各类专用或通用知识库。在自动处 的双语平行语料库,能够作为模型算法测评的公开
理后,往往会形成分词或标注后古文语料库和资源 数据集。
库,从而服务于更高层面的古文知识挖掘。此外,为 4.2 古文自动处理平台系统
了可视化自动处理过程,或是实现技术应用,开发相 为了可视化的呈现古文自动处理的过程,展示

应的古文自动处理与知识挖掘平台。 古文知识挖掘的内容,便于和研究者共享所取得的

4.1 词典库与知识库 研究成果,许多学者开发了可视化呈现平台或是自


古文自动处理过程产生的知识库可以用于指导 动处理一体化系统。
相关研究的开展,辅助更深层次的古文献组织、标 顾磊和赵阳[4]54 从整体角度设想了一个涵盖古文
引、分析,促进检索系统与自动问答系统的构建。王 自动处理各个领域的古籍智能整理系统架构,对于
姗姗等[13]191 通过《毛诗引得》中的领域词表对《诗经》 一体化古文自动处理平台的构建具有指导意义。朱
自动分词的结果进行长词校正,实现了将标引专家 锁玲和包平[25]119,[63]设计并开发了物产地名识别系统,
知识融入《诗经》中,并最终获得融入《汉学引得丛 能够自动从《方志物产》等方志类古籍中识别地名实
刊》专家知识的《诗经》分词语料库,可以辅助体裁类 体,并提供了查询功能。黄建年[6]93 开发了农业古籍断
似的先秦典籍语料自动分词任务。留金腾等[14]14 通过 句标点与自动分词系统,其中,自动标点子系统可以
对《淮南子》开展自动分词及词性标注实验,最后获 实现标点规则库的构建及自动断句标点,自动分词
得了包含 14 万词汇的带有分词和词性标记的语料 标引子系统可以选择词典分词或基于 N 元语法分
库。为了实现高精度的古文命名实体识别,需要有领 词。马创新等[43]223 基于古籍-注疏对齐语料库开发了
域词汇库的支持,李成名[19]36 从多部与历史人名和地 可视化检索平台,能够查询古籍文献和与其相对应
名相关的大辞典中提取了与人名和地名相关的词条 的注疏文献与注释对象的相关信息。徐晨飞等[34]94 面

12
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月

向云南方志物产知识库,构建了物产知识综合检索 动处理的平台系统,基本涵盖了古籍信息的组织、标
与呈现平台,能够展示输入物产名的各类关联数据, 引、存储、检索、呈现等各个方面。
还能通过 GIS 呈现物产的时空分布与演变趋势。刘忠
5 讨论与展望
宝等[35]121 开发了一款《史记》事理图谱可视化系统,可
以自动抽取输入古文中的历史事件,并通过知识图 经过上文的整理分析,本文对当前古文自动处

谱的方式,对历史事件中的组成元素及事件间关系 理领域的研究情况进行了分析论述。可以看出,古文

进行可视化呈现。常娥等[54]85 开发了古籍自动校勘系 自动处理在词汇层面的挖掘和相关方法已经较为成

统,可实现对同一古籍的 2 个及以上不同版本的自动 熟。但是,在一些方面仍然需要进一步研究。因此,本

校勘,系统还提供了诸如《古代官名表》
《字词索引》 部分分别从领域划分、语料资源、方法工具和知识成

等一系列辅助校勘工具。陈楚云等[64]构建了针灸古籍 果 4 个方面,对新时代古文自动处理的研究方向进行

经验推荐平台,该系统综合运用自动分词、规则提 展望。

取、依存分析、相似度计算等数据挖掘方法,实现了 5.1 领域划分

对于针灸古籍中经络、穴位、病症、治疗方式等知识 在古文词汇自动处理方面的研究已经较为广泛

的组织、分析、挖掘、检索、呈现。Fu 等[17]2495 搭建了古 且成熟,但仍然存在可以提升之处。作为一切古文自

代中医文献自动分词与词性标注系统,可基于加入 动处理的基础工作自动分词,在深度学习技术如火

了中医药分词词典知识的 Ansj 中文分词工具实现对 如荼的今天却鲜有相关技术方法的应用,这不利于

中医古籍的自动分词。Chen 等[10]30 构建了一款交互式 高精度分词语料库的构建及后续研究的开展。因此,

的古文在线自动分词平台,与其他分词系统相比,该 应该踏上人工智能技术的浪潮,利用其强大的特征

平台可以根据用户的反馈实时优化分词性能,并保 提取与知识学习能力,助力自动分词任务的高质量

存全过程中任意版本的古文分词结果。Tsai 等[65]开发 开展。此外,为了节省时间与算力成本,更高效率的

了一套古代文本自动注释系统(ATAS),该系统能够 解决词汇自动处理问题,还应该探索一体化词法分

自动通过关联数据,从不同数据库中获取资源,自动 析方法,通过一个模型、一次训练,解决全部词法分

注释古代文本,从而使得用户可以实时查阅相关注 析任务。

释文献。Zhipeng 等[59]25 研发了一套人机协作式中国古 在古文句子自动处理任务中,一方面,应该大力

典诗歌自动生成系统“九歌”,该系统支持多种输入 引入深度学习模型,进一步提升古籍自动断句标点

形式与体裁风格,还可以根据用户修改意见动态更 的准确率,并尝试将该方法应用到句子对齐、句法和

新与重新生成符合要求的诗篇。 语义标注中。对于句子对齐任务还可以尝试引入无

可以发现,当前古文自动处理已经积累了丰富 监督或半监督的机器学习方法。另一方面,对于深层

的知识库。一方面,这些语料资源可以作为具有领域 次的句法和语义挖掘这一重难点任务,应不断尝试
知识的机器学习模型训练文本,从而获得针对古文 新的方法,对句子组成元素间的依存关系,各类句法
自动处理领域的专业性模型;另一方面,词汇级别的 结构特点进行探索。
语料库可以作为句子级别和篇章级别古文自动处理 在古文篇章自动处理层面,由于涉及语料篇幅
的基础,指导更高层次的古文挖掘任务。对于古文自 大,包含信息繁杂,各任务当前均处于探索性实验,

13
第 3 卷第 1 期 科 技 情 报 研 究

且取得的成果较为稀少。未来,在大规模分词标注语 代社会风貌变迁[66],发掘传统法律文化的现代应用价
料库与句法知识库的基础上,通过综合运用分类和 值[67-68] 等具有重要意义。因此,对特殊类型文献资源
聚类的算法,实现高精度高速度的自动校勘,多类型 的分析挖掘,也是古文自动处理研究的新方向之一。
的自动生成,更可靠的自动分类。 5.3 方法工具
5.2 语料资源 进一步扩大深度学习技术的应用范围。虽然目
构建精加工的语料库。虽然目前国内已经建成 前在古文自动处理领域,已经出现了许多基于规则
了诸如“南京师范大学先秦典籍语料库”
“ 香港中文 和基于统计的方法,但是这些方法在制定规则时难
大学汉达文库”等具有较大规模的语料库,但是大多 以穷举全部的匹配规则,在人工提取特征时,也无法
仅仅是全文数据库,并未经过分词与词性标注等加 保证特征的全面性与正向作用。此外,人工进行的特
工处理,不利于开展古文自动处理任务。绝大多数古 征工程大多针对外在文本特征,例如词频、左右边界
文自动处理相关研究使用的语料都来自于网络抓取 词、拼音等,难以对深层特征进行表示。而深度学习
或是自建语料库,这样无法保证数据的准确性与权 的出现,很好的解决了上述问题。由于深度学习模型
威性。因此,在新时代需要国家统一规划,首先保证 可以通过多层神经网络结构,自动从输入训练集中
数据源准确可靠,在此基础上,构建经过精加工处理 提取并学习复杂语言学知识与上下文语境信息,从
后的“熟语料库”。 而保证了特征提取的全面性与深入性。现有的研究
发布面向古文的算法测评数据集。目前,在古文 也表明,与传统的处理方法相比,深度学习模型通常
自动处理领域,暂无专门面向算法测评的数据集,这 都能取得更优的效果。
不利于古文自动处理新方法新模型的产生,限制了 近几年,以 BERT 为代表的深度文本表示模型,
发展速度。当前用于训练古文自动处理的机器学习 借助其强大的上下文信息提取能力而获取了超越人
或深度学习模型的语料库通常是研究人员自行构建 类阅读理解水平的性能。中国的古代文本由于存在
的,这就导致了语料规模较小、质量难以衡量、容易 大量的倒装、省略、被动等句式,使得其上下文具有
出现重复劳动等问题。而从国家层面对古文资源整 极强的关联性,非常适合引入先进的深度文本表示
合,制定统一的分词、词性、实体、句法标注规范,招 模型来学习其语句间的参照与关联信息。此外,还可
募古文学专业人员进行大规模人工标注与机器辅助 以综合运用迁移学习与强化学习相关模型算法,解
标注,最终构建完成面向古文自动处理各领域方向 决标注语料库规模较小与泛化能力不足的问题。
的权威性、规范性算法测评数据集,可以极大地促进 研发面向古文的拖拽式处理工具。古代汉语由
古文自动处理相关算法模型的创新与发展。 于历史悠久,且很少在日常生活中使用。因此,想要
拓展古文自动处理对象类型。当前古文自动处 从古文中挖掘知识,就需要具有相关古文专业背景。
理主要面向古代书籍,尤其是先秦典籍和二十四史 然而,具有汉语言、历史学等专业背景的研究人员大
两大类别的古代文献资源。但是,除了常见的书籍文 多不具备专业的计算机编程与数据分析技能,当前
献,还存在有诸如诏令奏议、法典律令、铭文祭文等 又缺少古文处理的专业性工具。因此,开发一套综合
多种特殊形式的古文。这些史料文本记载了古代历 性古文自动处理工具,用简单易懂的拖拽式流程设
法、宗教、礼仪、祭祀等多方面内容,对于了解我国古 计方式取代繁琐专业的程序设计,可以大大降低古

14
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月

文研究者开展古文自动处理研究的门槛,提高科研 款通用型,普适性强,可以处理任何古文数据,胜任
效率。 不同粒度、不同层次古文自动处理任务的综合性系
多种算法相结合的方法。基于规则的方法操作 统,是未来研究的新方向之一。
简便,但由于是针对特定文本进行的规则制定,因 此外,当前虽然已经出现了许多处理后的语料
此,可移植性较差。基于统计的方法尤其是深度学习 库与各类辅助古文自动处理的平台系统,但绝大多
方法能够自动从古文中学习深层特征,可以灵活的 数知识成果并未公开发布。这一方面为知识共享制
迁移到不同类型的古文自动处理任务中。但是,需要 造了阻碍,另一方面,也难以保证研究成果的真实
构建大规模人工标注语料库,且在训练过程中需要 性。因此,我们建议未来的古文自动处理研究中,应
巨大的算力支持。尤其是近年来深度学习领域出现 该倡导开源代码、数据、以产生的知识成果,并相应
了这样一种现象,语料规模和算力资源的大幅增加 的推出一些激励机制,促进研究者将所取得的知识
仅能略微提升算法性能,投入和产出的差距愈发悬 成果开放。
殊。因此,能够结合 2 种方法,设计出操作简便且无需
6 结语
耗费大量人力、算力的综合性方法,提出能够适应新
资源环境下的古文信息处理理论技术与方法,是未 中国典籍文献是传承中华文明的瑰宝,是中华

来的算法开发趋势。 优秀传统文化的结晶。本文从古文自动处理领域划

5.4 知识成果 分与模型算法、语料资源与现有工具、知识库与平台


经过自动分词、词性标注、命名实体识别等古文 系统 3 个方面,总结归纳了古文自动处理的研究现
自动处理相关研究,目前已经出现了一些分词语料 状,展望了未来发展趋势,如图 1 所示。
库、词性标注语料库、人名地名等专有名词语料库与 总而言之,当前古文自动处理处于较为浅层次
知识库。但此类语料资源大多为低层次的词汇级别 的本文挖掘与知识发现阶段。在词汇和句子层面已
词典数据库与规则模式库,而鲜有面向句子与篇章 经积累了大量的研究,而在篇章层面仍然主要为探
层面古文处理的语料成果。而无论是古文检索,古现 索性的研究。深度学习与深层文本表示技术已经在
及古外机器翻译,还是古文自动问答等任务,都需要 词性标注、命名实体识别、自动断句标点、句子对齐
句子甚至是篇章层面资源库的支撑。因此,新时代的 等任务中得到了应用,且均取得了优于传统算法的
古文自动处理应该着眼未来,以智能化、多元化、系 效果。越来越多的语料库、资源库、高性能的方法工
统化思想为指导,构建更高层次的知识库与语料库。 具,以及可视化分析挖掘平台的出现,极大的丰富了
目前,已经出现了面向词汇、句子、和篇章级别 数字人文在古文自动处理方面的内涵。未来,通过不
的各类型古文自动处理系统与可视化呈现平台,这 断引入更加先进的自动处理模型算法,尝试在诏令、
极大的缩小了科研人员和公众与古籍间的距离。但 法律、铭文等非常见文献资源上开展分析挖掘,古文
这些系统大多仅面向单一古书或某一类别的典籍文 自动处理必将实现新的突破,登上新的高度。此外,
献进行知识挖掘,缺乏一款通用型古文自动处理系 随着我国在数字人文领域探索的不断深入,有必要
统与呈现平台。因此,整合各方古文语料资源,从国 构建丰富多元的古文数字人文课程体系,面向新时
家层面,基于现有全部古文语料与古代文本,研发一 代,培养新的科学环境下具有数字人文专业背景、古

15
第 3 卷第 1 期 科 技 情 报 研 究

图 1 古文自动处理研究现状梳理图

文自动处理使命感、古文大数据分析能力的专业型、 不断创造中国文化新的辉煌。
复合型人才,对传统文化进行深度挖掘、传承、创新,

参考文献:
[1] 习近平 . 坚定文化自信,建设社会主义文化强国[J]. 奋斗,2019(12):1-10.
[2] 黄水清 . 人文计算与数字人文:概念、问题、范式及关键环节[J]. 图书馆建设,2019(05):68-78.
[3] 黄水清,王东波 . 古文信息处理研究的现状及趋势[J]. 图书情报工作,2017,61(12):43-49.
[4] 顾磊,赵阳 . 古籍智能整理研究现状及存在的问题[J]. 图书馆学研究,2016(09):54-58.
[5] 石民,李斌,陈小荷 . 基于 CRF 的先秦汉语分词标注一体化研究[J]. 中文信息学报,2010,24(02):39-45.
[6] 黄建年 . 农业古籍的计算机断句标点与分词标引研究[D]. 南京:南京农业大学,2009.
[7] FANG M,JIANG Y,ZHAO Q,et al.Automatic word segmentation for Chinese classics of tea based on
tree-pruning[C]//2009 Second International Symposium on Knowledge Acquisition and Modeling. IEEE,
2009,
(01):438-441.
[8] 徐润华,陈小荷 . 一种利用注疏的《左传》分词新方法[J]. 中文信息学报,2012,26(02):13-17,45.
[9] 段磊,韩芳,宋继华 . 古汉语双字词自动获取方法的比较与分析[J]. 中文信息学报,2012,26(04):34-42.
[10] TONG FEI C,WEI MENG Z,XUE QIANG L,et al.A kalman filter based human-computer interactive
word segmentation system for ancient chinese texts[M]. Chinese computational linguistics and natural
language processing based on naturally annotated big data.Berlin,Heidelberg:Springer,2013:25-35.
[11] 梁社会,陈小荷 . 先秦文献《孟子》自动分词方法研究[J]. 南京师范大学文学院学报,2013(03):175-182.
[12] 王嘉灵 . 以《汉书》为例的中古汉语自动分词[D]. 南京:南京师范大学,2014.
[13] 王姗姗,王东波,黄水清,等 . 多维领域知识下的《诗经》自动分词研究[J]. 情报学报,2018,37(02):183-193.
[14] 留金腾,宋彦,夏飞 . 上古汉语分词及词性标注语料库的构建:以《淮南子》为范例[J]. 中文信息学报,2013,
27(06):6-15,81.
[15] 黄水清,王东波,何琳 . 以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J]. 图书情报工作,2015,

16
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月

59(11):127-133.
[16] 王晓玉,李斌 . 基于 CRFs 和词典信息的中古汉语自动分词[J]. 数据分析与知识发现,2017,1(05):62-70.
[17] FU X,YUAN T,LI X,et al. Research on the Method and SYSTEM of Word Segmentation and POS
Tagging for Ancient Chinese Medicine Literature[C]//2019 IEEE International Conference on
Bioinformatics and Biomedicine (BIBM).IEEE,2019:2493-2498.
[18] LI S,LI M,XU Y,et al.Capsules Based Chinese Word Segmentation for Ancient Chinese Medical Books
[J].IEEE Access,2018,
(06):70874-70883.
[19] 李成名 . 基于深度学习的古籍词法分析研究[D]. 南京:南京师范大学,2018.
[20] 程宁,李斌,葛四嘉,等 . 基于 BiLSTM-CRF 的古汉语自动断句与词法分析:体化研究[J]. 中文信息学报,
2020,34(04):1-9.
[21] 朱晓,金力 . 条件随机场图模型在《明史》词性标注研究中的应用效果探索[J]. 复旦学报(自然科学版),
2014,53(03):297-304.
[22] 钱 智 勇 ,周 建 忠 ,童 国 平 ,等 . 基 于 HMM 的 楚 辞 自 动 分 词 标 注 研 究 [J]. 图 书 情 报 工 作 ,2014,58(04):
105-110.
[23] 王东波,黄水清,何琳 . 基于多特征知识的先秦典籍词性自动标注研究[J]. 图书情报工作,2017,61(12):
64-70.
[24] 曾艳,侯汉清 . 古籍文本抽词研究[J]. 图书情报工作,2008(01):132-135.
[25] 朱锁玲,包平 . 方志类古籍地名识别及系统构建[J]. 中国图书馆学报,2011,37(03):118-124.
[26] 皇甫晶,王凌云 . 基于规则的纪传体古代汉语文献姓名识别[J]. 图书情报工作,2013,57(03):120-124.
[27] 汤亚芬 . 先秦古汉语典籍中的人名自动识别研究[J]. 现代图书情报技术,2013(Z1):63-68.
[28] 黄水清,王东波,何琳 . 基于先秦语料库的古汉语地名自动识别模型构建研究[J]. 图书情报工作,2015,59
(12):135-140.
[29] 李娜,包平 . 面向数字人文的馆藏方志古籍地名自动识别模型构建[J]. 图书馆,2018(05):67-73.
[30] 王东波,高瑞卿,沈思,等 . 面向先秦典籍的历史事件基本实体构件自动识别研究[J]. 国家图书馆学刊,
2018,27(01):65-77.
[31] 袁悦,王东波,黄水清,等 . 不同词性标记集在典籍实体抽取上的差异性探究[J]. 数据分析与知识发现,
2019,3(03):57-65.
[32] 李章超,李忠凯,何琳《左传》
. 战争事件抽取技术研究[J]. 图书情报工作,2020,64(07):20-29.
[33] 崔竞烽,郑德俊,王东波,等 . 基于深度学习模型的菊花古典诗词命名实体识别[J]. 情报理论与实践,2020,
43(11):150-155.
[34] 徐晨飞,叶海影,包平 . 基于深度学习的方志物产资料实体自动识别模型构建研究[J]. 数据分析与知识发
现,2020,4(08):86-97.
[35] 刘忠宝,党建飞,张志剑 《史记》
. 历史事件自动抽取与事理图谱构建研究[J]. 图书情报工作,2020,64(11):

17
第 3 卷第 1 期 科 技 情 报 研 究

116-124.
[36] XIA L,BIN W,BAI LING Z.Unknown Word Detection in Song Poetry[C]//2016 IEEE First International
Conference on Data Science in Cyberspace (DSC).IEEE,2016:544-549.
[37] XIE T,WU B,WANG B. New Word Detection in Ancient Chinese Literature[C]//Asia-Pacific Web
(APWeb) and Web -Age Information Management (WAIM) Joint Conference on Web and Big Data.
Springer,Cham,2017:260-275.
[38] 张开旭,夏云庆,宇航 . 基于条件随机场的古汉语自动断句与标点方法[J]. 清华大学学报(自然科学版),
2009,49(10):1733-1736.
[39] BO LI W,XIAO DONG S,ZHI XING T,et al. A Sentence Segmentation Method for Ancient Chinese
Texts Based on NNLM[C]//Workshop on Chinese Lexical Semantics.Springer,Cham,2016:387-396
[40] HONG BIN W,HAI BINGW,JIAN YI G,et al. Ancient Chinese Sentence Segmentation Based on
Bidirectional LSTM + CRF Model[J]. Journal of Advanced Computational Intelligence and Intelligent
Informatics,2019,23(04):719-725.
[41] 俞敬松,魏一,张永伟 . 基于 BERT 的古文断句研究与应用[J]. 中文信息学报,2019,33(11):57-63.
[42] 郭锐,宋继华,廖敏 . 基于自动句对齐的相似古文句子检索[J]. 中文信息学报,2008(02):87-91,105.
[43] 马创新,陈小荷,曲维光 . 注疏文献中的注释语句自动分析[J]. 计算机科学,2012,39(10):220-223.
[44] DA YI HENG L,KE XIN Y,QINA Q,et al. Ancient-Modern Chinese Translation with a New Large
Training Dataset[J]. ACM Transactions on Asian and Low-Resource Language Information Processing
(TALLIP),2019,19(01):1-13.
[45] 刘颖,王楠 . 最大熵模型和 BP 神经网络的短句对齐比较[J]. 计算机工程与应用,2015,51(07):112-117.
[46] 梁继文,江川,王东波 . 基于多特征融合的先秦典籍汉英句子对齐研究[J]. 数据分析与知识发现,2020,4
(09):123-132.
[47] 于丽丽,丁德鑫,曲维光,等 . 基于条件随机场的古汉语词义消歧研究[J]. 微电子学与计算机,2009,26
(10):45-48.
[48] 张颖杰,李斌,陈家骏,等 . 基于词典信息的先秦汉语全文词义标注方法研究[J]. 中文信息学报,2012,26
(03):65-71,103.
[49] 常娥,张长秀,侯汉清,等 . 基于向量空间模型的古汉语词义自动消歧研究[J]. 图书情报工作,2013,57
(02):114-118.
[50] 冯秋香 . 基于数据库语义学的古汉语句法语义分析研究[D]. 大连:大连理工大学,2012.
[51] HENG W,WEN XIN H,AI HUA O,et al.Ancient medical literature semantic annotation using hidden
markov models[C]//2014 IEEE International Conference on Bioinformatics and Biomedicine(BIBM).IEEE,
2014:37-40.
[52] 丁长林,白宇,蔡东风 . 基于有监督学习的医古文叙述性术语语义标注[J]. 中文信息学报,2015,29(02):

18
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月

49-57.
[53] 周澍绮 . 基于 GATE 的楚辞语义标注研究[J]. 图书馆理论与实践,2015(11):58-62,101.
[54] 常娥,侯汉清,曹玲 . 古籍自动校勘的研究和实现[J]. 中文信息学报,2007(02):83-88.
[55] 周学文,江荻《元朝秘史》
. 的计算机自动校勘方法[J]. 语言文字应用,2007(03):136-142.
[56] 蒋锐滢,崔磊,何晶,等 . 基于主题模型和统计机器翻译方法的中文格律诗自动生成[J]. 计算机学报,2015,
38(12):2426-2436.
[57] XIAO YUAN Y,RUO YU L,MAO SONG S. Generating Chinese Classical Poems with RNN Encoder-
decoder[M]. Chinese Computational Linguistics and Natural Language Processing Based on Naturally
Annotated Big Data.Springer,Cham,2017:211-223.
[58] 黄文明,卫万成,邓珍荣 . 基于序列到序列神经网络模型的古诗自动生成方法[J]. 计算机应用研究,2019,
36(12):3539-3543.
[59] GUO Z,XIAO YUAN Y,MAO SONG S,et al.Jiuge:A Human-machine Collaborative Chinese Classical
Poetry Generation System[C]//Proceedings of the 57th Annual Meeting of the Association for Com-
Putational Linguistics:System Demonstrations.2019:25-30.
[60] 王东波,何琳,黄水清 . 基于支持向量机的先秦诸子典籍自动分类研究[J]. 图书情报工作,2017,61(12):
71-76.
[61] 秦贺然,刘浏,李斌,等 . 融入实体特征的典籍自动分类研究[J]. 数据分析与知识发现,2019,3(09):68-76.
[62] JING X,ZHONG SHI H,LIANG YAN L,et al. Brain-oriented Convolutional Neural Network Computer
Style Recognition of Classical Chinese Poetry[J].Neuro Quantology,2018,16(04).
[63] BAO P,ZHU S. System Design for Location Name Recognition in Ancient Local Chronicles[J]. Library
HI-IECH,2014,32(02):276-284.
[64] 陈楚云,洪佳明,周蔚林,等 . 基于数据挖掘技术构建针灸古籍经验推荐平台的方法与应用[J]. 中国针灸,
2017,37(07):768-772.
[65] TSIAO TING T,CHIH MING C,CHEN YU L. An Automatic Text Annotation System to Improve
Reading Comprehension of Chinese Ancient Texts[C]//2018 7th International Congress on Advanced
Applied Informatics (IIAI-AAI).IEEE,2018:176-181.
[66] 鲁迪 . 江浙地区现存唐宋经幢铭文浅析[J]. 文物鉴定与鉴赏,2020(07):8-11.
[67] 于语和,雷园园 . 论中国传统法律文化在依法治国中的价值[J/OL]. 北京理工大学学报(社会科学版):1-12
[2020-09-14].http://kns.cnki.net/kcms/detail/11.4083.C.20200909.1754.002.html.
[68] 董淑平 . 浅论中国古代法律思想对现代法治的作用[J]. 法制博览,2019(36):247-248.

19
第 3 卷第 1 期 科 技 情 报 研 究

Review of Automatic Processing of Ancient Chinese Character and


Prospects for Its Development Trends in the New Era
DENG Sanhong1,2,HU Haotian1,2,WANG Hao1,2,WANG Dongbo2,3
1.School of Information Management,Nanjing University,Nanjing 210023

2.Jiangsu Key Laboratory of Data Engineering and Knowledge Service,Nanjing 210023

3.School of Information Management,Nanjing Agricultural University,Nanjing 210095

Abstract: [Purpose / significance]With the popularization of digitized ancient books and documents, the use of
natural language processing and big data analysis technology to carry out text mining and knowledge
discovery on ancient Chinese books has gradually become an important research direction in the field of
ancient information processing of digital humanities and an important way to reflect cultural confidence.
[Method /process]This article defined the concept of ancient Chinese character automatic processing.Wesorted
out the connotation and extension of the ancient Chinese character automatic processing, and grasped the
overall research status and development trend of this fieldfrom the three aspects of the field of automatic
ancient texts processing and model algorithms, corpus resources and existing tools, knowledge bases and
platform system. [Result / conclusion]We conducted a more comprehensive summary of the current research
status of ancient Chinese character automatic processing,and analyzed the existing problems and deficiencies.
Keywords: ancient Chinese character automatic processing; digital humanities; traditional culture; cultural
confidence; ancient Chinese character information processing

20

You might also like