Professional Documents
Culture Documents
【2021年】古文自动处理研究现状与新时代发展趋势展望 邓三鸿
【2021年】古文自动处理研究现状与新时代发展趋势展望 邓三鸿
古文自动处理研究现状与新时代发展趋势展望❋
邓三鸿 1,2 胡昊天 1,2 王 昊 1,2 王东波 2,3
1. 南京大学信息管理学院,南京 210023
2. 江苏省数据工程与知识服务重点实验室,南京 210023
3. 南京农业大学信息管理学院,南京 210095
摘 要:
[目的/意义]随着数字化古籍文献的普及,利用自然语言处理与大数据分析技术,在古代典籍上开展
文本挖掘与知识发现,逐渐成为数字人文在古文信息处理领域的重要研究方向,也是体现文化自信的重要途
径。
[方法/过程]文章定义了古文自动处理的概念,从古文自动处理的领域划分与模型算法、语料资源与现有
工具、知识库与平台系统 3 个方面,梳理古文自动处理领域的内涵和外延,整体把握该领域研究现状与发展趋
势。
[结果/结论]较全面地归纳总结了当前古文自动处理研究现状,分析了存在的问题与不足。
关键词:古文自动处理;数字人文;传统文化;文化自信;古文信息处理
中图分类号:G255 文献识别码:A 文章编号:2096-7144(2021)01-0001-20
DOI:10.19809/j.cnki.kjqbyj.2021.01.001
索与梳理分析,能够为坚定文化自信,增强文化认
1 引言
同,实现中华民族的伟大复兴,构建人类命运共同体
中华优秀传统文化是中国特色社会主义文化的 做出贡献。
重要来源。习近平总书记在《坚定文化自信,建设社 数字人文(Digital Humanities)的提出,为中华优
会主义文化强国》中指出:
“ 文化是一个国家,一个民 秀传统文化的组织整理与深度挖掘提供了新的理
族的灵魂。没有高度的文化自信, 没有文化的繁荣兴 论、方法与研究范式。数字人文,是由计算机技术和
盛, 就没有中华民族伟大复兴[1]。”当前,中国特色社 人文社会科学相互交融的研究领域[2],通过将信息技
会主义已经进入新时代,对中华民族五千年文明中 术引入人文研究,依靠数字化和数据化的人文资料
包含的哲学、人文、社会、科技等传统文化的不断探 从事人文研究。数字人文是非常重视实践性的领域,
收稿日期:2020-10-23 修回日期:2020-11-20
基金项目:国家社科基金重点项目“大数据环境下领域知识加工与组织模式研究” (编号:20ATQ006)
作者简介:邓三鸿(ORCID:0000-0002-6910-3935),男,1975 年生,博士,教授,博士生导师,主要研究方向:信息检索、信息处理、
信息计量、科学评价,E-mail:sanhong@nju.edu.cn;胡昊天(ORCID:0000-0002-4112-8719)
(通讯作者),男,1997 年生,博士研究
生,主要研究方向:自然语言处理、信息计量,E-mail:hhtdlam@126.com;王昊(ORCID:0000-0002-0131-0823),男,1981 年生,博
士,教授,博士生导师,主要研究方向:智能信息处理和检索、数据挖掘,E-mail:ywhaowang@nju.edu.cn;王东波(ORCID:0000-
0002-9894-9550),男,1981 年生,博士,教授,博士生导师,主要研究方向:自然语言处理与知识挖掘、信息计量、数字人文,E-
mail:db.wang@njau.edu.cn。
1
第 3 卷第 1 期 科 技 情 报 研 究
基于计算机技术,当前对古汉语文本的研究主要有 一。简单的将古文进行数字化存储,虽然实现了对原
古文数字化、自动分词、词性标注、古文专有词汇识 始纸本资源的保护与共享,但组织形式单一,组织粒
别、自动断句标点、异文发现、句法标注、自动校勘、 度较粗,无法实现对诸如某一历史事件下全部相关
自动编纂、古汉语机器翻译、信息检索等方向。 文献的查阅;二是,信息处理层次较浅。目前,已经出
古文信息处理包含了古文数字化、智能处理和 现了古籍全文数据库以及在线检索服务,但是数据
人文计算 3 个递进过程[3]。古文数字化是实现计算机 库中的文本往往并未经过分词标注,且提供的检索
古文处理的重要前提,全国乃至全球各地的原始馆 途径通常为低层次的字符级别检索。此类浅层的数
藏纸本资源,经过影像化和数字化处理后,面向互联 据处理,往往难以支撑对古文深层信息的挖掘研究;
网提供线上检索、阅读、获取的途径,从而使得利用 三是,信息处理效率低下。面对浩如烟海的古代文
计算机和大数据技术分析挖掘古代文献资料成为可 献,无法快速高效的处理数据量庞大的古汉语文本,
能。古文智能处理,或称古籍智能整理[4],则是综合利 也难以进行有效的组织、关联与存储。
用信息标引、组织、分析、挖掘等理论方法与技术工 借助计算机与信息技术,自动化处理古文,不仅
具,从数字化的古代文本中自动整理、总结、提取出 可以实现对古代文献的多维度、多粒度标引、组织、
有意义的知识,实现对古文的深层理解。最后,通过 存储、检索,还可以综合分析海量史书文献,发现隐
人文计算技术手段,实现对古文智能处理结果的智 含规律,开展深层关系挖掘与知识发现。此外,通过
能检索、关系挖掘与可视化呈现等 3[47]。 构建综合性古文自动处理系统,提供覆盖古文处理
古文自动处理,是一种通过自然语言处理算法, 全过程的方法工具,可以进一步为历史学、古汉语语
对原始古代汉语文本自动整序、加工、挖掘,形成新 言学等研究人员提供便利。
的信息的过程。本文所论述的古文自动处理,属于古 因此,本文分别从古文自动处理的领域划分与
文智能处理的范畴。古文自动处理强调了“古文”和 模型算法、语料资源与现有工具、知识库与系统平台
“自动”两个方面。其中,
“ 古文”说明处理对象为古代 3 个方面,总结、梳理古文自动处理的研究现状,并展
典籍、文献资料等一切由古代汉语撰写的文本数据; 望新时代古文自动处理的发展趋势与人才培养模
“自动”表明处理过程为无需人工干预的计算机自动 式,期望能厘清古文自动处理研究的主要思路、方法
化处理过程。 与资源,为相关研究人员提供参考与建议。
中国古代文献记录了中华民族五千年历史的发
2 古文自动处理领域划分与模型算法
展与文化的传承,利用语言学和计算学方法工具,对
古代汉语的内容特征与外部特征进行分析挖掘,可 从处理对象的粒度角度,古文自动处理可以分
以帮助我们阅读理解晦涩难懂的古汉语,了解中国 为词汇层面、句子层面和篇章层面等。
历史文化的变迁,传承中华文明,研究古代社会演变 2.1 词汇自动处理研究现状
模式,梳理汉语言发展史,拓展数字人文在古代汉语 古文词汇自动处理,又称古文自动词法分析,是
研究领域的内涵与外延。 指通过计算机算法,对数字化处理后的古代典籍文
然而,传统依靠人力对古文组织、标引、整理的 献进行自动分词、词性标注、命名实体识别等处理,
方法存在许多弊端。一是,信息组织形式与细粒度单 从而开展词汇层面的知识挖掘。词汇自动处理是古
2
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月
3
第 3 卷第 1 期 科 技 情 报 研 究
表 1 基于机器学习和深度学习模型的古文自动分词研究汇总
统计,指导计算机自动判断古文词汇边界,实现对未 词性标注任务主要基于传统机器学习模型和深
登录词的识别,且无需构建分词底表,但是该分词方 度学习模型开展。前者需要从语料中人工统计语言
式同样需要研究人员具备丰富的古文语言学知识以 学特征来指导机器学习模型开展模型的训练与测
进行人工统计判断,分词效果虽有提升但仍然无法 试,而后者无需人工进行特征工程,神经网络会自动
令人满意;第三阶段机器学习分词方式,基于语言学 从文本中提取深层语言、语法、语义特征。相关研究
概率统计模型,在人工特征工程的辅助下,往往能够 及成果,见表 2。
在古文自动分词任务中取得较高的分词准确率。基 从上述古文词性标注的相关研究可知,与自动
于深度学习的分词模型更是能够自动从古代文本中 分词任务不同,古文词性标注主要是通过机器学习
模型的分词效果与训练集的大小和人工标注的质量 在完成分词后的古文上,开展词性标注的效果一般
密切相关,在训练集的构建过程需要进行大量的人 比直接在未分词语料上进行词性标注的效果更好;
工数据标注与计算机辅助标注,且对计算机的硬件 古文一体化分词标注的效果通常优于先分词再词性
配置具有较高要求。 标注两步走的效果,且前者已经逐渐成为当前古文
4
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月
表 2 基于机器学习和深度学习模型的古文词性标注研究汇总
表 3 基于机器学习和深度学习模型的古文命名实体识别研究汇总
古文新词发现可以看作是一类特殊的命名实体 实现古文词汇的挖掘,可以自动发现潜在古文词汇,
识别任务,将未登录词视为实体,采用序列标注算法 为自动分词标注任务提供更加精准的语料。Li 等[36]将
5
第 3 卷第 1 期 科 技 情 报 研 究
未 登 录 词 识 别 任 务 转 换 为“ 二 元 分 类 ”问 题 ,通 过 命 名 实 体 识 别 研 究 ,均 已 经 出 现 了 诸 如 RNN、Bi -
word2vec 词嵌入工具对原始文本进行向量化表示,选 LSTM、BERT 等深度学习方法的应用,且此类方法的
取字符间激活距离和统计转换概率特征,并最终基 效果均优于同条件下 CRF 模型的效果,这说明深度
于提出改进的半监督 SVM 算法,实现对宋词语料的 学习方法在古籍词汇自动处理中值得进一步推广,
未登录词识别。Xie 等[37]提出了一种改进的 AP-LSTM 但作为基础的自动分词任务在深度学习模型应用方
模型,制定低频词构词规则并融入 Apriori 算法,生成 面仍然存在不足,这应该是下一步研究的重点。此
候选词序列,并通过 LSTM 神经网络模型确定词汇边 外,现在已经出现了一些分词标注一体化处理方式,
界,最终基于过滤规则识别低频新词。在宋词和《宋 与传统单一任务相比,其处理速度快且标注效果佳,
史》文 本 上 的 新 词 发 现 实 验 中 ,取 得 了 89.7% 的 准 应该在未来进一步探究。
确率。 2.2 句子自动处理研究现状
对于古文命名实体识别,最早采用的是基于规 虽然汉字是汉语的最小表意单元,但单个汉字
则的方法。通过从古汉语词典及典籍文献中获取古 的含义毕竟有限,只有词汇连成了句子,才更具有传
文人名、地名、书名、官名等词汇,在此基础上,构建 达信息的能力。由于古文非常精炼,常出现省略、倒
领域词表与实体词典,并通过 N 元语法等匹配方法 装、通假等表达方式,因此,要结合上下文语境信息,
从古文中抽取命名实体,但是此类方法需要具备语 才能准确理解句意。这就反映出,仅针对词汇粒度的
言学背景的研究人员事先分析制定语言规则,且只 挖掘是远远不够的,想要让计算机读懂古文,让计算
能对实体词汇表中出现的实体进行匹配,因此,难以 机辅助人类智能化标引、组织、整理、分析古籍文本,
保证识别的全面性。随着机器学习方法尤其是条件 就必须从句子层面进行更深层次的研究。
随机场模型(CRF)和最大熵模型(MaxEnt)的应用,研 2.2.1 自动断句标点
究者在先秦典籍、明清小说、地方志文献上都取得了 标点是现代汉语用于表示书面语言停顿、断句
不错的实体识别效果。基于深度学习技术的深层神 的一套符号系统。然而,古文的原始书面表示中,并
经网络模型和深层文本表示模型使得古文实体识别 不存在标点符号,古人在阅读典籍文献时,是通过学
等神经网络结构进行实体语义特征与语境信息的提 自动标注,可以极大的帮助读者理解文本含义,便于
取,极大的提高了古典诗词、地方志、史书类古文的 开展更深层次的古文知识组织与挖掘。
命名实体识别精确率与召回率。 掌握句读知识是实现对古文断句的基础,因此,
从上述古文词汇自动处理现有研究可以发现, 利用句读规则指导计算机开展自动断句与自动标
6
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月
近年来,学者们普遍采用机器学习,尤其是深度 研究内容,见表 4。
学习的方式,开展古籍的自动断句与标点实验。相关 从上述相关研究可以看出,利用计算机技术进
表 4 基于机器学习和深度学习模型的古文自动断句标点研究汇总
行古文自动断句与自动标点,最初的理念是制定一 文句子与注疏文献中引文句子的自动对应,以及自
套断句标点规则,让计算机模仿人类学习句读规则, 动区分注疏中的引文信息与注释内容,还构建了典
文语言规则是难以穷举的,因此,有学者将自动断句 了 比 句 子 对 齐 更 为 细 粒 的 子 句 对 齐(clause
可行性。随着深度学习方法的不断应用,古文自动断 对齐方法,通过同时考虑基于词汇和基于统计的信
增强,可以在跨时空和跨类别的典籍文献上取得较 余万条子句对的古现汉语平行语料库。
古文句子对齐任务,指的是将典籍文献原文和 表 5 基于机器学习和深度学习模型的古文自动对齐研究汇总
库和相关对齐算法模型,可以实现对原有知识的再 从上述研究可以发现,对于古文句子对齐任务,
组织,增强语料间关联性,从而服务于自动翻译和自 总体上可以分为 2 类:一是,基于文本相似度计算和
动问答等任务。 规则匹配的古文及其注疏文献对齐;二是,基于统计
[42]
郭锐等 提出了一种古汉语和现代汉语自动对 与机器学习模型的古现与古外平行语料对齐。前者
齐算法,综合考虑了句子长度、字形因素和标点符号 实现的难度相对小,由于无论是对古文做“注(笺)”,
等特征,基于遗传算法与动态规划算法在人工对齐 还是对原文及旧注做“疏(正义)”,通常都包含一定
的《国语》和《战国策》混合语料上取得了 99.11% 的 F 数量的原文内容,因此,容易建立起古文原文与注疏
[43]
值。马创新等 提出了一种基于字面特征的句子相似 文献的对应关系。古现与古外平行语料的对齐任务
度计算方法,将《论语》分别与《论语集注》和《论语注 通常被转换为句子对二分类问题。通过统计古文、现
疏》这两部注疏文献进行句子对齐,实现了典籍中原 代文译文及英文译文的词汇、句子、句法的分布特
7
第 3 卷第 1 期 科 技 情 报 研 究
8
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月
9
第 3 卷第 1 期 科 技 情 报 研 究
于支持向量机模型对先秦典籍开展自动分类实验, 袭了《四库全书》的四部分类法。由于某一特定主题
发现分类性能最高提升了 22.8%,此外,还应用该模 类型的古代文献通常会具有近似的语言风格,因此,
型对《今文尚书》的真伪进行验证。 本部分第 1 小节对于成规模的语料库进行介绍,对于
中国古典诗词由于创作的时代背景不同,创作 其他语料则以古籍的文献类型作为分类标准,对现
者的个性与境遇不同,从而形成了豪放、婉约、平淡、 有已经用于文本自动挖掘的古代文献资源分别介
典雅等不同风格的诗篇。对诗词风格的分析有助于 绍,第 3 小节列举了古文自动处理常用软件工具。
理解诗词所蕴含的情感态度。Xuan 等[62] 对诗词风格 3.1 规模古籍语料库
自动识别进行了探索,基于 CNN 模型实现了中国古 先秦典籍由于其影响范围之广,文学价值之深,
典诗词的风格自动识别,与贝叶斯模型和信息增益 受到了较多的研究。南京师范大学语言科技研究所
模型相比,该方法在较少人工干预的情况下取得了 面向先秦典籍,构建了包含《论语》
《管子》
《韩非子》
更优的分类效果。 《老子》
《孟子》
《吴子》
《荀子》
《墨子》
《庄子》
《左传》
从上述相关研究可以发现,当前古文自动分类 《公羊传》
《谷梁传》
《吕氏春秋》
《孝经》
《国语》
《礼记》
主要采用机器学习和深度学习模型,在构建的分类 《楚辞》
《商君书》
《尚书》
《诗经》
《孙子兵法》
《晏子春
数据集上开展模型的训练,并调用模型判断待分类 秋》
《仪 礼》 《周 易》等 共 25 典 籍 的 语 料
《周 礼》
文本的来源及风格,但当前应用的古籍类型仍较为 库[28]136,[31]60。该语料库不仅对上述典籍进行了数字化
单一,仅在先秦诸子和古典诗词语料上开展了相关 存储,还对全部语料进行了人工分词与词性标注,此
研究,且对于古文的自动分类,训练集的主题与分布 外还提供了机器学习模型自动分词与词性标注的辅
情况对于模型分类性能的高低具有较大影响。 助校对结果供比较,也是国内现有规模最大的人工
在上述古文篇章层面的相关研究中,可以清楚 标注先秦典籍语料库。
和句子层面少了很多,虽然学者在古文自动校勘、自 中国上古古籍文库——汉达文库[5]40,[48]68(http://www.
动生成、自动分类等方面均开展了一定的探索,但是 chant.org),该语料库收录了自商周直到魏晋南北朝
校勘是篇章层面处理的重点和难点,是保证文本准 库、竹简帛书资料库、金文资料库、先秦两汉资料库、
确性的关键,但是当前的处理方法仍较为原始,且仍 魏晋南北朝资料库、中国传统类书资料库和中国古
古文自动处理,未来应该不断引入高性能的算法模 多为旧刻善本,且全部经过了重新标点与校勘,对于
型进行探究。 词汇资料库,提供了每个词汇的读音、词义及用例
信息。
3 古文自动处理语料资源与现有工具
中国台湾研究院构建了研究院古汉语语料
目前,尚无学界普遍认可的一套典籍文献分类 库[9]37,[14]7(http://lingcorpus.iis.sinica.edu.tw/ancient/),该
标准,既有按照古籍文献类型划分的(如史书、医书、 语料库包含上古汉语标记语料库、中古汉语语料库、
农书、地方志等),也有按照产生时期划分的,还有沿 和近代汉语语料库 3 个次级库,其中,上古汉语和近
10
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月
代汉语库中的部分古籍已经进行了分词和词性标 医 诊 断 古 籍 文 本 语 料 库 ,涵 盖 了 中 医 古 文 常 见 的
注,并提供了面向全语料库的在线检索服务。 证候。
北京大学中国语言学研究中心构建了总字数达 农业古籍承载了古代社会耕种、畜牧等生产技
到 2 亿字的 CCL 古代汉语语料库[14]7(http://ccl.pku.edu. 术知识与经验,反映了不同历史时期的农业思想,是
cn:8080/ccl_corpus/),该语料库未经过分词,但提供汉 研究农业史、经济史,以及农业种植、饲养、利用技术
字级别的检索服务。 的重要语料来源。中国古代农业百科全书《齐民要
国家语言文字工作委员会构建了包含 7 000 万 术》的柯逢时家清抄本、马直卿刻本、渐西村舍刻本、
字 的 古 代 汉 语 语 料 库(http://corpus. zhonghuayuwen. 和缪启愉校释本均已实现了数字化,并取得了一定
org/),收录了自周朝至清代的重要古籍,如部分先秦 的研究成果[54]84。上世纪 50 年代,我国农史学家万国
典籍、四库全书、四大名著等内容。由于语料库没有 鼎先生组织数人,从全国各地方志书中,摘抄了动
经过分词和词性标注,提供基于字符匹配的全文检 物、植物、矿物等物产信息,最终编纂成一套农业专
索服务。 题资料《方志物产》丛书[29]68,[34]89。
农业古籍是与古代记载有关耕种、作物等农业 史书类古籍记录了历朝历代的主要历史人物与
活动相关的书籍。在该方面,南京农业大学农业遗产 重大历史事件,对史书语料的挖掘可以展现朝代兴
研究室构建了包含 600 万字的“中国农业科技遗产信 衰更迭,揭示历史演变规律,反映中华文明的发展历
息数据库”,覆盖了诸如《齐民要术》
《农政全书》
《棉 程。当前古文自动处理涉及的史书类古籍主要有《史
书》等共计 214 部数字化的农业古籍全文数据[49]116。 记》[45]113《汉书补注》[12]8《后汉书》 《北齐书》[16]64
《陈书》
该数据库分为题录库、全文库、图文库 3 类共 5 个子 三国志[26]123《清史稿》等。
库,其中,题录库分为古农书题录数据库和农史论文 先秦诸子典籍具有重要的史学、文学和传统思
题录数据库,可按照题目、作者、分类等途径进行检 想文化价值。除上一小节的南京师范大学语言科技
索;全文库分为农业古籍全文库和农史论文全文库, 研究所“先秦典籍语料库”中所包含的典籍外,其相
提供了全文检索和下载服务;图文库主要收录了《中 关注疏文献也受到了学界的关注。例如,中华书局
古农业遗产选集》中 10 种作物种类,并同样提供多途 1957 年出版的《论语集注》,上海古籍出版社 1990 年
径检索服务。 出版的《论语注疏》[43]222,以及《孟子集注》
《孟子注疏》
3.2 其他各类型语料 《孟子正义》[11]180《春秋左传正义》[8]14 等均为古文自动
医学古籍是中医传承的重要载体,记录了历代 处理的重要支撑语料。
中医基础理论与临床经验。对于医学类古书文献的 此外,还有笔记体百科全书《梦溪笔谈》、韵书
挖掘分析,可以展现中医理论不断演变完善的过程, 《大宋重修广韵》
(《广韵》)、佛经类古籍《撰集百缘
推动现代中医学的进一步发展。
《黄帝内经》是中国 经》 《杂 譬 喻 经》[16]64,小 说 类 古 籍《幽 明
《百 喻 经》
第一部中医古籍,目前,经数字化的有郭霭春版《黄 录》[16]64、
《阅微草堂笔记》,菊花古典诗词语料[33]152 等
帝内经》,胡氏古林书堂《新刊黄帝内经灵枢》,熊宗 得到了相关学者的文本分析与知识挖掘。
立种德堂《黄帝素问灵枢集注》
《重广补注黄帝内经 3.3 自动处理工具
素问》。此外,江西中医药大学中医研究所构建了中 当前,支撑古文自动处理的工具并不丰富,且几
11
第 3 卷第 1 期 科 技 情 报 研 究
应的古文自动处理与知识挖掘平台。 古文知识挖掘的内容,便于和研究者共享所取得的
12
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月
向云南方志物产知识库,构建了物产知识综合检索 动处理的平台系统,基本涵盖了古籍信息的组织、标
与呈现平台,能够展示输入物产名的各类关联数据, 引、存储、检索、呈现等各个方面。
还能通过 GIS 呈现物产的时空分布与演变趋势。刘忠
5 讨论与展望
宝等[35]121 开发了一款《史记》事理图谱可视化系统,可
以自动抽取输入古文中的历史事件,并通过知识图 经过上文的整理分析,本文对当前古文自动处
谱的方式,对历史事件中的组成元素及事件间关系 理领域的研究情况进行了分析论述。可以看出,古文
校勘,系统还提供了诸如《古代官名表》
《字词索引》 部分分别从领域划分、语料资源、方法工具和知识成
等一系列辅助校勘工具。陈楚云等[64]构建了针灸古籍 果 4 个方面,对新时代古文自动处理的研究方向进行
经验推荐平台,该系统综合运用自动分词、规则提 展望。
对于针灸古籍中经络、穴位、病症、治疗方式等知识 在古文词汇自动处理方面的研究已经较为广泛
代中医文献自动分词与词性标注系统,可基于加入 动处理的基础工作自动分词,在深度学习技术如火
的古文在线自动分词平台,与其他分词系统相比,该 应该踏上人工智能技术的浪潮,利用其强大的特征
平台可以根据用户的反馈实时优化分词性能,并保 提取与知识学习能力,助力自动分词任务的高质量
了一套古代文本自动注释系统(ATAS),该系统能够 解决词汇自动处理问题,还应该探索一体化词法分
自动通过关联数据,从不同数据库中获取资源,自动 析方法,通过一个模型、一次训练,解决全部词法分
注释古代文本,从而使得用户可以实时查阅相关注 析任务。
典诗歌自动生成系统“九歌”,该系统支持多种输入 引入深度学习模型,进一步提升古籍自动断句标点
形式与体裁风格,还可以根据用户修改意见动态更 的准确率,并尝试将该方法应用到句子对齐、句法和
新与重新生成符合要求的诗篇。 语义标注中。对于句子对齐任务还可以尝试引入无
可以发现,当前古文自动处理已经积累了丰富 监督或半监督的机器学习方法。另一方面,对于深层
的知识库。一方面,这些语料资源可以作为具有领域 次的句法和语义挖掘这一重难点任务,应不断尝试
知识的机器学习模型训练文本,从而获得针对古文 新的方法,对句子组成元素间的依存关系,各类句法
自动处理领域的专业性模型;另一方面,词汇级别的 结构特点进行探索。
语料库可以作为句子级别和篇章级别古文自动处理 在古文篇章自动处理层面,由于涉及语料篇幅
的基础,指导更高层次的古文挖掘任务。对于古文自 大,包含信息繁杂,各任务当前均处于探索性实验,
13
第 3 卷第 1 期 科 技 情 报 研 究
且取得的成果较为稀少。未来,在大规模分词标注语 代社会风貌变迁[66],发掘传统法律文化的现代应用价
料库与句法知识库的基础上,通过综合运用分类和 值[67-68] 等具有重要意义。因此,对特殊类型文献资源
聚类的算法,实现高精度高速度的自动校勘,多类型 的分析挖掘,也是古文自动处理研究的新方向之一。
的自动生成,更可靠的自动分类。 5.3 方法工具
5.2 语料资源 进一步扩大深度学习技术的应用范围。虽然目
构建精加工的语料库。虽然目前国内已经建成 前在古文自动处理领域,已经出现了许多基于规则
了诸如“南京师范大学先秦典籍语料库”
“ 香港中文 和基于统计的方法,但是这些方法在制定规则时难
大学汉达文库”等具有较大规模的语料库,但是大多 以穷举全部的匹配规则,在人工提取特征时,也无法
仅仅是全文数据库,并未经过分词与词性标注等加 保证特征的全面性与正向作用。此外,人工进行的特
工处理,不利于开展古文自动处理任务。绝大多数古 征工程大多针对外在文本特征,例如词频、左右边界
文自动处理相关研究使用的语料都来自于网络抓取 词、拼音等,难以对深层特征进行表示。而深度学习
或是自建语料库,这样无法保证数据的准确性与权 的出现,很好的解决了上述问题。由于深度学习模型
威性。因此,在新时代需要国家统一规划,首先保证 可以通过多层神经网络结构,自动从输入训练集中
数据源准确可靠,在此基础上,构建经过精加工处理 提取并学习复杂语言学知识与上下文语境信息,从
后的“熟语料库”。 而保证了特征提取的全面性与深入性。现有的研究
发布面向古文的算法测评数据集。目前,在古文 也表明,与传统的处理方法相比,深度学习模型通常
自动处理领域,暂无专门面向算法测评的数据集,这 都能取得更优的效果。
不利于古文自动处理新方法新模型的产生,限制了 近几年,以 BERT 为代表的深度文本表示模型,
发展速度。当前用于训练古文自动处理的机器学习 借助其强大的上下文信息提取能力而获取了超越人
或深度学习模型的语料库通常是研究人员自行构建 类阅读理解水平的性能。中国的古代文本由于存在
的,这就导致了语料规模较小、质量难以衡量、容易 大量的倒装、省略、被动等句式,使得其上下文具有
出现重复劳动等问题。而从国家层面对古文资源整 极强的关联性,非常适合引入先进的深度文本表示
合,制定统一的分词、词性、实体、句法标注规范,招 模型来学习其语句间的参照与关联信息。此外,还可
募古文学专业人员进行大规模人工标注与机器辅助 以综合运用迁移学习与强化学习相关模型算法,解
标注,最终构建完成面向古文自动处理各领域方向 决标注语料库规模较小与泛化能力不足的问题。
的权威性、规范性算法测评数据集,可以极大地促进 研发面向古文的拖拽式处理工具。古代汉语由
古文自动处理相关算法模型的创新与发展。 于历史悠久,且很少在日常生活中使用。因此,想要
拓展古文自动处理对象类型。当前古文自动处 从古文中挖掘知识,就需要具有相关古文专业背景。
理主要面向古代书籍,尤其是先秦典籍和二十四史 然而,具有汉语言、历史学等专业背景的研究人员大
两大类别的古代文献资源。但是,除了常见的书籍文 多不具备专业的计算机编程与数据分析技能,当前
献,还存在有诸如诏令奏议、法典律令、铭文祭文等 又缺少古文处理的专业性工具。因此,开发一套综合
多种特殊形式的古文。这些史料文本记载了古代历 性古文自动处理工具,用简单易懂的拖拽式流程设
法、宗教、礼仪、祭祀等多方面内容,对于了解我国古 计方式取代繁琐专业的程序设计,可以大大降低古
14
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月
文研究者开展古文自动处理研究的门槛,提高科研 款通用型,普适性强,可以处理任何古文数据,胜任
效率。 不同粒度、不同层次古文自动处理任务的综合性系
多种算法相结合的方法。基于规则的方法操作 统,是未来研究的新方向之一。
简便,但由于是针对特定文本进行的规则制定,因 此外,当前虽然已经出现了许多处理后的语料
此,可移植性较差。基于统计的方法尤其是深度学习 库与各类辅助古文自动处理的平台系统,但绝大多
方法能够自动从古文中学习深层特征,可以灵活的 数知识成果并未公开发布。这一方面为知识共享制
迁移到不同类型的古文自动处理任务中。但是,需要 造了阻碍,另一方面,也难以保证研究成果的真实
构建大规模人工标注语料库,且在训练过程中需要 性。因此,我们建议未来的古文自动处理研究中,应
巨大的算力支持。尤其是近年来深度学习领域出现 该倡导开源代码、数据、以产生的知识成果,并相应
了这样一种现象,语料规模和算力资源的大幅增加 的推出一些激励机制,促进研究者将所取得的知识
仅能略微提升算法性能,投入和产出的差距愈发悬 成果开放。
殊。因此,能够结合 2 种方法,设计出操作简便且无需
6 结语
耗费大量人力、算力的综合性方法,提出能够适应新
资源环境下的古文信息处理理论技术与方法,是未 中国典籍文献是传承中华文明的瑰宝,是中华
来的算法开发趋势。 优秀传统文化的结晶。本文从古文自动处理领域划
15
第 3 卷第 1 期 科 技 情 报 研 究
图 1 古文自动处理研究现状梳理图
文自动处理使命感、古文大数据分析能力的专业型、 不断创造中国文化新的辉煌。
复合型人才,对传统文化进行深度挖掘、传承、创新,
参考文献:
[1] 习近平 . 坚定文化自信,建设社会主义文化强国[J]. 奋斗,2019(12):1-10.
[2] 黄水清 . 人文计算与数字人文:概念、问题、范式及关键环节[J]. 图书馆建设,2019(05):68-78.
[3] 黄水清,王东波 . 古文信息处理研究的现状及趋势[J]. 图书情报工作,2017,61(12):43-49.
[4] 顾磊,赵阳 . 古籍智能整理研究现状及存在的问题[J]. 图书馆学研究,2016(09):54-58.
[5] 石民,李斌,陈小荷 . 基于 CRF 的先秦汉语分词标注一体化研究[J]. 中文信息学报,2010,24(02):39-45.
[6] 黄建年 . 农业古籍的计算机断句标点与分词标引研究[D]. 南京:南京农业大学,2009.
[7] FANG M,JIANG Y,ZHAO Q,et al.Automatic word segmentation for Chinese classics of tea based on
tree-pruning[C]//2009 Second International Symposium on Knowledge Acquisition and Modeling. IEEE,
2009,
(01):438-441.
[8] 徐润华,陈小荷 . 一种利用注疏的《左传》分词新方法[J]. 中文信息学报,2012,26(02):13-17,45.
[9] 段磊,韩芳,宋继华 . 古汉语双字词自动获取方法的比较与分析[J]. 中文信息学报,2012,26(04):34-42.
[10] TONG FEI C,WEI MENG Z,XUE QIANG L,et al.A kalman filter based human-computer interactive
word segmentation system for ancient chinese texts[M]. Chinese computational linguistics and natural
language processing based on naturally annotated big data.Berlin,Heidelberg:Springer,2013:25-35.
[11] 梁社会,陈小荷 . 先秦文献《孟子》自动分词方法研究[J]. 南京师范大学文学院学报,2013(03):175-182.
[12] 王嘉灵 . 以《汉书》为例的中古汉语自动分词[D]. 南京:南京师范大学,2014.
[13] 王姗姗,王东波,黄水清,等 . 多维领域知识下的《诗经》自动分词研究[J]. 情报学报,2018,37(02):183-193.
[14] 留金腾,宋彦,夏飞 . 上古汉语分词及词性标注语料库的构建:以《淮南子》为范例[J]. 中文信息学报,2013,
27(06):6-15,81.
[15] 黄水清,王东波,何琳 . 以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J]. 图书情报工作,2015,
16
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月
59(11):127-133.
[16] 王晓玉,李斌 . 基于 CRFs 和词典信息的中古汉语自动分词[J]. 数据分析与知识发现,2017,1(05):62-70.
[17] FU X,YUAN T,LI X,et al. Research on the Method and SYSTEM of Word Segmentation and POS
Tagging for Ancient Chinese Medicine Literature[C]//2019 IEEE International Conference on
Bioinformatics and Biomedicine (BIBM).IEEE,2019:2493-2498.
[18] LI S,LI M,XU Y,et al.Capsules Based Chinese Word Segmentation for Ancient Chinese Medical Books
[J].IEEE Access,2018,
(06):70874-70883.
[19] 李成名 . 基于深度学习的古籍词法分析研究[D]. 南京:南京师范大学,2018.
[20] 程宁,李斌,葛四嘉,等 . 基于 BiLSTM-CRF 的古汉语自动断句与词法分析:体化研究[J]. 中文信息学报,
2020,34(04):1-9.
[21] 朱晓,金力 . 条件随机场图模型在《明史》词性标注研究中的应用效果探索[J]. 复旦学报(自然科学版),
2014,53(03):297-304.
[22] 钱 智 勇 ,周 建 忠 ,童 国 平 ,等 . 基 于 HMM 的 楚 辞 自 动 分 词 标 注 研 究 [J]. 图 书 情 报 工 作 ,2014,58(04):
105-110.
[23] 王东波,黄水清,何琳 . 基于多特征知识的先秦典籍词性自动标注研究[J]. 图书情报工作,2017,61(12):
64-70.
[24] 曾艳,侯汉清 . 古籍文本抽词研究[J]. 图书情报工作,2008(01):132-135.
[25] 朱锁玲,包平 . 方志类古籍地名识别及系统构建[J]. 中国图书馆学报,2011,37(03):118-124.
[26] 皇甫晶,王凌云 . 基于规则的纪传体古代汉语文献姓名识别[J]. 图书情报工作,2013,57(03):120-124.
[27] 汤亚芬 . 先秦古汉语典籍中的人名自动识别研究[J]. 现代图书情报技术,2013(Z1):63-68.
[28] 黄水清,王东波,何琳 . 基于先秦语料库的古汉语地名自动识别模型构建研究[J]. 图书情报工作,2015,59
(12):135-140.
[29] 李娜,包平 . 面向数字人文的馆藏方志古籍地名自动识别模型构建[J]. 图书馆,2018(05):67-73.
[30] 王东波,高瑞卿,沈思,等 . 面向先秦典籍的历史事件基本实体构件自动识别研究[J]. 国家图书馆学刊,
2018,27(01):65-77.
[31] 袁悦,王东波,黄水清,等 . 不同词性标记集在典籍实体抽取上的差异性探究[J]. 数据分析与知识发现,
2019,3(03):57-65.
[32] 李章超,李忠凯,何琳《左传》
. 战争事件抽取技术研究[J]. 图书情报工作,2020,64(07):20-29.
[33] 崔竞烽,郑德俊,王东波,等 . 基于深度学习模型的菊花古典诗词命名实体识别[J]. 情报理论与实践,2020,
43(11):150-155.
[34] 徐晨飞,叶海影,包平 . 基于深度学习的方志物产资料实体自动识别模型构建研究[J]. 数据分析与知识发
现,2020,4(08):86-97.
[35] 刘忠宝,党建飞,张志剑 《史记》
. 历史事件自动抽取与事理图谱构建研究[J]. 图书情报工作,2020,64(11):
17
第 3 卷第 1 期 科 技 情 报 研 究
116-124.
[36] XIA L,BIN W,BAI LING Z.Unknown Word Detection in Song Poetry[C]//2016 IEEE First International
Conference on Data Science in Cyberspace (DSC).IEEE,2016:544-549.
[37] XIE T,WU B,WANG B. New Word Detection in Ancient Chinese Literature[C]//Asia-Pacific Web
(APWeb) and Web -Age Information Management (WAIM) Joint Conference on Web and Big Data.
Springer,Cham,2017:260-275.
[38] 张开旭,夏云庆,宇航 . 基于条件随机场的古汉语自动断句与标点方法[J]. 清华大学学报(自然科学版),
2009,49(10):1733-1736.
[39] BO LI W,XIAO DONG S,ZHI XING T,et al. A Sentence Segmentation Method for Ancient Chinese
Texts Based on NNLM[C]//Workshop on Chinese Lexical Semantics.Springer,Cham,2016:387-396
[40] HONG BIN W,HAI BINGW,JIAN YI G,et al. Ancient Chinese Sentence Segmentation Based on
Bidirectional LSTM + CRF Model[J]. Journal of Advanced Computational Intelligence and Intelligent
Informatics,2019,23(04):719-725.
[41] 俞敬松,魏一,张永伟 . 基于 BERT 的古文断句研究与应用[J]. 中文信息学报,2019,33(11):57-63.
[42] 郭锐,宋继华,廖敏 . 基于自动句对齐的相似古文句子检索[J]. 中文信息学报,2008(02):87-91,105.
[43] 马创新,陈小荷,曲维光 . 注疏文献中的注释语句自动分析[J]. 计算机科学,2012,39(10):220-223.
[44] DA YI HENG L,KE XIN Y,QINA Q,et al. Ancient-Modern Chinese Translation with a New Large
Training Dataset[J]. ACM Transactions on Asian and Low-Resource Language Information Processing
(TALLIP),2019,19(01):1-13.
[45] 刘颖,王楠 . 最大熵模型和 BP 神经网络的短句对齐比较[J]. 计算机工程与应用,2015,51(07):112-117.
[46] 梁继文,江川,王东波 . 基于多特征融合的先秦典籍汉英句子对齐研究[J]. 数据分析与知识发现,2020,4
(09):123-132.
[47] 于丽丽,丁德鑫,曲维光,等 . 基于条件随机场的古汉语词义消歧研究[J]. 微电子学与计算机,2009,26
(10):45-48.
[48] 张颖杰,李斌,陈家骏,等 . 基于词典信息的先秦汉语全文词义标注方法研究[J]. 中文信息学报,2012,26
(03):65-71,103.
[49] 常娥,张长秀,侯汉清,等 . 基于向量空间模型的古汉语词义自动消歧研究[J]. 图书情报工作,2013,57
(02):114-118.
[50] 冯秋香 . 基于数据库语义学的古汉语句法语义分析研究[D]. 大连:大连理工大学,2012.
[51] HENG W,WEN XIN H,AI HUA O,et al.Ancient medical literature semantic annotation using hidden
markov models[C]//2014 IEEE International Conference on Bioinformatics and Biomedicine(BIBM).IEEE,
2014:37-40.
[52] 丁长林,白宇,蔡东风 . 基于有监督学习的医古文叙述性术语语义标注[J]. 中文信息学报,2015,29(02):
18
邓三鸿,胡昊天,王 昊,等:古文自动处理研究现状与新时代发展趋势展望 2021 年 1 月
49-57.
[53] 周澍绮 . 基于 GATE 的楚辞语义标注研究[J]. 图书馆理论与实践,2015(11):58-62,101.
[54] 常娥,侯汉清,曹玲 . 古籍自动校勘的研究和实现[J]. 中文信息学报,2007(02):83-88.
[55] 周学文,江荻《元朝秘史》
. 的计算机自动校勘方法[J]. 语言文字应用,2007(03):136-142.
[56] 蒋锐滢,崔磊,何晶,等 . 基于主题模型和统计机器翻译方法的中文格律诗自动生成[J]. 计算机学报,2015,
38(12):2426-2436.
[57] XIAO YUAN Y,RUO YU L,MAO SONG S. Generating Chinese Classical Poems with RNN Encoder-
decoder[M]. Chinese Computational Linguistics and Natural Language Processing Based on Naturally
Annotated Big Data.Springer,Cham,2017:211-223.
[58] 黄文明,卫万成,邓珍荣 . 基于序列到序列神经网络模型的古诗自动生成方法[J]. 计算机应用研究,2019,
36(12):3539-3543.
[59] GUO Z,XIAO YUAN Y,MAO SONG S,et al.Jiuge:A Human-machine Collaborative Chinese Classical
Poetry Generation System[C]//Proceedings of the 57th Annual Meeting of the Association for Com-
Putational Linguistics:System Demonstrations.2019:25-30.
[60] 王东波,何琳,黄水清 . 基于支持向量机的先秦诸子典籍自动分类研究[J]. 图书情报工作,2017,61(12):
71-76.
[61] 秦贺然,刘浏,李斌,等 . 融入实体特征的典籍自动分类研究[J]. 数据分析与知识发现,2019,3(09):68-76.
[62] JING X,ZHONG SHI H,LIANG YAN L,et al. Brain-oriented Convolutional Neural Network Computer
Style Recognition of Classical Chinese Poetry[J].Neuro Quantology,2018,16(04).
[63] BAO P,ZHU S. System Design for Location Name Recognition in Ancient Local Chronicles[J]. Library
HI-IECH,2014,32(02):276-284.
[64] 陈楚云,洪佳明,周蔚林,等 . 基于数据挖掘技术构建针灸古籍经验推荐平台的方法与应用[J]. 中国针灸,
2017,37(07):768-772.
[65] TSIAO TING T,CHIH MING C,CHEN YU L. An Automatic Text Annotation System to Improve
Reading Comprehension of Chinese Ancient Texts[C]//2018 7th International Congress on Advanced
Applied Informatics (IIAI-AAI).IEEE,2018:176-181.
[66] 鲁迪 . 江浙地区现存唐宋经幢铭文浅析[J]. 文物鉴定与鉴赏,2020(07):8-11.
[67] 于语和,雷园园 . 论中国传统法律文化在依法治国中的价值[J/OL]. 北京理工大学学报(社会科学版):1-12
[2020-09-14].http://kns.cnki.net/kcms/detail/11.4083.C.20200909.1754.002.html.
[68] 董淑平 . 浅论中国古代法律思想对现代法治的作用[J]. 法制博览,2019(36):247-248.
19
第 3 卷第 1 期 科 技 情 报 研 究
Abstract: [Purpose / significance]With the popularization of digitized ancient books and documents, the use of
natural language processing and big data analysis technology to carry out text mining and knowledge
discovery on ancient Chinese books has gradually become an important research direction in the field of
ancient information processing of digital humanities and an important way to reflect cultural confidence.
[Method /process]This article defined the concept of ancient Chinese character automatic processing.Wesorted
out the connotation and extension of the ancient Chinese character automatic processing, and grasped the
overall research status and development trend of this fieldfrom the three aspects of the field of automatic
ancient texts processing and model algorithms, corpus resources and existing tools, knowledge bases and
platform system. [Result / conclusion]We conducted a more comprehensive summary of the current research
status of ancient Chinese character automatic processing,and analyzed the existing problems and deficiencies.
Keywords: ancient Chinese character automatic processing; digital humanities; traditional culture; cultural
confidence; ancient Chinese character information processing
20