Professional Documents
Culture Documents
12
2022 年 12 月 ACTA AUTOMATICA SINICA December, 2022
基于篇章的汉语句法结构树库
1 1 1 1
卢露 矫红岩 李梦 荀恩东
摘 要 为快速构建一个大规模、多领域的高质树库, 提出一种基于短语功能与句法角色组块的、便于标注多层次结构的
标注体系, 在篇章中综合利用标点、句法结构、表述功能作为句边界判断标准, 确立合理的句边界与层次; 在句子中以组块
的句法功能为主, 参考篇章功能、人际功能, 以 4 个性质标记、8 个功能标记、4 个句标记来描写句中 3 类 5 种组块, 标注基
本句型骨架, 突出中心词信息. 目前已初步构建有质量保证的千万汉字规模的浅层结构分析树, 包含 60 余万小句的 9 千余
条句型结构库, 语料涉及百科、新闻、专利等应用领域文本 1 万余篇; 同时, 也探索了高效的标注众包管理模式.
关键词 语料库标注, 树库, 语块, 句法分析
引用格式 卢露, 矫红岩, 李梦, 荀恩东. 基于篇章的汉语句法结构树库. 自动化学报, 2022, 48(12): 2911−2921
DOI 10.16383/j.aas.c190828
Abstract In order to provide a large scale annotation of Chinese functional chunk for linguistic research and syn-
tactic parsing, we present a method to quickly build a discourse based Chinese chunkbank with high quality in
multi-domain: Firstly, we use punctuations, syntax, expression functions of VP and NP, to segment complex sen-
tences into several independent simple sentences; Secondly, based on the syntactic function, textual function, dis-
course function and interpersonal function of the chunks, we design 4 phrase tags, 8 functional tags, 4 sentence
boundary tags to depict the chunks, which was classified into 3 types and 5 kinds. the annotators annotated the
skeleton structure and highlighted the head word of the predicate for every simple sentence. Until now, we have
been annotating more than 10 million of Chinese characters, including 9 thousand of skeleton structures for 60 thou-
sand sentences. The chunkbank covers a range of text genres, including baidubaike, internet news, patent, etc. At
the same time, we explored an effective model of crowdsourced data management.
Key words Corpus annotation, treebank, chunk, syntactic parsing
Citation Lu Lu, Jiao Hong-Yan, Li Meng, Xun En-Dong. A discourse-based Chinese chunkbank. Acta Automatica
Sinica, 2022, 48(12): 2911−2921
图1 组块状标注结果及浅层分析的树结构示例
Fig. 1 A sample of shallow chunk-based syntactic tree
12 期 卢露等: 基于篇章的汉语句法结构树库 2913
篇章
段落
单句 ROOT 复句 ROOT
分句 1 分句 2
小句 IP 小句 IP 片段 HLP
图2 篇章中 “句”的层次结构示例
Fig. 2 A Sample of the hierarchy in Chinese discourse sentences
12 期 卢露等: 基于篇章的汉语句法结构树库 2915
高标注一致性, 目前规范中有 11 章、87 节内容、 式中, 对数加 1 以防止出现 lg0 的情况. 权重 (1) 为
900 多条例句, 除词表附录共 66 页. 通过这样的策 计算文本质量的方法, 权重 (2) 用以作为评估标注
略, 可以尽力平衡规范前期的稳定性与动态修订性, 人员标注表现进而计算工资的一种方法, 从而鼓励
同时这样的编排也便于标注者索引. 标注者重视低频标签的标注准确性.
2.2 标注人员与标注质量、速度控制 2) 按 20% ~ 30% 的比例, 人员与语料由系统
双随机派发 “埋雷文本”与 “审核文本”. 每一篇 “埋
平衡标注质量、速度与规模, 需要高专业素养
雷文本”需要两位标注人员在得到第 1 次一致性校
的标注人员、有效的质量评测与反馈机制、高效的
验结果后, 讨论协商后再次提交进行一致性校验,
标注与管理办法.
难以一致的问题提交管理人员仲裁; 埋雷文本第 1
句法结构标注的难度远高于其他标注任务, 对
次所得 Kappa 值, 作为该标注人员工资系数标准,
标注人员的专业素养要求高. 本文始终维持着一个
也作为该标注人员当期所标注的其他 “审核文本”
语言学专业的标注团队, 参与标注的团队成员都需
是否进入树库备选的依据 (需 Kappa ≥ 0.8); “审核
通过标注考核, 每期有效标注人员保持在 35 人以上.
文本”则是不进行一致性校验, 但由管理人员随机
在质量评测与反馈方面, 本文主要做了以下
抽查的文本, 通过审核的 “审核文本”的字数总和,
工作:
决定标注人员的工资总额, 而不合格的文本直接全
1) 改进计算标注一致性的 Kappa 算法, 以精
文本报废处理, 管理人员同时也通过程序抽取出的
确衡量每个组块及全文本标注质量, 为组织标注工
句子骨架, 重点审核低频出现的句子骨架, 加以反
作、数据使用提供参考. 句法结构标注的一致性, 本
馈修订. 所有备选树库中的数据需要再经过树结构
质是递归结构切分与定性的一致, 结合自身标签设
转换代码检验, 不合法的句法树将被抛出, 合格的
计特点以及参考 Holle 等[23] 相关工作, 将比对文本
句法树构成了最终的树库.
中每个字符依次从 0 开始编码, 每个非标注字符都
3) 开发通用型在线标注平台、管理计算工具
有一个唯一的、有序的起止位置编码, 每两两标注
一致的字符起止位置对齐, 嵌套结构按起止码由大 (见图 3). 项目组研发了一个标注管理平台, 并在实
到小的顺序排列, 中间按组合顺序依次排列, 一方 践中不断完善. 在浅层句法标注上, 符号标注比树
缺失的补空, 标注符号与起止位置都相同即为一致 图可视化编辑更直观便捷, 而有层次嵌套的结构,
的判定标准. 据此按标注符号构建列联表, 计算全 符号标注比色块标注更便利, 但色块标注更便于标
文本单个标注符号 Kappa 系数, 再根据各标注符号 注检查; 因此, 平台支持选择性输入与快捷键输入,
在文本中的占比为权重, 计算全文本 Kappa值, 计 支持以色块和标注前后比对进行检查; 此外, 通用
算公式为 (具体算法推导超出本文范围, 将另行他 标注平台也支持标注相关人员协调管理, 对标注行
文详述): 为进行实时跟踪、反馈, 为标注任务管理提供参考;
∑
10 集成的管理工具可辅助、补充在线管理系统, 保证
K= ρi ki 管理灵活性的同时, 确保管理的系统性.
i=1
2.3 人机互助的语料加工
如第 3.1.1 节所述, 本树库在人工标注阶段, 有
10 类人工标注符号, i 为遍历时的第 i 类标注符; ki 在完成一定规模数据标注后, 初步分类训练了
( −1≤ ki ≤ 1 ) 为每类标注符 Kappa 值. ρi 为各类 机器标注模型, 初步探索了 “机标人校”的标注模
∑
标注符在全文本标注符中所占比重, ρ = 10 i=1 · 式 (具体实验另行他文介绍). 本文以已标注的百科、
ρi = 1 . 因计算目的不同, 权重 ρi 有两种计算方法. 新闻及专利语料为训练语料, 采用自注意力机制编
下面用 mi 表示当前统计标注符号在两个人标注的 码[24] 和基于 Cocke-Younger-Kasami (CYK) 的图
文本中, 总共出现的次数, 用 n 表示 2 个人各自标 表算法解码[25], 以 Bert[26] 进行预训练, 训练所得句
∑10
注的符号数之和, 即, n = i=1 mi. 两种计算方式 法分析器的 F1 值为 94.3; 其次, 以句法分析器自动
如下: 标注新闻、百科、专利以及小学生作文、法律判决书、
2918 自 动 化 学 报 48 卷
图3 标注平台标注界面及管理工具界面
Fig. 3 The interface of annotation website and management tool
表 2 目前有效标注语料分布
Table 2 The data distribution of the valid annotated data
新闻 132 009 359 373 50 378 4 920 170 4 813 新浪 2006、新华社新闻 2012 ~ 2018 年新闻
自动化控制系统、电子学与计算机、轻工、大气与海洋及
百科 76 595 149 097 14 823 2 376 151 2 982
水文科学、航空航天、经济学
专利 69 260 166 462 16 966 2 839 935 3 915 2018 年国家专利申请文书描述与权利申明部分
类别 平均 最大 最小 中位数 众数 平均
新闻 37 837 1 33 1 13.69
百科 31 251 0 27 20 15.94
专利 40 819 0 29 16 17.06
12 期 卢露等: 基于篇章的汉语句法结构树库 2919
一个提供结构检索、词、词性混合检索的句型库, 以 非标点句对数刻度分布
100 000 63 790
供语言学研究使用, 如以检索式 “%(.v 以){@}”检 7 019 7 412
10 000 1 956 3 673 3 094
索 “‘动词/动语素’+‘以’”后跟谓词宾语的所有结构, 868 664
1 000 338
目前库中可检索到 157 条记录, 比如: “被告人吕宏 74 70 句型
(予以){应允}. ” “权钱交易、权力寻租现象 (得以) 100 23 小句
10 15
{防控}. ” 等, 而随着自动标注模型的标注准确性 10
2
4
2
4
提升, 可以自动分析任何语料, 以提供更多结构检 1
号
号
号
索实例, 为语言学研究服务.
折
叹
句
缺
破
105 句型 图5 标句点号失效、缺省在 IP 小句中的分布
趋势
104 Fig. 5 Sentence-division-punctuation is
invalid or missing
频次
103
102
9 408 条句型框架频次与
101 排名顺序双对数曲线 Kappa ≥ 0.8 为标准 (见图 6). 目前, 平均 Kappa 值
10 0
100 101 102 103 104
为 0.87, 各主要标注符号的一致性校验也均在 0.8
排序 以上, 其中 13% 的文件 Kappa 值超过 0.95, 约 24
图 4 基本句型随机法齐夫对数分布
万余字规模; 除了文件总体的一致性校验合格, 大
Fig. 4 The rank-frequency random logarithmic 部分成分块及边界判断的一致性校验也是合格的,
distribution for the sentence patterns 而句边界 (注销符) 及谓词性主宾语、主谓谓语一致
性校验结果较低. 一方面, 这些边界及成分块判定
此外, 从小句标点使用情况的分布来看, 破折
往往是标注的难点, 其内部较为复杂, 主观判断较
号、叹号、句号在较为正式的文本中做句边界的置
多, 另一方面也是后期本文要着重增加的长尾句型.
信度非常高 (图 5), 分号、省略号次之, 冒号、逗号、
问号作句边界, 则需要谨慎, 其中问号的情况较为 4 结束语
复杂, 有不识别的符号转码造成, 也有本身使用有
误的情况; 然而在句边界识别问题上, 最突出的问 本文介绍了一种基于篇章的、便于多层次结构
题不是标句点号的歧义性, 而是缺省标句点号, 以 扩展标注的浅层句法标注体系, 并据此, 初步构建
空格代替是常见情况, 少部分没有任何显性句边界 了一个千万汉字级的浅层短语结构树库, 提出一种
标记, 需以 “换主语”标记进行判断. 以述语为核心的句子骨架标注体系, 有助于保证质
量的情况下, 进行大规模、多层次结构标注. 同时也
3.2 树库标注质量评估 探索了众包环境下高效标注管理模式, 为后续各项
一致性校验是衡量树库质量和标注难度的可靠 扩展任务奠定了基础; 未来本文将从三个方面对树
指标, 也是衔接本树库构建过程中各环节的最重要 库进行扩容: 1) 依据解析器分析句型骨架效果、目
的数据参考. 由于本树库构建以全文本篇章为语料, 前树库句型骨架分布抽取相应的篇章、段落、句子
因此在决定文本是否进入备选树库时, 以全文本 进行有针对性的标注, 丰富树库中低频句型语料,
0.5
22%
5 Che W, Li Z, Liu T. Chinese dependency treebank1.0 (LDC- 20 Song Rou, Ge Shi-Li, Shang Ying, Lu Da-Wei. Chinese sentence
2012T05) [DB/OL].Philadelphia: Linguistic Data Consortium and clause for text information processing. Journal of Chinese
[Online], available: https://catalog.ldc.upenn.edu/LDC2012 T05, Information Processing, 2017, 31(2): 18−24, 35
April 16, 2019. (宋柔, 葛诗利, 尚英, 卢达威. 面向文本信息处理的汉语句子和小
句. 中文信息学报, 2017, 31(2): 18−24, 35)
6 Guo Li-Juan, Pen Xue, Li Zheng-Hua, Zhang Min. Construc-
tion of Chinese dependency syntax treebanks for multi-domain 21 Chen Rong-Chun. Talk about Chinese compound sentence from
and multi-source texts. Journal of Chinese Information Process- declarability. Linguistic Researches, 1981, 1981(1): 46−51
ing, 2019, 33(2): 34−42 (陈荣春. 从句子的表述性谈单句复句的划分. 语文研究, 1981,
(郭丽娟, 彭雪, 李正华, 张民. 面向多领域多来源文本的汉语依存 1981(1): 46−51)
句法树库构建. 中文信息学报, 2019, 33(2): 34−42)
22 Dong Xiu-Fang. The Phenomenon and Regularity of Chinese
7 Brody M. Phrase structure and dependence [Online], available: Lexicalization and Grammaticalization. Shanghai: Akademia Pre-
http://real-eod.mtak.hu/8176/1/WorkingPapersInTheTheoryOf- ss, 2017: 143−144
Grammar_01-1_1994.pdf, April 16, 2019. (董秀芳. 汉语词汇化和语法化的现象与规律. 上海: 学林出版社,
8 Qiu Li-Kun, Jin Peng, Wang Hou-Feng. A multi-view Chinese 2017: 143−144)
treebank based on dependency grammar. Journal of Chinese In- 23 Holle H, Robert R. Understanding Body Movement: A Guide to
formation Processing, 2015, 29(3): 9−15 Empirical Research on Nonverbal Behaviour With an Introduc-
(邱立坤, 金澎, 王厚峰. 基于依存语法构建多视图汉语树库. 中文 tion to the NEUROGES Coding System. Frankfurt am Main:
信息学报, 2015, 29(3): 9−15) Peter Lang GmbH Internationaler Verlag der Wissenschaffen,
9 Zhou Qiang. Build a large scale Chinese functional chunkbank. 2013. 261−277
In: Proceedings of the 6th National Conference on Computation- 24 Kitaev N, Cao S, Klein D. Multi-lingual constituency parsing
al Linguistics-natural Language Understanding and Machine Tra- with self-attention and pretraining [Online], available: https://
nslation. Taiyuan, China: 2001. 6 arxiv.org/abs/1812.11760, April 16, 2019.
(周强. 构建大规模的汉语语块库. 自然语言理解与机器翻译—全
国第六届计算语言学联合学术会议. 太原, 中国: 2001. 6) 25 Mitchell S, Jacob A, Dan K. A minimal spanbased neural con-
stituency parser. In: Proceedings of the 55th Annual Meeting of
10 Xue N, Palmer M. Adding semantic roles to the Chinese tree-
the Association for Computational Linguistics. Vancouver, Can-
bank. Natural Language Engineering, 2009, 15(1): 143−172
ada: 2017, 818–827
11 Kong F, Wang H L, Zhou G D. Suvery on Chinese discourse un-
26 Devlin J, Chang M W, Lee K, Toutanova K. Bert: Pre-training
derstanding. Journal of Software, 2019, 30(7): 2052−2072
of deep bidirectional transformers for language understanding.
12 Qian Xiao-Fei. Research review on chunk parsing. Modern arXiv preprint, 2018, arXiv: 1810.04805
12 期 卢露等: 基于篇章的汉语句法结构树库 2921
卢 露 北京语言大学信息科学学院 李 梦 北京语言大学信息科学学院
硕士研究生. 主要研究方向为语言智 硕士研究生. 主要研究方向为计算机
能与技术. 应用技术.
E-mail: 201821198367@stu.blcu.edu.cn E-mail: limeng_gertrude@163.com
(LU Lu Master student at the Col- (LI Meng Master student at the
lege of Information Science, Beijing College of Information Science, Bei-
Language and Culture University. jing Language and Culture Uni-
Her main research interest is linguistic intelligence and versity. Her main research interest is computer applic-
technology.) ations technology.)