Professional Documents
Culture Documents
櫗毉
语料库语言学研究
櫗櫗櫗櫗櫗櫗櫗毉
日语自动词性赋码器的信度研究
毛文伟
( 上海外国语大学,上海 200083)
要: 词性自动赋码技术的日臻成熟为语料库建设提供了有力支撑 。 与本族语语料不同,学习
摘
者产出中充斥着大量错误。这必然会对赋码的准确性造成干扰 。因此,除了精度以外,抗干扰能力也是
需要着重考虑的因素。本文统计并比较了日语开源自动词性赋码器对学习者语料赋码的精度以及赋码
信度与语料质量的相关性。从中发现,MeCab 表现最出色,ChaSen 次之,JUMAN 则稍逊一筹。 此外,研
究证实,日语开源赋码器对学习者语料赋码的精度甚至超过了本族语语料 。因此,完全可以充当语料库
建设的可靠工具。
关键词: 语料库; 赋码; 隐马尔科夫模型; 日语
中图分类号: H319. 3 文献标识码: A 文章编号: 1001-5795( 2012) 03-0010-0005
的错误。这必然会在一定程度上影响赋码结果的准确
1 引言
性。因此,自动词性赋码器的抗干扰能力也是需要着
从研究方法看, 基于学习者语料库的研究大致可以 重考虑的因素。
分为中介语 对 比 分 析 ( CIA) 和 计 算 机 辅 助 错 误 分 析 目前主流的日语自动词性赋码器可以分为两类。
( CEA) 两种( Granger et al. ,2002) 。由于国内现有的各 由 Yahoo! 、google、欧姆龙等公司开发的商业分词系统
类学习者语料库几乎都未进行词性赋码, 标注局限于各 或是需要购买使用许可,或是接口有严格限制,使用非
类表达失误,
导致我国基于学习者语料库开展的二语习 常不便。 在 语 言 研 究 中,应 用 较 为 广 泛 的 是 以 JU-
得研究也以计算机辅助错误分析为主,
中介语对比分析 MAN、ChaSen 和 MeCab 为代表的开源赋码器。
未能得到有效开展( 梁茂成,
2006) 。这无疑阻碍了我们 本文旨在考察这三种赋码器对学习者语料进行自动
全面、
深入地考察和分析人类的语言习得机制。 比较解析结果,
赋码的可行性。通过分析、 考察各赋码器
语料库建设是一项庞大的系统工程 。对词性等语 的大致精度、
造成解析错误的原因以及抗干扰能力的强
法信息进行手工标注既费力费时,又难以确保赋码标 弱。这些实证数据将为我们合理选用自动词性赋码器提
准的统一,缺乏可操作性。 幸而,经过多年努力,词性 供可靠依据,
推动语料自动赋码技术的广泛应用。
自动赋码技术已经日臻成熟,赋码准确率达到了较高
2 日语自动词性赋码的原理解析
水平。这为语料库建设提供了有力支撑 。
但是,为了确保语料自动赋码取得较好效果 ,我们 与汉语相似,日语单词之间的界限很不明显。 不
必须开展认真的先导性研究,对现有赋码器的信度进 同语法学派对单词的界定往往差别甚大。 因此,词性
行缜密分析。同时,与本族语语料不同,学习者产出中 自动赋码的难点就在于如何正确分词并根据分析结果
充斥着大量书写、词形、曲折变化以及词汇使用等方面 确定单词词性 。迄今为止 ,日本各大学以及研究机构
· 10·
毛文伟: 日语自动词性赋码器的信度研究
的学者对此进行了不懈探索,逐步摸索出了最长一致 可以此对输出的内容和格式进行灵活控制 。
法、
切分数最少法、接续可能性分析法和基于概率的接 由京都大学和日本电信电话株式会社联合开发的
续价分析法。 基于不同原理的分词方法精度相差很 MeCab 则首次实现了词典和系统的完全分离 。 只需更
大。其中,基于概率的接续价分析法精度最高 ,因此逐 换词典,就可以实现对不同语言的分析。此外,还将自
渐成为主流算法。 动学习的算法更新为 CRF,提高了学习和解析的效率。
在运用接续价分析法赋码之前,首先需要按照单 以上三款赋码器的特点如表 1 所示。
词和各种词语搭配出现的可能性设定其接续价 。 出现 表1 JUMAN、ChaSen 和 MeCab 的情况对比
的可能性越高,接续价越低。在具体赋码过程中,软件 JUMAN ChaSen MeCab
· 11·
毛文伟: 日语自动词性赋码器的信度研究
蜘蛛がい 蜘蛛( 普通名詞) が( 格助詞) い( 形容 蜘蛛( 名詞-一般) がい( 名詞-接尾-一般) と( 助詞-格 蜘蛛( 名詞-普通名詞-一般) が( 助詞-格助詞)
とを作る 詞) と( 格助詞) を( 格助詞) 作る( 動詞) 助詞-一般) を( 助詞-格助詞-一般) 作る( 動詞-自立) いと( 副詞) を( 助詞-格助詞) 作る( 動詞-一般)
? 中国日语专业四级考试的作文满分 15 分,
八级作文满分 30 分。为了保证评分的信度,笔者邀请 3 位资深评分员按照统一标准打分后,取均值
作为最终得分。
? 日语中的单词经常以汉字开始,因此,汉字成为分词的一个重要依据。相反,不出现汉字的连续假名字符串就成为了分词的难点。
· 12·
毛文伟: 日语自动词性赋码器的信度研究
各类不规范表达基本无能为力。这实际上反映了它们
为了提高语料库建设的效率,减轻语法码校对工
抗干扰能力的强弱。 当然,也并非所有表达失误都会
作的负担,我们需要挑选一款性能稳定、操作简便、抗
导致赋码错误。 例如,动词与助词的搭配错误就不会
干扰能力强的赋码器。为了衡量赋码精度与语料质量
对赋码质量构成影响( 如「ことが知っている」) 。
是否有关,笔者使用 SPSS 对赋码的准确率与标准化后
5 学习者语料赋码结果的精度分析 的得分进行了相关性分析,获得表 6。
运用现有各类赋码方法解析本族语素材时的大致 表6 赋码精度与得分的相关分析性
System KC KWCP N 30 30 30 30
· 13·
毛文伟: 日语自动词性赋码器的信度研究
实际上,
﹣ 在中国日语学习者语料库( CJLC) 的建设过程中,就运用了自动赋码技术。技术细节及应用详见毛文伟( 2009a) 、毛文伟( 2009b) 和毛
文伟( 2012) 。
· 14·