You are on page 1of 5

第 145 期 外语电化教学 No. 145

2012 年 5 月 CAFLE May. 2012


櫗毉

櫗櫗櫗櫗櫗櫗櫗毉 * 版权所有 文责自负*

櫗毉
语料库语言学研究
櫗櫗櫗櫗櫗櫗櫗毉

日语自动词性赋码器的信度研究

毛文伟
( 上海外国语大学,上海 200083)

要: 词性自动赋码技术的日臻成熟为语料库建设提供了有力支撑 。 与本族语语料不同,学习

者产出中充斥着大量错误。这必然会对赋码的准确性造成干扰 。因此,除了精度以外,抗干扰能力也是
需要着重考虑的因素。本文统计并比较了日语开源自动词性赋码器对学习者语料赋码的精度以及赋码
信度与语料质量的相关性。从中发现,MeCab 表现最出色,ChaSen 次之,JUMAN 则稍逊一筹。 此外,研
究证实,日语开源赋码器对学习者语料赋码的精度甚至超过了本族语语料 。因此,完全可以充当语料库
建设的可靠工具。
关键词: 语料库; 赋码; 隐马尔科夫模型; 日语
中图分类号: H319. 3 文献标识码: A 文章编号: 1001-5795( 2012) 03-0010-0005

的错误。这必然会在一定程度上影响赋码结果的准确
1 引言
性。因此,自动词性赋码器的抗干扰能力也是需要着
从研究方法看, 基于学习者语料库的研究大致可以 重考虑的因素。
分为中介语 对 比 分 析 ( CIA) 和 计 算 机 辅 助 错 误 分 析 目前主流的日语自动词性赋码器可以分为两类。
( CEA) 两种( Granger et al. ,2002) 。由于国内现有的各 由 Yahoo! 、google、欧姆龙等公司开发的商业分词系统
类学习者语料库几乎都未进行词性赋码, 标注局限于各 或是需要购买使用许可,或是接口有严格限制,使用非
类表达失误,
导致我国基于学习者语料库开展的二语习 常不便。 在 语 言 研 究 中,应 用 较 为 广 泛 的 是 以 JU-
得研究也以计算机辅助错误分析为主,
中介语对比分析 MAN、ChaSen 和 MeCab 为代表的开源赋码器。
未能得到有效开展( 梁茂成,
2006) 。这无疑阻碍了我们 本文旨在考察这三种赋码器对学习者语料进行自动
全面、
深入地考察和分析人类的语言习得机制。 比较解析结果,
赋码的可行性。通过分析、 考察各赋码器
语料库建设是一项庞大的系统工程 。对词性等语 的大致精度、
造成解析错误的原因以及抗干扰能力的强
法信息进行手工标注既费力费时,又难以确保赋码标 弱。这些实证数据将为我们合理选用自动词性赋码器提
准的统一,缺乏可操作性。 幸而,经过多年努力,词性 供可靠依据,
推动语料自动赋码技术的广泛应用。
自动赋码技术已经日臻成熟,赋码准确率达到了较高
2 日语自动词性赋码的原理解析
水平。这为语料库建设提供了有力支撑 。
但是,为了确保语料自动赋码取得较好效果 ,我们 与汉语相似,日语单词之间的界限很不明显。 不
必须开展认真的先导性研究,对现有赋码器的信度进 同语法学派对单词的界定往往差别甚大。 因此,词性
行缜密分析。同时,与本族语语料不同,学习者产出中 自动赋码的难点就在于如何正确分词并根据分析结果
充斥着大量书写、词形、曲折变化以及词汇使用等方面 确定单词词性 。迄今为止 ,日本各大学以及研究机构

作者简介: 毛文伟: 男,博士,副教授。研究方向: 语料库应用研究、二语习得。


基金项目: 本文是 2012 年 教 育 部 人 文 社 会 科 学 研 究 青 年 基 金 项 目 课 题“中 国 日 语 学 习 者 表 达 失 误 的 认 知 语 言 学 研 究
( 12YJC740076) ”和 上 海 外 国 语 大 学 青 年 科 研 创 新 团 队 项 目“基 于 日 语 学 习 者 语 料 库 的 二 语 习 得 研 究
( QJTD11MWW01) ”的研究成果。
收稿日期: 2011-10-11

· 10·
毛文伟: 日语自动词性赋码器的信度研究

的学者对此进行了不懈探索,逐步摸索出了最长一致 可以此对输出的内容和格式进行灵活控制 。
法、
切分数最少法、接续可能性分析法和基于概率的接 由京都大学和日本电信电话株式会社联合开发的
续价分析法。 基于不同原理的分词方法精度相差很 MeCab 则首次实现了词典和系统的完全分离 。 只需更
大。其中,基于概率的接续价分析法精度最高 ,因此逐 换词典,就可以实现对不同语言的分析。此外,还将自
渐成为主流算法。 动学习的算法更新为 CRF,提高了学习和解析的效率。
在运用接续价分析法赋码之前,首先需要按照单 以上三款赋码器的特点如表 1 所示。
词和各种词语搭配出现的可能性设定其接续价 。 出现 表1 JUMAN、ChaSen 和 MeCab 的情况对比
的可能性越高,接续价越低。在具体赋码过程中,软件 JUMAN ChaSen MeCab

将对照自带的词典,推测各种可能的切分方案。 随后, 解析模型 bi-gram 马尔可夫模型 可变长马尔可夫模型 bi-gram 马尔可夫模型

按照不同方案,计算单词本身和词语搭配的接续价之 接续价设定 手工设定 语料库自动学习 语料库自动学习

和,得到总接续价。 总接续价最低者即为最佳切分方 学习模式 × HMM CRF

词典检索算法 Patricia 树 Double Array Double Array


案。以例 1 为例,该字符串有多种切分方式。 对照系
解析算法 Viterbi Viterbi Viterbi
统事先设定的单词、词语搭配的接续价,可以计算出不
词性的层次 限定两层 无限制、多层 无限制、多层
同切分方案的总接续价( 详见图 1) 。
可控解析 不可能 可能 可能
例 1. くるまでまつ。
这三款赋码器都是 Dos 程序。 为了实现批量解
析,可以用 PHP5 语言中的 exec 函数进行调用。 我们
无法控制 JUMAN 的输出内容。不过,我们可以通过在
命令行中添加相应参数控制 ChaSen 的输出,或者编辑
词典目录下的 dicrc 文件控制 MeCab 的输出内容 ? 。
以 ChaSen 为例,具体代码如例 3 所示。
例 3.
/ / 把输入写入 input. txt
fp = fopen( InPutFile,'w') ;
图1 切分方案的接续价分析及计算 ? fwrite( fp,iconv( 'utf - 8',
'Shift - JIS',
s) ) ;
由图 1 可知,各切分方案的接续价之和从 7400 至 / / 将 utf - 8 编码到 JIS
9160 不等。 按照总接续价最低原则,最终选择例 2 所 fclose( fp) ;
示方案作为最终结果输出 ? 。 / / 分词
例 2. くるま( 名詞) で( 格助詞) まつ( 五段動詞) Para = " - F " . " ”{ % Y} < % U( % P - ) > % m”" ;
由于基于概率的接续价分析法较为灵活,解析精 ChaCommand = " chasen. exe" . " - o " . OutPut-
度也较高,目前主流的开源自动词性赋码器,如 JU- File . " " . Para . " " . InPutFile;
MAN、ChaSen 和 MeCab 等都采用了该方法。
? 图中接续价数据引自工藤拓( 2009) 。各单词方框上下方的数
3 JUMAN、ChaSen 和 MeCab 的特点和调用 值为至该单词为止各切分方案的总接续价之和。其他数值为单词或词
方式 语间接续的接续价。
? 当然,还有一种切分方案的可能性也较大,即 “く る ( カ 変動
如上所述,在语言学研究中,应用较为广泛的是以 詞) まで( 格助詞) まつ( 五段動詞) ”。其接续价之和为 7750,仅略高于
JUMAN、ChaSen 和 MeCab 为代表的开源赋码器 ? 。 其 例 2 所示方案。在调用 Mecab 时,可以通过使用" - N #NUM" 参数,指
定输出多个可能的切分方案。
中,JUMAN 问世最早。团队核心成员来自京都大学长
? 最新版本的下载地址分别为: JUMAN: http: / / nlp. ist. i. kyoto -
尾研究室和黑桥研究室,接续价为手工设定。ChaSen u. ac. jp / index. phpcmd = read&page = JUMAN。ChaSen: http: / / chasen -
由奈良先端技术大 学 院 大 学 的 松 本 裕 治 等 人 以 JU- legacy. sourceforge. jp / 。Mecab: http: / / mecab. googlecode. com / svn / trunk /
mecab / doc / index. html。
MAN 2. 0 为原型开发,实现了基于 E - HMM 的接续价
? 关于基于 E - HMM、MEMM 或 CRF 的自动学习方法,详见浅原
自动学习功能 ? 。 词性的层次从两层拓展到无限制, 正幸·松本裕治( 2002) 和工藤拓·山本薫·松本裕治( 2004) 。
可以自由定义。 此外,命令行参数极为丰富。 使用者 ? 关于具体的参数及意义,详见各软件的使用说明。

· 11·
毛文伟: 日语自动词性赋码器的信度研究

exec( ChaCommand) ; 尾) て( 助詞-接続助詞)


其次,由于在单词和词语搭配的接续价设定上的
4 影响赋码精度的因素分析
差异,各款赋码器的精度以及擅长解析的内容也有所
在实 测 环 节,笔 者 从 中 国 日 语 学 习 者 语 料 库 不同。观察赋码后的语料可以发现,JUMAN 的精度稍
( CJLC) 收录的作文素材中随机选取出部分语料作为测 差,解析错误的分布较为离散。
试样本。为了同时考察语料质量对赋码结果可能造成 ChaSen 将「について」、「として」等复合助词作为
的影响,
即赋码器的抗干扰能力,笔者特地将素材的选 一个词处理。而 JUMAN、MeCab 则将其拆分成多个单
取范围设定在了低分组( 四级得分 4 分以下, 八级得分 9 词( 详见表 2,以下同 ) 。 由于复合助词在句中通常作
分以下) 和高分组( 四级得分 13 分以上,八级得分 26 分 为一个整体使用,意义又超过了组成要素的累加,在最
以上) ? 。从两组素材中各抽取 15 篇语料后,分别使用 新的研究和教学实践中,人们通常都将其视作一个独
最新版 本 的 JUMAN、ChaSen 和 MeCab 进 行 赋 码。 其 立单位。因此,ChaSen 的解析结果更符合日语研究和
中,
JUMAN 使用的是自带词典,ChaSen 使用了 IPA 词 教育的需要。但是,在对「原因で」、「自分 らしく」等
典,
而 MeCab 使用的则是 UniDic ver. 1. 3. 12。 存在多种可能性的字符串进行赋码时 ,ChaSen 却容易
通过观察发现,解析结果之间的差异大部分由赋 发生错误。相比之下,MeCab 的结果更为准确。
码器依据的语法体系不同引起。 例如,例 4 中的 「の」 MeCab 的赋码精度较高。除了因书写或表达失误
的词性在 JUMAN、ChaSen 和 MeCab 中分别被标注为 引发的错误以外,问题主要集中在对 「これから」、「で
「接続助詞」、「助詞 - 連体化」和「助詞 - 格助詞」。 在 は」等字符串的解析方面。在日语中,它们通常作为接
对比过程中,不将此类差异作解析错误处理。 续词使用,但 MeCab 却统一将其拆分成更小长度的单
例 4. 子供の時から、たくさんの本を読んだこと 词。不过,在切分连续假名字符串 ? ( 如 「( 蜘蛛 ) がい
がありました。 とを( 作る) 」) 方面,MeCab 显示出一定优势。
引发解析错误的原因则是多种多样的。 首先,赋 相比之下,书写或语法等方面的表达失误引发的
码器自带词典对解析精度有重要影响 。赋码器所用词 解析错误更多。 首先,由于在赋码过程中需要对照软
典中未收录的单词或词形,除名词外,通常无法得到正 件自带词典确定分词方案,因此,书写的不规范会造成
确解析。 例 如,MeCab 所 用 的 UniDic 词 典 中 未 收 入 解析错误。例如,学习者常常将「返事 した」写成「返
「相まって」( 連語) 一词,ChaSen 所用的 IPA 词典中没 じした」或是将「黄色い」写成「黄い」。 三款赋码器对
有「したがう」( 動詞) 这一词形。 因此,它们都没有得 这类字符串均无法正确赋码( 详见表 3) 。
到正确解析( 例 5、 6) 。 此外,在隐马尔可夫模型中,前项的判断错误往往
例 5. 相( 接頭辞) まっ( 動詞-一般) て( 助詞-接続 会导致对后项的误判。 因此,不符合语法规则的字符
助詞) 串,如动词活用形式错误「知 た」、接续错误「読 むだ」、
例 6. し( 動詞-自立) た( 助動詞) がっ( 動詞-接 助词滥用「正しいの趣味」等都有可能引起分词、赋码
表2 JUMAN、ChaSen 和 MeCab 的解析结果对比

JUMAN ChaSen MeCab

に( 格助詞) つい について( 助詞- に( 助詞-格助詞) つい( 動詞-


について
て( 動詞) 格助詞-連語) 一般) て( 助詞-接続助詞)

原因( サ変名詞) 原因( 名詞-一般) 原因( 名詞-普通名詞-サ


原因で
で( 格助詞) で( 助動詞) 変可能) で( 助詞-格助詞)

これ( 名詞形態指示詞) これから( 副詞- これ( 代名詞)


これから
から( 格助詞) 助詞類接続) から( 助詞-格助詞)

蜘蛛がい 蜘蛛( 普通名詞) が( 格助詞) い( 形容 蜘蛛( 名詞-一般) がい( 名詞-接尾-一般) と( 助詞-格 蜘蛛( 名詞-普通名詞-一般) が( 助詞-格助詞)
とを作る 詞) と( 格助詞) を( 格助詞) 作る( 動詞) 助詞-一般) を( 助詞-格助詞-一般) 作る( 動詞-自立) いと( 副詞) を( 助詞-格助詞) 作る( 動詞-一般)

? 中国日语专业四级考试的作文满分 15 分,
八级作文满分 30 分。为了保证评分的信度,笔者邀请 3 位资深评分员按照统一标准打分后,取均值
作为最终得分。
? 日语中的单词经常以汉字开始,因此,汉字成为分词的一个重要依据。相反,不出现汉字的连续假名字符串就成为了分词的难点。

· 12·
毛文伟: 日语自动词性赋码器的信度研究

表3 JUMAN、ChaSen 和 MeCab 的抗干扰能力对比 ? 经 SPSS V. 17 统 计 得 知,JUMAN、ChaSen 和


ChaSen MeCab JUMAN MeCab 标注学习者语料的精度均值分别为97. 2393% 、
返じした × × ×
98. 6320% 和 98. 8353% ( 表 5) ,均高于对本族语语料
黄い × × ×
知た × ○ ×
的解析准确率 ( 表 4) 。 这证实了 Meunier( 1998) 的论
読むだ ○ ○ × 断,即由于中介语的语言结构相对简单 ,自动赋码的准
正しいの趣味 ○ ○ × 确率较本族语语料略高。同时,也有力地证明,使用自
行きたいだ × ○ ×
动赋码器对学习者语料进行赋码具有相当高的可行性
勉強するできる × ○ ○
ことが知っている ○ ○ ○ 和实用价值。相对而言,JUMAN 的赋码结果标准差最
大,即最不稳定,而 MeCab 的赋码结果则最为稳定。
错误。在处理这些字符串时,三款赋码器的精度差异 表5 JUMAN、ChaSen 和 MeCab 的赋码精度的均值及标准差

较大。观察下表可知,MeCab 的解析精度最高。 尽管 均值 标准差 N

存在 表 达 失 误 的 干 扰,但 基 本 上 都 能 准 确 辨 别。 JUMAN 97. 2393 1. 26491 30

ChaSen次之,对于其中部分活用或接续方面的表达失 ChaSen 98. 6320 . 96721 30

误,难以正确解析。JUMAN 的抗干扰能力最差,对于 MeCab 98. 8353 . 65635 30

各类不规范表达基本无能为力。这实际上反映了它们
为了提高语料库建设的效率,减轻语法码校对工
抗干扰能力的强弱。 当然,也并非所有表达失误都会
作的负担,我们需要挑选一款性能稳定、操作简便、抗
导致赋码错误。 例如,动词与助词的搭配错误就不会
干扰能力强的赋码器。为了衡量赋码精度与语料质量
对赋码质量构成影响( 如「ことが知っている」) 。
是否有关,笔者使用 SPSS 对赋码的准确率与标准化后
5 学习者语料赋码结果的精度分析 的得分进行了相关性分析,获得表 6。

运用现有各类赋码方法解析本族语素材时的大致 表6 赋码精度与得分的相关分析性

精度如下表所示 ? 。 其中,ChaSen 和 MeCab 运用的分 得分 ChaSen MeCab JUMAN

得分 Pearson 相关性 1 . 317 . 160 . 414*


别是 E - HMM 和 CRF 方法。 由表中可见,赋码精度
显著性( 双侧) . 088 . 398 . 023
以 MeCab 为最高,ChaSen 次之,JUMAN 最低。 这也符
N 30 30 30 30
合上节对学习者语料赋码结果初步考察的结果 。
ChaSen Pearson 相关性 . 317 1 . 562** . 653**

表4 各类赋码方法的大致精度 显著性( 双侧) . 088 . 001 . 000

System KC KWCP N 30 30 30 30

L1-CRF ( C = 3∶ 0) 96. 55 97. 30 MeCab Pearson 相关性 . 160 . 562** 1 . 418*

显著性( 双侧) . 398 . 001 . 022


L2-CRF ( C = 1∶ 2) 96. 75
N 30 30 30 30
L2-CRF ( C = 2∶ 4) 97. 65
JUMAN Pearson 相关性 . 414* . 653** . 418* 1
HMM-bigram 91. 85 95. 90
显著性( 双侧) . 023 . 000 . 022
MEMM( Uchimoto 01) 94. 27 N 30 30 30 30

JUMAN ( rule-based) 94. 35

E-HMM ( Asahara 00) 97. 00 * . 在 0. 05 水平( 双侧) 上显著相关。


**. 在 0. 01 水平( 双侧) 上显著相关。
那么,这三款赋码器对学习者语料进行解析时的 观察表 6 可以发现,三款赋码器的赋码精度之间
具体精度如何呢? 笔者分别对随机抽取到的 30 篇语 具有相当高的关联性。 这说明,由于基于相似的赋码
料进行了赋码和校对,获得各文本的误码数。 随后,根
据最常 用 的 赋 码 工 具 准 确 率 计 算 方 式 ( van Halteren ? 表中以「○」表示正确,「 × 」表示错误。
1999) ,计算出赋码准确率 ﹣
( 例 7) 。 ? 本表数据汇总自工藤拓 ·山本薫 ·松本裕治 ( 2004 ) 表 3、4。
其中,KC、KWCP 分别指京都大学语料库和 KWCP 语料库,所收素材分
例 7. 赋码准确率 = ( 赋码总数 - 误码数 ) / 赋码 别取自 1995 年和 1994 年出版的《每日新闻》报道。
总数 × 100% ﹣
 因篇幅所限,各样本的具体数据不再列举。

· 13·
毛文伟: 日语自动词性赋码器的信度研究

原理,它们在擅长解析的内容以及可能遭遇的困难方 [J]. 外语教学与研究,


2006( 4) .
面具有一定的相似性。而从试卷得分与赋码精度的关 [2] 毛文伟. 语料库在历时语言学研究领域的应用[J]. 外语

系来看,只有 JUMAN 显示出显著相关。 这证明,JU- 电化教学,


2009a( 1) .
[3] 毛文伟. 整合型学习者语料库平台的规划与实现[J]. 现
MAN 赋码的准确程度与语料质量存在一定关联 ,容易
代教育技术,
2009b( 9) .
受到语料质量的影响。而其他两款赋码器则表现相对
[4] 毛文伟. 日语学习者产出文本特征的量化分析[J]. 解放
稳定,抗干扰能力较强。
军外国语学院学报,
2012( 1) .
[5] 浅原正幸·松本裕治. 形態素解析のための拡張統計モ
6 结语
デル[J]. 情報処理学会論文誌,Vol. 43,
2002( 3) .
本文以日语开源自动词性赋码器 JUMAN、ChaSen [6] 工藤拓. 日本語解析ツールMeCab,CaboChaの紹介[OL /
和 MeCab 为研究对象,在分析工作原理的基础上,考察 WE]. http: / / ChaSen. naist. jp / chaki / t /2009-09-30 / doc /
了影响赋码精度的各种因素。随后,通过对实际语料赋 MeCab-cabocha-nlp-seminar-2009. pdf,
2009.

码结果的分析、比较,测量了这三款赋码器对学习者语 [7] 工藤拓 ·山本薫 ·松本裕治. Conditional Random Fields


を用 い た 日 本 語 形 態 素 解 析[J]. IPSJ SIG Notes,2004
料赋码的平均精度以及赋码效果与语料质量的相关性。
( 47) .
可以看出,无论是在赋码质量还是抗干扰性方面 ,
[8] 保田明夫. 形態素解析と分かち書き処理[OL / WE]. ht-
MeCab 都是最出色的,ChaSen 次之,JUMAN 则略逊一
tp: / / wordminer. comquest. co. jp / wmtips / pdf / H15 _01 -
筹。日语开源赋码器对学习者语料进行赋码的精度甚 4. pdf,
2003.
至超过了对本族语语料赋码的效果,达到了较为理想 [9] Granger,S. ,Hung,J. ,Petch-Tyson,S. Computer Learner
的水平。因此,完全可以作为语料库建设的可靠工具 corpora[A ], Second Language Acquisition, and Foreign
加以运用 ﹣

,以大幅度提高建库效率,并在一定程度上 Language Teaching[C]. Amsterdam: John Benjamins Pub-
拓展语料的适用范围。 lishing Company,
2002.
当然,本文选用的学习者语料样本全部为大学日 [10] Meunier,F. Computer tools for interlanguage analysis: A

语专业四、八级考试作文,类型较为单一。如果赋码对 critical approach[A]. In S. Granger ( Ed. ) Learner Eng-


lish on Computer[C]. London and New York: Addison
象发生改变,就需要另行开展先导性研究,重新统计赋
Wesley Longman,
1998.
码准确率,以确认自动赋码是否可行。 □
[11] van Halteren,H. Performance of taggers[A]. In H. van
参 考 文 献 Halteren ( Ed. ) . Syntactic Wordclass Tagging[C]. Dor-
drecht,Kluwer,
1999.
[1] 梁茂成. 学习者英语书面语料自动词性赋码的信度研究

A Research on the Japanese Open-source Automatic POS Taggers


MAO Wen-wei
( Shanghai International Studies University,Shanghai 200083,China)
Abstract: The automatic POS tagging technology has matured to provide a strong support for the corpus building.
Unlike the native speaker’s corpus,the learner’s outputs are flooded with errors. This will definitely interfere with the
accuracy of the tagging. Therefore,in addition to accuracy,the anti-interference ability should also be taken into
account. This paper focuses on the Japanese open-source automatic POS taggers,calculates the accuracy when they are
used to tag a group of the learner’s texts and observes whether the performance are affected by the quality of texts.
Results of the study indicate that MeCab is the best and ChaSen acts better than JUMAN. It is also proved that the
accuracy of the learner’s corpus tagging is even better than the performance when they are used to tag the native
speaker’s corpus. Therefore,the taggers can be used as a powerful tool during the construction of learner’s corpus.
Key words: Corpus; Tagging; Hidden Markov Model; Japanese

实际上,
﹣ 在中国日语学习者语料库( CJLC) 的建设过程中,就运用了自动赋码技术。技术细节及应用详见毛文伟( 2009a) 、毛文伟( 2009b) 和毛
文伟( 2012) 。

· 14·

You might also like