Professional Documents
Culture Documents
Coh-Metrix工具在外语教学与研究中的应用 江进林
Coh-Metrix工具在外语教学与研究中的应用 江进林
应用①
江进林 对外经济贸易大学
摘 要:Coh-Metrix是一个基于网络的文本分析工具,融合了计算语言学和语料库语言
学的多种技术,可以对文本的106个词汇语法和语义特征进行自动分析。这些特
征涵盖11个模块:描述性统计量、文本易读性主成分得分、指称衔接、潜语义
分析、词汇多样性、连词、情景模式、句法复杂度、句法型式密度、词汇信息
和可读性。该工具已被广泛应用于自动测量文本的衔接性、判断文本的语体和
体裁,以及探讨写作语言的特点及其对作文质量的预测力,等等。本文介绍了
Coh-Metrix工具的理论基础和相关文献,并使用60篇学生译文对该工具的应用
进行了示范,以供外语研究者借鉴。
主题词:Coh-Metrix;文本特征;衔接性;阅读难度
析工具,其设计初衷是对口头、书面文本的衔
1 引言 接性进行自动分析,该工具的名称Coh正是来
在外语教学与研究的过程中,教师和研 自单词cohesion。不过,Coh-Metrix的后期
究者经常产生困惑。例如,学生的作文是否衔 设计已超出此范围,它整合了词性赋码器、模
接得当、连贯一致是衡量其质量好坏的标准之 式分类器、句法分析器、浅层语义分析器等计
一。不过,衔接和连贯似乎只能意会,无法言 算语言学、语料库语言学的多种技术,例如
传,教师往往凭语感进行判断,而使用计算机 W o r d N e t中的词汇语义信息,英国医学研究
自动评价作文的衔接度似乎难以想象。再如, 理事会(Medical Research Council, MRC)
在编写阅读教材或阅读试题时,教师往往凭经 心理语言学数据库中人工对词汇熟悉度、
验判断某篇文章是否符合学习者的语言水平, 想象性、具体度、意义性的评级,C E L E X
却没有客观、清晰的难度评价体系。本文将 数据库中基于大规模语料库的词汇频率信
介绍一款文本分析工具Coh-Metrix,它能够 息,C h a r n i a k句法分析器,潜语义分析技术
作 者 简 介 : 江 进 有效地解决以上问题。笔者将首先介绍C o h- (Latent Semantic Analysis, LSA),以及语
Vol.13 No.5 (General Serial No.73)
林 , 对 外 经 济 贸 Metrix的理论基础和相关文献,然后以实例说 言和话语分析领域的最新理论(McNamara et
易 大 学 英 语 学 院 明该工具的应用情况,以供外语教师和研究者 al., 2014: 40-41)。
副 教 授 , 博 士 。 借鉴。 Coh-Metrix的研究团队十多年来探索了数
研究方向:语言 百个变量,最新的Coh-Metrix 3.0分析了其中
Sept. 2016
对于区分不同文本具有突出作用的106个词汇
测试及语料库语
言学。E-m a i l:
2 Coh-Metrix工具及相关文献 语法和语义特征,涵盖11个模块 ②,这些模块
jiangjinlin2014@ C o h-M e t r i x是由美国孟菲斯大学的 依次是:描述性统计量、文本易读性主成分得
L C
58
中国外语
词、情景模式、句法复杂度、句法型式密度、 接手段运用较好,而低分作文更多地依赖局部
词汇信息和可读性。剑桥大学出版社出版的 衔接手段。杜慧颖和蔡金亭(2013)的研究
Automated Evaluation of Text and Discourse
59
表 1 与衔接性直接相关的 Coh-Metrix 维度及其特征
维度 包含的变量 变量数量
相邻句子名词重叠的平均数
相邻句子论元重叠的平均数
相邻句子词干重叠的平均数
所有句子名词重叠的平均数
指称衔接 10
所有句子论元重叠的平均数
所有句子词干重叠的平均数
相邻句子实词重叠的平均数与标准差
所有句子实词重叠的平均数与标准差
所有连词的比例
因果连词的比例
逻辑连词的比例
转折连词的比例
连词 时序连词的比例 9
扩展时序连词的比例
附加连词的比例
肯定意义连词(如also, moreover)的比例
否定意义连词(如but, however)的比例
相邻句子语义相似度的平均数和标准差
段落内所有句子语义相似度的平均数和标准差
潜语义分析 8
相邻段落语义相似度的平均数和标准差
所有句子语义相似度的平均数和标准差
词长和句长只能反映文本的一部分表层特征,
4 阅读难度和Coh-Metrix工具 即文本难度的一部分,这些公式忽略了阅读理
阅读难度指文本难以阅读和理解的程 解过程涉及的语言表征、结构、策略使用、
度,反过来讲就是可读性(readability)或易 加工过程等其他认知层面(McNamara et al.,
读性(easibility)(McNamara et al., 2014: 2014: 79)。Masi(2002)也指出,在考察文
③
78, 83) 。长期以来,对阅读难度的测量方 本是否适合特定读者时,不仅要量化测量词汇
式是采用单一的可读性指标,如弗莱士-金凯 和句法复杂度,还应考虑其他语义和句法因素,
德年级水平(Flesch-Kincaid Grade Level, 如结构嵌入、文本类型、读者的背景知识等。
FKGL)、阅读能力等级(Degrees of Reading 基于多种自动分析技术,Coh-Metrix改进
Power, DRP)和蓝思分级(Lexile Scores)。 了以往单一的可读性公式,研制出Coh-Metrix
Vol.13 No.5 (General Serial No.73)
句子的平均单词数+11.8×单词的平均音节数 数据库中实词的最低对数词频平均数)
-15.59,其基本理念是单词越长,可能越生 (McNamara et al., 2014: 80)。该指标尤其
僻;句子越长,句法可能越复杂,需要的工作 适用于二语阅读者,因为它反映了二语学习者
L C
记忆越多,因而文本的阅读等级越高。不过, 在词汇、句子和语篇衔接方面遇到的困难。研
F
60
中国外语
究表明,Coh-Metrix二语可读性与日本学生英 触到的文本片段,包括语言艺术、科学、社会
语完形填空得分的相关度(r=0.93)高于弗 研究、历史,甚至商业、医疗、家政、工业艺
表2 Coh-Metrix 易读性主成分包含的变量
包含的变量
主成分 变量数量
正载荷变量 负载荷变量
动词、副词、代词、第一人称代词、第三人
单词平均音节数;名
称代词的比例;CELEX数据库中所有词汇
词、形容词的比例;
的对数词频平均数;CELEX数据库中实词
叙事性 实词的平均习得年 17
的最低对数词频平均数;句子最低词频;实
龄;名词短语的平均
词的平均熟悉度;否定式的比例;句子间词
修饰语数;被动语态
性相异度
虚词与实词之比;句
因果关系动词;意愿动词或意愿副词;段落内
句法简约性 子平均单词数;主动 6
句子的平均句法相似度
词前平均单词数
实词的平均意义性;实词的平均具体度;实词
词汇具体度 无 3
的平均想象性
相邻句子实词重叠的平均数;所有句子实词重
叠的平均数;相邻句子论元重叠的平均数;所
有句子论元重叠的平均数;相邻句子名词重叠 类形符比;所有词汇
指称衔接 13
的平均数;所有句子词干重叠的平均数;已 多样性;动词多样性
知信息和新信息的LSA;相邻句子LSA;所有
LSA;句子间词汇相异度
所有连词的比例;因果连词的比例;时序连词
深度衔接 的比例;逻辑连词的比例;因果关系衔接;意 无 6
愿关系衔接
实词的平均多义性;相邻句子动词重叠的平
动词衔接 无 3
均数;相邻句子LSA动词重叠
连接度 附加连词的比例;转折连词的比例 无 2
时序性 时序衔接;动词时态重复;动词体重复 无 3
61
其内部各变量(见表2)加权求和得出,权数为 可以使用,第一个工具可以对文本的106个特
④
各变量的方差贡献率(即载荷量的平方数) 。 征进行分析,第二个工具仅对文本的易读性进
在进行相加时,需要对载荷为负数的变量进行 行分析(即表1的易读性主成分模块)。笔者
符号转换,保证各变量的数值越大,文本易读 选择第一个工具,点击进入后系统要求注册。
性越高。8个主成分即为Coh-Metrix 3.0提供的 注册成功后登录,界面左侧要求设置一系列参
易读性模块。 数,界面右侧的文字对各项参数进行了说明:
(1)在“Title”栏输入文本的名称或编号;
5 Coh-Metrix实例操作 (2)“Genre”目前有三个选择:science、
网络版C o h-M e t r i x 3.0可以自动处理 narrative和informational,需要根据研究的文本
15 000词以内的单个文本。如果需要处理的单 选择最接近的一种体裁;
个文本超过15 000词,或者需要小批量地处理 (3)“Source”指文章的来源;
多个文本,其研发团队可以免费提供服务。不 (4)“Job Code”指本次操作的代码或名
过,如果文本超过一定长度和数量则需付费。 称,研究者可填入任意字母或数字,以便于以
本文以60篇学生译文为例,对C o h- 后根据“Job Code”检索本次操作的结果;
M e t r i x工具的操作进行演示。翻译的原文由 (5)“LSA Space”指用于潜语义分析的
M C A N X I X U N V I E W 2011年第28期的文章 文本空间,系统默认使用“College Level”;
“U.S. Exports Rose in March, but Trade Gap (6)研究者将须处理的文本(删除标题
Still Widened”中文版改编而成,共294个汉 等信息,仅保留文本本身)复制粘贴到下面的
字。译者为国内四所不同水平大学的近300名 空白框内,点击“submit”即可。
商务英语专业本科生,教师采用统一的标准对
每篇译文进行评分。译文满分为100分,笔者 由于本研究使用的原文是信息性的新闻报
从85分以上(高分)和55~60分(低分)译文 道,笔者对上述参数进行以下设置(图1)。
中随机选择60篇进行研究,每组各30篇。本研 数秒之后,文本分析的结果在界面右
究的目的是考察两组译文的区别何在。 侧显示,每行为一个文本特征(如图2)。
笔者使用C o h-M e t r i x对译文进行了 如果点击数据结果左上角的“S a v e D a t a”
分析。操作步骤如下:首先,登录网站 按钮,文本分析的结果将自动保存在名为
http://cohmetrix.com/,选择页面的“WEB CohMetrixOutput的Excel文件中。在此文件
T O O L”,则出现四个工具:“C o h-M e t r i x 中,每列为一个文本特征。
Web Tool”“Coh-Metrix Text Easability 得到第一篇文本的分析结果后,可以点击
Assessor”“Coh-Metrix Common Core 图2中的“Clear Data”,然后设定新的参数,
T.E.R.A.”和“C o h-M e t r i x W e b T o o l 输入新的文本,再对新文本进行分析。如果需
(Traditional Chinese)”。目前仅前两个工具 要对多个文件的结果进行比较,数据最好呈现
Vol.13 No.5 (General Serial No.73)
Sept. 2016
L C
图1 Coh-Metrix 参数设置
F
62
中国外语
第13卷 第5期 (总第73期)
2016年9月
图2 Coh-Metrix 分析结果的界面格式
在同一个表格中,此时不需要清除数据,只需 程度的 重 合 , 比 如 有 些 特 征 既 有 Z 分 数 也 有
修改文件名称等参数,输入新的文本内容,结 百 分 位 数 ⑤, 有 些 既 有 平 均 数 也 有 标 准 差 ,
果文件中会自动增加新文本的处理数据,最后 笔者进行了删减,呈现了其中13个重要特征
保存结果即可。 (见表3)。
按照以上操作步骤,笔者获得了60篇译文 表3显示,第一,高分组译文的段落、句
的数据。笔者选择与本文前半部分的讨论紧密 子、单词数量都明显多于低分组译文,这是因
相关的5个维度(描述性统计量、指称衔接、潜 为有些低分译文出现了漏译的情况。第二,两
语义分析、连词、文本易读性主成分)进行分 组译文在指称衔接维度上没有显著差异 ⑥,即
析,共包括56个特征。独立样本t检验的结果 相邻句子/所有句子的名词、论元、词干、实词
显示,高、低分组译文在其中4个维度、20个 重叠的数量都相当,这是因为译文受原文的影
特征上具有显著差异。由于部分变量存在一定 响很大,并且学生译者的水平和经验有限,他
表 3 高、低分译文的显著差异
63
们更遵从原文的信息呈现方式和顺序,因此这 (批准号:15W Y C064)、对外经济贸易
些指标无法区分好坏译文。第三,高分译文使 大学学科建设专项经费(批准号:324-
用的因果连词和时序连词显著多于低分译文, 811005120501)、对外经济贸易大学教学
可见高分作文通过更多的因果关系、时间和顺 实验研究课题(X14520)以及上海外语
序性连词来展现文章的结构。第四,高分译文 教育出版社全国高校外语教学科研项目
的潜语义分析指标均显著高于低分译文,包括 (2015BJ00248)的资助。
相邻句子的语义相似度、段落内所有句子的语 ② 网络版Coh-Metrix工具参见http://cohmetrix.
义相似度、相邻段落的语义相似度、所有句子 com/,Coh-Metrix 3.0提取的106个变量及其
的语义相似度,表明高分译文的语义空间更紧 说明可参见McNamara等(2014: 60-77, 247-
凑、译文内部的语义联系更紧密。第五,两组 251)。
译文在文本易读性主成分上的比较结果不尽一 ③ 英文文献中的readability、easibility以及中文
致。低分组译文的叙事性显著高于高分译文, 文献中的“可读性”“易读性”等近义术
表明这些译文带有更明显的口语特点(Biber, 语,有人严格区分,有人混而用之。本文在
1988; Clark, 1996)。同时,高分组译文的句 定义上不作区分。在McNamara等(2014: 78,
法简约性Z分数显著高于低分译文,表明高分 83)的研究中,可读性仅采用一个计算公式
译文的句法结构更简单,这可能是因为一些低 来测量,而易读性从词汇、句法、衔接等多
分译文漏译了部分单词或短语,使得句法结构 个维度进行测量,两者的本质都是文本易于
残缺难懂。此外,高分组译文的深度衔接Z分 阅读和理解的程度。
数显著高于低分译文,表明在出现因果关系和 ④ 变量的英文名称及其载荷量范围参见
逻辑关系的情况下,高分译文使用了更多的因 Graesser等(2011: 228-230)。
果性和意愿性连词。这些连词能够帮助读者理 ⑤ Z分数是经过标准化处理的数据,即每个文
解因果事件和行为。 本的特征值减去平均数再除以标准差。百分
位数在0~100%之间,80%的百分位数表示该
文本比80%的文本容易。由于本研究的重点
6 结语 不是单个文本,而是两组文本,笔者未讨论
本文对一款基于网络的文本分析工具Coh- 百分位数。
Metrix进行了介绍。Coh-Metrix融合了计算语 ⑥ 限于篇幅,表2没有呈现不具有显著差异的
言学和语料库语言学的多种技术,可以对任一 指标。
文本的11个维度、106个词汇语法和语义特征
进行自动分析。该工具已被广泛应用于多个文 参考文献
本分析领域,尤其是自动测量书面语文本的衔 [1] Beck, I. L., McKeown, M. G., Sinatra, G. M.
接性,以及测量阅读文本的难易度。本文使用 & Loxterman, J. A. Revising social studies text
Coh-Metrix工具对高、低分两组学生译文进行 from a text-processing perspective: Evidence
了分析。研究结果表明,尽管译文受原文的限 of improved comprehensibility[J]. Reading
制较大,Coh-Metrix的一系列指标仍然可以有 Research Quarterly, 1991(3): 251-276.
效地区分好坏译文。与低分译文相比,高分译 [2] Biber, D. Variation across Speech and Writing[M].
文使用的因果连词、时序连词、意愿性连词更 Cambridge: Cambridge University Press, 1998.
多,因而衔接度更高;译文内部的语义联系更 [3] Britton, B. K. & Gulgoz, S. Using Kintsch’s
为紧密;句法结构更完整易懂。总之,C o h- computational model to improve instructional
Vol.13 No.5 (General Serial No.73)
64
中国外语
in a Foreign Language, 2011(1): 84-102. Cambridge University Press, 2014.
[6] Crossley, S. A., Greenfield, J. & McNamara, D. [17] McNamara, D. S., Louwerse, M. M., McCarthy,
65