You are on page 1of 8

Coh-Metrix工具在外语教学与研究中的

应用①

江进林 对外经济贸易大学

摘 要:Coh-Metrix是一个基于网络的文本分析工具,融合了计算语言学和语料库语言
学的多种技术,可以对文本的106个词汇语法和语义特征进行自动分析。这些特
征涵盖11个模块:描述性统计量、文本易读性主成分得分、指称衔接、潜语义
分析、词汇多样性、连词、情景模式、句法复杂度、句法型式密度、词汇信息
和可读性。该工具已被广泛应用于自动测量文本的衔接性、判断文本的语体和
体裁,以及探讨写作语言的特点及其对作文质量的预测力,等等。本文介绍了
Coh-Metrix工具的理论基础和相关文献,并使用60篇学生译文对该工具的应用
进行了示范,以供外语研究者借鉴。
主题词:Coh-Metrix;文本特征;衔接性;阅读难度

中图分类号:H319 文献标识码:A 文章编号:1672-9382 (2016)05-0058-08


DOI:10.13564/j.cnki.issn.1672-9382.2016.05.009

析工具,其设计初衷是对口头、书面文本的衔
1 引言 接性进行自动分析,该工具的名称Coh正是来
在外语教学与研究的过程中,教师和研 自单词cohesion。不过,Coh-Metrix的后期
究者经常产生困惑。例如,学生的作文是否衔 设计已超出此范围,它整合了词性赋码器、模
接得当、连贯一致是衡量其质量好坏的标准之 式分类器、句法分析器、浅层语义分析器等计
一。不过,衔接和连贯似乎只能意会,无法言 算语言学、语料库语言学的多种技术,例如
传,教师往往凭语感进行判断,而使用计算机 W o r d N e t中的词汇语义信息,英国医学研究
自动评价作文的衔接度似乎难以想象。再如, 理事会(Medical Research Council, MRC)
在编写阅读教材或阅读试题时,教师往往凭经 心理语言学数据库中人工对词汇熟悉度、
验判断某篇文章是否符合学习者的语言水平, 想象性、具体度、意义性的评级,C E L E X
却没有客观、清晰的难度评价体系。本文将 数据库中基于大规模语料库的词汇频率信
介绍一款文本分析工具Coh-Metrix,它能够 息,C h a r n i a k句法分析器,潜语义分析技术
作 者 简 介 : 江 进 有效地解决以上问题。笔者将首先介绍C o h- (Latent Semantic Analysis, LSA),以及语
Vol.13 No.5 (General Serial No.73)

林 , 对 外 经 济 贸 Metrix的理论基础和相关文献,然后以实例说 言和话语分析领域的最新理论(McNamara et
易 大 学 英 语 学 院 明该工具的应用情况,以供外语教师和研究者 al., 2014: 40-41)。
副 教 授 , 博 士 。 借鉴。 Coh-Metrix的研究团队十多年来探索了数
研究方向:语言 百个变量,最新的Coh-Metrix 3.0分析了其中
Sept. 2016

对于区分不同文本具有突出作用的106个词汇
测试及语料库语
言学。E-m a i l:
2 Coh-Metrix工具及相关文献 语法和语义特征,涵盖11个模块 ②,这些模块
jiangjinlin2014@ C o h-M e t r i x是由美国孟菲斯大学的 依次是:描述性统计量、文本易读性主成分得
L C

163.com。 McNamara等人研发的一个基于网络的文本分 分、指称衔接、潜语义分析、词汇多样性、连


F

58
中国外语
词、情景模式、句法复杂度、句法型式密度、 接手段运用较好,而低分作文更多地依赖局部
词汇信息和可读性。剑桥大学出版社出版的 衔接手段。杜慧颖和蔡金亭(2013)的研究
Automated Evaluation of Text and Discourse

第13卷 第5期 (总第73期)


2016年9月
结果显示,Coh-Metrix提供的易读性、词频、
with Coh-Metrix 一书详细介绍了所用的各种技 衔接性和句长指标与学生写作质量的相关度
术以及每个特征的计算方法。 较高,回归模型能够解释作文成绩44.4%的方
近十年来,国外使用Coh-Metrix进行了以 差。第二类是写作语言的特征研究,主要是词
下几类研究:第一,由于开发Coh-Metrix的最 汇和衔接手段。例如,桂林(2010)对L1和
初目的是测量文本的衔接性,大量研究验证了 L2作文的词汇特点进行了比较,鲍贵(2011)
Coh-Metrix的测量指标对于衔接性和阅读理解 对学习者的词汇复杂性进行了研究,秦朝霞、
的显著影响(如McNamara et al., 2010; Duran 顾琦一(2011)则对写作话题熟悉度和语篇衔
et al., 2007)。第二,Coh-Metrix也用于分析 接手段的关系进行了分析。
文本之间的区别,以及判断文本的语体、体裁 由于Coh-Metrix的特征和模块众多,且分
和类别(Crossley et al., 2007; Louwerse et 析方法都比较复杂,限于篇幅,笔者将重点介
al., 2004)。例如,Crossley 等人(2007) 绍其中最有影响力的模块:衔接性和阅读难度
对原版阅读文本和针对二语学习者的简写文本 模块。
进行了分析,发现两者在结构、词汇等方面
存在很大的差异。第三,Coh-Metrix也用于
探讨写作语言的特点及其对写作质量的预测
3 衔接性和Coh-Metrix工具
力(McNamara et al., 2010; Crossley et al., Coh-Metrix工具可以通过一系列文本特征
2011)。例如,McNamara等人(2010)对 来分析文本的衔接性。大量研究表明,衔接性
120篇英语母语者的作文进行了研究,发现高 对于理解文本具有非常重要的作用(Britton &
质量作文的句法更复杂,词汇更多样,且使用 Gulgoz, 1991; Beck, et al., 1991)。不过,
了更多的冷门词汇,而衔接性指标与作文质量 直至21世纪初,学界并没有客观测量文本衔接
无关。第四,极少数研究也使用Coh-Metrix 性的方法,尤其是自动测量大规模文本衔接性
分析考试中的阅读理解文本。例如,Green等 的方法(McNamara et al., 2014: 18)。Coh-
人(2010)使用Coh-Metrix、WordSmith和 Metrix的设计者考虑了影响文本衔接性的多种
VocabProfile工具提取了14本英国本科教材中 因素,例如:(1)and、but、because等语
的42篇学术文本和42篇雅思阅读真题的27个量 篇衔接手段;(2)句法结构,因为句子的内
化特征,包括句子平均单词数、段落平均句子 部结构影响到意义的表达是否清晰、易于理
数、主动词前单词数,以及衔接性、文本抽象 解;(3)指称衔接,即单词、从句、句子
程度(如词汇具体度、词汇上义度)、C o h- 甚至段落的重叠。笔者从中选择了与文本衔
Metrix二语可读性等,然后使用t检验对两组 接性直接相关的维度:指称衔接、连词和潜
数据进行了比较。研究者还对文本进行了内 语义分析(见表1)。使用潜语义分析技术
容分析、专家评价等质性考察。研究结果表 是C o h-M e t r i x的一大优势,它超越了表层 感觉好高深
明,教材文本和雅思阅读在词汇具体度、主 形式特征的统计,通过奇异值分解来压缩词
题专业性(subject specificity)等少数指标 频-文本矩阵,构建潜藏的文本语义空间,
上存在显著差异,这一方面是由于雅思需要 然后计算两个语言单位所代表的向量夹角的
避免产生文化、话题偏误(b i a s),另 一 方 余弦值,即为两者的语义相似度(桂诗春,
面也表明雅思阅读比少数专业性教材(如法 2003; Landauer et al., 2007)。这种技术
律)容易。该研究表明C o h-M e t r i x能够用于 能够有效地分析文本的衔接性。Coh-Metrix
对阅读理解进行效度研究。 将本科层次文本(c o l l e g e l e v e l)的语义
可以把我们的作文和这
国内使用Coh-Metrix的实证研究不到10 空间作为潜语义分析的基础。该语义空间包 个库来对比
项,可分为两类,第一类是自动评分研究。梁 含了TASA(Touchstone Applied Science
茂成(2006)通过研究发现5项测量局部衔接 Associates)语料库中的大量小说、报刊文章
性和4项测量整体衔接性的Coh-Metrix指标与 等文本。
EFL作文成绩显著相关,并且高分作文整体衔

59
表 1 与衔接性直接相关的 Coh-Metrix 维度及其特征

维度 包含的变量 变量数量
相邻句子名词重叠的平均数
相邻句子论元重叠的平均数
相邻句子词干重叠的平均数
所有句子名词重叠的平均数
指称衔接 10
所有句子论元重叠的平均数
所有句子词干重叠的平均数
相邻句子实词重叠的平均数与标准差
所有句子实词重叠的平均数与标准差
所有连词的比例
因果连词的比例
逻辑连词的比例
转折连词的比例
连词 时序连词的比例 9
扩展时序连词的比例
附加连词的比例
肯定意义连词(如also, moreover)的比例
否定意义连词(如but, however)的比例
相邻句子语义相似度的平均数和标准差
段落内所有句子语义相似度的平均数和标准差
潜语义分析 8
相邻段落语义相似度的平均数和标准差
所有句子语义相似度的平均数和标准差

词长和句长只能反映文本的一部分表层特征,
4 阅读难度和Coh-Metrix工具 即文本难度的一部分,这些公式忽略了阅读理
阅读难度指文本难以阅读和理解的程 解过程涉及的语言表征、结构、策略使用、
度,反过来讲就是可读性(readability)或易 加工过程等其他认知层面(McNamara et al.,
读性(easibility)(McNamara et al., 2014: 2014: 79)。Masi(2002)也指出,在考察文

78, 83) 。长期以来,对阅读难度的测量方 本是否适合特定读者时,不仅要量化测量词汇
式是采用单一的可读性指标,如弗莱士-金凯 和句法复杂度,还应考虑其他语义和句法因素,
德年级水平(Flesch-Kincaid Grade Level, 如结构嵌入、文本类型、读者的背景知识等。
FKGL)、阅读能力等级(Degrees of Reading 基于多种自动分析技术,Coh-Metrix改进
Power, DRP)和蓝思分级(Lexile Scores)。 了以往单一的可读性公式,研制出Coh-Metrix
Vol.13 No.5 (General Serial No.73)

McNamara等人(2014: 13-15)发现,这些 二语可读性指标(Coh-Metrix L2 Readability,


指标计算出的文本难度高度相关(r>0.9), RDL2)。其计算公式为:-45.032+(52.23×
因为它们都包括词长和句长信息。例如,弗 相邻句子实词重叠的平均数)+(61.306×句
莱士-金凯德年级水平的计算公式为:0.39× 子的平均句法相似度)+(22.205×C E L E X
Sept. 2016

句子的平均单词数+11.8×单词的平均音节数 数据库中实词的最低对数词频平均数)
-15.59,其基本理念是单词越长,可能越生 (McNamara et al., 2014: 80)。该指标尤其
僻;句子越长,句法可能越复杂,需要的工作 适用于二语阅读者,因为它反映了二语学习者
L C

记忆越多,因而文本的阅读等级越高。不过, 在词汇、句子和语篇衔接方面遇到的困难。研
F

60
中国外语
究表明,Coh-Metrix二语可读性与日本学生英 触到的文本片段,包括语言艺术、科学、社会
语完形填空得分的相关度(r=0.93)高于弗 研究、历史,甚至商业、医疗、家政、工业艺

第13卷 第5期 (总第73期)


2016年9月
莱士易读性(F l e s c h R e a d i n g E a s e)和弗 术;第二,每个文本已有难度指标(DRP)。
莱士-金凯德年级水平(r均为0.86),因此比 研究者排除了Coh-Metrix中无法预测文本变异
后两者更有效(Crossley et al., 2008)。另 的指标,以及与其他特征高度相关(r﹥0.9)
一项研究表明,Coh-Metrix二语可读性公式能 的指标,最终剩下53个指标。通过主成分分
准确区分59%的阅读材料,高于弗莱士易读 析进行压缩,最终发现了8个主要成分,它们
性和弗莱士-金凯德年级水平(44%~48%) 能解释67.3%的文本变异,并且这些成分与
(Crossley et al., 2011)。 Graesser & McNamara(2011)的多层面阅读
由于可读性指标仍然比较简单,Graesser 理论框架基本吻合:词汇层面对应词汇具体度
等人(2011)使用T A S A语料库中的37 520 (word concreteness);句法层面对应句法
个文本对C o h-M e t r i x的一百多个测量指标 简约性(syntactic simplicity);篇章格局对应
进行了主成分分析(Principal Components 指称衔接(referential cohesion);情景模式
Analysis),试图找出主要构成因素。这些文 对应深度衔接(deep cohesion)、动词衔接
本的平均长度为288.6词,相当于一个段落。 (verb cohesion)、连接度(connectivity)
选用这些文本的原因有两个:第一,文本的代 和时序性(temporality);体裁和修辞结构对
表性强,涵盖了美国从幼儿园到12年级可能接 应叙事性(narrativity)。每个主成分的得分由

表2 Coh-Metrix 易读性主成分包含的变量
包含的变量
主成分 变量数量
正载荷变量 负载荷变量

动词、副词、代词、第一人称代词、第三人
单词平均音节数;名
称代词的比例;CELEX数据库中所有词汇
词、形容词的比例;
的对数词频平均数;CELEX数据库中实词
叙事性 实词的平均习得年 17
的最低对数词频平均数;句子最低词频;实
龄;名词短语的平均
词的平均熟悉度;否定式的比例;句子间词
修饰语数;被动语态
性相异度
虚词与实词之比;句
因果关系动词;意愿动词或意愿副词;段落内
句法简约性 子平均单词数;主动 6
句子的平均句法相似度
词前平均单词数
实词的平均意义性;实词的平均具体度;实词
词汇具体度 无 3
的平均想象性
相邻句子实词重叠的平均数;所有句子实词重
叠的平均数;相邻句子论元重叠的平均数;所
有句子论元重叠的平均数;相邻句子名词重叠 类形符比;所有词汇
指称衔接 13
的平均数;所有句子词干重叠的平均数;已 多样性;动词多样性
知信息和新信息的LSA;相邻句子LSA;所有
LSA;句子间词汇相异度
所有连词的比例;因果连词的比例;时序连词
深度衔接 的比例;逻辑连词的比例;因果关系衔接;意 无 6
愿关系衔接
实词的平均多义性;相邻句子动词重叠的平
动词衔接 无 3
均数;相邻句子LSA动词重叠
连接度 附加连词的比例;转折连词的比例 无 2
时序性 时序衔接;动词时态重复;动词体重复 无 3

61
其内部各变量(见表2)加权求和得出,权数为 可以使用,第一个工具可以对文本的106个特

各变量的方差贡献率(即载荷量的平方数) 。 征进行分析,第二个工具仅对文本的易读性进
在进行相加时,需要对载荷为负数的变量进行 行分析(即表1的易读性主成分模块)。笔者
符号转换,保证各变量的数值越大,文本易读 选择第一个工具,点击进入后系统要求注册。
性越高。8个主成分即为Coh-Metrix 3.0提供的 注册成功后登录,界面左侧要求设置一系列参
易读性模块。 数,界面右侧的文字对各项参数进行了说明:

(1)在“Title”栏输入文本的名称或编号;
5 Coh-Metrix实例操作 (2)“Genre”目前有三个选择:science、
网络版C o h-M e t r i x 3.0可以自动处理 narrative和informational,需要根据研究的文本
15 000词以内的单个文本。如果需要处理的单 选择最接近的一种体裁;
个文本超过15 000词,或者需要小批量地处理 (3)“Source”指文章的来源;
多个文本,其研发团队可以免费提供服务。不 (4)“Job Code”指本次操作的代码或名
过,如果文本超过一定长度和数量则需付费。 称,研究者可填入任意字母或数字,以便于以
本文以60篇学生译文为例,对C o h- 后根据“Job Code”检索本次操作的结果;
M e t r i x工具的操作进行演示。翻译的原文由 (5)“LSA Space”指用于潜语义分析的
M C A N X I X U N V I E W 2011年第28期的文章 文本空间,系统默认使用“College Level”;
“U.S. Exports Rose in March, but Trade Gap (6)研究者将须处理的文本(删除标题
Still Widened”中文版改编而成,共294个汉 等信息,仅保留文本本身)复制粘贴到下面的
字。译者为国内四所不同水平大学的近300名 空白框内,点击“submit”即可。
商务英语专业本科生,教师采用统一的标准对
每篇译文进行评分。译文满分为100分,笔者 由于本研究使用的原文是信息性的新闻报
从85分以上(高分)和55~60分(低分)译文 道,笔者对上述参数进行以下设置(图1)。
中随机选择60篇进行研究,每组各30篇。本研 数秒之后,文本分析的结果在界面右
究的目的是考察两组译文的区别何在。 侧显示,每行为一个文本特征(如图2)。
笔者使用C o h-M e t r i x对译文进行了 如果点击数据结果左上角的“S a v e D a t a”
分析。操作步骤如下:首先,登录网站 按钮,文本分析的结果将自动保存在名为
http://cohmetrix.com/,选择页面的“WEB CohMetrixOutput的Excel文件中。在此文件
T O O L”,则出现四个工具:“C o h-M e t r i x 中,每列为一个文本特征。
Web Tool”“Coh-Metrix Text Easability 得到第一篇文本的分析结果后,可以点击
Assessor”“Coh-Metrix Common Core 图2中的“Clear Data”,然后设定新的参数,
T.E.R.A.”和“C o h-M e t r i x W e b T o o l 输入新的文本,再对新文本进行分析。如果需
(Traditional Chinese)”。目前仅前两个工具 要对多个文件的结果进行比较,数据最好呈现
Vol.13 No.5 (General Serial No.73)
Sept. 2016
L C

图1 Coh-Metrix 参数设置
F

62
中国外语
第13卷 第5期 (总第73期)
2016年9月
图2 Coh-Metrix 分析结果的界面格式

在同一个表格中,此时不需要清除数据,只需 程度的 重 合 , 比 如 有 些 特 征 既 有 Z 分 数 也 有
修改文件名称等参数,输入新的文本内容,结 百 分 位 数 ⑤, 有 些 既 有 平 均 数 也 有 标 准 差 ,
果文件中会自动增加新文本的处理数据,最后 笔者进行了删减,呈现了其中13个重要特征
保存结果即可。 (见表3)。
按照以上操作步骤,笔者获得了60篇译文 表3显示,第一,高分组译文的段落、句
的数据。笔者选择与本文前半部分的讨论紧密 子、单词数量都明显多于低分组译文,这是因
相关的5个维度(描述性统计量、指称衔接、潜 为有些低分译文出现了漏译的情况。第二,两
语义分析、连词、文本易读性主成分)进行分 组译文在指称衔接维度上没有显著差异 ⑥,即
析,共包括56个特征。独立样本t检验的结果 相邻句子/所有句子的名词、论元、词干、实词
显示,高、低分组译文在其中4个维度、20个 重叠的数量都相当,这是因为译文受原文的影
特征上具有显著差异。由于部分变量存在一定 响很大,并且学生译者的水平和经验有限,他

表 3 高、低分译文的显著差异

模块 变量 t 自由度 显著性(双侧) 均值差异


段落数 2.693 29 .012 0.2

描述性 句子数 5.160 33.674 .000 2.3


统计量 单词数 7.715 36.598 .000 41.767
段落平均句子数 3.767 34.163 .001 .533
因果连词的比例 3.321 58 .002 6.902
连词
时序连词的比例 2.463 58 .017 3.98
相邻句子语义相似度的平均数 4.977 44.542 .000 .078
段落所有句子语义相似度的平
潜语义 6.479 43.448 .000 .097
均数
分析
相邻段落语义相似度的平均数 10.015 45.697 .000 .159
所有句子语义相似度的平均数 10 58 .000 .07
叙事性Z分数 -4.086 58 .000 -.253
文本易读
句法简约性Z分数 2.338 52.62 .023 .291
性主成分
深度衔接Z分数 2.715 58 .009 .476

63
们更遵从原文的信息呈现方式和顺序,因此这 (批准号:15W Y C064)、对外经济贸易
些指标无法区分好坏译文。第三,高分译文使 大学学科建设专项经费(批准号:324-
用的因果连词和时序连词显著多于低分译文, 811005120501)、对外经济贸易大学教学
可见高分作文通过更多的因果关系、时间和顺 实验研究课题(X14520)以及上海外语
序性连词来展现文章的结构。第四,高分译文 教育出版社全国高校外语教学科研项目
的潜语义分析指标均显著高于低分译文,包括 (2015BJ00248)的资助。
相邻句子的语义相似度、段落内所有句子的语 ② 网络版Coh-Metrix工具参见http://cohmetrix.
义相似度、相邻段落的语义相似度、所有句子 com/,Coh-Metrix 3.0提取的106个变量及其
的语义相似度,表明高分译文的语义空间更紧 说明可参见McNamara等(2014: 60-77, 247-
凑、译文内部的语义联系更紧密。第五,两组 251)。
译文在文本易读性主成分上的比较结果不尽一 ③ 英文文献中的readability、easibility以及中文
致。低分组译文的叙事性显著高于高分译文, 文献中的“可读性”“易读性”等近义术
表明这些译文带有更明显的口语特点(Biber, 语,有人严格区分,有人混而用之。本文在
1988; Clark, 1996)。同时,高分组译文的句 定义上不作区分。在McNamara等(2014: 78,
法简约性Z分数显著高于低分译文,表明高分 83)的研究中,可读性仅采用一个计算公式
译文的句法结构更简单,这可能是因为一些低 来测量,而易读性从词汇、句法、衔接等多
分译文漏译了部分单词或短语,使得句法结构 个维度进行测量,两者的本质都是文本易于
残缺难懂。此外,高分组译文的深度衔接Z分 阅读和理解的程度。
数显著高于低分译文,表明在出现因果关系和 ④ 变量的英文名称及其载荷量范围参见
逻辑关系的情况下,高分译文使用了更多的因 Graesser等(2011: 228-230)。
果性和意愿性连词。这些连词能够帮助读者理 ⑤ Z分数是经过标准化处理的数据,即每个文
解因果事件和行为。 本的特征值减去平均数再除以标准差。百分
位数在0~100%之间,80%的百分位数表示该
文本比80%的文本容易。由于本研究的重点
6 结语 不是单个文本,而是两组文本,笔者未讨论
本文对一款基于网络的文本分析工具Coh- 百分位数。
Metrix进行了介绍。Coh-Metrix融合了计算语 ⑥ 限于篇幅,表2没有呈现不具有显著差异的
言学和语料库语言学的多种技术,可以对任一 指标。
文本的11个维度、106个词汇语法和语义特征
进行自动分析。该工具已被广泛应用于多个文 参考文献
本分析领域,尤其是自动测量书面语文本的衔 [1] Beck, I. L., McKeown, M. G., Sinatra, G. M.
接性,以及测量阅读文本的难易度。本文使用 & Loxterman, J. A. Revising social studies text
Coh-Metrix工具对高、低分两组学生译文进行 from a text-processing perspective: Evidence
了分析。研究结果表明,尽管译文受原文的限 of improved comprehensibility[J]. Reading
制较大,Coh-Metrix的一系列指标仍然可以有 Research Quarterly, 1991(3): 251-276.
效地区分好坏译文。与低分译文相比,高分译 [2] Biber, D. Variation across Speech and Writing[M].
文使用的因果连词、时序连词、意愿性连词更 Cambridge: Cambridge University Press, 1998.
多,因而衔接度更高;译文内部的语义联系更 [3] Britton, B. K. & Gulgoz, S. Using Kintsch’s
为紧密;句法结构更完整易懂。总之,C o h- computational model to improve instructional
Vol.13 No.5 (General Serial No.73)

Metrix提供了一套比较全面、客观的文本分析 text: Effects of repairing inference calls on


指标,为自动测量文本的衔接性和难易度提供 recall and cognitive structures[J]. Journal of
了参考,可以用于学习者写作语言的分析、阅 Educational Psychology, 1991(3): 329-345.
读分级、教材编写等诸多领域,是一个不可多 [4] Clark, H. H. Using Language[M]. Cambridge:
Sept. 2016

得的研究工具。 Cambridge University Press, 1996.


[5] Crossley, S. A., Allen, D. & McNamara, D. S.
注释 Text readability and intuitive simplification: A
L C

① 本研究受北京市哲学社会科学基金项目 comparison of readability formulas[J]. Reading


F

64
中国外语
in a Foreign Language, 2011(1): 84-102. Cambridge University Press, 2014.
[6] Crossley, S. A., Greenfield, J. & McNamara, D. [17] McNamara, D. S., Louwerse, M. M., McCarthy,

第13卷 第5期 (总第73期)


2016年9月
S. Assessing text readability using cognitively P. M. & Graesser, A. C. Coh-Metrix: Capturing
based indices[J]. TESOL Quarterly, 2008(3): linguistic features of cohesion[J]. Discourse
475-493. Processes, 2010(4): 292-330.
[7] Crossley, S. A., Louwerse, M. M. & McCarthy, [18] 鲍贵. 不同课程水平英语学习者词汇复杂性
P. M. A linguistic analysis of simplified and 研究[J]. 解放军外国语学院学报, 2011(4): 55-
authentic texts[J]. Modern Language Journal, 60.
2007(1): 15-30. [19] 杜慧颖, 蔡金亭. 基于Coh-Metrix的中国英语
[8] Crossley, S. A., Salsbury, T., McNamara, D. 学习者议论文写作质量预测模型研究[J]. 现
S. & Jarvis, S. Predicting lexical proficiency 代外语, 2013(3): 293-300.
in language learner texts using computational [20] 桂林. 基于计算机评估的L 1和L 2作文词汇
indices[J]. Language Testing, 2011(4): 561-580. 水平对比研究[J]. 外语教学与研究, 2010(6):
[9] Duran, N. D., McCarthy, P. M., Graesser, A. C. 445-450.
& McNamara, D. S. Using temporal cohesion [21] 桂诗春. 潜伏语义分析的理论及其应用[J]. 现
to predict temporal coherence in narrative and 代外语, 2003(1): 76-84.
expository texts[J]. Behavior Research Methods, [22] 梁茂成. 学习者书面语语篇连贯性的研究[J].
2007(2): 212-223. 现代外语, 2006(3): 284-292.
[10] Graesser, A. C. & McNamara, D. S. Computational [23] 秦朝霞, 顾琦一. 写作话题熟悉度与国内习作
analysis of multilevel discourse comprehension 者书面语语篇衔接手段运用——基于一种自
[J]. Topics in Cognitive Science, 2011(2): 371- 动测量方法的对比研究[J]. 西安外国语大学
398. 学报, 2011(1): 95-98.
[11] Graesser, A. C., McNamara, D. S. & Kulikowich,
J. Coh-Metrix: Providing multilevel analyses of The Application of Coh-Metrix in Foreign
text characteristics[J]. Educational Researcher, Language Teaching and Research
2011(5): 223-234. Abstract: Coh-Metrix is a web-based text analysis
[12] Green, A., Ünaldi, A. & Weir, C. Empiricism tool which integrates a wide range of technologies
versus connoisseurship: Establishing the in computational linguistics and corpus linguistics.
appropriacy of texts in tests of academic Coh-Metrix can automatically analyze 106 lexical-
reading[J]. Language Testing, 2010(3): 1-21. grammatical and semantic features of one text.
[13] Landauer, T. K., McNamara, D. S., Dennis S. & These features cover 11 dimensions: Descriptive,
Kintsch, W. (eds.). Handbook of Latent Semantic Text Easability Principal Component Scores,
Analysis[M]. Mahwah, NJ: Erlbaum, 2007. Referential Cohesion, Latent Semantic Analysis,
[14] Louwerse, M. M., McCarthy, P. M., McNamara, Lexical Diversity, Connectives, Situation Model,
D. S. & Graesser, A. C. Variation in language Syntactic Complexity, Syntactic Pattern Density,
and cohesion across written and spoken Word Information and Readability. Coh-Metrix
registers[A]. In Forbus, K. D., Gentner, D. & has been widely used in measuring the cohesion
Regier, T. (eds.). Proceedings of the 26th Annual of texts, differentiating registers and genres of
Meeting of the Cognitive Science Society[C]. texts, and investigating the linguistic features of
Mahwah, NJ: Erlbaum, 2004: 843-848. student writings and their predicting power of
[15] Masi, S. The literature on complexity [A]. writing quality, etc. This paper first introduces the
In Merlini Barbesi, L. (ed.). Complexity in theoretical basis and existing literature of Coh-
Language and Text[C]. Pisa, Edizioni Plus, Metrix, and then demonstrates the application
2002: 197-228. of Coh-Metrix with 60 student translations to
[16] McNamara, D. S., Graesser, A. C., McCarthy provide reference for foreign language researchers.
P. M. & Cai, Z. Automated Evaluation of Text Keywords: Coh-Metrix; text features; cohesion;
and Discourse with Coh-Metrix[M]. New York: difficulty

65

You might also like