词汇知识和阅读能力在美国高考思辨阅读中的作用实证研究

外语测试与教学
2017 年第 4 期 Oct 2017

Foreign Language Testing and Teaching
［中图分类号］ H319 ［文献标识码］ A ［文章编号］ 2095－1167（ 2017） 04－0024－12
词汇知识和阅读能力在美国高考
*
思辨阅读中的作用实证研究
徐伟
提要：本研究以通过英语专业四级考试（ TEM4）的中高水平 51 人为研究对象，采用词汇广度 2 个测试工具，

词汇深度测试工具（语境高频学术词汇测试表）和 TEM4 综合成绩、TEM8 阅读成绩共 5 个测试工具，考查了 5
个变量对于思辨性阅读新 SAT 阅读的影响贡献力。采用 SPSS19．0 对实验数据做多元线性回归分析，结果表
明：词汇深度和 TEM8 阅读能有效预测思辨阅读能力；词汇广度和 TEM4 综合成绩对于思辨阅读能力不具有
预测性。通过文本指难针工具和 ETS 开发的 TextEvaluator  文本难度分析器对 TEM8 阅读和 SAT 阅读文本难
度的内在联系做分析，同时结合二者的思辨能力考查点进行比较，发现新 SAT 阅读在思辨能力上增加了 2 个
大的维度，即修辞功能评价维度和信息综合分析维度，强化了信息综合思辨分析应用能力，因此改革前 TEM8
阅读能部分解释难度偏高的美国高考思辨阅读中体现的能力，而词汇深度测试工具与思辨阅读的能力要求
存在高度正相关关系。
关键词：阅读理解；思辨阅读能力；新 SAT 阅读；词汇深度；专业八级阅读； TextEvaluator  文本难度分析器
Abstract： 51 third-year English majors with intermediate or proficient English levels participate in this study． Their
performances in two vocabulary tests including Vocabulary Level Test（ VLT） and Vocabulary Size Test（ VST） are both
adopted to test the breath of vocabulary knowledge． In addition，scores about depth of vocabulary knowledge （ High-U-
tility Academic Words and Phrases），TEM4 overall scores，TEM8 reading scores and redesigned SAT critical reading
scores are collected as the original data． After the Pearson correlation and linear regression analysis，it is found that
firstly the VST and VLT are unable to predict learners' critical reading proficiency while depth of vocabulary knowl-
edge and TEM8 reading can effectively predict critical reading ability． Secondly，TEM4 fails to predict language
learners' critical reading ability． Thirdly，after analyzing SAT reading and TEM8 reading with Text Difficulty Level
Calculating Tool developed by Language Data website and TextEvaluator  text analysis tool developed by ETS in
America，it is found out that in addition to text difficulty similarities between them，the redesigned SAT critical read-
ing and TEM8 reading share one common core： information and idea testing，but SAT critical reading has 2 additional
dimensions of rhetoric and information synthesis which reflect the higher critical ability of Bloom taxonomical model，
namely，application，analysis，synthesis and evaluation．
Key words： reading comprehension； critical reading ability； redesigned SAT reading； depth of vocabulary knowl-
edge； TEM8 reading； TextEvaluator  text analysis tool
1．研究背景
1．1 文献回顾
* 基金项目：湖北中医药大学 2016 校级教育教学课题“基于任务型教学法的医学学术讲座教学实证研究”。

· 24·
词汇知识和阅读能力在美国高考思辨阅读中的作用实证研究
国内外研究涉及词汇量、词汇深度与阅读能力、语言综合水平之间的关系研究，可以分为
两类，第一类认为词汇量、词汇深度 2 个指标均和阅读能力、语言综合水平存在相关性，且词汇
深度的预测力更强。研究包括李晓（ 2007）采用 Schmit 设计的词汇广度试题，词汇深度知识测
试工具主要采用Ｒead 设计的词汇联想测试，分析指出词汇量、词汇深度知识均可有效预测语
言综合能力，且词汇深度对语言综合能力的预测强于词汇量。张学宾，邱天河（ 2006）指出：词
汇量和词汇深度间存在显著高相关关系，再一次验证了 Qian（ 1999）研究中两者高相关的实验
结果。他还发现，词汇量、词汇深度和阅读存在显著性高相关关系，尤其是词汇深度和阅读的
相关程度大于词汇量和阅读的相关程度，说明词汇深度对阅读成绩的预测力强于词汇量对阅
读的预测力。
第二类研究认为，词汇的广度和深度对于阅读能力、语言综合水平的影响存在临界值效应
并受到二语使用者水平的制约。王子颖（ 2014）采用 Nation 和 Beglar 新编的 Vocabulary Size
Test（ 2010）（以下简称 VST）作为词汇量测试的工具，结合 CET4、CET6 作为语言水平的测试工
具来分析词汇量与语言综合水平之间的关系，得出如下结论：词汇量测试对 CET4 有一定的预
测性，但对 CET6 不存在预测效度，其中，词汇量与 CET4 的阅读成绩成显著性中度相关，而与
CET6 阅读成绩的相关性不显著。另外，随着学习者语言水平达到一定高度，词汇量的增加未
必能明显提高他们的语言综合水平，而是更需要提高词汇的深度能力和产出型词汇能力。吕
长竑（ 2004）采用高校新生英语词汇测试试卷对受试进行词汇量测试，用高校新生英语分级测
试试卷进行语言综合能力测试，得出结论如下：对于中等水平学习者，词汇量测试工具无预测
力，词汇量和语言综合能力的相关程度并不高，相关性不太显著，不同水平学习者的词汇量对
语言综合能力的预测力存在差异；词汇深度知识与词汇广度知识相关性弱。龚兵（ 2006）验证
了吕长竑（ 2004）的结论，在对未通过 CET4 的低水平学习者和通过 CET4 的中高水平学习者
做了相关研究后，得出结论：通过 CET4 的学生的词汇深度对 CET4 阅读理解有预测性，而未通
过 CET4 的学生由于其词汇水平过低，词汇深度对于阅读能力不具有预测力。本文作者认为
第二类研究更具有科学性，词汇量、词汇深度与阅读或语言综合水平的关系研究需要考虑语言
使用者的个体差异性与水平动态发展的多样性。以往这类研究未能涉及思辨阅读的研究，因
此本文试图进行词汇广度、词汇深度测试工具、TEM4 综合成绩、TEM8 阅读成绩对于美国高考
思辨性阅读成绩预测力的实证研究。
1．2 SAT 思辨性阅读
美国高考 SAT（ Scholastic Aptitude Test）阅读为何定义为思辨性学术阅读？文秋芳（ 2008）
提出了高层次思维能力或者称为思辨能力（ critical thinking）层级理论模型，该模型有三项核心
技能：分析技能、推理技能和评价技能。分析技能包括归类、识别、比较、澄清、区分、阐释等分
项技能；推理技能包括质疑、假设、推论、阐述、论证等分项技能；评价技能是指对假定、论证过
结论等的评判技能。首先，从考试整体定位来说，SAT 属于学术能力考试，用于预测与评估
程、
考生进入大学之后的学业潜力，从美国高考 2016 改革后的官方指南也可以看出美国高考阅读
对于思辨综合能力的考查符合文秋芳提出的三大思辨指标： “新版 SAT 考生在阅读作答时使
用证据或者引用特定的段落来支持自己的理解（ Find evidence in a passage，or pair of passages，
that best supports the answer to a previous question or serves as the basis for a reasonable conclu-
sion．），需要在阅读过程中注重对文章的分析能力，要求考生领会文章作者论述结构、写作风
格、推理技巧（ Identify how authors use evidence，such as facts，examples to support their claims
· 25·
外语测试与教学 2017 年第 4 期
and how readings use reasoning to develop ideas and to connect claims and how authors use stylistic
or persuasive elements to add power to central claim．），两篇文章配有图表数据，学生需要综合理
解文章和数据的内容（ Find a relationship between an informational graphic and the passage it's
paired with．） ”（ College Board 2015： 55 － 71）。从下文亦可见，SAT 阅读综合契合文秋芳的思辨
能力层级理论模型，考查了符合思辨能力层级理论模型的三项重要学术潜力： 1）分析能力：
分析文本中心大意和支撑性细节；识别支撑观点信息，梳理出作者思考问题的脉络；理解词汇
语境含义；识别观点态度信息；分析双篇文本关系，定量文本信息和图表关联，文本或者段落的
功能和意图，特定词组使用对于文章基调的贡献，全文结构和局部段落结构的作用，视角对于
内容和主题的影响。2）推理能力：把握隐含含义，理解类比思维，推测作者写作意图。3）评价
能力：评价分观点的合理性和缺陷，论证过程和论证逻辑的合理性。
本研究具体研究问题为：
问题一：英语综合能力、阅读能力和英语思辨阅读能力的关系。
问题二：词汇量和词汇深度与英语思辨阅读能力的关系。
2．研究方法
2．1 研究对象：中高水平英语专业学生
对象为某二本学校英语专业大三学生，在接受测试前参加过 TEM4。本研究涉及词汇深
度使用，根据学者的研究，词汇量对于低水平学习者的间接影响路径最少，影响力最小，预测力
最弱（吕长竑 2004）。同时从阅读测试结果看，当二语学习者二语水平超过“门槛 ”，达到较高
层次的时候，其二语阅读能力由普适于所有语言的认知加工来决定，包括预测、分析、综合、推
理以及对相关背景知识的提取等高层次的心理运作（杨枫，吴诗玉 2016）。由于本文研究的是
英语思辨阅读能力，运用高层次的心理运作机制，所以去除 TEM4 60 分以下学生，挑选中高水
平学生对应的各项数据，实际研究人数为 51 人。
2．2 研究工具
研究工具 1：接受性词汇量测试 Vocabulary Level Test（以下简称 VLT）
词汇数据研究挑选了 Schmitt et al．（ 2001）版本的 VLT。选择依据有 2 点： 1）相比 Paul
Nation 版，新的 VLT 词汇测试工具有更好的词汇效度验证； 2）加入学术词汇的考查，采用更科
学的 Coxhead 编写的学术词汇表（ Academic Word List，AWL），新版 VLT 具有学术文本的覆盖
面更宽但所含词量更少的优点，和本研究的思辨阅读Ｒedesigned SAT 语境推测词汇部分有更
好的一致性，对于学术语篇的考查有更好的参考性。我们把 AWL Version 2 作为 4000 词部分
来评定。由于受试学生为大三英语专业学生，去除 2000 词初级词汇部分。本研究为了测试的
真实性，完整采用新版 VLT 的全部测试： 3000 词，AWL（ 4000 词），
5000 词和 10000 词共 4 个部
分。每个部分 30 词，共 120 词，答对一题得一分，共 120 分。
研究工具 2：接受性词汇量测试 VST
Nation 和 Beglar 开发的 VST 由 Beglar（ 2010）通过实证研究证明了其在二语学习书面接受
性词汇方面是可靠、全面、有效的词汇量测试工具。作为对于工具 1（ VLT）的补充，本研究采
用 VST Version B，共 140 选项，共计 140 分。
研究工具 3：词汇深度测试（语境高频学术词汇测试表）
词汇深度的理解为词汇知识使用的质量，包含发音、拼写、构词特征、句法关系、语义特征、
词汇搭配等方面的知识（Ｒichards 1976）。关于词汇深度的考查工具，一般采用Ｒead 的 WAF
· 26·
（ Word Association Format）和词汇知识量表 VKS（ Vocabulary Knowledge Scale）。由于 WAF 的

词汇为 3000 词内的搭配使用考查，而本文研究的是 SAT 思辨学术阅读的使用能力，适用性不
强。VKS 量表自我汇报的方式会有误差，和接受性词汇知识 VLT 区别不显著，测量学生学术
词汇的深度可靠性不强。因此本文采用自编词汇深度测试，即语境高频学术词汇测试表
（ High-Utility Academic Words and Phrases），测试 30 题，共 30 分，来自美国 College Board 开发
的 Khan Academic Ｒeadings。这些词汇的选择依据为： 1）非特定学科技术词汇如 ductile，iso-
tope； 2）讨论社会科学和自然科学时使用的基础高频学术词汇； 3）试题考查多义词的语境细微
区别。（详见附表 1）。
研究工具 4：阅读能力数据采集为专业八级阅读成绩
满分为 20 分，由于学生并未准备专业八级考试，测试采用 TEM8 改革前 2008 年阅读真
题，题型均为选择题，可以保障测试的权威性和真实性。
研究工具 5：思辨阅读测试 SAT
四篇文章分别来自新 SAT 2016 年 3 月北美真题（ 2 篇），SAT 官方学习指南（ 2 篇），合计
35 题，共计总分 35 分。
2．3 程序
研究工具 1、
2、4 数据采集开展形式为期中测试，时间为 2016 年 11 月，词汇测试共计 90
分钟，阅读测试按照 TEM8 改革前的时限 30 分钟进行，整个测试共计 120 分钟。研究工具 3、
5
融入 2016 年 12 月期末测试开展，工具 3 用时 30 分钟，工具 5 用时 60 分钟，共计 90 分钟。采
集数据的方式正式可靠，间隔时间为 1 个月。
3．研究结果和数据
3．1 描述性统计结果
表1 5 种测试工具和思辨阅读的描述性统计结果
测试变量 1 2 3 4 5 6 平均分标准差

TEM4 — 63 5．875
＊＊
VST 0．547 — 36 8．967
VLT 0．144 0．192 — 96．63 13．838
*
TEM8 阅读 0．058 0．184 0．297 — 11．35 3．161
语境推词 0．376 ＊＊
0．358 ＊＊
0．619 ＊＊
0．223 — 19．16 4．567
思辨阅读 0．219 0．183 0．514 ＊＊
0．374 ＊＊
0．686 ＊＊
— 18．57 4．187
（＊＊
P＜0．01，* P＜0．05）
利用 SPSS 做数据信度分析，Cronbach's Alpha 值为 0．75，说明量表的信度可靠。从表 1 可

知，TEM4 综合成绩、VST 与思辨性阅读成绩相关性不显著，可以排除这 2 个变量； VLT、TEM8
阅读与思辨性阅读成绩弱相关，词汇深度测试（语境推词）工具与思辨性阅读成绩中度相关，
且显著水平都小于 0．01。表 1 也显示 TEM8 阅读和 VST、TEM4 综合成绩没有显著关系，TEM4
和 VST 中度相关，词汇深度测试与 TEM8 阅读相关性不显著。由于各个变量之间关系复杂，
采用线性诊断、逐步分析方法对这些变量进行了多元线性回归分析，诊断发现各项数值容忍度
为 0．952，均接近 1，方差膨胀因子符合要求，条件指数 CI 为 1．052，符合要求，说明各个变量没
有共线性问题，符合做多元线性回归的基本要求。
· 27·
3．2 总样本的多元回归分析
再以思辨阅读为因变量；（ 1）词汇广度 VLT（去除显著性不强的 VST 变量），（ 2）词汇深度
测试工具（语境高频学术词汇测试表），（ 3） TEM8 阅读（去除显著性不强的 TEM4 综合成绩变
量）这 3 个因素为自变量，采用逐步回归分析。
表2 回归分析
Model Summary
Change Statistics
Durbin-
Adjusted Ｒ Std． Error of Ｒ Square
Watson
Model ＲＲ Square Square the Estimate Change F Change df1 df2 Sig． F Change
1 ．686 a ．470 ．459 3．079 ．470 43．462 1 49 ．000
B
2．011
2 ．722 ．522 ．502 2．956 ．052 5．172 1 48 ．027
a． Predictors：（ Constant），
语境推词； b． Predictors；（ Constant），
语境推词； c． Dependent Variable： SAT 思辨阅读
通过逐步回归分析，VLT 变量被排除，显著性不符合要求（ p＞0．05）。回顾表 1，VLT 与思

辨阅读能力显著相关（ 0．514），但通过逐步回归分析排除变量后，只有语境推词和 TEM8 阅读
被保留。可以看出思辨阅读能力和词汇的广度（ VST 量表和 VLT 量表）关系不大，而与词汇的
深度有很高的相关度。此次研究的结果也再一次验证了吕长竑（ 2004）的观点：词汇量的广度
对阅读能力、语言综合水平影响存在临界值效应。
从表 2 可见 F 统计量均达到显著性，语境推词： F（ 1，49） = 43．46，p＜0．001；模型 2 语境推
词和专业八级： F（ 1，
49） = 26．17，p＜0．001，说明两个回归方程均有效。从表 2 可见 a 模型解释
了思辨阅读的显著变异（ F = 43．462，P ＜0．05），同时词汇深度测试工具（语境高频学术词汇测试
2
表）可以解释思辨阅读能力方差中的 47%（Ｒ = 0．47）。说明排除自变量数目的影响后，用这
个指标可以解释思辨阅读 47% 的方差。同样在模型 B 中，加入 TEM8 阅读也解释了思辨阅读
的显著变异（ F = 5．172，P ＜0．05），加入这个变量后解释力提高了 5．2%，用这个模型可以解释思
辨阅读 52．2% 的方差。从表 3 可以看出，最终用来评价思辨能力的回归方程为：
思辨阅读 = 3．938 + 0．581* 语境推词 + 0．308* TEM8 阅读。
表3 语境推词和 TEM8 阅读对思辨阅读的预测能力
模型 B Beta t 显著性备注
常量 3．938 1．848 ．071 因变量：思辨阅读
2
语境推词．581 ．634 6．186 ．000 能力。Ｒ综合为
TEM8 阅读．308 ．136 2．277 ．027 0．522
以上模型回归可以判断，
学生的思辨阅读能力和其语境推词的能力呈正相关，学生语境推词
每提高一个单位，
成绩将提升 0．581 分；学生的思辨阅读能力和 TEM8 阅读成绩呈正相关，学生
TEM8 阅读成绩每提高一个单位，成绩将提升 0．308 分。因此建立的一级标准化回归方程为：
思辨阅读能力 = 0．634* 语境高频学术词汇测试表（词汇深度） + 0．233* TEM8 阅读。
3．3 词汇深度和 TEM8 阅读对于思辨阅读的预测能力比较
在以上回归分析的基础上，辨别出 2 个因素和思辨阅读具有相关性，把词汇深度（语境推
词）、TEM8 阅读分别作为自变量，思辨阅读作为因变量，进行线性分析。
· 28·
表4 自变量为词汇深度（语境推词）、因变量为思辨建立因变量为思辨阅读，自变量为语境推词

阅读的回归分析结果（深度词汇测试）的回归方程。回归方程 1 为：
模型 1 B Beta ＲＲ2 sig 思辨阅读 = 6． 525 + 0． 629 * 语境推词（深
常量 6．527 度词汇测试）；
词汇深度标准回归方程为：
．629 ．686 ．688 0．470 0．000
（语境推词）思辨阅读 = 0．686* 语境推词。
表5 自变量为 TEM8 阅读、因变量为思辨阅读的回建立因变量为思辨阅读，自变量为 TEM8 阅读

归分析结果的回归方程。回归方程 2：
模型 2 B Beta ＲＲ2 sig 思辨阅读 = 12．939 + 0．496* TEM8 阅读；
常量 12．939 标准回归方程为：
TEM8 阅读 0．496 0．374 0．374 0．140 0．000
思辨阅读 = 0．374* TEM8 阅读。
由语境推词（词汇深度使用）建立的回归方程的预测能力要大于由 TEM8 阅读建立的回

归方程的预测能力（ 0．686＞0．374），从Ｒ Square 系数也可以得到印证（ 47%＞14%）。
4．讨论和分析
4．1 新 SAT 思辨阅读和语境推词的相关性分析
为何 SAT 思辨阅读和词汇深度测试工具（语境推词）相关系数最大为 0．686，呈中度偏强
相关？首先需要看选择的 30 个词汇类型和成功推测词义的能力要求。从文后附表 1 可以看
出 30 个语境推词，有 5 个和常见意义相关，同时需要结合语境来确定词义。其他 25 个词汇均
为高频词汇，考生需要结合 3 个不同语境指标来确定词汇含义： 1）根据目标词汇的位置所在
的句子内意思进行词义推测，包括使用语法知识，利用句子结构、词汇所在位置、句中的搭配、
和其他词汇的组合关系，以及句中的逻辑关系进行判断； 2）根据目标词汇的所在位置的前后
句进行推测，包括使用语法知识，利用句间的逻辑关系进行判断； 3）根据段落的大意和态度进
行推测。可以看出，词汇深度测试工具需要进行信息的深度加工和综合信息总结分析能力，与
思辨能力要求高度衔接。
4．2 SAT 思辨阅读和 TEM8 阅读的相关性分析
4．2．1文本指难针工具考查 SAT 思辨阅读和 TEM8 阅读的词汇难度相关性
为何 SAT 思辨阅读和 TEM8 阅读呈现中度相关（相关系数为 0．374）？为了回答这一点，
我们采用文本指难针工具（金檀，李百川 2016）对两个不同阅读的难度数据做比较。
表6 文本词汇难度相关性比较
文本核心指标计算结果
词汇覆盖（ %）
均句长最长句长文章长度难度 LD 值
中考高考四级六级考研
p1（社会科学） 75．09 86．48 92．53 94．66 96．09 19．38 48 620 4．16
p2（社会科学） 69．61 83．99 90．52 92．48 94．44 18．16 33 581 4．15
2008TEM8
p3（社会科学） 72．46 82．34 89．52 93．11 94．31 18．08 40 687 4．19
p4（体裁为文学） 68．38 84．19 89．71 93．38 95．96 13．16 36 579 4．05
· 29·
（续表）
指标平均值 1 71．39 84．25 90．57 93．41 95．20 17．20 39．25 616．75 4．1375
p1（自然科学，生物） 66．15 84．05 91．44 93．77 96．50 20．72 36 601 4．31
p2（社会科学） 63．46 80．77 89．74 91．03 93．27 21．82 67 720 4．14
redesigned SAT
p3（文学） 73．38 84．30 88．40 92．15 93．52 17．44 48 750 3．49
p4（科学，生物） 63．13 79．89 85．47 88．83 92．74 24．00 54 408 4．31
指标平均值 2 66．53 82．25 88．76 91．45 94．01 21．00 51．25 619．75 4．0625
以上分析可以看出二点，1）从体裁来看，TEM8 阅读和 SAT 思辨阅读具有重叠性，均有文

科学体裁。2）从词汇覆盖率分析，TEM8 阅读和 SAT 阅读文本在词汇覆盖率上基本相同，
学、
词汇覆盖率指一篇文本中读者熟悉的词汇量占该文本词汇量总数的比例，它反映的是读者和
文本的交互关系；观察表格发现，阅读者在完成 TEM8 阅读和 SAT 阅读时遇到的单词熟悉程
度在同一水平，因而排除了词汇量对于受试阅读成绩的影响，词汇深度对于阅读过程产生更多
影响。3）难度 LD 值的对比显示二者的文本词汇难度大体类似，均值分别为 4．1375 和4．0625。
由于文本指难针工具主要从词汇层面做出文本难度的分析和评定等级（金檀，李百川 2016），
我们可以确定 TEM8 阅读和 SAT 思辨阅读的词汇难度基础相似。这种相似性使得受试的
TEM8 阅读成绩和 SAT 阅读成绩呈现相关性，能在一定程度上预测思辨阅读能力。阅读的难
度并非单一由文本的词汇难度决定，以下采用 ETS 开发的 TextEvaluator  文本难度分析器做文
本难度的多维分析。
4．2．2 TextEvaluator  文本难度分析器考查 SAT 思辨阅读和 TEM8 阅读文本难度相关性
TextEvaluator  文本难度分析器是由美国教育考试机构 ETS 专家 Sheehan 开发的基于网络
的文本难度分析工具，其设计的初衷是帮助美国教师和专家挑选适合美国共同核心州立英语
能力标准（ Common Core State Standards，CCSS）的阅读材料（ Sheehan 2016： 1）。
TextEvaluator  文本难度分析器和其他文本可读性分析工具的区别和优势：
1）多维度文本分析
表7 常见文本可读性分析工具维度比较
文本特征 Flesch-k Lexile Coh-metrix TextEvaluator 

Syntactic complexity 句法复杂度    
Vocabulary complexity 词汇复杂度    
Ｒeferential cohesion 指代连贯度  
Causal cohesion 文本信息因果关系  
Degree of abstractness 抽象度  
Academic orientation 学术性倾向 
Topic development 话题发展 
上表根据 Sheehan 教授对于常见文本难度分析器的优缺点总结绘制得出（ Sheehan 2015）。

可见，TextEvaluator  文本难度分析器从词汇理解、句法理解、句间关系理解，话语篇章结构、学
术性层面多维度综合检验文本的难度（ Sheehan 2016： 11）。
2）以专家定级方式为难度的参考标准
· 30·
根据 Sheehan 团队的研究，句子填空确定难度级别方式更多考查的是句子层面的理解，而
不关注文本（ text）层面的理解，可信度不高。第二步通过 4 个子库做主成分分析，并且将这些
指标和专家定级方式进行相关性比较，保留高度正相关指标，提炼出 8 个文本难度的核心指标
（ Sheehan 2016： 14 － 15）： ①学术性倾向（ Academic vocabulary），采用每千字 Coxhead 开发的学
术词汇比例（ Academic word list ratio）； ②句法复杂度（ Syntactic complexity）； ③具体度（ Con-
creteness）； ④ 词汇陌生度（ Word unfamiliarity ）； ⑤ 互动对话性（ Interactivity / conversational
style）； ⑥叙事性（ Narrativity）； ⑦连贯度（ Cohesion）； ⑧论证说明性（ Argumentation）。
3）阅读文本体裁差异敏感识别
美国共同核心州立英语能力标准的专家学者意识到文学文本使用常用词汇表达复杂的观
点，用传统文本可读性分析工具如 Lexile 仅从词汇和句法上做出判断，鉴别出文本类型体裁的
敏感度不够。一般的 Lexile 读物在信息类文章的定级偏高，而在文学类文章定级难度偏低
（ Sheehan et al． 2010： 23），Sheehan 把这种现象定义为文本分级体裁偏见。TextEvaluator  文本
难度分析器使用文本分级体裁偏见公式（ Genre X Text Evaluator），可通过文本难度指标测定不
同体裁难度的精确区别（ Sheehan 2016： 9），并鉴别出不同体裁（信息类、文学类和综合类）的文
本难度。本研究通过 TextEvaluator  得出 SAT 思辨阅读和 TEM8 阅读文本难度值，并通过
SPSS 做出双线比较图。
表8 基于 TextEvaluator  文本难度分析器的 SAT 思辨阅读和专业八级阅读文本难度比较
TextEvaluator 
 适用美国
Complexity 体裁类型
 年级
Score

TEM8 a 篇 930 9 Information （信息）
TEM8 b 篇 1080 11 Information （信息）
TEM8 c 篇 900 9 Information （信息）
TEM8 d 篇 819 8 Information （信息）
SAT 阅读 1 980 10 Information （信息）
图1 阅读文本难度和适用年级
（ ▲为 4 篇 SAT 思辨阅读文章，●为 TEM8 阅读，文本构件难度的域值用 1—100 表示；文本整体难度的
域值用 100—200 的尺度表示。
· 31·
从 TextEvaluator  得出的难度系数对于传统的体裁分辨做出纠正，原来 2008 年 TEM8 阅

读第四篇被认为是文学体裁，文本工具鉴别为综合类型，该文章兼具文学和信息类文章的特
征，
SAT 阅读第三篇弗吉尼亚·伍尔芙关于女权主义讨论的文章原定义为文学文本，文本工具
鉴别为信息论证文章。同时用文本指难针工具得出难度平均值（单一词汇维度） 4． 1375 ＞
4．0625，即 TEM8 阅读难度＞SAT 阅读难度的结论也被纠正，从以上图表可以看出 SAT 阅读的
四篇文章适用的年级和文本难度值均高于 TEM8 阅读，在阅读能力和难度上要求更高。
4．2．3 从思辨能力考查点看 SAT 思辨阅读和 TEM8 阅读的相关性
表9 思辨能力考查点异同分析
TEM8 SAT SAT 特有思辨能力考查点 SAT 特有思辨能力考查点
不同能力点（修辞功能和论证
相同能力点相同能力点不同能力点（信息综合）
评价）
1 特定词组和词汇使用，词汇 6 分析双篇文本关系
1 中心观点和主题（ explicit
1 中心大意 pattern 的使用可以塑造文本
stated or implicit central idea）
的基调
2 引用 textual evidence（使用文 2 文本结构：全文结构和局部功 7 分析定量信息（文本信息
2 关键性的细节支撑章的证据支撑文章和个人观能结构（ overall text structure 和图表关联）
点），寻证据题 and part-whole relationship）
3 视角；视角识别和视角对于
3 指代考查和词义推测 3 语境中词汇（词组）意义识别
内容功能的影响
4 仔细阅读，包括 3 大类（直接
4 推理题，含蓄表达含义 4 意图：文本或者段落的意图
含义，隐含含义，类比思维）
5 分析论证：
1）分析论点或者反驳观点；
5 总结性观点（识别总结性信 2）分析论证的合理性
5 观点态度
息）（ soundness）；
3）分析分观点的合理性和
缺陷
专业八级和 SAT 思辨阅读相同能力点： SAT 思辨阅读独特能力点：

1 分析能力：分析文本中心大意和支撑性细节；识别支撑 1 评价能力：分析评价分观点的合理性和缺陷；对于论证过
观点信息，梳理出作者思考问题的脉络；理解词汇语境含程和论证逻辑合理性的评价。
义；识别观点态度信息。 2 分析能力：分析双篇文本关系；分析定量文本信息和图表
2 推理能力：把握作者隐含含义，类比思维等。关联；分析文本或者段落的功能和意图；分析特定词组使
用对于文章基调的贡献；分析全文结构和局部段落结构的
作用；分析视角对于内容功能的影响。
Bloom（ 1956）提出的认知目标分类理论（ Bloom taxonomical model）把认知领域的学习能力

由低到高分为六个层次：知识、领会、应用、分析、综合和评价（ lower level of thinking skills：
knowledge ＆ comprehension； higher level of thinking skills： application，analysis，synthesis，evalu-
ation．）（徐伟 2014）。以此为标准，新 SAT 思辨阅读体现了 Bloom 思辨能力的高级能力，具有
独特的对于思辨能力的考查维度：学生需要对文本信息识别和理解，同时对文本信息掌握的概
念、原理、观点等信息汇总后在图表和做题过程中展开运用，把知识分类、整合；需要将篇章 1
· 32·
和篇章 2 重新组合加工，提出新见解、独创新结论，最终做到创造性地对信息进行判断、比较、
检验和分析，创新性地得出新的观点。从以上表格 8 和 9 综合可见，二者文本难度有相似点，
但由于新 SAT 在思辨能力上增加了 2 个大的维度（修辞功能和信息综合）和 7 个特有的思辨
子维度（ College Board 2015），思辨能力要求强化了信息综合分析能力和修辞功能评价两个要
点，涉及思辨能力的高级阶段能力，因此改革前 TEM8 阅读部分能解释难度偏高的 SAT 思辨
阅读中体现的阅读能力。
5．结论与启示
根据以上的整体分析，我们得出以下结论：
1）英语综合能力、阅读能力和英语思辨阅读能力的关系。英语专业四级综合能力和思
辨阅读无相关性，TEM4 成绩的高低无法预测思辨阅读能力的发展水平。原因在于 TEM4 测
试涉及语法、词汇和听读写综合语言能力，当二语能力处于低水平，二语阅读会受到语言能力
的影响，但通过一个临界值后二语阅读逐步会摆脱语言的影响，因此 TEM4 这类语言能力测试
和思辨性强的阅读无关联性。
2）词汇量和词汇深度与英语思辨阅读能力的关系。词汇量与思辨阅读能力没有发现显
著相关性，而词汇深度测试可以作为一个考查思辨阅读能力的重要参考性指标。
本文在教学上具有重要启示，词汇深度的训练要结合语境提高二语学习者对于高频多义
词的理解能力和加强词汇深度加工能力。同时，本文的词汇深度测试工具（语境高频学术词
汇测试表）也给未来的词汇深度测试提供了新的研究方向。
新 SAT 在思辨能力上独特的 2 个大的维度（修辞功能论证评价维度和信息综合维度）和 7
个思辨次维度可以给国内学术阅读测试研究和思辨能力培养提供很好的参考模型。①
本文的局限性在于，语境高频学术词汇测试表和 TEM8 阅读两个指标解释思辨阅读
52．2% 的方差，说明还有其他的因素在思辨阅读中起到作用，有待于进一步的研究发现。
参考文献
［1］ Beglar D A．Ｒasch-based validation of the Vocabulary Size Test ［J］． Language Testing，2010，27（ 1）： 101－
118．
［2］ Bloom B （ ed．）． Taxonomy of Educational Objectives: The Classification of Educational Goals［M］． New York：
Longmans，1956．
［3］Ｒichards J C． The role of vocabulary teaching［J］． TESOL Quarterly，1976，10（ 1）： 77－89．
［4］ College Board． The Official SAT Study Guide，2016 Edition［M］． New York： The College Board，2015．
［5］ Qian D． Assessing the roles of depth and breadth of vocabulary knowledge in reading comprehension ［J］． Ca-
nadian Modern Language Ｒeview，1999，56（ 2）： 282－308．
［6］ Schmitt N，Schmitt D ＆ Clapham C． Developing and exploring the behaviour of two new versions of the Vocab-
ulary Levels Test ［J］． Language Testing，2001，18（ 1）： 55－88．
［7］ Sheehan K M． Aligning TextEvaluator  scores with the accelerated text complexity guidelines specified in the
Common Core State Standards ［J］． ETS Ｒesearch Ｒeport，2015（ 2）： 1－20．
① 2016 年 TEM8 全新改革，阅读部分词汇量保持3 000 词，但测试形式由原来的 20 道多项选择题调整为 14 道多项选择题

加 8 道简答题，题型的变化要求考生进行信息定位、分析推理、总结和评价，加强对于思辨能力的考查。四篇文章变为
三篇，题材既包括信息类，也包括文学阅读，考查点设置更加细致，既考查基本信息理解，分析文本中心大意和支撑性细
节，又能兼顾考查修辞功能和信息综合的高级阅读技巧，向加强思辨能力考查方向发展迈出了一大步。
· 33·
［8］ Sheehan K M． A review of evidence presented in support of three key claims in the validity argument for the
TextEvaluator  Text Analysis Tool ［J］． ETS Ｒesearch Ｒeport，2016（ 1）： 1－16．
［9］ Sheehan K M et al． Generating automated text complexity classifications that are aligned with targeted text com-
plexity standards［J］． ETS Ｒesearch Ｒeport，2010（ 2）： 1－44．
［10］龚兵．词汇知识深度对阅读能力的影响［J］．国外外语教学，
2006，（ 2）： 1－6．
［11］金檀，李百川． “英语文本指难针”［EB / OL］．广州：语言数据网 http： / / www．languagedata．net / tester，
2016．
［12］李晓．词汇量、词汇深度知识与语言综合能力关系研究［J］．外语教学与研究，
2007，（ 5）： 352－359．
［13］吕长竑．词汇量与语言综合能力、词汇深度知识之关系［J］．外语教学与研究，
2004，（ 2）： 116－123．
［14］王子颖．词汇量测试对语言水平的预测性的实证研究［J］．外语教学理论与实践，
2014，（ 2）： 71－75．
［15］文秋芳．论外语专业研究生高层次思维能力的培养［J］．学位与研究生教育，
2008，（ 10）： 29－34．
［16］徐伟．基于英语辩论的思辨认知能力教学模式研究［J］．英语广场（学术版），
2014，（ 9）： 84－86．
［17］杨枫，吴诗玉．我们能否像阅读母语那样阅读外语？ ———在线篇章处理的证据［J］．外语教学理论与实
2016，（ 4）： 1－9．
践，
［18］张学宾，邱天河．词汇知识和阅读关系的实证性研究［J］．外语教学，
2006，（ 1）： 38－42．
附表 1 词汇深度测试工具（语境高频学术词汇测试表）
题号单词语境考查含义常用含义
1 form （ 1） custom 习俗 shape 形式
2 directly（ 1） without mediation 没有媒婆 straightway 直接地
3 ambivalent（ 2） conflicted 相矛盾的 contradictory 矛盾的
4 flagging（ 2） weakening 削弱 pendulous 下垂的，衰弱的
5 compelling（ 1） urgent 急迫的 attractive 引人注目的
6 sensitive（ 1） discerning 有辨识力的 subtle 敏感的
7 strong（ 1） compelling 具有说服力 firm 强壮的，牢固的
8 promising（ 1） potentially valuable 有潜在价值的 hopeful 有希望的
9 seized on（ 1） took advantage of 利用 catch hold of 抓住，占有
10 attractive（ 1） pulling 拉 absorbing 吸引人的
11 embraced（ 1） readily adopted 接受 hug 拥抱
12 plastic（ 1） malleable 可塑的 moldable 塑料的
13 rule（ 1） a controlling force 一种控制力量 regulation 规则
14 devise（ 1） create 创造 plan 设计
15 capture（ 1） record 记录 snatch 捕捉
16 credit（ 1） believe 相信 faith 信用
17 favor（ 2） preference 偏爱 promote over others 喜爱
18 document（ 1） record 记录 file 文件
· 34·
（续表）
19 /25 common（ 1） shared 共享的 ordinary 通常的
20 bearing（ 1） carrying 运送 swallowing 忍受
21 flat（ 1） static 静态的 even 平坦的
22 conducted（ 2） carried out 开展 managed 管理，开展
23 expert（ 1） capable 能胜任的 specialist 专家
24 low（ 1） petty 琐碎的 shallow 低的，浅的
26 standard（ 1） accepted 接受的 level of quality 标准
27 open（ 1） uncovered 无遮盖 unfasten 打开的
28 foundation（ 2） underpinning 地基基础
29 sixpence（ 1） opportunity 机会 6 便士
30 aggressive（ 1） desperate 不顾一切 invasive 侵略性的
（ 1）为考查多义词；（ 2）为考查常见用法
作者联系方式：湖北中医药大学外国语学院，湖北武汉 430070

櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟櫟
（上接第 11 页）
［12］黄源深．英语专业课程必须彻底改革———再谈思辨缺席［J］．外语界，
2010，（ 1）： 11－16．
［13］金怡．中学生英语概要写作研究：问题与对策［J］．外语测试与教学，
2016，（ 4）： 38－42．
［14］林岩．英语专业知识课中的密集读写任务对思辨能力的影响［J］．外语界，
2014，（ 5）： 11－19．
［15］刘春燕．二语课程中的语言输出与二语发展———香港高校本科生课程英语写作的个案研究［J］．外语
2014，（ 3）： 45－54．
界，
［16］刘晓民．论大学英语教学思辨能力培养模式构建［J］．外语界，
2013，（ 5）： 59－66．
［17］王惠萍．英语专业批评性写作教学的必要性和可行性［J］．外语界，
2009，（ 3）： 45－51．
［18］王守仁．《大学英语教学指南》要点解读［J］．外语界，
2016，（ 3）： 2－10．
［19］文秋芳，周燕．评述外语专业学生思维能力的发展［J］．外语学刊，
2006，（ 5）： 76－80．
［20］徐倩．英语专业八级考试反拨作用研究———对考生的一次大规模调查［J］．外语测试与教学，
2014，（ 3）：
27－ 34．
［21］徐永．基于测试有效性理论的 TEM 写作部分改进刍议［J］．外语测试与教学，
2016，（ 1）： 47－54．
［22］颜静兰，杨慧敏．英语专业四、八级测试对英语教学的互动与反拨作用［J］．外语测试与教学，
2011，（ 2）：
37－46．
［23］余继英．写作思辨“一体化”教学模式构建［J］．外语界，
2014，（ 5）： 20－28．
［24］张莲，孙有中．基于社会文化理论视角的英语专业写作课程改革实践［J］．外语界，
2014，（ 5）： 2－10．
［25］赵德全，张珂．阅读理解题型所承载的测试任务———以 2016 年 TEM8 考试为例［J］．外语测试与教学，
2016，（ 4）： 10－14．
［26］邹申，方秀才，陈炜． 2011 年英语专业四、八级考试分析报告［J］．外语测试与教学，
2012，（ 1）： 1－10．
作者联系方式：华东理工大学外国语学院，上海 200237

· 35·

词汇知识和阅读能力在美国高考思辨阅读中的作用实证研究

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

词汇知识和阅读能力在美国高考思辨阅读中的作用实证研究

Uploaded by

Copyright:

Available Formats

外语测试与教学

2017 年第 4 期 Oct 2017

［中图分类号］ H319 ［文献标识码］ A ［文章编号］ 2095－1167（ 2017） 04－0024－12

提要： 本研究以通过英语专业四级考试（ TEM4） 的中高水平 51 人为研究对象，采用词汇广度 2 个测试工具，

* 基金项目： 湖北中医药大学 2016 校级教育教学课题“基于任务型教学法的医学学术讲座教学实证研究”。

（ Word Association Format） 和词汇知识量表 VKS（ Vocabulary Knowledge Scale） 。 由于 WAF 的

测试变量 1 2 3 4 5 6 平均分 标准差

利用 SPSS 做数据信度分析，Cronbach's Alpha 值为 0．75，说明量表的信度可靠。 从表 1 可

通过逐步回归分析，VLT 变量被排除，显著性不符合要求 （ p＞0．05） 。 回顾表 1，VLT 与思

表4 自变量为词汇深度（ 语境推词） 、因变量为思辨 建立因变量为思辨阅读， 自变量为语境推词

表5 自变量为 TEM8 阅读、因变量为思辨阅读的回 建立因变量为思辨阅读，自变量为 TEM8 阅读

由语境推词（ 词汇深度使用 ） 建立的回归方程的预测能力要大于由 TEM8 阅读建立的回

以上分析可以看出二点，1） 从体裁来看，TEM8 阅读和 SAT 思辨阅读具有重叠性，均有文

文本特征 Flesch-k Lexile Coh-metrix TextEvaluator 

上表根据 Sheehan 教授对于常见文本难度分析器的优缺点总结绘制得出 （ Sheehan 2015） 。

从 TextEvaluator  得出的难度系数对于传统的体裁分辨做出纠正，原来 2008 年 TEM8 阅

专业八级和 SAT 思辨阅读相同能力点： SAT 思辨阅读独特能力点：

Bloom（ 1956） 提出的认知目标分类理论（ Bloom taxonomical model） 把认知领域的学习能力

① 2016 年 TEM8 全新改革，阅读部分词汇量保持3 000 词，但测试形式由原来的 20 道多项选择题调整为 14 道多项选择题

1 form （ 1） custom 习俗 shape 形式

2 directly（ 1） without mediation 没有媒婆 straightway 直接地

3 ambivalent（ 2） conflicted 相矛盾的 contradictory 矛盾的

4 flagging（ 2） weakening 削弱 pendulous 下垂的，衰弱的

5 compelling（ 1） urgent 急迫的 attractive 引人注目的

6 sensitive（ 1） discerning 有辨识力的 subtle 敏感的

7 strong（ 1） compelling 具有说服力 firm 强壮的，牢固的

8 promising（ 1） potentially valuable 有潜在价值的 hopeful 有希望的

9 seized on（ 1） took advantage of 利用 catch hold of 抓住，占有

10 attractive（ 1） pulling 拉 absorbing 吸引人的

11 embraced（ 1） readily adopted 接受 hug 拥抱

12 plastic（ 1） malleable 可塑的 moldable 塑料的

13 rule（ 1） a controlling force 一种控制力量 regulation 规则

14 devise（ 1） create 创造 plan 设计

15 capture（ 1） record 记录 snatch 捕捉

16 credit（ 1） believe 相信 faith 信用

17 favor（ 2） preference 偏爱 promote over others 喜爱

18 document（ 1） record 记录 file 文件

19 /25 common（ 1） shared 共享的 ordinary 通常的

20 bearing（ 1） carrying 运送 swallowing 忍受

21 flat（ 1） static 静态的 even 平坦的

22 conducted（ 2） carried out 开展 managed 管理，开展

23 expert（ 1） capable 能胜任的 specialist 专家

24 low（ 1） petty 琐碎的 shallow 低的，浅的

26 standard（ 1） accepted 接受的 level of quality 标准

27 open（ 1） uncovered 无遮盖 unfasten 打开的

30 aggressive（ 1） desperate 不顾一切 invasive 侵略性的

作者联系方式： 湖北中医药大学外国语学院，湖北 武汉 430070

作者联系方式： 华东理工大学外国语学院，上海 200237

You might also like

提要：本研究以通过英语专业四级考试（ TEM4）的中高水平 51 人为研究对象，采用词汇广度 2 个测试工具，

* 基金项目：湖北中医药大学 2016 校级教育教学课题“基于任务型教学法的医学学术讲座教学实证研究”。

（ Word Association Format）和词汇知识量表 VKS（ Vocabulary Knowledge Scale）。由于 WAF 的

测试变量 1 2 3 4 5 6 平均分标准差

利用 SPSS 做数据信度分析，Cronbach's Alpha 值为 0．75，说明量表的信度可靠。从表 1 可

通过逐步回归分析，VLT 变量被排除，显著性不符合要求（ p＞0．05）。回顾表 1，VLT 与思

表4 自变量为词汇深度（语境推词）、因变量为思辨建立因变量为思辨阅读，自变量为语境推词

表5 自变量为 TEM8 阅读、因变量为思辨阅读的回建立因变量为思辨阅读，自变量为 TEM8 阅读

由语境推词（词汇深度使用）建立的回归方程的预测能力要大于由 TEM8 阅读建立的回

以上分析可以看出二点，1）从体裁来看，TEM8 阅读和 SAT 思辨阅读具有重叠性，均有文

上表根据 Sheehan 教授对于常见文本难度分析器的优缺点总结绘制得出（ Sheehan 2015）。

Bloom（ 1956）提出的认知目标分类理论（ Bloom taxonomical model）把认知领域的学习能力

作者联系方式：湖北中医药大学外国语学院，湖北武汉 430070

作者联系方式：华东理工大学外国语学院，上海 200237