Professional Documents
Culture Documents
词汇知识和阅读能力在美国高考
*
思辨阅读中的作用实证研究
徐 伟
1. 研究背景
1.1 文献回顾
国内外研究涉及词汇量、词汇深度与阅读能力、语言综合水平之间的关系研究,可以分为
两类,第一类认为词汇量、词汇深度 2 个指标均和阅读能力、语言综合水平存在相关性,且词汇
深度的预测力更强。研究包括李晓( 2007) 采用 Schmit 设计的词汇广度试题,词汇深度知识测
试工具主要采用 Read 设计的词汇联想测试,分析指出词汇量、词汇深度知识均可有效预测语
言综合能力,且词汇深度对语言综合能力的预测强于词汇量 。张学宾,邱天河 ( 2006) 指出: 词
汇量和词汇深度间存在显著高相关关系 ,再一次验证了 Qian( 1999) 研究中两者高相关的实验
结果。他还发现,词汇量、词汇深度和阅读存在显著性高相关关系,尤其是词汇深度和阅读的
相关程度大于词汇量和阅读的相关程度 ,说明词汇深度对阅读成绩的预测力强于词汇量对阅
读的预测力。
第二类研究认为,词汇的广度和深度对于阅读能力 、语言综合水平的影响存在临界值效应
并受到二语使用者水平的制约。 王子颖 ( 2014) 采用 Nation 和 Beglar 新编的 Vocabulary Size
Test( 2010) ( 以下简称 VST) 作为词汇量测试的工具,结合 CET4、CET6 作为语言水平的测试工
具来分析词汇量与语言综合水平之间的关系 ,得出如下结论: 词汇量测试对 CET4 有一定的预
测性,但对 CET6 不存在预测效度,其中,词汇量与 CET4 的阅读成绩成显著性中度相关,而与
CET6 阅读成绩的相关性不显著。另外,随着学习者语言水平达到一定高度,词汇量的增加未
必能明显提高他们的语言综合水平 ,而是更需要提高词汇的深度能力和产出型词汇能力。 吕
长竑( 2004) 采用高校新生英语词汇测试试卷对受试进行词汇量测试,用高校新生英语分级测
试试卷进行语言综合能力测试,得出结论如下: 对于中等水平学习者,词汇量测试工具无预测
力,词汇量和语言综合能力的相关程度并不高 ,相关性不太显著,不同水平学习者的词汇量对
语言综合能力的预测力存在差异 ; 词汇深度知识与词汇广度知识相关性弱 。龚兵 ( 2006) 验证
了吕长竑( 2004) 的结论,在对未通过 CET4 的低水平学习者和通过 CET4 的中高水平学习者
做了相关研究后,得出结论: 通过 CET4 的学生的词汇深度对 CET4 阅读理解有预测性,而未通
过 CET4 的学生由于其词汇水平过低,词汇深度对于阅读能力不具有预测力。 本文作者认为
第二类研究更具有科学性,词汇量、词汇深度与阅读或语言综合水平的关系研究需要考虑语言
使用者的个体差异性与水平动态发展的多样性 。以往这类研究未能涉及思辨阅读的研究,因
此本文试图进行词汇广度、词汇深度测试工具、TEM4 综合成绩、TEM8 阅读成绩对于美国高考
思辨性阅读成绩预测力的实证研究 。
1.2 SAT 思辨性阅读
美国高考 SAT( Scholastic Aptitude Test) 阅读为何定义为思辨性学术阅读 ? 文秋芳 ( 2008)
提出了高层次思维能力或者称为思辨能力 ( critical thinking) 层级理论模型,该模型有三项核心
技能: 分析技能、推理技能和评价技能。分析技能包括归类、识别、比较、澄清、区分、阐释等分
项技能; 推理技能包括质疑、假设、推论、阐述、论证等分项技能; 评价技能是指对假定、论证过
结论等的评判技能。首先,从考试整体定位来说,SAT 属于学术能力考试,用于预测与评估
程、
考生进入大学之后的学业潜力,从美国高考 2016 改革后的官方指南也可以看出美国高考阅读
对于思辨综合能力的考查符合文秋芳提出的三大思辨指标: “新版 SAT 考生在阅读作答时使
用证据或者引用特定的段落来支持自己的理解 ( Find evidence in a passage,or pair of passages,
that best supports the answer to a previous question or serves as the basis for a reasonable conclu-
sion.) ,需要在阅读过程中注重对文章的分析能力 ,要求考生领会文章作者论述结构、写作风
格、推理技巧 ( Identify how authors use evidence,such as facts,examples to support their claims
· 25·
外语测试与教学 2017 年第 4 期
and how readings use reasoning to develop ideas and to connect claims and how authors use stylistic
or persuasive elements to add power to central claim.) ,两篇文章配有图表数据,学生需要综合理
解文章和数据的内容 ( Find a relationship between an informational graphic and the passage it's
paired with.) ”( College Board 2015: 55 - 71) 。从下文亦可见,SAT 阅读综合契合文秋芳的思辨
能力层级理论模型 ,考查了符合思辨能力层级理论模型的三项重要学术潜力: 1) 分析能力:
分析文本中心大意和支撑性细节 ; 识别支撑观点信息,梳理出作者思考问题的脉络; 理解词汇
语境含义; 识别观点态度信息; 分析双篇文本关系,定量文本信息和图表关联,文本或者段落的
功能和意图,特定词组使用对于文章基调的贡献 ,全文结构和局部段落结构的作用,视角对于
内容和主题的影响。2) 推理能力: 把握隐含含义,理解类比思维,推测作者写作意图。3) 评价
能力: 评价分观点的合理性和缺陷,论证过程和论证逻辑的合理性。
本研究具体研究问题为:
问题一: 英语综合能力、阅读能力和英语思辨阅读能力的关系 。
问题二: 词汇量和词汇深度与英语思辨阅读能力的关系 。
2. 研究方法
2.1 研究对象: 中高水平英语专业学生
对象为某二本学校英语专业大三学生 ,在接受测试前参加过 TEM4。 本研究涉及词汇深
度使用,根据学者的研究,词汇量对于低水平学习者的间接影响路径最少 ,影响力最小,预测力
最弱( 吕长竑 2004) 。同时从阅读测试结果看,当二语学习者二语水平超过“门槛 ”,达到较高
层次的时候,其二语阅读能力由普适于所有语言的认知加工来决定 ,包括预测、分析、综合、推
理以及对相关背景知识的提取等高层次的心理运作 ( 杨枫,吴诗玉 2016) 。由于本文研究的是
英语思辨阅读能力,运用高层次的心理运作机制,所以去除 TEM4 60 分以下学生,挑选中高水
平学生对应的各项数据,实际研究人数为 51 人。
2.2 研究工具
研究工具 1: 接受性词汇量测试 Vocabulary Level Test( 以下简称 VLT)
词汇数据研究挑选了 Schmitt et al. ( 2001) 版本的 VLT。 选择依据有 2 点: 1) 相比 Paul
Nation 版,新的 VLT 词汇测试工具有更好的词汇效度验证 ; 2) 加入学术词汇的考查,采用更科
学的 Coxhead 编写的学术词汇表( Academic Word List,AWL) ,新版 VLT 具有学术文本的覆盖
面更宽但所含词量更少的优点,和本研究的思辨阅读 Redesigned SAT 语境推测词汇部分有更
好的一致性,对于学术语篇的考查有更好的参考性。我们把 AWL Version 2 作为 4000 词部分
来评定。由于受试学生为大三英语专业学生 ,去除 2000 词初级词汇部分。本研究为了测试的
真实性,完整采用新版 VLT 的全部测试: 3000 词,AWL( 4000 词) ,
5000 词和 10000 词共 4 个部
分。每个部分 30 词,共 120 词,答对一题得一分,共 120 分。
研究工具 2: 接受性词汇量测试 VST
Nation 和 Beglar 开发的 VST 由 Beglar( 2010) 通过实证研究证明了其在二语学习书面接受
性词汇方面是可靠、全面、有效的词汇量测试工具。 作为对于工具 1( VLT) 的补充,本研究采
用 VST Version B,共 140 选项,共计 140 分。
研究工具 3: 词汇深度测试( 语境高频学术词汇测试表)
词汇深度的理解为词汇知识使用的质量 ,包含发音、拼写、构词特征、句法关系、语义特征、
词汇搭配等方面的知识( Richards 1976) 。关于词汇深度的考查工具,一般采用 Read 的 WAF
· 26·
词汇知识和阅读能力在美国高考思辨阅读中的作用实证研究
表1 5 种测试工具和思辨阅读的描述性统计结果
( **
P<0.01,* P<0.05)
3.2 总样本的多元回归分析
再以思辨阅读为因变量; ( 1) 词汇广度 VLT( 去除显著性不强的 VST 变量 ) ,( 2) 词汇深度
测试工具( 语境高频学术词汇测试表) ,( 3) TEM8 阅读 ( 去除显著性不强的 TEM4 综合成绩变
量) 这 3 个因素为自变量,采用逐步回归分析。
表2 回归分析
Model Summary
Change Statistics
Durbin-
Adjusted R Std. Error of R Square
Watson
Model R R Square Square the Estimate Change F Change df1 df2 Sig. F Change
1 .686 a .470 .459 3.079 .470 43.462 1 49 .000
B
2.011
2 .722 .522 .502 2.956 .052 5.172 1 48 .027
a. Predictors: ( Constant) ,
语境推词; b. Predictors; ( Constant) ,
语境推词; c. Dependent Variable: SAT 思辨阅读
以上模型回归可以判断,
学生的思辨阅读能力和其语境推词的能力呈正相关,学生语境推词
每提高一个单位,
成绩将提升 0.581 分; 学生的思辨阅读能力和 TEM8 阅读成绩呈正相关,学生
TEM8 阅读成绩每提高一个单位, 成绩将提升 0.308 分。因此建立的一级标准化回归方程为:
思辨阅读能力 = 0.634* 语境高频学术词汇测试表( 词汇深度) + 0.233* TEM8 阅读。
3.3 词汇深度和 TEM8 阅读对于思辨阅读的预测能力比较
在以上回归分析的基础上,辨别出 2 个因素和思辨阅读具有相关性,把词汇深度 ( 语境推
词) 、TEM8 阅读分别作为自变量,思辨阅读作为因变量,进行线性分析。
· 28·
词汇知识和阅读能力在美国高考思辨阅读中的作用实证研究
词汇覆盖( %)
均句长 最长句长 文章长度 难度 LD 值
中考 高考 四级 六级 考研
p1( 社会科学) 75.09 86.48 92.53 94.66 96.09 19.38 48 620 4.16
p2( 社会科学) 69.61 83.99 90.52 92.48 94.44 18.16 33 581 4.15
2008TEM8
p3( 社会科学) 72.46 82.34 89.52 93.11 94.31 18.08 40 687 4.19
p4( 体裁为文学) 68.38 84.19 89.71 93.38 95.96 13.16 36 579 4.05
· 29·
外语测试与教学 2017 年第 4 期
( 续表)
指标平均值 1 71.39 84.25 90.57 93.41 95.20 17.20 39.25 616.75 4.1375
p1( 自然科学,生物) 66.15 84.05 91.44 93.77 96.50 20.72 36 601 4.31
p2( 社会科学) 63.46 80.77 89.74 91.03 93.27 21.82 67 720 4.14
redesigned SAT
p3( 文学) 73.38 84.30 88.40 92.15 93.52 17.44 48 750 3.49
p4( 科学,生物) 63.13 79.89 85.47 88.83 92.74 24.00 54 408 4.31
指标平均值 2 66.53 82.25 88.76 91.45 94.01 21.00 51.25 619.75 4.0625
根据 Sheehan 团队的研究,句子填空确定难度级别方式更多考查的是句子层面的理解 ,而
不关注文本( text) 层面的理解,可信度不高 。第二步通过 4 个子库做主成分分析,并且将这些
指标和专家定级方式进行相关性比较 ,保留高度正相关指标,提炼出 8 个文本难度的核心指标
( Sheehan 2016: 14 - 15) : ①学术性倾向 ( Academic vocabulary) ,采用每千字 Coxhead 开发的学
术词汇比例 ( Academic word list ratio) ; ②句法复杂度 ( Syntactic complexity) ; ③具体度 ( Con-
creteness) ; ④ 词 汇 陌 生 度 ( Word unfamiliarity ) ; ⑤ 互 动 对 话 性 ( Interactivity / conversational
style) ; ⑥叙事性( Narrativity) ; ⑦连贯度( Cohesion) ; ⑧论证说明性( Argumentation) 。
3) 阅读文本体裁差异敏感识别
美国共同核心州立英语能力标准的专家学者意识到文学文本使用常用词汇表达复杂的观
点,用传统文本可读性分析工具如 Lexile 仅从词汇和句法上做出判断,鉴别出文本类型体裁的
敏感度不够。 一般的 Lexile 读物在信息类文章的定级偏高,而在文学类文章定级难度偏低
( Sheehan et al. 2010: 23) ,Sheehan 把这种现象定义为文本分级体裁偏见 。TextEvaluator 文本
难度分析器使用文本分级体裁偏见公式 ( Genre X Text Evaluator) ,可通过文本难度指标测定不
同体裁难度的精确区别( Sheehan 2016: 9) ,并鉴别出不同体裁( 信息类、文学类和综合类 ) 的文
本难度。 本研究通过 TextEvaluator 得出 SAT 思辨阅读和 TEM8 阅读文本 难 度 值,并 通 过
SPSS 做出双线比较图。
表8 基于 TextEvaluator 文本难度分析器的 SAT 思辨阅读和专业八级阅读文本难度比较
TextEvaluator
适用美国
Complexity 体裁类型
年级
Score
TEM8 a 篇 930 9 Information ( 信息)
TEM8 b 篇 1080 11 Information ( 信息)
TEM8 c 篇 900 9 Information ( 信息)
TEM8 d 篇 819 8 Information ( 信息)
SAT 阅读 1 980 10 Information ( 信息)
SAT 阅读 2 1090 11 Information ( 信息)
SAT 阅读 3 840 8 Information ( 信息)
SAT 阅读 4 1090 11 Information ( 信息)
图1 阅读文本难度和适用年级
( ▲为 4 篇 SAT 思辨阅读文章,●为 TEM8 阅读,文本构件难度的域值用 1—100 表示; 文本整体难度的
域值用 100—200 的尺度表示。
· 31·
外语测试与教学 2017 年第 4 期
不同能力点( 修辞功能和论证
相同能力点 相同能力点 不同能力点( 信息综合)
评价)
1 特定词组和词汇使用,词 汇 6 分析双篇文本关系
1 中 心 观 点 和 主 题 ( explicit
1 中心大意 pattern 的使用可以塑造文本
stated or implicit central idea)
的基调
2 引用 textual evidence( 使用文 2 文本结构: 全文结构和局部功 7 分析定量信息( 文本信息
2 关键性的细节支撑 章的证据支撑文章和个人观 能结 构 ( overall text structure 和图表关联)
点) ,寻证据题 and part-whole relationship)
3 视角; 视角识别和视角对于
3 指代考查和词义推测 3 语境中词汇( 词组) 意义识别
内容功能的影响
4 仔细阅读,包括 3 大类( 直接
4 推理题,含蓄表达含义 4 意图: 文本或者段落的意图
含义,隐含含义,类比思维)
5 分析论证:
1) 分析论点或者反驳观点;
5 总结性观点( 识别总结性信 2) 分 析 论 证 的 合 理 性
5 观点态度
息) ( soundness) ;
3) 分析 分 观 点 的 合 理 性 和
缺陷
和篇章 2 重新组合加工,提出新见解、独创新结论,最终做到创造性地对信息进行判断、比较、
检验和分析,创新性地得出新的观点。从以上表格 8 和 9 综合可见,二者文本难度有相似点,
但由于新 SAT 在思辨能力上增加了 2 个大的维度 ( 修辞功能和信息综合 ) 和 7 个特有的思辨
子维度( College Board 2015) ,思辨能力要求强化了信息综合分析能力和修辞功能评价两个要
点,涉及思辨能力的高级阶段能力,因此改革前 TEM8 阅读部分能解释难度偏高的 SAT 思辨
阅读中体现的阅读能力。
5. 结论与启示
根据以上的整体分析,我们得出以下结论:
1) 英语综合能力、阅读能力和英语思辨阅读能力的关系。 英语专业四级综合能力和思
辨阅读无相关性,TEM4 成绩的高低无法预测思辨阅读能力的发展水平。 原因在于 TEM4 测
试涉及语法、词汇和听读写综合语言能力,当二语能力处于低水平,二语阅读会受到语言能力
的影响,但通过一个临界值后二语阅读逐步会摆脱语言的影响 ,因此 TEM4 这类语言能力测试
和思辨性强的阅读无关联性。
2) 词汇量和词汇深度与英语思辨阅读能力的关系 。词汇量与思辨阅读能力没有发现显
著相关性,而词汇深度测试可以作为一个考查思辨阅读能力的重要参考性指标 。
本文在教学上具有重要启示,词汇深度的训练要结合语境提高二语学习者对于高频多义
词的理解能力和加强词汇深度加工能力 。 同时,本文的词汇深度测试工具 ( 语境高频学术词
汇测试表) 也给未来的词汇深度测试提供了新的研究方向 。
新 SAT 在思辨能力上独特的 2 个大的维度( 修辞功能论证评价维度和信息综合维度 ) 和 7
个思辨次维度可以给国内学术阅读测试研究和思辨能力培养提供很好的参考模型 。①
本文的局限性 在 于,语 境 高 频 学 术 词 汇 测 试 表 和 TEM8 阅 读 两 个 指 标 解 释 思 辨 阅 读
52.2% 的方差,说明还有其他的因素在思辨阅读中起到作用 ,有待于进一步的研究发现。
参 考 文 献
[1] Beglar D A. Rasch-based validation of the Vocabulary Size Test [J]. Language Testing,2010,27( 1) : 101-
118.
[2] Bloom B ( ed.) . Taxonomy of Educational Objectives: The Classification of Educational Goals[M]. New York:
Longmans,1956.
[3] Richards J C. The role of vocabulary teaching[J]. TESOL Quarterly,1976,10( 1) : 77-89.
[4] College Board. The Official SAT Study Guide,2016 Edition[M]. New York: The College Board,2015.
[5] Qian D. Assessing the roles of depth and breadth of vocabulary knowledge in reading comprehension [J]. Ca-
nadian Modern Language Review,1999,56( 2) : 282-308.
[6] Schmitt N,Schmitt D & Clapham C. Developing and exploring the behaviour of two new versions of the Vocab-
ulary Levels Test [J]. Language Testing,2001,18( 1) : 55-88.
[7] Sheehan K M. Aligning TextEvaluator scores with the accelerated text complexity guidelines specified in the
Common Core State Standards [J]. ETS Research Report,2015( 2) : 1-20.
[8] Sheehan K M. A review of evidence presented in support of three key claims in the validity argument for the
TextEvaluator Text Analysis Tool [J]. ETS Research Report,2016( 1) : 1-16.
[9] Sheehan K M et al. Generating automated text complexity classifications that are aligned with targeted text com-
plexity standards[J]. ETS Research Report,2010( 2) : 1-44.
[10] 龚兵. 词汇知识深度对阅读能力的影响[J].国外外语教学,
2006,( 2) : 1-6.
[11] 金檀,李百川. “英语文本指难针”[EB / OL]. 广州: 语言数据网 http: / / www.languagedata.net / tester,
2016.
[12] 李晓.词汇量、词汇深度知识与语言综合能力关系研究[J].外语教学与研究,
2007,( 5) : 352-359.
[13] 吕长竑. 词汇量与语言综合能力、词汇深度知识之关系[J].外语教学与研究,
2004,( 2) : 116-123.
[14] 王子颖.词汇量测试对语言水平的预测性的实证研究[J].外语教学理论与实践,
2014,( 2) : 71-75.
[15] 文秋芳. 论外语专业研究生高层次思维能力的培养 [J]. 学位与研究生教育,
2008,( 10) : 29-34.
[16] 徐伟.基于英语辩论的思辨认知能力教学模式研究[J]. 英语广场( 学术版) ,
2014,( 9) : 84-86.
[17] 杨枫,吴诗玉. 我们能否像阅读母语那样阅读外语? ———在线篇章处理的证据[J]. 外语教学理论与实
2016,( 4) : 1-9.
践,
[18] 张学宾,邱天河.词汇知识和阅读关系的实证性研究[J]. 外语教学,
2006,( 1) : 38-42.
附表 1 词汇深度测试工具( 语境高频学术词汇测试表)
题号 单词 语境考查含义 常用含义
· 34·
词汇知识和阅读能力在美国高考思辨阅读中的作用实证研究
( 续表)
28 foundation( 2) underpinning 地基 基础
29 sixpence( 1) opportunity 机会 6 便士
( 1) 为考查多义词; ( 2) 为考查常见用法