外语测试与教学

2011年第 1期 Jan 2011
F oreign Language T esting and T each ing

[ 中图分类号 ] H 319 [ 文献标识码 ] A [文章编号 ] 2095- 1167( 2011) 01- 0042- 09

¹

提升考试公平性
) ) ) 以英语专业四、八级考试为例
º
邹 申

提要: 考试作为选拔人才和检 查 (教与学 )质 量的一 种手段, 需要 具备公 平性以 体现社 会公正。考 试公平 性
涉及诸多方面, 涵盖面广, 是考 试赖以存在或使用的基础。本文第 一部分简 要回顾考试 公平性的定 义和在 考
试开发过程中的作用 。第二部 分反思历年来 TEM 考试 的相关研 究, 以 及对考试 公平性 的推动 作用。第三 部
分从三个方面探讨如 何进一步提升 TEM 考试的公平 性。
关键词: 考试公平性; TEM 考试; 效度研究; 考生 研究; 专业培训
Abstrac t: T ests, as a m eans for se lection and pedagog ica l eva luation, should possess qua lities o f fa irness in o rder to
m a inta in and prom ote soc ieta l justice and equa lity. Fa irness covers m any aspects in test deve lopm ent and test use,
thus form ing the v ery foundation on wh ich a test thr ives. The first part o f the paper offe rs a br ie f rev iew of a few w e l-
l
known de finitions o f fairness in tests and the ro le o f fa irness in test developm ent and eva luation. T he second part ex-
am ines the ex isting T EM-re lated studies from the pe rspective of fa irness. A nd the last part discusses how to further
enhance test fa irness in future TEM tests.
K ey word s: test fairness; TEM test ba ttery; va lida tion study; test taker character istics; pro fess iona l tra in ing

引言

在当今社会发展中 / 公平 0已成为一个重要标志。教育界经常提及的教育均衡发展或受
教育机会均等, 实际上也是涉及公平问题, 比如 ( 教育 ) 资源配置是否合理; 社会给予每个人的
机遇 (求学、求职等 )是否均等。在这个大背景下, 考试作为选拔人才和检查 ( 教与学 ) 质量的
一种手段, 也应该接受 / 公平 0考量, 来检验其是否具备公平性。

一、有关考试公平性的简述

1. 1 考试公平性定义
什么是考试公平性? 在这点上是仁者见仁, 智者见智。不同的人从不同角度来看待这个
问题。 Spaan( 2001: 35) 认为公平性的提升具有社会性, 即需要考试有关人员参与, 比如考试

¹ 本文为上海外国语大学 / 211工程 0三期建设重点学科资 助项目 5英语专业写 作教学语料 库研究与 建设 6阶段 性成
果之一; 项目编号: S ISU 211- 3- 1- 1- 032。
º 本文作者系高校外语专业教学指导委员会委员、英语专业教 学分指导 委员会副 主任委员; 高校英语 专业教学 测试
专家组组长。

# 42#

公平性即为无偏颇 ( lack of bias)。偏颇可产生于考试本身的缺陷. 在考前准备中考生都应有机会接触考试复习材 料。与第一点相比. 在考试设计和开发过程中我们如何来提高 和保证考试公平性呢? Kunnan( 2001: 1. 我们就需要关注并尽可能地消除影响考试构念效 度的偏颇。 第二. 公平性也体现在基于考试结果的决策之上。一个具有公平性的考试 (标准参照 ) 应 该保证不同考生群体之间的通过率具有可比性。如果是选拔性考试 ( 常模参照 ) . 或者由于考试的 使用导致不同考生群体的考试结果具有不同意义。比如. 偏颇会使考试成绩出现偏差. 那么. 考生都应该获得均等机会来展示考试所要测试的技能或能力。又如. 也 有考试外部条件. 要提升考试公平性. 而且也应体 现在基于分数的决策上。 第四. 既有考试用途. 公平性指均等的学习机会。这条标准主要针对标准参照性考试如学业考试。在多 数情况下.10)在总结 5教育考试公平性准则 6 ( C ode of F air T es- t ing P ractices in Educa tio n)的基础上. 偏颇属于与测试构念无关的因素. 其结果就可能会影 响部分考生的成绩。鉴于此. 要给考生提供 恰当的考试条件. 考试有可能产生偏颇。另外. 考试采用某种答题形式. 既涉及考前. 但是. 而且 (或许更为重要的 ) 需要培养和 培训未来的语言测试工作者。由于篇幅有限. 专业学会也出台了对考试公平性的专业描述和专业指南。美国教育研究学会等机 构编制的 5教育与心理测量标准 6 ( 以下简称 / 标准 0 ) ( 1999) 阐述和规范了测试中的公平性。 该 / 标准 0共分三个部分. 公平性体现在考试过程的公平上。具体而言. 就是在施考过程给予所有考生公正待 遇。比如. 其中一个部分全部涉及考试公平性。公平性在教育和心理测量中举 足轻重的地位由此可见一斑。 / 标准 0对公平性作了如下诠释: 第一. 提出考试公平性包括三个维度: va lidity(效度 ) 、access(可 行性 )和 justice( 公正 ) 。效度关注对不同考生群体分数解释 ( 即构念效度以及信度 ) 的公平 # 43# . 考试公平性不仅需要体现于语言测试的设计和实施之中. 那么同类表 现的考生应该有均等的选拔机遇。由此可见. 其他个人的观点就不在此一一列举。 此外. 它们对保 证考试公平性有着同等重要作用。 第三. 贯穿甚至超越整个考试过程. 考试偏颇也有可能来自考试的答题 形式。比如. 以便他们发挥得理想。另外. 选用该形式会 影响这部分考生的成绩。从上我们可以看出. 公平性牵涉考试的方方面面。那么. 2 考试公平性与考试开发 综上所述. 第二点所关注的是考试外部因素 (考试条件和考前准备 ) . 无法真实反映所测 试的技能或能力 ( 即测试构念 ) 。也就是说. 提升 考试公平性 开发人员、 教师、考试使用人员、考生等。只有当他们之间形成一种合作型良性循环和互动. 公平性不仅体现在考试本身质量上. 学习机会均等就显得尤为重要。 从上我们可以看出. 也涉及过程和考后阶段。由此可 见. 考试公平性的涵盖面广. 考试公平性涉及诸多方面: 考试效度 ( 包括内容效度、构念效度等 ) 、 考试实施过程、 考前准备、考试结果使用及考试内容的学习机会。这里既有考试本身质量. 它的存在会降 低考试构念效度。因此. 考 试公平性才能得以提升。 B achm an( 2001: 40) 曾在一篇文章中呼吁: 对语言测试工作者而言. 但考试又包括了这些内容. 考试内容包括测试技能或能力范畴 和测试材料的体裁或题材。如果所选择的内容样本缺乏代表性或覆盖面. 那么这些学生很有可能得低分。特别是当考试成 绩要用来决定升留级或是否颁发证书之时. 也有考试成绩. 但该形式对部分学生来说是陌生的. 是考试赖以存在或使用的基础。 1. 学业考试旨在检查考生经过学习后知识或能力的掌握程度。如果有些学生未有机 会学习相关内容.

即能够科学区 # 44# . TEM 考试自 1990和 1991年开考以来. TEM 考试属于标准参照教学检查类考试。 TEM 考试两个级别每年各举行一次。考试对象为高校 英语专业二年级及四年级学生。高等学校英语专业教学测试专家组负责命题和评卷. 人们通过多层面的数据统计分析来建立效度。持续研究 阶段的效度则涵盖上述阶段的所有内容。另外值得一提的是. 在不同阶段显现不同涵义。在规划阶段. 2010年考生人数达到 18. 全面检查已完成英语专业基础阶段和高年级阶段课程的 学生是否达到教学大纲所规定各项语言技能 /能 力、语言知识和专业知识的目标。因此. 其结果用来检查各校执行教学 大纲的情况。具体而言. 这三个维度贯穿考试开 发的各个阶段. 教学大纲的颁布和实施也为英语专业四、八级考试 ( 以下简称 TEM 考试 ) 的诞生奠定了基础。 TEM 考试是根据教学大纲要求. 20年来考试人数成倍增长。 1992年四级考生为 8554人. 参考院校为 827所。 1992年参加八级考试的人数为 4613. 也就是说. 参考院校为 155所. 提高教学质量的一种 形式. 并落实到考试的每个步骤或阶段。 二、考试公平性与 TEM 考试 2. 以促进英语专业教学. 参考学校增加到 753所。 2. 考试公平性是检验考试的唯一标准。语言测试工作者在实际操作过程中要把 维护考试公平性放在首位. 1 TEM 考试简介 1989年和 1990年全国高等学校外语专业教学指导委员会分别制定和出版了 5英语专业 基础阶段教学大纲 6和 5英语专业高年级教学大纲 6。两个教学大纲的出版是中国外语教学发 展史上的一个里程碑. 在教学中的评估功能也不 断突显。TEM 考试成绩已成为英语专业本科教学评估指标体系中的一项指标。现有数据表 明. 即规划阶段 ( th ink ing) 、 命题阶段 ( w riting) 、 预测阶段 ( piloting) 、 分析阶段 ( ana- ly zing)和持续研究阶段 ( m a in tenance and research)。 在 Kunnan的论述中. 外语测试与教学 2011年第 1期 性。可行性侧重考试是否能从以下方面有利于考生: 考试费用、 考点设置、所考内容的学习以 及对考试形式和设备的熟悉程度等。公正指社会公平 ( societa l equity)。这个维度已超越考试 本身. 效度主要关注测试 构念和范畴的科学界定以及测试形式的确立。与此同时. 公正 ( ju st ice) 作为公平性的指 标是评判每个阶段工作的最终标准. 每个阶段有其侧重点. 考试公平性就显得尤为重要。这具体体现在考试要对每个考生公平. 2010年考生 人数达到 27万. 效度则侧重测试任务设计、 话题选择等。预测阶段的效度则体现在标准 和建模样本的确定上。在分析阶段. 外语专 业办公室负责考试实施。 作为检查各高校贯彻和落实教学大纲的情况. 但公平性的三个维度贯穿始终。以效度为例。 效度作为考试公平性的重要指标. 我们在考试开发过程中的所作所为都应该有助 于社会公平 ( soc ie tal equ ity) 。 总而言之. 该阶段的效度还包括对评分和报分 的考虑。在命题阶段. 因为它标志着具有中国特色的英语专 业教学体系的日臻成熟与完善 ( 邹申 2008)。同时. TEM 考试是一个具有一定规模和影响的考试. 也就是检查学生是否达到教学大纲所规定各项语言技能 /能力、语言 知识和专业知识的目标。当考试成绩被用来做决策时. 参考院校 86所. 2 考试研究与考试公平性 如上所述. 它关注考试结果的使用能否促进社会公平。根据 Kunnan 观点. 比如某考生是否达标 ( 即考试通过或 不通过 ) . 其权威性在不断提高. 9万.

TEM 考试也作了相应调整。考试大纲 ( 2004年新版 ) 于 2004年出版。 每次考试大纲的修订实际上是对已有考试性质、 考试目的、考试范畴、考试对象、 考试方 式、试卷结构、 实施时间、评阅方式和分数决策等的再次检验和修正。比如. 即 a) 评 分标准要有科学理论作为基础. 试卷增加人文知识项目。这些调整措施旨在更全面、科学地检测考生的语言运用能力和专 业知识. 但仅此还远远 不够。鉴于每年的写作题目不同. c) 评分标准要适应评卷环境的条件和要求。比如. 作文和便条配有不同的评分标准。同时评分标 准尽可能地做到反映英语专业基础阶段学生的写作能力。该套评分标准一直使用到 2008年。 2) 评分样卷的挑选 评分标准的制定是保证和提高评分效度的第一步骤. 考试本身质量、 考试用途等方面都要有助于体现公平性。这 就是 TEM 考试相关研究的初衷。 提升 TEM 考试公平性的一个重要举措是考试大纲的数次修订。在过去的 20年中. 评分的侧重点也 有所不同。为了体现各自的写作特点与要求. 2004新版四级考 试大纲对考试写作任务做了调整。便条的比重由原来的 5% 提升到 10% . TEM 评卷员在评 卷工作初始都要接受培训. 故每年需要在评 卷工作之前挑选一定数量的评分样卷。这些样卷用来具体解释和细化评分标准中的原则。因 此. 确定了评分原则。其中的作文和便条对写作的要求不尽相同: 前者检查学生的书面表达能力. b)评分标准要能够尽可能全面地涵盖和区别被试者的能力层 面. 对作文的文本、内容等要求也会发生变化. 后者着重评估学生的应用文写作能力。因此. 考试范畴增加文学、 语言学和文化方面的知 识. 在以往的评卷工作中我们着 重抓以下几个环节 (邹申. 目的是为了提高考试的科学性、命题的规范性、实施的合理性以及分数解 释的公正性。 1993年考试大纲 ( 试行本 ) 发行。在此基础上. 即提升考试的公平性。 我们提升 TEM 考试公平性的措施也体现在保证评分效度上. 提升 考试公平性 分达标和未达标的考生。鉴于此. 考试的主客观题比 例也由原先的 35% 提高到 40% 。便条任务比例的调整顺应 5高等学校英语专业英语教学大 纲 6对四、 八级考试的要求: 即着重检查学生的英语语言的综合运用能力。又如. 并根据研究结果对考试作了部分修订。考试大纲 ( 修订本 ) 于 1997年正式出版。 2000年 5高等学校英语专业英语教学大纲 6正式出版并实施。根据新教学大纲的原则和精神. 这也意味着他所 给的分数能比较真实地反映考生实际水平。因此. 那么他在之后的评卷过程中就能够较好地把握和使用评分标准. TEM 测试人员对考试开展了全方位的效 度验证工作. 考试 大纲历经三次修订. 陈炜 2010) : 1) 评分标准的制定 评分效度的基础是要有一套科学、 全面、 可行的评分标准. 增加了对英语专业知识的要求。现在考试大纲对考试 目的的表述为: 全面检查已完成英语专业高年级阶段课程的学生是否达到 5高等学校英语专 业英语教学大纲 6所规定的英语语言综合运用能力标准以及英语专业知识的要求 ( 高校英语 专业八级考试大纲修订小组. 2004) 。与此相对应. 2004 年新版 八级考试大纲对考试目的做了新阐述. 挑选样卷是落实评分标准、保证评分效度的重要举措。此外. 1996年 TEM 考试效度研究项目重新修 订了 TEM 4写作项目评分标准. 目的是了解评分标准原则、 掌握评分要求、 统一对问题卷的认识. 选出的样卷要能够代表不同 档次的作文。挑选出的样卷有两个功能: a) 给评卷员提供评卷参照. 为了提高评卷员一致性. 以 # 45# . b)用于评卷员培训。 3) 评卷员的培训 评卷员培训也是保证评分效度的重要措施。这项工作的意义在于培 训将直接对评阅结果产生影响。如果评卷员经过培训对评分标准的原则和具体实施有了较为 明确的认识.

孔文 2009. 并提供及时反馈信息。此外. 我们可以归纳出以下几个特点。第一. 关 于写作 测试 或评 分主 题 ( 邹 申 1999. 汪顺玉 2006等 ). 使人工经验和计算机技术相结合. 3)博士后研究课题。纵观 近年来的科研成果. 既体现广度. 但是评卷工作仍存在不尽如人意 的地方。比如. 关于英语专业 知识测试主 题 ( 邹申等 2009. 启用计算机辅助评卷系统。从此. 即分数的意义。分数具有明确涵义也是效度乃至公平性的保证之一。 前面所提及的考试大纲修订对建立 TEM 考试的构念和内容效度具有重要作用. 侯艳萍 2008. 关于翻译能力测试主题 (海芳 2004. TEM 考试的评分效度上还需要进一步提高。这就意味着我们要寻找提高评分 效度的新突破口。借助计算机技术来改变评卷模式. 评卷过程中的监控措施虽有效但过于单一. 2005. 使我们对 TEM 考试 (项目 ) 构念效度 /深层结构的认识更上一个台阶. 成果研究层面多. 关于语言教学与语言测试主题 ( 邹申 2003. 对评卷员的检查反馈也不够及时或形式单一。 为了更有效地检查完成英语专业基础阶段课程的学生的写作能力. 徐 永 2006. 李清华 2009) . 以提升 评卷质量和产生更高的效率。 从 2009年起 TEM 考试开始改变评卷模式. 外语测试与教学 2011年第 1期 提高一致性。 4) 评卷过程的监控 前面提及的措施旨在提高评分效度。然而提高评分效度的努力还 应落实到评卷工作的其它环节中。其中一个重要环节是对整个评卷过程的监控。到 2008年 为止. 还需要考后统计分析和后续研究来回答这个问题。鉴于此. 2002a. 以提高评分效度。 在当时条件下我们尽可能采取有效措施提高评卷质量. 2) 博士学位论文课题. 并充分利 用语料库检索软件的功能。 近年来的构念效度研究成果对提升 TEM 考试的测量准确性和分数的解释力度起到了积 # 46# . 鉴于评卷人员数量大. 纪 小凌 2006. 又显示深度。第三. TEM 考试开 始了从纸阅模式向计算机辅助评阅模式的转变。两年的使用结果表明. 近几年的 研究从多角度验证 TEM 考试的构念效度。比如. 由此得出的结论也更具有客观性和科 学性。第三. 给各校教学改革提供更有 力的参照依据. 结论更具有说服 力. 即每位 评卷员每天都应被检查。中心组抽查要求在评卷员、 评卷时段等方面有一定的覆盖面。力争 通过两次检查的方式. 采用计算机辅助评卷 模式对提升培训效果和质量监控效果都起到积极作用。评分效度的提升可以提高考试结果 ( 分数 ) 的解释力度. 陈怡 2010) 。 上述研究成果主要来自三方面: 1)论文. 即分组长复查、中心组抽查。分组长复查要求全面. 阅读部分是否检验了预期的阅读技能或能力? TEM 8 考试的人 文知识项目是不是测试了预期的三类知识等。写作评分员是如何评分的? 可以说. 关于听 力测试主题 ( 邹申 2004. 我们持续开展对考试构念效度的研究。我们一直在探索一个问题: TEM 考试 ( 项目 ) 是否达到 预期设定的考试目的。比如. 关于阅读测试主题 ( 邹申 2002b. 监控措施采取分级检查方式. 但同时成果科学内涵更丰富. 近几年的研究成果在方式 方法上已有显著变化。许多研究成果使用项目反应理论及结构方程模型软件. 较之 1996年的效度研究项目. 又有应用 价值。很多成果有助于我们进一步认识 TEM 考试 ( 项目 ) 的构念效度. 而评分模 式的转变对提高考试信度乃至效度具有同等重要意义。所有举措旨在提高考试公平性。然 而. 陆远 2010) . 2006) . 做到点面结合. 且定性数据的采集与分析方法更完善、 更科学. 对评卷员通过培训的标准也较为模糊。又 如. 它们是否确实起到预期作用. 研究课题既有理论意义. 分组长在评卷员培训过程中有时无法实时检查评卷员初 次评阅的每份试卷. 定量与定性数据相结合. 同时也有助于我们完 善考试的设计和实施。第二. 彭康 洲 2010) . 2005.

其间曾进行多次规模不一 的效度研究. 这就是本文所指的研究应用性。这里 / 教 0指的是教学层面. 考试反拨效应研究侧重研究考试对教学目标、课程设置、教材使用、教学内容、 教学方法等 方面的影响。在教学对象层面. 提升 考试公平性 极作用. 反拨效应研究应注重对教与学的 反馈作用. 我们既要调查当前与考试相关人员 ( 比如. 但至今尚未开展具有一定规模的、 专项反拨效应研究。因此. 后两个问题与考试用途有关。信度指分数的一致性. 从宏观和微观层 面上探讨 TEM 考试反拨效应。在研究设计上我们要做到方法多样化. 同时 ( 如果条件允许的话 ) . 考试公平性还应包括对信度、 分数解释以及考试用途的研究。 3. TEM 考试开考至今已 20年. / 学 0则指教学对象: 学 生。考试反拨效应研究要对教与学提供有效反馈的话. 考试反拨效应研究就是对考试所产生的结果的研究 ( w hat are the consequences of tests) 。除了上面提到的层面外. 解释和结论公正、合理、具有说服力。 考试反拨效应的产生需要一个过程。而且. 我们还需要根据实际情况界定研究范畴和提出研究问题. 并在此基础上建立具有我国英语专业特点的反拨效应研 究框架。与此同时. 学生层面为微观层面. 这方面的研究仍是 空白。随着 TEM 考试权威性的不断提高. 未来考试效度研究的一个重点应是考试的 反拨效应 ( w ashback effect) 。如前所述. 研究这些成果产 生的教育及社会背景. 提高考试公平性有着重要价值。 事实上. 一旦反拨效应产生. 我们在研究设计中既要关注共时性又要兼顾历时性。 也就是说. 以了解考试反拨效应的演变过程、 规 律及其特征。 考试反拨效应的定义是考试对教与学的影响。鉴于此. 我们 也需要对上述观察对象和观察点进行跨时段的跟踪调查. 设计的缜密性和科学性。任何一个研究都离不开理论的指导. 1 公平性与效度研究 鉴于 TEM 考试属于标准参照教学检查类考试. 汲取他人经验. 同时也促进了考试的公平性。 三、如何进一步提升 TEM 考试公平性 3. 是效度研究必备条件之一。构念 效度指考试是否检测了预期的能力、 技能或知识域. 这就是研究的持 续性所在。由于反拨效应具有这些特点. 效应的本身也会由于种种 内在或外在因素而发生变化。鉴于此. 与分数的解释力度有密切关系。换句话 说. 2 公平性与考生研究 # 47# . 合成一幅考试反拨效应的全景图. 就需要涵盖上述两个方面。在教学层 面. 对教学的影响不断增强. 教师、学生、 教育行政管理部门、用人单 位等 )对考试 (改革 )的态度、 对策以及对课堂教学的影响等. 数据采集科学化. 两个 层面的研究结果可以提供多维度的信息. 研究考试对教学影响的必 要性已日趋突显。因此. 这对我们认识考试 反拨效应的性质、 作用. 数据 分析客观化. 考试反拨效应研究应注重考试对学生的影响: 学习动机、学习 态度、 学习效果、学习策略等。如果我们把教学层面视为宏观层面. 对 TEM 考试反拨效应的研究也应成为提升 TEM 考试公平性的重要 举措。积极开展这方面的研究有助于我们加深对考试目的、用途及作用的认识。 未来 TEM 考试反拨效应研究应具备三个特征: 全面性、持续性和应用性。全面性指研究 的系统性、理论性. 未来 TEM 考 试反拨效应研究也不例外。我们需要回顾和评价已有的反拨效应研究成果. 考试反拨效应研究还需回答以下问题: 考试成绩是如何解释 的? 决策者如何使用考试成绩? 考试使用是否与其初衷吻合? 第一个问题涉及考试信度和构 念效度. 反拨效应研究不是一朝一夕即可完成.

采取措施避免差 异成为影响考试结果或分数解释的因素。 TEM 考生遍布全国各地: 既有沿海发达地区. 对他们的培训要体现教学过程和教学考 # 48# . 这也证明专业培训的必要性和重要性。 鉴于大部分参与设计和使用考试的人员是教师. 在语言能力等同的背景下. 公平性最终体现在一份份具体试卷内: 构念、 内容、形式、解释、使用 等. 有需要深化研究的地方。为了 全面提高考试公平性. 在过去的二十年里 TEM 考试曾进行过多次效度研究。然而上述研究未包括以 考生为对象的专题研究。因此. 其中包括教 师 ) 的理解和行动。因为. 我们才能对考生群体特征有清楚认识和客观了解. 存在着诸多不同特征。其它暂且不提. 而试卷是由测试人员完成的。因此. 3 公平性与测试人员培训 维护和提升公平性一个不可忽略的环节是人员培训。理论靠人去践行. 从传统经典分析模式到运用先进统计理念的分析软件。总而言 之. 也注重概貌. 使试卷更具 有包容性. 也侧重 面. 在分析和持续研究阶段关注不同考生群体的实际差异或潜在差异. 也分析现象之间的关联。只有通过多层面、多维度 的观察和分析. 也有内陆省份和边疆地区。无论四级还是 八级考生. 为我们研究 考生特征提供了 一个具有可操作 性的参照框架。它们是: 个人特点 ( 比如 年龄、性 别、母语 等 )、 背景 /专 业 /文化知识、 情感因素和语言能力。其中. 均来自全国各院校的英语专业: 综合性大学、 理工类大学、 外语院校、 师范院校、其他 院校以及独立学院。其中有 985. 试图从这个特定角度来验证考试效度. 从浅层分析到深层分析. 有关公平性理念的实现也靠相关测试人员 ( 如果是标准参照考试的话. 既关注分项. 但同时也不排 除其它三类特征对考试结果的影响。比如. 同时也调查和分析那些非语言因素 ( 如年龄、 性 别、外语学习初始期、专业背景、对所学语言国度社会与文化的了解 /认 同程度、学习风格、认知 风格等 ) . 其深度和广度与之前研究不可同日而语。研究重 点包括从结果到过程. 语言测试研究呈多维度态势. TEM 考生群体具有同质性. 并在此基础上尽可能减少各 类偏颇以维护考试公平性。 3. 也有近几 年来成立的学校。从表面上看. 既解析现象. 迄今为止的研究留下一些遗憾. 考生研究既关注点. 考试时有诸多因素会影响考生的现场发挥。有的因素事先无法预测: 比如身 体不适、突然走神等。然而有的因素属于可 控范围. 这对维护和确定考试公平性起到积极作用。在这进展过程中 愈来愈多的研究把考生作为研究对象. 就语 言能力而言. 以及这些因素对语言能力发挥的影响程度。也就是说. 即考生 均为在校英语专业学生。 但深入研究后我们就会发现在貌似同质的表面下. 考生的专项研究应该成为效度研究的重要组成部分。在今后研究中我 们既要调查和分析考生语言能力的发展特征. 在考试规划和命题阶段兼顾考生因素. 外语测试与教学 2011年第 1期 当前语言测试研究趋势是向纵深发展. 乃至考试公平 性。 我们都知道. 考生群体间 ( 或学校之间 ) 存在显著差异。这更说明科学甄别差异、合理解释差 异的必要性。 如前所述. 语言能力是决定因素. 我们在考试设 计和实施可以加以考虑。 Bachm an和 Pa lm er在合著的书中 ( 1996) 提出四类最有可能影响成绩的考生特征. 也有地方院校. 对考生群体的 描述和分析有助于我们加深了解考生特征. 从考试分数到心理认知. 从考试本身到社会影 响. 测试人员对公平性的认识和理解、专业水平等对保持 和体现考试公平性具有实际意义. 具备和不具备测试内容 涉及的背景知识可能就成为决定阅读、 听力或写作考试成绩上下的因素。因此. 有建校历史悠久的学校. 意图依赖人去实 现。同理. 从考试题目到考试对象. 211院校.

教师们需要反思先期考试规范的可行性. 验证其公平性 ( 效 度、信度、影响度 等 ) 。所谓协商. 以考试公平性为最终目标不断修正考试规范. W ha t. Ox ford: Ox ford U n iversity P ress. 测试功能和作用的多元化和社会化. 当今测试 领域的努力方向是考试公平性。 参 考 书 目 [ 1] Am er ican Educa tiona l R esearch A ssoc iation et a. 就是在验证基础上再次审视前阶段工作成果: 比如考试规范是否科学. if any. 英语专业高年级学生汉译英能力与文本测试评分研究 ) ) ) 以 T EM-8 为例 [ D ]. Enhancing fa irness through a socia l contract[ A ]. 确定测试 目的、测试范畴、测试内容、测试形式、试卷结构、测试评判标准、分数解释标准等 )。在专业人 士的指导下. 引导他们在实践中学习和提高对考试公平 性的认识。该模式包括三个方面: 合作 ( co llaborat ion )、反思 ( reflect io n) 和协商 ( negot iatio n) 。 合作指在规划阶段教师以团队形式共同讨论和撰写考试规范 (结合课程教学要求. 使之 成为后续阶段的蓝图。在命题和预测阶段教师们将考试规范转换成具体测试项目或形式。与 此同时. 本文结合上述 Kunnan的观点. 实 际上也是在探索考试的公平性。因此. 测试相关人员 ( 包括教师 ) 对考试公平性的理解就显得尤为重要。理念和操作培训 是我们提升考试公平性的重要手段之一。如同以前测试研究者为效度而不懈努力. 考试公平性需要人员良好的专业素质和意识作为保障. 考试公平性愈来愈受到人们的 关注。首先. 尝试提出一个以教师为中心的考试开 发 + 培训模式. 它应该贯彻到测试的各个环节 中。这里. 话题是否公平等等。协商 的最终结果应是考试公平性和教师专业素质的进一步提升。 总而言之. 不间断地探讨其性质和涉及范围。考 试公平性不是一种孤立现象. D. 让教师参与考试的设计和开发过程. In Kun- nan A J. are the lim its o f our responsib ility for fa irness in language testing? [ A ]. 2001. 一个关键群 体是一线教师。鉴于此. [ 5] SpaanM. 弥补理想与现实之间可能产生的差距. [ 3] Bachm an L F & Pa lm er A S. [ 4] K unnan A J. Fairness and Validation in Languag eA ssessm ent S tudies in Language T esting 9 [ C ]. 考试公平性不仅仅是一个空洞的理念. Fairness and Validation in Lan- guag e A ssessmen t S tud ies in Language T esting 9 [ C].l S tandards for educational and p sy cho logical testing [ Z ]. 它是多种因素交织的综合体。以往我们对效度和信度的追求. 提升 考试公平性 试特点。教学过程评价的性质大都为标准参照. 1996. Cambr idge: Cambr idge U n iversity P ress. Language T esting in P ractice[M ]. 2001. C. 教师们学习专业知识和技能. 1999. 专业素质培训的重要性 由此可见一斑。 结语 随着测试研究的深入. 上海: 上海外 国语 # 49# . 我们应对考试公平性有正确、 理性的认识. [ 6] 陈怡. 利用 已学专业知识和技能使考试公平性落实到具体测试项目设计上。最后一个方面是协商。在分 析和持续研究阶段教师们获取 和分析考试的 各项指标. 测试内容是否具有代表性. In K unnan A J. F a irness and justice for all[ A ]. In Kunnan A J. F airness and Validation in Languag eA ssessm ent S tud ies in Language T es ting 9 [ C ]. 此类性质的考试为标准参照考试。该类考试 与课程大纲的实施密切相关。为了提升考试的公平性以对教与学起到积极作用. W ash ington. : Am er ican Educational R esearch A ssoc ia tion. 测试任务设计是否合理. 测试 构念是否清晰. 把对考试的各种验证放在公平性的大框架内更符合当 前的价值取向。此外. 2001. Cam bridge: Cam bridge U n ive rs ity P ress. Cambr idg e: Cam- br idg e U n iversity Press. [ 2] Bachman L F.

2008 ) [ 26] 邹申. 2004( 6). [ 17] 徐永. 外语界. 上海: 上海外国语大学. [ 16] 汪顺玉. 上海: 上 海外国语大学. 外语 与外 [ 20] 邹申. 语言测试构念效度研究 ) ) ) 以 2005年 TEM 8客观试题跨群体构念一致分析 为例 [ D ]. 孔文. 2002b. [ 14] 陆远. 作者联系方式: 上海外国语大 学. 英语专业四级阅读理 解任务 难度探究 ) ) ) 基于任 务特征的 分析 [ D ] . ( 5) . 北京: 外语教学 与研 究出版社. TEM 8写作能力评估 ) ) ) 要求、 问题与对策 [ J] . 2009( 1) . [ 7] 高等学校外语专业教学 指导委员会英语组. TEM 考试效度研究 [M ] . 上海: 上海外国语大学. 策略与分数的 关系 ) ) ) TEM 4考 试阅读项目的答题效度研究 [ J]. 上海: 上海外语教育出版社. 上海: 上海 外语 教育出版社. 2000. 2006( 2). 高校英语专业八级考试大纲 [ Z] . 高校英语专业四级考试大纲 ( 2004年新版 ) [ Z ]. 英语写作题难度影响因素及其控制 [ D ]. 上海: 上海外国语大学. 高等 学校英语专 业英语教学 大纲 [ Z ]. ( 3). 上海 200083 # 50# . 外语电化教学. 2010. 孔文. 外语测试与教学 2011年第 1期 大学. 英语专业本科生的笔译测试 ) ) ) 理论与实践 [ D ]. 中国外语. 彭康洲. 上海: 上海外语教育出版社. 2003( 6). [ 8] 高校英语专业八级考试 大纲修订小组. 2004. 外 语 界. [ 13] 李清华. [ 25] 邹申. [ 18] 邹申. 上海 200083 ( 上接第 25页 ) [ 7] 高校英语专业考试中心. 上海: 上海 外语 教育出版社. 外语 教育 名家谈 ( 1978 . 上海: 上海 外国语 大学. 对考试效应的认识与对策 ) ) ) 兼谈高校英 语专业 四、 八 级考试 大纲的 修订原 则与方 案 [ J] . 北京: 外语教学与研究出版社. 外语界. 上海: 上海外 国语大学. 中国外语. 2009( 1). 1994b. [ 15] 彭康洲. 外语电化教学. 2008. 2008. 2005( 5) . 网阅环境下的英语专业四级考试作文评分员偏颇研究 [ D ]. [ 9] 上海外国语大学 TEM 考试中心. [ 12] 孔文. 1997. [ 8] 高校英语专业四级考试大纲修订小组. 2006. 庄智象. 听力测试中的交互性探究 ) ) ) 兼谈 TEM 8考试听力项目的修订. [ 9] 侯艳萍. TEM 评分效度与计算机辅助评卷 [ J]. 国外外语教学. [ 21] 邹申. 中国英语专业学生二语写作中的发展特征: 一项探索性研究 [ D ]. [ 27] 邹申. 语言教学大纲与语言测试的衔接 [ J]. 2006. 2004. 2006. 高校英语专业八级考试大纲 ( 2004年新 版 ) [ Z] . 标准参照语言测试框架下的 TEM 4听力理解考试任务难度的研究 [ D ]. [ 19] 邹申. 2010. 上海: 上海 外语教 育 出版社. [ 24] 邹申. 1999( 4). [ 11] 纪小凌. 2002a. 2009. 阅读测试中题目类型、 语教学. [ 22] 邹申. [ 10] 海芳. 作者联系方式: 上海外国语大 学. 上海 : 上海外 国语大学. TEM-4阅读测试的 D IF研究 [ J]. 中国外语. 2004. [ 23] 邹申. 上海: 上海外国语大学. 英语专业四、 [ C ]. 陈炜. 他们如何使用写作评分标准? ) ) ) TEM 4新老评分员调查 [ J]. 关于考试科学属性的思考 [ J]. 2005. 应用 EQ S和 BILOG 分析 TEM 8人文知识项目的构念效度 [ J]. W hat do they do w hile reading? ) A n investigation into the response va lidity o fT EM 4 read ing test [ A ] . 中国英语教学 ( 三 ) ( 2001年北京中国英语教学国际研 讨会论文集 ) [ C ]. 英语专业四级考试 ( TEM 4)阅读任务效度多角度分析 [ D ]. 张艳莉. 2010. 2010( 1). 上海: 上海外语教育出版社. 八级考 试的发 展历程 ) ) ) 回 顾与展 望 [ A ]. [ 28] 邹申.