You are on page 1of 8

2007 年 11 月 现代外语( 季刊) November 2007

第 30 卷 第 4 期 Modern Foreign Languages ( Quarterly ) Vol.30 No.4

语言测试的社会学思考*
上海交通大学 杨惠中 广东外语外贸大学 桂诗春

提要: 大规模、高风险考试的设计者有 很 重 的 社 会 责 任 , 因 为 许 多 年 轻 人 的 未 来 取 决 于 考 试 结
果。他们必须尽一切可能保证自己所开发的考试对考生的语言能力提供 准确、客观和公正的测量。
一项好的考试还应当对教学有好的反拨作用, 对社会有好的影响。但是考试的后效取决于许多考试
之外的因素。考试的社会权重越大, 作弊与应试教育的倾向越严重, 这跟题型和考试内容无关。从考
试社会学的角度来看, 决定考试社会权重的因素常常超出语言测试工作者的控制范 围, 尤其是当考
试成为一种体现政策的工具的时候, 此时改进考试后效需要更高层次 的决策, 包括考试各相关方的
正确对待。
关键词: 语言测试、效度研究、社会性、语言测试与语言教学
[ 中图分类号] H313 [ 文献标识码] A [ 文章编号] 1003-6105 ( 2007 ) 04-0368-07

关注语言测试对教学的反拨作用是语言
1. 引言 测试工作者的本职工作。作为对教学结果的
评估手段, 测试自然会对教学产生影响, 即产
语言测试经过半个多世纪的发展, 已经 生反拨作用。反拨作用有正面的, 也有负面
成为一门独立的学科。从语言测试发展的历 的。负面的反拨作用限制学习的深度和广度;
史看, 语言测试工作者的研究重点逐步从提 从广义来说, 作弊、替考、应试培训和模拟试
高测试信度和改进测试效度发展到关注测试 题集泛滥等都可算是考试的负面作用。语言
的后效。近年来, 国际语言测试界逐渐把研究 测试工作者努力探索新的题型、改进考试的
的重点转向语言测试的社会应用, 即研究语 内容和形式, 对减少考试的负面效应有一定
言测试的社会性。这一发展轨迹反映了语言 的效果。
测试工作者认识的深化。 但是, 教学是一种社会现象, 作为教学一
一项好的语言测试首先本身的专业质量 部分的考试自然也是一种社会现象。考试是
要高, 主要是考试的信度和效度要高。提高信 在 特 定 的 社 会 环 境 下 ( social context ) 发 生
度是语言测试的内部问题, 通过采用心理测 的。对考试反拨作用进行深入研究后发现, 考
量学所提供的技术手段, 仅凭语言测试工作 试的反拨作用是一个极其复杂的现象, 涉及
者本身努力即可解决。 语言测试工作者、教师、学生、家长、政策制定
效度问题涉及到考试的对象和用户, 它 者、用人部门等等, 可说是涉及一切与考试有
的研究要复杂得多。效度是一个实证问题, 必 关的人员。一项考试, 尤其是一项大规模、高
须靠实验来验证。大规模语言测试必须开展 风险考试, 如果不但要求测量准确、而且还要
效度研究, 以实据来证明自己的效度, 即测量 收到良好的反拨作用, 那就需要社会各方面
了所要测量的语言能力, 这样才能取信于民 的协同努力; 认为改进考试对教学的反拨作
( Alderson et al. 1995 : 193) 。 用 ( washback effect and social impact ) 只 是


考试制度是社会制度的重要组成部分, 对保证社会公平和建立和谐社会起到 重要的作用。大规模高风险考试常常会影响
考生的未来, 具有极强的社会性, 考试社会性问题正是国际语言测试界在新世纪的研究重点之一。我们打算 撰写一组系列
文章, 对我国社会和教育环境下考试社会性的方方面面进行 探讨, 希望引起国内教育界和社会各方的讨论, 推动语言测试
学科本身的发展, 并且使考试结果能更好地服务于教学和人才培养工作。本文是系列文章中的第一篇。
杨惠中 桂诗春 369

语言测试工作者本身的社会责任, 那未免失 说:“如今, 这个问题如此普遍, 它甚至已经开


之简单, 而且不可能由此找到解决问题的途 始改变大学录取的方式。”看来考试作弊的手
径。 段多种多样, 古今中外无不如此。考试作弊是
从更广泛的角度来考察, 当一项考试的结果 某些考生能力没有达到要求, 而又希望轻松
用于考试以外的目的时, 该考试结果( 亦即分 获得资格证书以牟取未来利益的舞弊行为。
数或证书) 就获得了社会权重, 这项考试就变 允许作弊, 是对诚实考生的不公。有人认为作
成了高风险考试。这种社会权重越大, 考试的 弊是考试造成的, 而《新闻周刊》的文章则认
风险就越高。当考试结果直接决定考生的未 为, 考生作弊,“竞争才是真正的罪魁祸首。”
来 命 运 ( 包 括 入 学 、毕 业 、求 职 、留 学 , 等 等 ) 这一点说得很对, 处于竞争性极强的社会中,
时, 这种风险就变得具体而直观, 即考生关心 考试的社会权重愈大, 作弊的企图愈大, 对付
的不再是如何提高语言能力, 而是关心如何 考试的各种手段就会层出不穷, 这是赋予考
能够及格并获得证书的捷径。形形色色的应 试的社会权重造成的, 解决问题的根本办法
试培训的组织者和模拟试题集的编写出版 就是减轻权重, 不要把考试结果作为评估人
者, 正是利用了考生的这种心理进行牟利; 作 才的唯一手段。
弊、替考等则是诚信的缺失。这些都涉及考试 2.4 也有人说应试教育是由考试采用多
的社会学, 在这里, 考试题型改革等努力能起 项选择题造成的, 仿佛只要取消所谓的客观
的作用十分有限。 题, 采用面试、作文等所谓的主观题, 应试教
接下来, 我们首先观察一下现实生活中 育的问题就会迎刃而解, 这是十分肤浅的看
的实际情况, 再来分析考试各相关方的职责, 法。其实, 在我国已经有一千多年历史的科举
并就如何改进考试的社会效益提出几点建 考试, 主要方式就是命题作文, 也就是所谓的
议。 主观题, 可是各种应试的方式方法还不是照
样层出不穷? 又如面试, 作为一种所谓的主观
2. 语言测试社会性现状 题, 效度比较高。从去年开始, 一些高校为了
防止应试教育带来的高分低能现象, 在招生
2.1 我国是考试的故乡, 一千三百多年 中尝试采用面试方式, 可是时隔不久, 各种
的科举考试传统使考试在我国享有极高的权 “面试攻略”一类的应试培训马上跟上。可见,
威性,“ 分数面前, 人人平等”, 一年一度的高 解决应试教育之道在别的地方, 靠改变题型
考成为学生、家长、乃至整个社会的重大事 之类的做法效果有限。另一方面, 多项选择题
件, 报纸上屡有考生抱病坚持考试、残障学生 作为一种测试手段, 教育实验证明, 不但可以
参加考试的报道, 绝大部分考生希望通过展 测试记忆, 而且可以测试理解、分析、判断、推
示自己的真实能力诚实地获得成绩和证书, 理, 甚至应用和运算等, 能够测试多方面的能
因为证书是他们进入社会的准入证。 力, 直到今天依然为各种重要的大规模考试
2.2 不少学校把四级证书作为获得毕业 所采用。例如, 2006 年的美国 GRE 通用能力
证书的必要条件, 英语考试不及格就不能毕 考试共 132 道题, 其中两道为作文题, 其余
业, 这无疑使一部分学生蒙受极大的心理压 130 题均为多项选择题; 美国的 TOEFL 网考
力, 但是导致英语学习达不到要求的原因多 有 80% 是多项选择题, 甚至二项选择 题 ( 是
样, 一刀切的做法是否经过论证? 非题) 。可见多项选择题作为教学手段是无效
2.3 据 2006 年 3 月 27 日美国《新闻周 的, 但作为测试手段依然被学界所接受并认
刊》报道, 作弊挑战标准化考试, 考生通过手 为是有效的。目前的主要问题是, 我国很多命
机短信息、MP3 等电子设备进行作弊。报道 题人员( 包括模拟试题编制者) 并没有掌握这
370 语言测试的社会学思考

种命题手段, 只会依样画葫芦, 出了很多无效 德规范守则第七款指出:“ 语言测试工作者的


的试题和选项。 社会责任要求他们努力提高语言测试、评测
以及为教育服务这三方面的质量, 他们的工
3. 语言测试各相关者的责任: 社会学视角 作应该在促进语言学习、提高语言水平方面
为社会教育作出贡献。”不断提高语言测试的
以上实例说明, 从考试社会学的角度来 专业质量是语言测试工作者的本职, 他们应
看, 语言测试工作者的职责只是更多地涉及 当努力探索语言测试的新理论、新方法、新技
考试的技术层面; 而决定考试社会权重的因 术, 提高测试的信度、效度与测量精度, 探索
素则常常非语言测试工作者所能控制。尤其 交际型语言测试的理论和方法, 使语言测试
当考试成为一种体现政策的工具的时候, 更 能更准确地反映考生的语言运用能力。
是如此; 此时改进考试后效需要更高层次的 ( 2 ) 道德规范守则第七款还要求语言测
决策, 包括考试各方相关者的正确对待。在这 试更好地为语言教学服务。语言测试应当加
里, 语言测试工作者能起的作用是有限的, 正 强对教学的诊断功能, 深入教学过程, 发现教
像原子能研究是原子科学家的职责, 但防止 学中的优缺点, 发现学生的学习困难并指出
核扩散等等则是政治家的职责, 原子能科学 改进方向。语言测试应通过个别化的、人际交
家充其量只能起咨询作用。 互的方式采集学生有关语言运用能力的信
一项好的考试的必要条件包括内部和外 息, 并向教师提供具有可解释性的数据, 以便
部两个方面。内部条件主要是指考试的专业 改进教学, 提高效率。Shohamy 提出系统效度
质量, 外部条件则主要指考试管理的公平性、 的概念 ( systemic validity) , 认为只有当测试
考试结果的正确使用、防止考试结果的误用。 结果真正被教学过程利用时, 语言测试才起
语言测试工作者的两难境地是: 他们努力开 到了反馈教学的作用( 2004: 83 ) 。
发的考试项目专业质量愈好, 信度和效度愈 ( 3 ) 语言测试当然也 具 有 选 拔 功 能 , 好
高, 就愈得到公众的信任和使用; 但考试的使 的测试具有高的区分度, 能够把不同能力层
用面越大, 社会权重也就越大, 考试结果被误 次的被试正确地区分出来。但是, 测试作为一
用的可能性也越大。可是对于防止考试结果 种测量手段也具有一定的局限性, 它在本质
被误用, 语言测试工作者竟毫无发言权。因 上是对考生语言能力的一种采样, 仅通过一
此, 即使是一项好的考试, 要收到好的社会效 次采样来决定考生一生的前途, 风险太大。为
果, 也还需要考试各方相关者的协同努力, 这 了减少这种风险, 应当采用多元化的评测手
里说的考试相关者主要是指语言测试工作 段, 如学生的平时成绩、学生自测、学生互评
者、政府教育主管部门、教师、学生、家长、社 等等, 以求全面真实地反映考生的语言能力。
会用户等等。下面试从考试社会学的角度分 将终结性考试与形成性考试结合起来, 正是
析考试相关者各方的职责、以及为保证考试 当前语言测试界研究的热点之一, 目标是防
的正面社会效益各自可以做出的贡献。 止一考定终生, 避免考试中的误差和偏颇, 尽
3.1 语言测试工作者的职责 量反映考生的真实能力。为了改进考试对教
语言测试工作者无疑承担着主要的社会 学的反拨作用, 有些国家和地区正在进行实
责任, 尤其当考试结果有可能决定考生未来 验, 在高等学校入学考试之类的高风险考试
命运的时候, 语言测试工作者所承担的社会 中把终结性考试与形成性考试结合起来, 并
责任是重大的, 他们必须兢兢业业做好自己 取得了一定的效果。但终结性考试常常是全
的工作。 国性的统一考试, 而形成性考试必须由各校
( 1) 国际语言测试学会 ( 1999) 制定的道 自行组织, 在这种情况下, 如何保证考试的科
杨惠中 桂诗春 371

学性和公平公正原则还有待探索, 但专业语 政手段使用。


言测试工作者可为各校提供考试设计、分数 事实上, 任何大规模考试都包括政策和学
等值处理、数据采集和解释等方面的咨询服 术两个层面。在我国, 大规模考试动辄涉及数
务, 以保证考试的专业质量。 十万、上百万考生, 尤其是高风险考试, 社会
( 4) 语言测试工作者过去只关心测试的 影响巨大, 往往成为社会关注的热点, 政策层
专业问题, 而忽视测试的社会及政治因素。事 面的问题必须由政府主管部门处理, 在这一
实上, 任何语言测试都不是孤立进行的, 它发 方面专业人员只能起咨询作用; 另一方面, 考
生在特定的社会环境中, 必然与诸多心理的、 试作为心理测量与教育测量活动也是一种学
道德的、社会的、政治的因素相关。考试的社 术活动, 要求很高的专业知识与能力, 应当由
会权重过大, 常常是由考试结果的误用或滥 称职并敬业的专业人员来完成, 政府职能部
用造成的, 考试工作者有职业和道义上的双 门应创造条件来保证考试的学术质量。我们
重责任, 保证考试结果得到正确使用, 保证考 认为, 政府职能部门应在制度建设和监督两
试用于当初设计时所确定的目的和用途, 方面发挥作用, 包括以下各个方面。
Bachman 把 这 一 点 称 作 考 试 用 途 效 度 ( test ( 1 ) 由相关部门制定“教 育 测 量 与 心 理
use validity) ( Bachman & Palmer 1996: 17; 测量标准”并颁布执行
Bachman 2004) 。但是, 对考试结果的误用或 我国政府已经颁布了各种工业标准, 但
滥用常常是某种行政决策的结果, 而考试工 是在社会人文科学领域的标准制订工作却
作者对此毫无控制权和监督权。 相对滞后, 考试实践就缺乏相应的标准。任
3.2 政府职能机构的作用 何规模大一点的考试, 只要采用多项选择
美国教育考试服务处 ( ETS) 公 开 说 明 题, 都可以自称为标准化考试, 也没有人监
其机构的性质是: ( 1) 非官方的; ( 2) 独立的; 管 , 使 人 误 以 为“标 准 化 考 试 就 是 多 项 选 择
( 3) 非营利性的。换言之, ETS 作为一个非营 题 , 多 项 选 择 题 就 是 标 准 化 考 试 。”事 实 上 ,
利性的专业机构提供各种独立的教育测量服 心理测量与教育测量是对人的心理量进行
务, 政府机构无权干涉其正常的教育测量业 测量, 其困难程度和专业要求之高可想而
务活动。这一性质并不适合我国国情。历史悠 知, 而且测量结果往往对被测量者产生严重
久的考试传统使考试在我国具有以下特点: 后果, 这样重要的社会实践活动本身必须满
( 1) 考试必须是官方的, 民间自发的考试再科 足一定的质量要求, 达到一定的质量标准,
学也没有人承认和使用; ( 2) 考试因为是官方 这就是标准化考试的标准。由美国教育研究
的, 因此享有很高的权威性,“ 分数面前, 人人 会 、美 国 心 理 学 会 、美 国 国 家 教 育 测 量 委 员
平等”被公众普遍接受, 却很少有人质疑分数 会 联 合 制 定 的《教 育 与 心 理 测 量 标 准 》第 一
本身是否科学、分数是否可以解释、考试本身 版于 1954 年颁布, 以后根据实践与经验不
是否达到了心理测量和教育测量所要求的专 断 修 订 完 善 , 到 1999 年 已 经 出 版 第 六 版
业质量标准。 ( American Educational Research Association ,
这种官方考试的实践常常把考试看作一 American Psychological Association,
种行政行为, 而非学术行为, 其后果是: ( 1) 政 National Council on Measurement in
学不分( 也是一种政企不分的表现) , 考试的 Education 1999) 。该项标准对考试的效度、信
用户和考试的组织者合而为一, 缺乏社会监 度 、标 准 测 量 误 、记 分 体 制 、常 模 、分 数 可 比
督; ( 2) 经常对考试业务本身进行行政干预, 性、施考、阅卷、成绩报道等都提出了很高的
使考试专业工作者无所适从; ( 3) 考试的知识 专业质量标准, 对考试的公正性、分数的正确
产权得不到尊重; ( 4) 常常把考试结果作为施 使用、考生的权利和责任等都有明确的规定。
372 语言测试的社会学思考

说到底, 标准化考试是指测量的标准化, 即测 辛勤劳动和智力创造。科学的考试, 试卷中的


量的结果必须是科学的、准确的、公平的、可 每一道题目成熟周期长达一年, 需要测试工
比的、可解释的、可检验的, 而跟题型本身并 作者艰苦努力, 更别提考试过程中的其他专
无直接关系。这样一项困难而重要的工作本 业工作了。但是目前的现实情况是, 这种智力
身岂可没有标准? 政府机构应当由相关部门 劳动的知识产权在我国得不到保护。国外很
尽快制定适合我国国情的《教育与心理测量 多考试的试题是保密的, 但我国的试题一经
标准》并颁布执行, 起到“量同衡”的作用, 这 开考即不保密, 使“枪手”得以在考场外用高
是造福千百万学子的重要举措。只有保证考 科技手段向考场内传递答案。各种侵犯考试
试本身的科学性,“分数面前, 人人平等”才有 知识产权的事例更是层出不穷, 有偷窃托福
意义。 试卷举办应试培训班的, 有盗印出版大学英
( 2) 由相关部门制定“语言能力等级统一 语考试试卷的, 不一而足; 最大的侵权是盗用
量表” 注册的考试品牌编写各种模拟试题集进行牟
制定统一的语言能力等级量表, 其实质 利, 例如《托福模拟试题集》、
《 大学英语六级
就是对使用语言的能力要求制定统一的规 模拟试题集》等等, 这一类所谓模拟试题集完
格, 这样做既有利于教学, 也有利于考试, 当 全是滥竽充数的东西, 除了 A、
B、C、D 表面
然 也 有 利 于 考 试 结 果 的 使 用 ( Council of 上像多项选择题外, 与科学的考试毫无共同
Europe 2001) 。在实践中, 有科学定义的语言 之处。这类出版物已经泛滥成灾, 严重干扰正
能力资格认证, 也便于用人部门对人才的合 常教学与考试, 一部分人却藉此轻松牟取经
理使用。制定“语言能力等级统一量表”, 可起 济实利, 他们利用的正是科学的考试的品牌
到“车同轨”的作用。关于制定量表的问题, 我 效应。这不但冲击和干扰教学, 损害考试的信
们在“制定亚洲统一的英语语言能力等级量 誉与公信力, 也严重侵犯考试知识产权。
表 ”一 文 中 已 经 进 行 了 讨 论 ( 见《中 国 外 语 》 ( 5) 保护语言测试工作者的权益
2007 年第 2 期) , 在此恕不赘述。 语言测试工作者处在矛盾冲突的交汇点
( 3) 对考试结果的使用进行监督, 防止分 上, 职业道德要求他们兢兢业业、克尽职守 ,
数的误用、滥用和不恰当使用, 这是保护考生 “精心设计、精心组织、精心施考”, 但是他们
权益、保证社会稳定的重要举措, 也是降低考 的权益却得不到保障。一方面, 考试专业
试的社会权重、稳定教学秩序、避免应试教学 质量越高, 越有可能被社会广泛使用而被赋
的重要措施。我们知道, 社会资源有限, 社会 于极大的社会权重, 并由此产生巨大的、他们
现实要求做某种选择, 于是考试就成了最有 无法控制的商业利益, 这一切都对语言测试
效而且最方便的现成手段, 成了施政工具。但 工作者造成压力, 甚至使他们处于危险境地。
是这些行政决策的前提是什么、实行的后果 另一方面, 也是因为普通公众并不了解语言
是什么、这样使用考试结果是否有效、是否符 测试是一项高度专业性的工作。事实上, 大规
合该考试项目最初设计的目的和用途等等, 模标准化考试需要一支训练有素的专业队
所有这些不但需要进行充分论证, 而且应当 伍, 包括应用语言学家、语言测试学家、语言
把论证结果公诸于众, 让公众了解使用的效 教师、心理测量学家、计算机工作者等等的协
果和后果。政府主管部门有责任对此进行监 同努力, 一项科学的考试从初创到成熟是极
督, 这样才能防止考试结果被误用。 其艰苦的, 因此实施大规模标准化考试的专
( 4) 保护考试知识产权 业机构应赋予法人地位, 这样才能保护语言
科学的考试作为心理测量和教育测量的 测试工作者的权益、保护考试知识产权, 保证
一种科学实践活动, 包含测试专业工作者的 语言测试作为一门学科能够顺利发展, 才有
杨惠中 桂诗春 373

可能通过法律诉讼制止各种侵权行为, 不但 密与泄密者的法律责任、作弊替考等行为者
有利于保护考试机构的知识产权, 而且有利 的法律责任、教育考试的专业质量监管、对考
于廓清混乱不堪的教辅市场和应试培训市 试结果使用的监管, 等等。只有健全的法律制
场。 度才能避免考试走向商业化, 成为某些人或
( 6) 鼓励教育测量和心理测量领域的专 某些部门的牟利工具, 才能保证教育考试的
业人员制定行业道德规范语言测试工作者要 健康发展, 使教育考试服务于教育事业并造
以敬业精神来对待自己的专业工作, 充分意 福千万学子。
识到自己的专业工作所承担的社会责任。考 3.3 教师和学生
试专业人员, 包括涉及命题的人员, 应当自 语言测试要收到预期的效果还需要教师
律, 不搞模拟试题、不搞应试培训等等进行牟 和学生正确对待。语言教学和语言测试具有
利。如果主持考试的人或单位利用自己的身 各自不同的目的, 前者是为了帮助学生掌握
份进行应试培训, 不但对其他考生不公, 而且 英语, 获得以英语为工具参与国际交流的能
也使考试失去了公信力。 力, 获取本专业所需要的各种信息; 而后者只
( 7) 成立语言政策咨询委员会 是一种测量工具, 目的是对学生的语言能力
外语教育受国家政治形势和经济形势的 进行客观的、准确的、公正的评价, 同时反映
影响极大, 这涉及到国家的语言政策, 涉及国 教学中的优缺点, 以便改进教学。因此, 教师
民的文化认同、国家改革开放和对外交流、母 应当帮助学生理解测试工具不等于教学工具
语学习与外语学习的平衡等重大问题, 因而 的道理, 自觉摈弃各种应试培训的做法, 还课
需要科学规划。也有一些人把英语学习看得 堂教学以本来面貌, 探索各种有效的、丰富多
太简单, 以为随便学学就可以开口说流利的 彩的语言教学形式, 包括任务型教学、课题型
英语, 说不了就是“哑巴英语”, 而且把考试当 教学、交际型教学, 充分利用宝贵的课堂教学
作现成的替罪羊, 仿佛只要取消考试, 千百万 时间提高学生实际运用英语的能力。对学生
人立马就能流利地说英语了, 显然这是缘木 来说, 他们应当相信英语可以学好, 但又不是
求鱼。事实上, 语言教学是一门科学, 就全国 可以随便学好, 非下苦功不可。不要轻易相信
来说, 语言政策需要全面规划, 语言教学也是 模拟试题集之类的“捷径”, 只有下苦功夫才
如此。如果由政府主管部门成立“语言政策咨 能学好英语, 达到用英语进行交际的目的。
询委员会”, 由应用语言学家、语言学家、教育 3.4 社会
学家、语言教学专家、语言测试学家、热心教 由于大规模考试具有社会性, 也希望社
育的社会知名人士参加, 集思广益, 反映各方 会能够正确对待考试, 善待考试。首先, 要正
观点和社会需要, 全面规划语言教学, 正确处 确使用考试结果, 避免考试结果的误用。另
理语言教学与语言测试的关系, 则不仅上述 外, 要为语言测试学科的发展创造宽松的氛
1) -6) 项工作都可以相应得到落实, 英语教学 围。那种“大字报”式的所谓学术讨论是伪学
也可以避免“费时多、收效低”的窘况。 术, 除了哗众取宠, 蒙骗不明真相的普通公
( 8) 制定教育考试法并颁布执行 众, 完全无助于语言测试学科的发展。
考试需要“法治”, 在条件成熟时应根据
法律制订一整套制度和规定, 明确规定什么 4. 结论
单位有权举办全国性的考试、考试机构的权
利和责任、考试结果的使用范围、考生的权利 有教学就有考试, 对教学效果和考生的
与义务、考试用户的权利和义务、考试知识产 能力水平进行测试鉴定, 这是由社会需要所
权保护、考试试卷的考前与考后保密、试卷窃 决定的。迄今为止, 考试依然被公认为是公正
374 语言测试的社会学思考

的、社会可以接受的方式。英语测试正是适应 Canale , M. & M. Swain. 1980. Theoretical bases of


学习英语的社会需要而产生, 因此问题不在 communicative approaches to second language
于取消考试。语言测试工作者的任务是保证 teaching and testing [ J] . Applied Linguistics 1 , 1 :
1-47.
测试的科学性, 保证学生的语言能力能得到
Council of Europe. 2001. Common European
客观的、准确的、公正的评价。另一方面, 测试
Framework of Reference for Language Learning
的结果又要被公众使用, 从社会的角度看, 测
and Teaching [ M] . Cambridge University Press.
试的社会性取决于社会用户的多寡。一个考 Cumming , A. & R. Berwick. ( eds. ) . 1995. Validation
试的用户越普遍, 正面和反面的影响就越大; in language testing [ A] . Modern Languages in
考试的使用面越大, 社会权重越大, 维护考试 Practice [ C ] .
的社会公正性就越发显得重要。科举时代, 皇 Davis, A. 1990. Principles of Language Testing [ M] .
帝当最高的考试执行官, 对舞弊的官员都杀 Blackwell Publishers.
无赦, 因为社会权重大的考试一旦出现不公 Henning , G. 1987. A Guide of Language Testing :
Development Evaluation Research [ M] .
平就会破坏社会的安定。在竞争性极强的社
Newbury House Publishers.
会中, 对付考试的各种手段层出不穷, 这不是
Hughes, A. & P. Porter. 1987. Current Developments
考试本身的问题, 而是赋予考试的社会权重
in Language Testing [ M] . Academic Press Inc.
造成的, 因此考试的决策者必须把考试的社 ILTA. Code of Ethics for ILTA ( Adopted at the
会性( 包括它的风险性) 考虑在内, 应该成立 annual meeting of ILTA held in Vancouver,
有各方面用户代表人物组成的委员会来主持 March 2000 ) . http : ∥www.iltaonline.com.
其事, 保证考试的结果能得到正确使用, 同时 Shohamy , E. 2004. Assessment in multicultural
保护考试各相关方的权益。对于高风险考试 societies: Applying democratic principles and
来说, 防止考试结果的误用, 代价可能很高; practices to language testing [ A] . In B. Norton &
K. Toohey ( eds. ) . Critical Padagogies and
但从考试社会学的角度来看, 这样做既必要,
Language Learning [ C] . Cambridge University
又值得。
Press.
Spolsky , B. 1995. Measured Words [ M] . Oxford
参考文献 University Press.
Alderson , J. C. , C. Clapham & D. Wall. 1995 : Weir, C. J. 1990. Communicative Language Testing
Language Test Construction and Evaluation [ M] . [ M] . Prentice Hall International ( UK ) Ltd.
Cambridge University Press. 李筱菊, 1997 , 语言测试科学与艺术 [ M] 。长沙: 湖南
American Educational Research Association, 教育出版社。
American Psychological Association , National 杨惠中、C. J. Weir, 1998 , 大学英语四、六级 考 试 效
Council on Measurement in Education. 1999. 度研究 [ M] 。上海: 上海外语教育出版社。
Standards for Educational and Psychological
Testing [ M] . 收稿日期: 2006-12-02 ;
Bachman , L. F. 1990. Fundamental Considerations in 作者修改稿, 2007-06-04 ;
Language Testing [ M] . Oxford University Press. 本刊修订, 2007-09-10
Bachman. L. F. 2004. Linking validity and test use in 通讯地址: 200030 上海交通大学 外国语学院 ( 杨)
language assessments [ P] . The 7th Academic <hzyang@mail.sjtu.edu.cn>
Forum on English Language Testing in Asia. 510420 广 东 外 语 外 贸 大 学 外 国 语 言 学
Baker, D. 1989. Language Testing : A Critical Survey 及应用语言学研究中心 ( 桂)
and Practical Guide [ M] . Edward Arnold. <itscgui@yahoo.com.cn>
437

study language and mind using the same method as that in natural sciences. Internalism emphasizes
the study of abstract representations inside the human brain. Individualism implies that the internal
states of the brain being studied are characteristic of the individual. Chomsky takes universal
grammar and particular grammars as real objects in the world. The objectiveness of theoretical terms
and assertions that are used to describe the two types of grammar can be accounted for by what he
terms as the“best theory ”, an approach to developing a theory with the“best ”explanatory power.

The sociology of language testing , by Yang Huizhong and Gui Shichun , p.368
The designers of a large-scale high-stakes test shoulder heavy social responsibilities, because
the future of many young people lies with the results of the test. They therefore must do what they
can to ensure that the measurement of the candidateKs English proficiency is accurate , objective ,
and fair. A good test should also have a positive washback effect on teaching and beneficial impact
on society. Various factors, however , are responsible for the washback effect and social impact of a
test , many of which are out of the control of language testers. The dilemma for the language tester
is that the better professional quality of a public test , the greater the liability of its being misused.
Our experience shows that the so-called negative washback effect is mainly caused by the social
weight a public test carries, and has little to do with the item types and the test content. Therefore ,
all the stake-holders should share their responsibility for the avoidance of misuse of the test results.
The language testerKs responsibility is to provide the public with transparency and documentation of
a test on what is measured , through the dissemination of explicit standards , content outlines ,
theoretical frameworks and score interpretation materials.

The second wr iting pr ocess: Differ ences in the use of str ategies between high- and low-ability
students , by Ho Man-koon , p.375
Essay writing is increasingly being viewed as a process rather than a final product. From a
teaching point of view , two processes are involved in writing. The first process begins when the
student receives the topic of a writing task from the teacher and ends when the essay is turned in.
The second process begins when the student receives the marked essay from the teacher and ends
when the student finishes revising the essay according to the comments from the teacher. In the last
20 years or so, research on writing mostly centered on the first writing process while the second
writing process was largely neglected. This paper reports on a study which aims to investigate the
second writing process. The main focus is on the differences in the strategies used by high- and low-
ability students in their English writing as a second language. It was found that the high- and low-
ability students differed in their use of strategies relating to detection, diagnosis and review.

A study of the over gener alization in second language acquisition , by Zhou Baoguo , p.387
Overgeneralization regarding the use of the English article the is a ubiquitous phenomenon in
SLA for Chinese-speaking learners of English. An analysis shows that three context types of article
use ( i.e. specific definite , specific indefinite and unspecific indefinite ) involve differential
complexity of semantic interrelations , which relates to the ease or difficulty in the acquisition of
these context types. In an empirical investigation based on this analysis, three groups of Chinese
learners of English were tested on their knowledge of the. Results show that article semantics bears
on the phenomenon of the overgeneralization and that such overgeneralization mainly occurs in the
specific indefinite context.

You might also like