Professional Documents
Culture Documents
学 号
·
季束师托术带
对外汉语成绩测试试题设计研究
院 系 对外汉语学院
专 业 对外汉语教学
研 究 方 向 对外汉语教学与实践
指 导教师 徐子亮 教授
硕士研究生 陆晓红
年 月完成
届研究生硕士学位论文 学校代码
学 号
单束峰托术带
对外汉语成绩测试试题设计研究
院 系 对外汉语学院 二
专 业 对外汉语教学
研 究 方 向 对外汉语教学与实践
指 导 教 师 徐子亮 教授
硕士研究生 陆晓红
年 月完成
学位论文独创性声明
本人所呈交的学位论文是我在导师的指导下进行 的研究工作及取得的研究
成果。据我所知除文中已经注明引用的内容外本论文不包含其他个人已经
发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体均已在
文中作了明确说明并表示谢意。
作者签名
期
日 即上全若
学位论文使用授权声明
本人完全了解华东师范大学有关保留、使用学位论文的规定学校有权保
汇编 出版 。保密的学位论文在解密后适用本规定。
卜 夕 肠 双
学位论文作者签名麒肠 阵 导师签名 飞等‘
岑乡
日期 乙上‘ 日
期侧 忍
脸曰
晓红鱼土学位论文答辩委员会成员名单
姓名 职称
称 单位
位 备注
注
吴勇毅
毅 教授
授 华东师范大学对外汉语学院
院 主席
席
张建 民 教授
授 华东师范大学对外汉语学院
院
李露蕾
蕾 副教授
授 华东师范大学对外汉语学院
院
叶军 副教授
授 华东师范大学对外汉语学院
院
华霄颖
颖 副教授
授 华东师范大学对外汉语学院
院
乒
论 文 摘 要
者学习的成效也可检验教师教学的质量与效果 。同时特定的测试观对于教学
理念也会有一定的回流效应 。然而这一切都是建立在有效的成绩测试这一前提
性 也就无法发挥成绩测试 的作用 。
程 中需要注意的地方 。我们希望籍此为对外汉语教师在设计或选择课堂成绩测试
试题时提供一些可操作的依据 。
犷
’
罗 允
若
目 录
·
第一章 引言···
···
··
···
···
··
···
··
···
··
··
···
··
···
···
··
···
···
···
··
··
···
··…… 页
·
第一节 外语测试研究现状分析···
···
···
··
··
···
···
··
···
···
··
·…… 页
·
第二节 本文的研究 目的及范围··
···
···
···
···
···
···
···
···
···
···
…… 页
·
第三节 本章小结···
···
···
··
···
··
··
···
··
···
···
···
··
···
··
··
···
···
··
·…… 页
·
第二章 对外汉语成绩测试的重要性及编写现状··
··
··
··
··
··
··
…… 页
·
第一节 成绩测试的重要性··
···
···
··
···
···
··
···
··
···
···
···
··
···
·…… 页
·
第二节 目前 国内对外汉语成绩测试编写尚存的问题··…… 页
第三节 本章小结 ·
···
···
··
···
···
···
···
···
···
···
···
···
···
···
···
···
…… 页
·
第三章 成绩测试试题设计的理论依据···
···
···
··
···
···
···
··
·…… 页
·
第一节 成绩测试的特点··
··
···
··
··
···
··
···
··
···
···
··
···
···
··
·…… 页
·
第二节 语言能力···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
··…… 巧 页
·
第三节 测试有用性···
···
··
··
···
···
···
···
···
···
···
···
···
···
···
·…… 页
·
第 四节 本章小结···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
··…… 页
·
第 四章 试题设计 的步骤及注意点···
···
···
···
···
···
···
···
···
··…… 页
第一节 成绩测试试题编写的一般操作步骤 ·
···
···
···
···
··…… 页
·
第 四节 考试语言···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
··…… 页
·
第五节 本章小结···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
一 页
·
第五章 样卷有用性分析···
···
···
···
···
···
···
···
···
···
···
···
···
··…… 页
·
第一节 方法介绍···
···
···
··
···
···
··
···
··
···
···
···
··
···
···
···
··
·…… 页
·
第二节 统计及分析···
···
···
···
···
···
··
···
···
···
···
···
···
···
···
…… 页
·
第三节 总结···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
··…… 页
·
第六章 结语···
···
···
···
···
···
···
···
···
··
··
···
···
···
···
···
···
···
···
·…… 页
第一节 研究成果… 页
第二节 不足与展望 页
附录 样卷 页
参考文献 页
后 记·
···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
···
··…… 页
宁
第一章 引言
语言测试与语言教学是相对独立而又息息相关的两个方面。汉语测试作为对
外汉语教学的四大环节之一在整个对外汉语教学事业 中的地位不言而喻 。而课
堂成绩测试更是教学过程 中运用最多的测试种类 与教学的关系最为密切 对于
学与教都有着重要的影响因此本文选择对课堂成绩测试的编写进行研究。
外语测试研究现状分析
在外语测试界人们普遍将外语测试理论分为三个时期即前科学语言测试
时期、心理测量一结构主义语言测试时期和心理语言学一社会语言学语言时期。
刘润清 韩宝成 自 年代 提 出交际能力的概念 以来 关于语
言能力的假说也出现了多次演变随之而改变的就是语言测试观 。至 年代对
于语言测试 的讨论达到了一个新的高度 。因此 本文首先将从 国内和 国外 、理论
与实践等维度集 中对第三阶段特别是 世纪 年代 以来 的一些关于外语测试 的
研究和论著进行疏理以便下文的展开。
国外外语测试理论与实践研究现状
现代语言测试的历史虽然不长但发展迅速 尤其在 国外 随着各种理论的
提 出与改进 各种实践研究也层 出不穷。所 以我们将首先从理论和实践两方面
窥视一下 国外语言测试特别是 以英语和汉语作为外语测试 的研究现状和得失。
理论发展
当外语测试进入第三阶段 既心理语言学一社会语言学语言时期测试的关
注点也从知识 、技能转 向了能力 。因此 其理论研究主要集 中于关于语言能力的
讨论上 。
在乔姆斯基提 出语言能力 和行 为表现 的关系
后 有很多人 以和语言学相关的各种学科为基础为其提供理论和 实验依据 也有
很多人不断地对其理论提 出批评和修 正 。比如 海姆斯 就指 出乔 氏的语
言能力概念过于狭隘应该还包括其他很多能力并特别指 出了语言使用 的得体
性 即 。在此基础上 和
以及 提 出了交际能力的四因素框架 既语言能力 。、社
会语言能力 。、会话能力 和策略能力 。显
然 这个框架把乔姆斯基所提 出的潜在 能力的范 围扩大 了。因为有 了社会语言能
力、会话能力和策略能力使得我们在讨论能力的同时把语言使用的语境也囊
括了进来这也成为第三代语言测试观标志性的特征。然而这个框架还是相当
平面的无法直接将潜在能力、行为表现和语境三者的联系表现 出来运用于测
试时就存在着一定的困难。
不久 知 《语言测试要略》一书 出版 在这本著作中
玩叮 不仅在 和 的模型基础上做 了进一步的扩展
提 出了一个层次
分明、细致度高的语言能力要素树型结构而且提 出了一个言语交际中交际能力
各要素和语境及语言使用者 自身原有知识结构的交互作用模型这个模型中所包
含的交互理念 以及所突出的策略能力的中心地位成为了现代外语测试设计时所
必须考量的要素。《语言测试要略》一书除了提 出这两个对现代外语测试影响重
大的模型之外还细致地讨论了测试方法对考试质量的影响包括测试环境、题
目、输入语料的特点、期望输出行为的特质 以及输入与输 出之间的关系这五方面
因素。测试方法对信、效度有着直接的影响因此这五方面是在设计试题必须
考虑的因素非常值得我们借鉴。除此之外 这本书还花 了大量的笔墨讨论了新
的语言能力观下信度和效度的衡量。如果说这是一本从根本 的观念上对现代外语
测试提 出的革新那么 和 年 问世的 《语言测试实践》一书则
是从实际的外语测试开发过程讨论 了整个操作过程 并附上 了很多实例 。因此
这两本书为外语测试提供 了新的理论基础和参照依据 。不过 也正是因为这种高
度 这两本书考虑的出发点还是大规模的外语水平考试 、分班考试和特殊用途考
试 。虽然也提到小规模的成绩测试 但更多地是从其理论适应性上 也即共 同
点上讨论而很少谈及特殊性 。因此在实际运用到小型的成绩测试时我们还
需要做进一步的考虑和修正。
虽然 提 出的交际语言能力模型可谓是迄今为止最具影响力 的里程
碑式的模型但是 在其 年出版的 《语言学习认知法》一书中却
指出 的模型只是提出了一个类似系统性检测表 的分类 而这样 的分类并
不能清晰地显示出各要素的意义 、中心及相对 的重要性 。
因此 他从心理语言学加工理论 的角度 提 出了“运用 能力” 这
国内英语测试理论与实践研究现状
在 国外外语测试理论与实践蓬勃发展 的同时国内外语测试界也不断引进新
的理论并结合 自身实际和实践展开 了对于语言测试观和针对大学英语等级考
试等测试实践的研究和讨论。虽然整本 的论著不多但各方面的单篇论文却不下
数百篇 。
理论著述
年代初由刘润清和韩宝成编著的 《语言测试和它的方法》 较全
面地论述 了现代外语测试试卷设计时需要注意的问题 。该书主要从题型— 如多
项选择题 、完型填空题 语言知识— 如词汇测试 、语法测试等 以及语言技能
实证研究
在英语测试方面 除了大量理论论述 的文章外 还有很多针对大学英语考试
和英语专业考试 等学业考试进行的实证研究而讨论的热点也
是各种题型的信效度 问题和回流效应 。比如金艳、吴江的 《以“ 内省法”检验
阅读理解测试 的效度》 《外语界》 对 阅读理解 的效度进行 了定性的研究。
陈晓扣、李绍 山在其 《 一 完型填空测试结构效度研究》 现代外语》
一文中对完形填空这一题型的效度做 了定性和定量的研究报告。他们所采用的定
性定量的研究方法相 当值得参考 。
相较而言针对课堂成绩测试所做的实证研究则寥寥无几 。
国内对外汉语界测试理论与实践研究现状
与国内英语测试界相 比对外汉语测试界对于成绩测试的研究还较少更多
的对于测试方面的关注集 中在汉语水平考试 。
关于水平考试 的研究
随着汉语水平考试 的推 出对于这项考试 的研究也逐渐增多集中
论述的主要有北语考试 中心主编的 《汉语水平考试研究论文选》 以及张
凯主编的 《汉语水平考试 研究》 等 。前者主要针对 的信度和效
度进行研究分析
而后者则从 考试设计的 目的开始
对 考试 的分数解释 、
信效度和题 目设计进行 了全面 的介绍和探讨 。从这两本 书可 以看 出国 内对于
考试 的研 究无论在理论上还是实证上 已经相 当地深入和系统 了。他们所采用
的定量研究方法给 了我们很大 的启发 。
有别于 以上两本 张凯主编 的 《语言测试理论及汉语测试研究》 涵
盖 了很多当前语言测试所关注 的热点如语言能力 问题 、信效度 的计算 问题 、等
值技术 以及 口语测试等 。不仅有理论论述 也有实证研 究而大 多数 的研 究报 告
还是基于汉语水平考试 。
关于成绩测试的研究
在成绩测试方面崔颂人先生的 《略谈对外汉语成绩考试 的改进》
研究现状小结
综上所述外语测试发展至今 在理论和实践上都有 了很大的发展。本章提
到的论著大体可分为以下几类
一类是理论探讨比如 《语言测试要略》和
语言学习认知法》 。
第二类是操作方法 主要体现在 国内英语教学界几本著作 如刘润清和韩宝
成编著的 《语言测试和它的方法 》 李筱菊 的 语言测试科学与艺术
以及徐强的 《交际法英语教学和考试评估》 都根据现代测试
理论针对试题设计方法提 出了务实的操作原则。而 和 的 《语言
测试实践》 则介于理论与实践之间虽然该书是针对测试实践而写的
并附有大量的测试实例 但其 中很多原则更偏 向于理论性 的思考 。
第三类则是实证研究 见于北语考试 中心主编 的《汉语水平考试研究论文选 》
以及张凯主编 的 《汉语水平考试 研究》 是针对汉语水平
考试做 了大量 的实证性分析 。
随着上述这些新理论和新的操作方法 的提 出也 同样 出现 了很多新 的问题有
待解决 。
在理论上 交际能力说的提 出和发展 使得外语测试 的内容和重点从知识和
技能扩大到了能力同时也带出了一连 串新的疑 问 外语学习者的语言能力究竟
由哪些 因素构成 各 因素 的相互作用如何 这样 的能力又是如何作用于实际的
语 言使用 的 我们可 以看到 年代 以来 的外语测试研 究都是 围绕这些 问题展 开
的。对于语言能力所包含 的要素 已经划分得相 当细致 但还缺乏对各要素相对作
用和关系 的分析 。
另一方面如何才能探测到上述的语言能力也即测试方法的问题也有 了一
定的变化和发展。测试过程中更突出相对真实的交际场景和任务以让受试者在
运用中进行测试 以体现真实的能力。不管是交际型测试还是任务型测试 都在
往直接和综合的方 向努力 。但是大量的研究集 中于 口语测试和水平测试 缺少对
针对课堂教学的成绩测试 的研究 。
国内在引进理论的同时也对英语测试和汉语测试做 了理论和实证研究 但
主要是系统论述测试理论的著作或者是围绕真实性、信效度和水平考试等热点问
题讨论的论文很少关注成绩测试或者说很少有针对成绩测试的特点来考量的
文章 这些缺憾正给 了本文一定的研究空间。
本文研究 目的及范围
研究 目的
从研究综述我们可 以发现现代语言测试 已经把重点转向测量学生的语言运
用 交际能力 但如何将这一理念贯彻于课堂成绩测试还 尚未有人深入地涉及 。
而在实际的成绩测试试题编写中我们也发现教师缺少一定的理论抓手导致试
卷存在着各种不同问题 。所 以我们将通过对语言能力理论的深入分析 以及测试
有用性在成绩测试 中的运用分析 提 出编写课堂成绩测试试题的理论依据 同时
结合具体的试题设计步骤和例题分析指出具体的操作原则和注意点。希望籍此从
理论和实践两方面为教师编写课堂成绩测试提供一定参考依据 提高试题的有用
性。
研究范围
成绩测试涵盖的范围非常广泛 包括考试管理 、试题设计、评分乃至分数解
释等等 。由于在 日常教学 中与教师关系最直接而存在 问题最多的是试题设计 的
问题 本文将要讨论 的问题也将集 中在设计试题设计的各个环节上 包括考纲的
制定 、题型选择和语料选择等 。
另外 因为在 日常教学活动 中课堂成绩测试 的资源条件有限所 以最多采
用的是笔试形式而在对外汉语界 相对而言 对于笔试试题 的设计讨论非常之
少因此 本文将要讨论的试题设计只涉及笔试部分的主客观试题 不包括 口语
和听力的试题设计 。
此外 基于笔者教学实践情况和所收集 的试卷情况 我们将讨论 的重点放在
精读课成绩测试上 。
本章小结
目前国内外对于语言测试的研究 已相当丰富一部分对于语言能力等方面
的理论探讨为我们提供 了可参考的理论基础 另外对于实践的讨论也为我们展
示 了不好值得借鉴的操作原则 。然而这些理论和实践研究并非针对对外汉语成
绩测试这一特定的测试形式因此把上述理论或实践原则运用于我们的测试实
际中还有一定的困难 。而事实上 对外汉语成绩测试 的试题设计还相 当不规范
存在着这样那样的问题 这些将导致测试作用无法真正得 以发挥 。所 以我们希
望通过结合成绩测试的特点对这些理论和原则进行再探讨 从而提 出一个可操
作的框架 以供教师在编写试题 的实践中参考 。
第二章 对外汉语成绩测试 的重要性及编写现状
成绩测试的重要性
成绩测试之于学
成绩测试是针对学生在一阶段的学习之后所进行的因此成绩测试对于学
生的学习有着检验和促进作用 。
首先成绩测试最直接的 目的就是检测学生对于该阶段的教学内容的掌握程
度因此学生可以通过成绩测试客观地 了解 自身的学习成就和进展。明确 自身
在哪些方面 己经掌握在哪些方面还存在问题 在下一阶段的学习中需补足和加
强。对于学生而言这种检测作用十分重要。一方面已取得的成绩可 以帮助他
们建立信心 另一方面问题 的发现可 以指导下一步针对性的学习。但是并不
是所有的学生都会 自觉地进行形成性评价 因此 有必要通过客观的成绩测试帮
助学生检验 自己的学习成效。不过前提是有效的测试 如果测试本身有 问题
那么结果也就会有偏差其检验结果也就有待商榷。
接受测试的过程也是一个运用语言再学习的过程 。
另外 如果试题设计得好
那么这也是个运用语言的过程 对学生来说是多了一个运用汉语的机会 。而且
好的试题也是好的语言输入
接触 良好的语言输入
无论是在形式上还是内容上
对学生来说也是一个接收学习的过程 。当然 不好的范本输入也会产生反面影
句。
月
成绩测试另一个直接作用就是其回流效应 七 。学生在接收
测试的同时能够感受到测试方法所隐含的理念
从而引导 自身学习方法的转变 。
如果我们 的测试重语言知识 那么学生在平 日的学习中 自然会重视语言知识的掌
握 。如果我们 的测试重运用 那么学生 自然会在学习中注重运用 在生活 中加强
使用 。虽然 我们不提倡考试成为教学的指挥棒 但是我们可 以合理地利用考试
的重要性 指 导学生 的学 习 。
成绩测试之于教
成绩测试除 了对学生有重要意义外 对于教师 的教学也及其重要 。之所 以要
在教学过程的某一阶段进行成绩测试 对于教师来说首先就是为 了检验教学 的
有效性 。学生的考试成绩是教师教学有效性 的一大反映。教师可 以从学生的总体
卷面反映反省 自身的教学得失哪些知识 、技能和能力是学生掌握较好 的那
可能是恰 当的教学方法带来 的成果 卷面中又有哪些是普遍性的错误 那么很可
能是教学上的失误造成的。
另一方面成绩测试的结果也能帮助教师决定教学进程 。教学能否进入下一
阶段取决于学生对前一阶段教学 内容的掌握情况对学生掌握程度的了解 一
个 比较客观有效的方式就是成绩测试 。因此 教师可 以通过学生在测试 中的反应
判断其学习情况 决定整个教学是否可 以进入下一阶段 以及在下一阶段的教学
中需要弥补前一阶段的哪些方面 。同时通过学生对测试项 目的反映也可 以帮助
教师分析教学进度是否合理 教学 内容是否恰 当对于学生来说目前的教学节
奏是过快过慢还是快慢适 中 教学 内容过难过易还是难易合理 这些都可 以帮
助教师决定下一阶段如何调整开展教学活动 。
有效成绩测试 的重要性
成绩测试在学与教两方面的正面作用来 自于一个先决条件— 有效性 。只有
有效的成绩测试才能发挥上述两方面的各项作用 。如果试卷本身存在 问题 其结
果并不能反应学生的真实情况 那么据此所做的决策也必将 出现偏差 成绩测试
的积极作用就无从谈起 。只有当成绩测试的结果能如实地或者说最大程度上真实
地反映学生的学习情况和掌握程度 那么根据测试结果所做 出的判断才可能是正
确的成绩测试 的作用才能真正得到发挥 。
由此可见设计有效的成绩测试无论是对学生 自身的学习还是对教学的决策
决定都有十分重要 的意义 是整个汉语教学 中至关重要的一环 。
目前 国内对外汉语成绩测试编写 尚存 的问题
缺乏理论支撑
我们发现很多试题 的编 写随意性较大 缺乏一定 的测试理论支撑 或者与教
学理论脱节 。因为学生身处中国这样一个 目的语环境 运用汉语对学生来说至关
重要 因此现在对外汉语课堂教学都十分重视培养学生的语言运用 能力 。但这一
你是校长
什 么时候走还 不是 由你决定
我不是校长我不管。
我是校长当然由我来决定。
你是校长当然由你来决定。
从题干来看题 目似乎是想考学生对反问句的理解但是选项却完全不是由此着
手选项 和 的区别是主语 的差别选项 又多了对 “ 不管 ” 的理解 此考
题 出题依据实在让人难 以理解 。这种现象的出现 究其根本是缺乏一定的理论为
依托 对于成绩测试究竟应该考什么和怎么考只有模糊的概念 。
另一方面也因为缺乏一定的系统理论为支撑教师在对现存的题 目进行选
择或对 己编写好的试题进行审题修改时没有明确的评判标准很难在质量上
再提高。
内容重复
正如崔颂人先生 指出的我们也发现 从初级到高级有很多相同
的语法项 目反复出现而且很难区分是属于初级水平的考题还是高级水平的。比
如 我们发现某项 目使用一套系列教材 在其初级班的单元测试 中出现 了如下这
道回答 问题 的试题
你为什 么学习汉语 现在你的汉语怎么样
对 ……感兴趣 越来越 ……
而在其 中级班 的考试 中有下面这道改写句子 的题 目
秋 天到 了天气一天比一天冷 。 越来越
只看这两道试题 着实难 以区分哪道是针对初级学生的哪道是针对 中级水平 的
学生的。这往往是 由于 出题人在选择考试 内容时只关注形式 而忽略 了其在运
用 中附带的修辞或语用功能以及学生 自身 中介语系统的发展情况 导致不 同水
平 的试卷在 内容上 出现 了雷 同现象 。
内容重复的另一种现象是在 同一张试卷 内考点安排不合理 出现重复 。比
如 在我们收集到的某份样卷 中一道选择题 出现 了如下三道小题
你怎么这 么晚 一 来我 一 等 了半个小时了。
才就 就 才 才都 就 都
甲 “你怎么现在 ”
一 来我们等你等得都快急疯 了。
乙 “不是说好三点吗 现在 ”
一 两点半。
才 才 就 就 才就 就 才
我今年 一 岁了可是连个女朋友也没有。
都 才 就 还
在 同一个题型 中重复出现 这样似乎在考点比例的安排上不太合适 。
题型不恰 当
从我们收集到试题来看 有些题型缺乏效度 比如用零散的词语连词成句
对于这样 的题 目学生首先需要揣摩句子想要表达 的意思 然后再按照汉语 的语
序将正确 的句子整理 出来 。这样 的练习或许可 以帮助学生加强对汉语语序 的认
识但这仅 限于练习作用 而我们的考试则是希望通过学生运用语言的行为表现
来推测其对教学 目标的掌握程度 。就运用语言来说在真实的生活中学生恐怕
很少会碰到需要揣摩他人意思再替他人表达的情况 。因此 就成绩考试的 目的而
言这样 的题型脱离了现实运用 并不能测得学生运用语言的能力 缺乏效度 。
此外 有些题型会对学生的学习产生负面的回流效应 比如改写句子的题型
语言 问题
试卷 中的语言 问题主要表现在语言不标准或缺乏真实性 。我们发现 有些试
题 的语言不规范甚至本身就带有语法或语用错误 这可能是因为 出题人粗心而
造成 。在初 中级 的试题 中还常常会发现一些读起来十分牵强的句子 不符合真 实
语境下 中国人的表达习惯 这种现象 的出现大多是为 了迎合受试者 的汉语水平
虽然可 以理解 但这种做法 的可行性还值得商榷 。
缺乏语境或语境不真实
语言的运用总是在一定的语境中发生的然而有的试题在无语境的情况下要
求学生做答 这就完全是脱离运用的考查了。另外 有些试题虽然提供 了一定的
语境 但却脱离学生的生活这样 语境本身的真实意义就丧失了也就不能发
挥其真正的作用 了。
本章小结
对外汉语成绩测试作为语言测试的一种对教和学都有着重要的促进和指导
作用只有有效的成绩测试才能保证测试作用的真正发挥。然而在我们的实际教
学过程 教师在编写成绩测试的试题时由于缺乏一定的理论指导试题在形式
和 内容上还存着一定的问题 影响了试题的有用性从而导致测试作用未能得到
充分的发挥 。因此 我们必须从先从理论上解决这一 问题 。
第三章 成绩测试试题设计 的理论依据
成绩测试 的特点
成绩测试作为语言测试的一种是按其用途来分的。这里我们所说的成绩
测试是指课程测试是针对一门课程或课型的测试 其 目的是检查学生在学习汉
语的某一阶段是否掌握了教学大纲和教材所规定的教学内容在学习上取得什么
成果。 刘殉 同时也是为了帮助教师反省教学得失调整教学进度
课程安排等 。
因为用途和 目的不 同成绩测试相对于水平测试等其他测试有其 自身的特
点。首先 成绩测试 的内容是特定的是以课程 的教学大纲和教学 内容为依据 的
因此 内容效度相对较重要 而且教师和学生都应该对考试 内容相当明确 。对于教
师而言他有明确的 目的性清楚要考察学生对哪些语言结构功能等方面 的掌握
情况 以总结前阶段 的教学得失调整下阶段教学 。同样 对于学生而言他们
也应 该清 楚考试 的范 围以正确评估前阶段 的学 习成效 。
其 次 成绩测试 的 目的是为 了了解学生 目前该阶段所达到 的汉语程度 。因此
他所取得 的成绩是绝对 的只要他达到 了这一阶段既定的标准 完成 了规定 的学
习任务那么他就应该得到一个好成绩。所 以基本上而言成绩测试应属于准
则参照测试 与他人 的比较成分少 因此对于区分度 的要求并不高。
另外 日常教学中使用 的成绩测试 规模相对较小因此影响范围也相对较
少 所 以对于效度 的要求会高于对于信度 的要求 。此外 成绩测试能使用 的人力
物力时间等资源有限而使用频度却较高因此需要较高的便利性。这些特点是
我们在设计成绩测试试题 时必须考虑到的方面 。
语言能力
语言能力
组织能力 语用 能力
语法能力 篇章能力
言语施为能力 社会语一
言能力
词汇 句法 词法 语音及 连贯 修辞
启发 想象 对方言或 对语域差别 对 自然性的 使川和理
文字 朽 组织 概念 操作
刀
台路 二 幽、 功能 功能 变体差别 的敏感度 敏感度 解 文化所
写
的敏感度 指 及 汀语
特征
图 语言能力元素 图 知
由此 我们可 以看到所谓语言能力所涵盖 的面是相 当之广 的不仅包括 了
课堂教学中较突 出的语法部分 同时也包括 了教学过程 中容易忽视 但实际交际
中必不可缺 的篇章能力 、施为能力和社会语言能力。所 以学 习者 的语法能力是我
们需要也是必须衡量 的部分 但只是一部分而 已它并不能代表学习者语 言能力
的全貌 我们需要对其他要素进行综合考量 这样才能获得关于学习者语 言能力
全貌 的信息 。当然 正像 所指 出的这张图表只是将各种要素进行 了分类
并未指出各要素在整个系统中的地位和相互关系。所 以我们在运用这张能力树
状图编写成绩测试时
需要与我们的教学实际相结合
也就是说要结合教学大纲、
课堂教学的内容与 目标 确定所要测试 的要素和各要素的相对 比重 。
另一方面关于语言能力和言语表现 的关系 知 尝试 了 自己的界定
如图
图 交际性言语使用中的交际语言能力元素
从 图中我们发现在实际的使用过程 中语言能力并不处于中心地位 处于
中心地位 的是策略能力 它在语境和能力 以及使用者的世界知识间起到 了调和作
用 。从另一方面 也说 明语言的实际运用一定发生在特定的语境 中而影响语 言
使用者表现的不仅有其语言能力方面的因素同时还有使用者 自身知识背景的因
素及其运用策略能力调和各方能力的因素 。因此 如果我们的测试是 以测试语言
学习者言语运用能力为 目的那么为了采集到相对真实的样本 也即学习者 受
试者 运用语言的行为表现 试题 的设计首先必须考虑语境 的设计 。此外 为 了
避免测试结果产生不必要的偏差 我们在试题设计之初就有必要考虑到试题所包
含 的对非语言知识的要求 以及受试者可能运用 的各种策略 包括交 际策略 、应
试策略等 。这些 因素是否是测试 的 目的所在 如果不是 那么在试题 设计就应该
尽可能地加 以避免 。
由此 根据语言能力理论成绩测试 的范 围应根据教学实际涵盖语法 、篇章 、
语用等各方面的能力要素 。而在设计方法 时应考虑恰 当的语境设计 以及知识
背景和策略运用 的影响从而保 留需要测试 的要素 剔除不必要 的影响要素 。
测试有用性
我们设计一份试卷 当然希望所设计的试卷能有效地测试到学习者的言语运
用能力 那么为了达到测试 目的我们在设计试题需要注意哪些因素 又能从哪
些维度来评估所设计 出来 的试卷是否有用 这里我们就可 以使用测试有用性 的
指标来衡量 。
曾用 以下这个等式 图 表述 了测试有用性的含义
有用性 信度 构想效度
真 实性 互动性 影响 操作性
图 测试有用性
信度和效度
语言测试进入科学测量时代 以来 信度和效度一直是衡量测试科学性和有效
程度 的重要指标 。所谓信度 字面上而言就是指测试结果是否可信 。当然 这
样的定义涵盖面略显太广 会涉及到效度的部分 内容因此 对于信度 的具体定
义 由于考虑的角度不同而略有差别。比方说李筱菊 曾从分数和试题 以及试题和
受试者之间的关系出发指 出信度是指测试 的结果分数对受试者的表现而言的可
靠程度 也就是说分数是否公正而客观地反映了试题 的作答 试题又是否给 了
受试群公正而客观的作答机会 李筱菊 而 对于信度 的定义
则从测量意义 出发认为信度是指测量的一致性程度 即在不 同的测试环境下
受试者所得的分数结果应保持一致 。因为受试者 的语言能力是一定的从另一面
来说 也就是要尽量减少干扰 因素造成 的测量误差 。虽然 由于 出发点不 同定义
的表述会有所 出入 但是为 了保证试题具有一定的信度 有几个核心 问题 却是共
通 的。不过 试题信度 的保证涵盖 了试题设计 、施测过程和评分等几个环节 这
里我们将只就试题设计这一环节进行论述 。
首先 测试 结果 的可信度来源于试题 的公正性 也就是说 试题 不应 具有偏
颇性 。在实际的测量过程 中影响测试结果的除 了我们所期望测得的语言能力因
素外 还有包括测量手段 、受试者 的非语言能力个人 因素 如性别 、母语 、认 知
方式等 以及其他一些不定干扰 因素的影响 。如果试题 引导 出的受试者 的作答表
现 除 了受我们期望测得 的语 言能力作用外 还受到其他干扰 因素 的作用 而这些
因素又有利于一部分人 而不利于另一部分人 那 么试题就 失去 了公正性 同时
也一定会产生测量误差 这也正是造成 所说的测试结果不一致 即不可信
的原因所在 。所 以为了保证试题 的公正性 在设计试题之始 我们就应 该考虑
到这些干扰因素尽可能地避免其对受试者言语行为表现产生偏颇性的影响。当
然这其 中有很多因素是不可控 的相对来说 最能由试题设计者掌控的是测量手
段 。因此 要提高信度 我们首先应该在测量方法方式上综合效度进行控制 设
计或选取适 当的方式诱导 出能真正体现或者说真正 由所要测量的语言能力作用
的行为表现 尽可能避免由于不恰当的题型、语料或者语境话题等测量方法面干
扰而造成测量误差 。在题型方面 多项选择等客观题 因评分客观等 因素而具有较
高的信度 通常是大型的水平考试采用 的主要题型 。在成绩测试 中我们 同样可
以采用这类客观题 以确保信度 但我们需要通过尽可能的改进来平衡效度 因素。
除了多项选择等客观题之外 因为成绩测试 的规模较小而且阅卷通常只 由任课
老师一人负责相对能保证一定的评分公正性所 以我们可以适当多采用问答题
等这样的半客观题或作文这样 的主观题 。至于语料 我们需要考虑 的是试题语料
所涉及的世界知识是否是我们的测试 目的之所在学生的教育背景可能存在很大
的差异 因此 个人所具有的世界知识也有很大的差异 一旦试题需要受试者利
用 自己的世界知识而这种世界知识又不包含在测试 目的中却具有 明显的偏颇性
即某些受试人具有 而其他不具备 显然 这样的试题会利于一部分人 而不利
于另一部分人 那么作答的公正性就无从谈起 了。由于我们课堂教学中所使用 的
成绩测试的受试对象相对较少教师对其情况了解较多因此 在编写试题时
题型特点和考生情况综合起来考虑
我们应尽量把测试 目的、 保证一定的公正性。
另外 语境的设计也可能造成一定的偏颇 有些受试者可能熟悉这类语境 有些
受试者可能熟悉另一类语境 。学生接触 的语域大致可分为教学语域和真实生活语
域两大类 对于接受成绩测试 的同班学生而言前者具有一定的公正性 。而如果
是平行班公用的试题则需要在这方面略加考虑 。真实生活域则会存在较大的差
别 我们可 以选取学生陌生的也可 以选取他们熟悉的这都要根据具体 的题型
和 目的但 同时要注意公正性 不能明显地偏 向部分学生 。我们可 以发现 公正
洽当。
与信度密不可分的另一个重要因素是效度效度即有效性是指考试在多大
程度上考 了 目的所要考 的。 李筱菊 效度根据不 同的划分标准可 以分
成很多类 但是其中最基础 的就是结构效度 这里 的结构是指理论结构 因为
真实性和互动性
真实性和互动性是随着交际语言测试 、任务型测试等第三代语言测试观 的兴
起而倍受关注 的两个概念 。
真实性 主要是指考试任务的特点对应于真实生活 中 目的语使用情况的程
度 。只有考试任务在较大程度上呼应于非考试场景的真实生活使用那么测试结
果才具有一定的可推性能够较准确地预测学生在真实场景下使用语言的情况。
不过 首先我们认为这种真实应是对考生而言的因为使用语言的是考生所
以试卷 中的任务应接近考生的实际生活 包括课堂 内和课堂外 这样 对他
们而言才具有真正的真实性。课堂也是考生实际生活的一部分因此课堂中
的语言使用可 以也应该进入试题选择的范围但我们在选择测试 内容和设计题型
时因注意是否符合考生的实际使用。比如如果在真实使用中对学生而言是
接收性的行为那么设计的考题则不应是考学生的输 出性行为反之亦然 。课堂
之外 也是我们选择样本的最佳来源 。
对学生来说是一片广阔的使用语言的天空
学生的汉语使用域是哪些在这些使用域中学生将 以怎样的形式使用语言以怎
样的方式运用到哪些语言能力只有全面 了解和认真观察学生的生活对这些问
题做出正确的判断才能保证试题的真实性。
其次我们强调的呼应度并非是指简单地模仿真实生活中的语言使用行为
而是指让受试者、语境和语料之 间的交互作用特点接近于生活中受试者作为真实
的语言使用者其与语境、语篇的交互作用特点。因为根据上文对语言能力的分
析我们可 以发现在真实的交际中使用者的语言能力是在其策略能力的协调
下和其本身的世界知识及语篇语境发生着互动作用 。因此要使测试具有相对较
高的真实性需要侧重的是其中的交互作用的特点而非简单地模仿某一特定的
现实行为或任务也只有这样 测试结果才能说具有可推性能够预测受试者在
类似情境下 的行为表现 。所 以分析实际交际行为的能力构成要素及其与语境
和语言使用者间的交互作用特点是设计试题时必须做的功课 只有将这些特点放
入试题 中那么该题 的任务才具有真实性 。
我们所说的互动性也正 由此而来 。在语言使用者实际使用语言的时候 必定
有各种因素互相作用其 中主要是其语言能力但也有使用者对话题或任务的熟
悉度及相关世界知识的掌握程度 以及使用者 的情感 因素或其他不定因素 的影响
和作用 。因此 我们在设计试题 时既要根据课程 目的和测试 目的规避一些干扰
性的因素 也要模仿真实情况合理设计
使得考生在做答 时也能综合运用其能力 。
另一方面 由于使用者在实际运用语言时总是在特定 的语境下与交际对象
或者语篇发生一定的互动行为 。同样地 学生在考试过程 中不应仅仅是单 向的
输入或输 出我们应该通过对题 目形式 、语料语境 的选择和设计 让考生在做答
时同样能感觉到与试题语料或者说试题设计者有着某种交际性 的互动感 。
影响和可操作性
一个测试总有其一定的影响力包括对受试者 学生 、老师甚至是整个项
目的影 响 。
对学生而言这种影响包括参加考试 的过程 甚至是预备考试 的过程 、测
试 结 果 的 反 馈 以及 根 据 测 试 结 果 做 出 的 某 些 决 定 等 三 方 面 的 影 响 。
语言考试首先 当然会在语言知识方面对考生产生一定的影
响。在考试 的过程 中试题本身的语言信息会对考生的语言知识结构产生作用 。
考生并非被动地进行输出行为而是在输 出的同时对试题的语言及试题所测的语
言项 目进行 内化 通过试题的语言信息考生可 以检测 自身固有的语言结构的准
确性 及时地做 出调整甚至吸收新知 因此 考试也是一种学习。正因为考试 的
这种特质 试题的语言必须规范所测项 目必须科学。除了词汇、语法等语言项
目以外试题 中所涉及到一些语用因素也会潜移默化地影响学生本身的知识结
构。所 以我们在设计试题 时应注意给学生正确的引导避免过分迁就学生的语
言水平而造成的语用习惯上的扭 曲导致给学生带来错误的印象 。同样的试题
中也可能包含着文化信息等其他一些世界知识这些也会在考生接收测试的过程
中对考生 自身的知识结构产生一定的影响。所 以我们可以合理地利用这一点
通过考试给学生输入一定的文化信息实现语言与文化的融合 。
对老师来说个人的教学理念也会贯彻到他所设计的试题 中。同样地 如果
试题是平行班共用的而非各 自所 出那么 测试 内容上的侧重、形式上的选择
以及整个隐含的理念都会影响到使用这套试题 的教师 。如果两者相符自然不会
产生什么矛盾 。如果两者产生冲突那么有可能教师会根据考试来调整 自己的教
学 也有可能教师并不愿意接受此种测试理念来调整教学那么就会让教学和测
试的矛盾加深 一方面测试因为和教学实际不相符 而使学生在接受测试时产生
不适感 并使测试 的真实性有所降低 另一方面 考试和教学理念的矛盾也会使
得教师在教学过程 中不能 自如地贯彻执行 自己的教学理念 从而影响教学质量 。
所 以我们在设计试题时必须考虑到有可能对教师和教学产生的影响它和教学
理念的一致性 或者说想通过考试传输 的期望 的教学理念 这是在试题设计时必
须考虑到的也是测试执行后需要进行评估 的一方面 。
可操作性 主要是指试题能否按照原有意 图来执行 这是设计试题 时必须考
虑的要素如果无法付诸实践 那么都是无谓 的。其 中主要是一些物质 因素 比
如所 能提供 的人力 、设备 、空间和 时间等 能否满足需要的。特别是对于课堂 中采
用 的成绩测试而言 人力相 当有 限常常只有任课教师一人 设备和空间也及其
有限通常都 限于在课堂中进行 时间也局 限于一两个课时。因此我们在实现 自
己的测试理念 设计试题 时不得不把这些客观 因素考虑在 内。另一方面 可操
作性也包括试题本身能否如预期的进行操作 即能否在课堂考试这一特 定的环境
中让考生做出所期望的言语行为表现 。比方说一个带有调查性质的写作任务就
不可能在课堂中完成 而只能在课后进行 。
以上这六方面正是我们在设计成绩测试必须考虑 的理论原则只有综合提高
这六方面才能使我们所使用的成绩测试具有一定的有用性发挥成绩测试真正
的作用 达到我们使用成绩测试 的 目的。
本章小结
成绩测试 以教学大纲为测试依据 内容主要以课程 内容为主而 目的主要是
为 了了解学生对课程 目标的掌握程度 这些是编写试题时最直接的依据 。但是
我们不能停留于表面的一致性而必须尽可能地揭示真正作用于学生言语行为表
现的语言运用能力因素并将其与教学项 目和 目的结合从而设计测试项 目。为
了让学生在运用中体现其对所学内容的掌握程度 从而有效提高测试有用性我
们必须做到以下几条理论原则
第一与教学 目的相一致 试题设计始终 以语言运用为指导。
第二以学生客观情况和教学情况确定 目标能力并在考虑题型特点和 目标
能力的情况下保证语料和语境话题 的公正性 从而保证信度 。
第三 以语言运用能力框架为基础结合课程 内容和题型特点确定 目标测
试能力从而保证效度 。
第 四试题的语料 、语境和任务等 以学生的真实生活 包括课 内和课外 为
蓝本 确保真实性让学生的测试行为接近真实的语言运用。
第五为了让学生的行为接近真实的语言运用 试题任务应尽量能调动受试
者 、语境和语料之 间的交互作用 并显现 出题人与受试者之 间的互动性 。
第六 尽量发挥成绩测试 的正面回流效应 。
第七 充分考虑课堂测试的限制因素保证测试的可行性。
第四章 试题设计的步骤及注意点
成绩测试试题编写的一般操作步骤
做 出关于考试的总体确定
总体确定包括 方面的内容 一是明确考试类别。编写试题 的老师必须明确
所要编写的是小规模的成绩测试 试题对于全体受试者统一使用而我们的 目的
是 了评估学生的学习成效和教学得失。明确考试类别是编写试题的前提条件 它
会影响到我们编写的一些准则 。
二要 明确考试 的性质 。考试 的性质要与教学的性质相适应 如果我们的教学
是重运用 的那么我们的考试理应重运用 。在信、效度的权衡上对于成绩测试
而言在保证一定信度的前提下更应重视对于效度的提高以对教学产生积极
的反拨效应 。当然 这并不等于可 以忽视信度 因此方法的选择上必须将直接
测试 的方法和 间接测试的方法结合起来运用 。至于考试 的参照 由于成绩测试是
为了了解学生在多大程度上达到 了课程规定的 目标 因此应该是一个准则参照考
试。
第三 确定考试范围即考什么 。如果说前两点都还停 留在观念层面 只是
对具体操作具有影响力 那么这一点就直接关系到试题设计的具体操作 。我们需
要 以课本或教学大纲的内容和要求为主 同时考虑语言能力因素及学生对汉语的
使用需求 确定考试 的范围。
设计试题结构
首先应根据考试 的范围选择具体 的语言项 目和功能然后根据教学实际和学
生的现 实使用确定侧重点。确定 了具体 内容之后 我们就可 以选择和设计本套试
题将采用 的题型 并把题型与 内容相配 同时根据考试 时间和考点的侧重 确定
各题型 的题量和总题量 。这样我们就能得到本套试题 的基本蓝 图即试题 由哪几
大题构成 每道大题将测试哪些项 目各大题 占整套试题的比重如何题量为多
少。有 了这张蓝图我们就可 以着手编写具体的试题 了而且不会产生考点随
意重复的现象。当然 为了让学生或者共用此套试题的老师对本次考试有一个清
楚的了解我们也可将上述这两部分中的某些具体内容编写成书面的考试大纲
特别是对于范围、题型、时间和题量的安排 应明确告知学生。
选择语料、设计语境
确定了题型和测试项 目之后我们就可 以选择适当的语料并设计一定的语
境引导受试者做 出我们期望的言语行为。
命题
根据题型将考试项 目和语料语境相结合命制 出具体的题 目。
审题及修改
试题命制完之后我们还需要进行审题包括对语言语境和考点等多方面
的复查对于有问题的试题应进行修改这样才能保证试题符合考试 目的。最简
单可行的办法是让身边的中国人先试做一下。一方面检查语言是否标准得体另
一方面可以检查命题是否恰当。这种检查可 以通过不给试做者提供选项来进行
这样就能了解试题能在多大程度上诱导出我们期望的行为。比如去掉提供选项 的
完形填空的选择项 让试做的人填空以了解篇 目是否给予了充足 的逻辑联系
去掉阅读篇 目让试做者解答阅读理解的题 目以检测题 目是否建立在对 阅读篇 目
信息抓取和理解 的基础之上 。
成绩测试范围和 内容 的确定与选择
考试范围
正如我们一直所强调 的成绩测试 的范围应 以教学大纲为基准 。无论是语法
项还是功能项 甚至是文化项 目都不应超 出教学大纲的范围这样对 于应考 的
学生才是公正的。而应用的范围则应包括在课堂教学实际和学生真实生活之中
这样才能保证一定的真实性从而提高效度 。
内容
当我们确定了可 以搜索的范围我们就可以根据课程 目标或者教材罗列出具
体的需考察内容了。根据语言能力模型我们可以从语法能力、篇章能力和语用
能力三大方面确定考试 内容。
语法项 目是比较容易确定的根据教材和教学大纲我们很快就能确定考试
需要涉及到的词汇和语法项 目。但是词汇和语法都是在运用中才具有生命力的
一旦进入运用层面则必定会与修辞组织 以及语用方面的能力产生互动作用 所 以
我们需要把词汇和语法放入运用的大环境中考虑。前文崔先生指出的从初级到高
级重复同一语法点的问题 正由此而来。同一语法点在汉语学习的不同阶段作为
新知不断出现的现象经常会有
但之所 以会再一次出现
肯定有其新的运用含义。
可能是搭配上的可能是修辞上的也可能是语用上的一些施为功能或语域文化
等差别。我们必须把这些附加其中这样才‘
能从效度上提高试题的有用性。
除了语法能力 以外 篇章能力也是我们的 目标测试能力所 以我们应该根
据教材及教学 目标罗列出连接标志、修辞用法等项 目。在真实的言语交际中我
们总会运用到一些连接标志来帮助我们继续话题也会运用某些修辞用法来加强
意义表达。同样这些方法都会 出现在我们的教材中 无论是对话中还是短文中
特别是在中高级阶段即使教材没有单独将其作为教学项 目列出但这应该是培
养学生交际能力的重要项 目值得作为教学 目标之一而列入我们的考试 目标 内
容 。比方说 《当代中文 第一课中出现 了 “ 男朋友捧着 自己摘来的红叶就
像捧着 自己的心 ” 这样 的比喻用法。这是具有 中国文化特色的修辞用法学生在
日常表达 时很难会用到这种修辞方法 因此
值得我们作为教学 内容和考试 内容 。
不过 很遗憾 在我们收到的相关试卷 中却没有关于此项 的试题 。
另外 言语施为功能、语域差别、文化理解等语用能力也是需要列出的 目标
测试项 目。我们常说语言承载着文化 两者相辅相成 不可分隔同样 由于特
定的文化 因素造成 的语用差别也是语言运用 中重要的一部分 是我们教学和测试
不可忽略的项 目。具体 的文化项 目不一定要成为直接 的教学和测试 内容 但是 由
此 引起 的语言运用差别却是学生必须掌握 的。比如上文提到的修辞用法 这跟文
化有着极大 的联系 文化 的差异常常会导致学生产生对 中国人来说略显奇怪 的修
辞用法 。这些句子可能在语法上是完全正确 的但却不符合 中国人 的语用 习惯 。
所 以在平 时的教学 中我们应该帮助学生多进行积累 而在成绩测试 中也有必要
对这方面的内容进行考察 从而加 以巩 固。当然 这需要我们 的教师在对教材和
教学 内容做分析的基础上抓取 出来 。同样 其他一些涉及语用差别的因素 如语
域差别等也应该列入考试 内容 。
由于语言运用是一项综合性的整体行为为了进一步加强对运用的考查提
高效度 除了以上这些分散项 目以外还需要列出一些整体项 目即崔颂仁先生
所说的行为 目标 崔颂人 究竟学生在我们的目标范围内能运用汉语做哪
些事 如果是以情境一功能为纲或任务型的教材那么就可以根据本课文或单元
的功能项或任务设定具体的 目标行为当然教师还应根据具体课文挖掘更多的符
合学生汉语水平的 目标行为。比如 《博雅汉语 加速篇 是一本 以功能为纲
结合情景与结构编写的教材 各单元都会围绕一具体的功能而展开这样 目标
行为就显而易见 了。如果教材是 以结构为纲则需要教师 自己来挖掘了。不过通
常来说现代教材即使 以结构为纲每一课或每一单元都会有一个主题或情景
因此教师还是有的放矢的。比方说 《
基础汉语 课》是一部以结构、情景为
纲的教材 每篇课文都有一定的情景或主题因此我们可以根据情景并结合结
构挖掘学生能完成的目标性为。如其第六课 《我的家庭》可以列出的目标行为
可以有 能介绍 自己、自己的家庭和他人如同学等包括姓名、国籍、年龄和职
业等 能询 问他人的个人信息 能进行简单的数量表达等。这些具体的行为是成
绩测试 中不可缺少的部分也是试题设计的重要依据 。
把 以上这些 内容整理成纲 就是一份教师 出题可依的试题 内容大纲 了当然
也是分数解释的标准同时还可以作为复习大纲发给学生让学生明确考试的标
准。
题型和语料 的设计与选择
题 型 的影响
题 型属 于测试方法面 选择或设计合适 的题型是测试方法运用得 当的重要一
环 对于考试的信 、效度会产生很大的影响。题型与考试 内容和 目的有着密切 的
联系 。李筱菊教授从接收型一产生型、间接型一直接型、客观型一主观型三条轴
线将常用题型分为 大类 。 李筱菊 可见题型一方面关系到语言
技能是听、读这样 的接收型技能还是说 、写这样 的产生型技能另一方面也会
影响效度 能否真正测到我们的 目标能力 。因此题型的选择与设计对于整套试题
至关重要 。
主要题型分析
从收集到的样卷中我们发现多项选择、完形填空、回答问题、翻译、阅读
理解和写作是经常使用的题型当然还会有其他一些题型。他们各有各的特点
因此适合不同的考查项 目和 目的也有需要注意的地方。
多项选择
多项选择题严格说来不是独立的一种题型因为在完形填空、阅读理解等其
他一些题型中都可 以运用多项选择的形式。我们这里所要讨论的是单独作为一大
题的多项选择题适用于测试词汇和语法一般有取代和填空两种形式前者多
用于测试词汇 后者两项都可用。
当语言测试步入科学阶段特别是结构主义时期多项选择题便大量运用于
语言测试特别是大规模考试。因为多项选择题评分客观从而能保证一定的信
度 对于重信度的大规模语言测试而言多项选择题从制作到评分乃至试卷分
析都具有极大的便利性。然而当教学开始注重培养学生的语言运用能力时多
项选择题的效度究竟有多少就成为人们慎用甚至排斥多项选择题的缘 由。人们的
顾虑主要有 以下几方面 第一认为多项选择题 的答题过程和实际的语言使用过
程相距甚远 不带任何交际性无法考察出学生实际运用语言的能力 。 刘润清 、
韩宝成 因此 缺乏真实性 表面效度和结构效度均不理想 。第二
互动性较差 这种题型只能考察学生语言输入的单项技能无法调动学生的各种
语言能力要素使其与语境产生互动 因此无法考查综合能力 。第三 带有猜测的
可能因此可信度也受到一定的质疑 。同时这一点可能会对教学产生负面的回
流作用 。
既然我们 已经看到 了多项选择题可能具有的这些弱点那么在具体设计题 目
的各环节中我们就应该从提高试题形式与内容的真实性加强语境作用 以调动
考生的多种 能力因素等方面趋利避害 提 高试题 的有用性 。
设计多项选择题 首先必须确定考 点 所 以我们应从列 出的考试 内容 中选择
适 当的项 目作为命题 内容 。对于成绩测试而言教师需要 了解学生对单个 的语言
项 目的掌握情况 以评估和调整教学 。因此 我们可 以利用多项选择题来达到这
个 目的。既然是离散考 点那么每道多项选择题应只有一个考点考 点明确 是保
证效度 的前提 。
例 下面哪个 句子是对 的
我吃这个菜不 了。 我不吃 了这个菜。
我没吃 了这个菜。 我吃不了这个菜。
这道题 目究竟是想考学生对于可能补语的掌握情况还是对于 “ 没 ” 和 “ 不 ” 的使
用区别呢 考点似乎不太明确 。
另外在选择考点时应尽量选择那些学生在 日常生活中 自然输 出语言时
会犹豫或反复选择的词汇 、语法项 。
例 要是你生病了不能上课 应该 一 老师请假。
从 向 对
介词的使用是学生存在的一大问题特别是如题所示的这三个介词学生很容易
用英语来对应从而造成使用上的混乱。因此 在 日常表达中常常会在此卡住
以这样的内容作为考点不仅克服 了多项选择题表面效度低的问题同时大大提
高了真实性而且能让考生的选择不停留在输入层面而接近真实的心理选择的
输 出行为。类似此种考点的设计需要老师仔细观察学生的日常运用包括 口语的
和书面的进行积累。不过虽然是单一考点但是我们仍需考虑该词语或语法
项 目处于运用中产生的语域差别、搭配关系、修辞作用等等因为这些是包含在
该项 目的运用之 中也是关系到选择项的关键是 出题的依据 。
确定 了考点我们就可 以着手编写题干 了。题干是为 了诱导考生做出期望的
反应而设置的因此题干必须提供一个恰当的语境刺激学生在语境 中 自然地
进行类似输 出性的选择。
例 下面哪个 句子是对 的
我只吃过一次北京烤鸭。 我只吃一次北京烤鸭过。
我没吃 了北京烤鸭。 我没吃北京烤鸭过。
这道题 目因为题干缺省情景 因此对于考生来说完全是被动地进行选择性的
输入辨别 。而如果把此题题干改成 “ 你吃过北京烤鸭吗 ” 让学生处于一定的语
境中这样就形成 了出题人与考生之间的互动并能激发学生的输 出性行为。即
使最终作答仍落在对于选项的输入性区分上 但 由于考生在看完题干后 对答案
已经有 了一定的预设 相对而言所做 出的选择就没有那么被动 了。不过 在设
计语境时要避免过于复杂或者无助于学生作答 的语境 。
例 张宏很想 出国读 书可是他的妈妈想让他 留在 国内但是最后在 张宏 的要求
下 他 的妈妈 同意 了。
免强 兔强 勉强
该题的题干的语境就过于复杂而 目标测试项却是 “ 勉强” 的正确书写方式 对
于这个测试 目标而言 题干的语境略显多余 。学生完全不需要那么冗长 的语境就
能进行选择 因此题干的语境并未发挥实际的作用。
另外我们在设计语境时还必须考虑信度和真实性。首先语境应该对所有
的学生公平 不应为部分学生所熟悉 。
例 中国人在餐桌上非常客气请客入座的时候总是互相 一
推委 推走 推让 礼貌
事事关心》 一 课单元考
中国人的餐桌礼仪并非课文中涉及到的内容。那么对于学生而言可能有的学生
了解有的学生不了解 这样就会对不了解情况的学生产生一定的压力试题 的
公正性就会有所削弱相应的信度就降低了。其次语境要带有真实性我们应
尽量选择学生在学习或课外生活中经常遭遇的情境避免脱离学生现实生活的语
境。
例 你下岗这件事不应该 一 着你的家人。
急 瞒 急疯 替
当代中文 第 、 课单元考试
这是出 自课文 内容的一个语境是发生在两个中国人之间的对话。就语境而论
这样的语境并不太适用于学生身上因为学生在 自己的真实生活中很难会遇到这
样的情境运用上述表达。要考查学生对 “ 瞒 ” 的掌握情况 可能设计考试成绩
差等情境更贴合学生的生活。
题干编写完成后就需要设计选择项。最基本的我们要保障选择项中有且
只有一个是符合题干的标准项 。干扰项的设计一方面可 以来源于语言对 比包括
学生母语和 目的语 以及 目的语 内部的对 比。另一方面可 以根据学生真实交际中表
现 出的错误 。
例 我刚回家玛丽打 电话让我和她一起去打篮球 一 我就去 了。
于是 要是 以后 而且
表示承接关系的连词和副词一直是欧美学生使用 中易犯错误之一特别是 “ 和 ”
和 “ 以后 ” 受翻译影响常常误用 。因此 干扰项 编写合理 则略差一些
因为在真实使用 中学生较少使用 “ 而且 ”如果使用则正确率也相对较高但
仍不失为一个具有吸引力的干扰项 。而选项 在意义上相差较远 无论从语
言对 比来看 还是学生的使用情 况来看 似 乎都缺乏一 定 的理据性 。倘若 改成
“ 和 ”效果可能会好些不过 由于 “ 和 ” 是一个字 从表面相似性而言 有
必要将另一选项也改成单音节这样吸引力会更大一些 。
此外 要注意的是 各选择项 的区别依据应十分 明确 并且符合 目标测试项
不应涵盖不在 目标测试能力范围内的干扰 因素 这样才 能保证一定的效度 。
例 中国人在端午节那天要吃粽子
有些地方还要在端午节 一 举行龙舟比赛。
以后 前后 后来 大约
这四个选项中 、 与 、 的区分是语法上的但是 与 的区分却是知识
性的。虽然这一知识点在课文中出现过但我们必须考虑到对于该文化知识的
考查是否是我们的考查 目标 如果不是那么这个选项设计就不合理。
在编写完试题之后我们可以让一位 以汉语为母语的使用者在没有选择项的
情况下试做一下试题 看一下 能否得到我们预期的反应 。这样做的主要 目的是
为了检查一下题干所给 出的语境能否给予足够的刺激 是否符合真实的心理输出
情况。对于选择项的检查可 以通过理性的分析也可 以通过学生完成答卷后的
试题分析来检查。
完型填空
完形填空可以用来测试综合能力它既能考查学生对篇章的理解加工能力
又能考查学生输出时的词汇语法能力和篇章能力。所 以完形填空题在外语测试
中运用广泛 。发展至今完形填空也有各种各样的形式而最多用的是合理删词
的选择式完形填空包括集库式的即把整道大题可供选择的词项集合在一起
供考生选择和分题多项选择式的即每个空缺给出若干个选择项。在成绩测试
中用合理删词来取代其他删词方法无疑能保证考点是教师真正想要了解的信
息即所考为所要考从而能保证一定的效度 。但是从开放式的填空到选择式的
填空虽然有利于控制考题的难度并且在评分上保证了一定的信度 但却在一
定程度上损害了考查学生输出能力的特质降低 了结构效度 。所 以我们在运用
选择式完形填空题时应该把重点放在考查学生的篇章能力上同时增加学生个
体 内部的互动性即学生语言能力和话题知识的互动性 这样才‘
能将该题型的优
势最大化 。
编写完形填空
最重要的是选取合适的篇章
篇章的选择需要注意以下几点
第一 篇章适合 目标考点能囊括我们所要考 的考 点这是最基本 的要求 。第二
具有一定的真实性 。这里的真实性一方面是指语言本身的真实性 即符合真实的
篇章特点具有语篇连贯性。我们不一定非要采用报刊杂志上的原文章来体现真
实性 但是我们在修 改或者 自己撰写时一定要保证符合篇章 的特 点 不能 以损
失语篇特 点为代价来迎合考生的汉语水平 。如果只是一些简单句 的拼凑 那就失
去了运用此题型的意义 了。突出篇章特点即内容和形式的连贯性 才是选择或
编撰篇章的重点也是完形填空最大 的优势所在 。另一方面是 内容 的真实性 。完
形填空利用 的是人们 的补全心理 通常人们在心理上会对某一事物有 一个完整 的
概念或形象 。如果碰到不完整的情况 则会根据脑 中完整的影像将其补全 语言
也同样如此 。在完形填空试题 中我们利用 的既是考生对语言本身的补全心理
同时也依靠其对篇章所表达的事件或意义的补全心理。所 以真实的、符合客观实
际的且为学生所熟悉的事件才有利于学生完成补全的任务。如果篇章内容本身对
学生陌生之极那么补全的任务就会显得非常艰难 。
对于水平测试而言应是先选篇章再删词。而对于成绩测试而言因为 目
标考 点明确 出题者都是根据考点来选篇章的因此 需要删去哪些词对于 出题
者而言早 已成竹于胸。所 以关键在于最初 出题者打算将哪些项 目列为完形填空
的考点。连词等虚词当然可 以是首选的考点因其最能体现篇章特点。另外对于
实词词义的考查词语语域、文化意义的差别这些语用层面的考点也可以出现在
完形填空中。这些 内容作为考点出现容易将其设计成须依靠篇章层面且须学生调
动多方面的语言能力 语法、篇章、语用 才能解决的问题 这样题 目的结构
效度就能得到一定的保障。而惯用搭配和语法因素这些项 目通常都能在句 内解
决更适合于单独 的多项选择题 可 以出现在多项选择题 中但决不应 占太大的
比重 。
对于多项选择式的完形填空还需要设计干扰项 。对于完形填空而言干扰
项的设计不应太多的依靠语言对 比即不应停留在语法层面而应扩大到篇章和
语用层面依靠篇章所给的信息设计 由于不理解篇章信息而有可能造成的错误
为干扰项。
我们来看下面这篇完型填空
阳
己
’ 口叮 儿叮
刀
扮 施 厂扮
己’
’ 口动劲
台刀
己
…
进来看看
这个 包多少钱啊
、
、
几
矛
了古‘
、
声夕、
、
、
、
产
特
每
简地 各 谁
飞
二
对 看起来很有意思 多少钱
是啊 你看这个包很有 中国 上 特别
特色
头还有一个毛主席 。
多少钱 根本
到底
先生 我跟你说 我们对外 国朋友特别客 气
块 行 不行
太贵 了 我是个穷学生。 吧 便 宜点 儿
﹄
那 您看 多少钱 八
一 点 儿便 宜
有一点儿便宜
块
不行 的 块是我 的成本
…
‘
、
、
︼
了
矛
护
咨
工布、
‘
、
父
勺
了
切
八
一产
少
尹、
上 来 起
这么贵我根本买不 二立上一。
月
别走别走 您来看看别的东西吧 我们还有
的 包便 宜极 了
便 宜倒是便宜可是像你这个这样便 宜的
太多了哪个商店都有 我就是喜欢那个有毛主
块连一块钱卫 二 匕 不能 还 都 就
块也不便宜 我宁 去别的商店 要 想 可
看看。这儿几乎每个商店都卖包。
来来来 今天你在这儿看了卫退上 天了 多 半 二
块卖给你吧
一 工全上一 给我一个鱼
好 谢谢老板 一 麻烦您
登全 夕 加 。 请问
行 谢谢你啊 那
再 见再 见 。
您慢走
您走得慢
您走很慢
新的中国》 第 、 、 、 、 课单元考试
这篇完型填空语境完整语言和 内容都相当真实保证 了学生完成补全任
务的可能性 。但是从选项来看 大多考点停 留在句子层面 侧重考词汇和语法项
而立足于篇章从篇章语义语用角度设计的考点则较少基本上只有第 、 、
题是超过句子层面的并涉及到 了语用能力 其余 题都可在句子甚至句子
以下的层面解答 。这是这篇完型填空需要进一步修改的地方 比如第三题 如果
我们把 、 选项改成 “ 一 共 ” “ 大概 ”那么这道题 的考点就不再停 留在句
子层面考词汇
而是上升到篇章层面考语用即在不耐烦的情况下如何进行追 问。
同样 其他考点及干扰项的设计也可再斟酌斟酌 。
回答 问题
由于我们课堂中使用 的成绩测试规模 小阅卷压力相对较小 因此 回答 问
题是可 以选用 的题型 。而且 相对于上述 两种题 型而言回答 问题 更 能直接 而真
实地考查学生的产生性技能以及综合 能力 更能达到较高的效度 、真实性和互动
性 。回答 问题 的形式常常是题 目给 出一个或若干个 围绕 同一话题 的问题 并给 出
关键词或语法结构要求学生用给 出的词或结构 回答 问题 。
可见 编写 回答 问题这种题型 问题 的设计是最重要 的 。首先 为 了保证信
度和效度 问题必须在考生的话题知识范围内学生的话题知识不是我们考查的
目标因此不能让话题知识成为干扰学生作答的因素确保公平 也剔除非测试
目标因素。
例 为什么有些人请客的时候要吃野生动物呢 象征 用…来表达
事事关心》 、 课 单元考试
此题就完全需要学生掌握 了课文中的话题知识才能回答 但 问题是对于课文中
话题知识的记忆是否是我们的考查 目标呢 如果把它改成 “ 美国人请客的时候
喜欢请人吃什么 为什么 ” 这样 话题知识的干扰性就相对减少了。除了话题
知识 以外同时还需注意问题的语言要符合学生的水平 这也是保证信、效度的
基础 。
其次问题要具有真实性。不仅是人们的 日常交际中会 问到的问题而且在
提问者与回答者确实存在信息差而有回答 问题的必要性 。这样的问题能增加题 目
或者说出题人与考生之间的互动也只有这样的问题才能激起学生的表达欲望
让学生综合运用 自己的各项语言能力因素和话题知识 自然地进行语言输出行为
而不是生硬地使用 目标结构造句。
例 什么是 “保险套” “安全套” 以 又称 专门
事事关心》 、 课 单元考试
这道题 目的答案是学生不用回答老师也知道的而学生需要做的也不是经过 自己
而只是回忆课文 中的语句 以便用上 目标结构。
的思考来用汉语阐述 自己的观点
这样 问题所具有的互动性特点就被抹煞 了。如果要考学生释义的能力那不如
问一些中国人确实会存在疑 问的概念由于考生都是美国学生我们可以问类似
“ 什么是 ” 这样的问题 考生同样须运用到 “ 专门” 等进行释义时
使用的词语和结构而同时问题本身相对真实因为在提 问者和被 问者之 间确实
存在着真实的信息差 。另外 询 问学生 自身的观点的问题 如 “ 你会不会 以好不
好看来选择男 女朋友 为什么 以…来二 注意 ” 通常比较能激发学生的表
达欲望而关于社会热点或争议性话题 的提 问同样也能因其真实性而起到这种
效果 。不过 这里有一点值得注意 争议性的话题 能激发学生的表达欲望 但太
过争议性 或者具有 明显针对性的问题则会影响考生的情绪 而考生的情绪会对
其言语行为表现产生直接 的影响继而影响考试 的信度和效度 因此 这样 的问
题应该避免。
第三 问题应与所给 出的 目标词汇和结构相契 。一方面对于 问题 的回答 在
真实的交际环境下人们也能 自然顺畅地运用我们所给 出的 目标词汇和结构 这
样 的问题和考点才是具有效度和真实性的。如果所给 出的词或结构连 中国人 回答
时都需要反复思量才能加 以运用的那么这种 问题和考 点则值得商榷 。
例 你为什 么会爱上他 她 呢 偏偏
当代中文 、 课单元考试
正常回答这个问题的情况下恐怕很难用上 “ 偏偏” 这个词学生必须要考虑到特
定的情况才能用上。但这样一来可能就违背了真实的交际而只是为了完成考
试任务。另一方面目标词的使用域应与问题的语域相一致 。
例 今天 你怎么又迟到 了 由于
当代中文 、 课单元考试
且不论该问题本身的真实性就问题与 目标词的相契度来看该问题也不是很合
适。问题本身是一个较随意的口语式问题但 目标词却是一个用于正式体表原因
的 “ 由于”恐怕在 日常交际中我们很少会用 “ 由于” 来引导原因回答这样一
个 口语体的问题吧。所 以如果把 问题设计成一些社会性问题从语用意义上来
说可能会更合适一些 。
第四对于中高级学生而言应设计需要学生成段表达的问题将考查的层
次从句扩大到段以提高效度 。这一方面可以从问题本身着手可以将 问题从一
些 日常生活式的问答提升到对社会 问题的关注 。
例 现在美国的留学生越来越多吗 留学生的增加会对美国学生产生什么影
响 过 得到 …控制 摆在 …面前的问题是 …
对于这样的问题 当然不是一句两句可 以回答的。另一方面也可 以从给 出的 目标
词和结构入手可选取一些连词等 这样考生也就需要进行成段表达 了。
对于成绩测试而言回答 问题既具有一定的客观性在出题和评分上能对信
度有所控制同时能在互动的情况下考查学生的综合能力效度较高因此值
得我们好好运用 。
翻译
当一个班的学生母语背景相 同时翻译也是可运用的题型之一。不过在教
学中用翻译的方法表达思维并不是我们所提倡的而且对于学生而言 在真实
的生活 中也很少真正需要运用翻译的技能所 以从其对教学的影响和真实性而
言都受到 了很多批评 。因此 我们在运用翻译题型时须做一定的调整 以克
服这些弊端 。
在我们收集到的试卷 中常见 的是给 出 目标结构 的单句翻译 。
例 对 ……
不利
当代 中文 、 课 单元考试
这样 的单句翻译不仅缺乏真实性而且具有负面 回流效应 是学生的思维停 留在逐
词逐句翻译的层面阻碍学生的语言学习和表达 。笔者 曾遇到过这样一种情况
叩 界
刃“ 幻
一个章子怡比一万本孔子的书更有影响。中国文化的将来就在于像章子怡这样
有国际影响的年轻人。” 在这位教授看来章子怡、姚明对世界的影响已经超过
了孔 子
六、论影响 孔子的学生一共只有三千多人只能对这三千个学生起影响。
章子怡固然没有学生可是章子怡的影迷 。 全世界到处都
有。章子怡根本不用每天教学生相反的她可以把时间花在学习英语上这样
就能在美国拍 电影。她的电影十有八九都会在美国流行因此美国的年轻人都会
因为喜欢章子怡而喜欢中国历史。
所以拿孔子与章子怡比较简直是看不起章子
台
’
’
新的中国》第 课单元考试
新的中国》第 课讲述 了中国从古至今吸收外来文化的情况及影响而
这篇阅读理解则反其道而行 从中国的对外影响出发比较了孔子和章子怡这两位
古今名人的影响力。对于学生而言其中的新观念与他们从书本上获得的信息相
较绝对具有冲击力从题 目开始就能吸引读者去 了解整个篇章的内容 。 道选择
题都针对信息提 问第一题是一道主 旨题
第三题则考 了学生对主要信息的把握
其余三题从不同的方面考 了对重要细节信息的掌握 。鉴于此 也许把第二与第三
题在题序上对调一下可能会更好 。
写作
写作是一项可 以测试产生性技能的题型。对于写作大家普遍认为写作试题
的效度高如李筱菊就从三方面指 出了写作试题具有高效度 李筱菊
第一写作作为产生性运用直接试题 不仅能考查学生的产生性运用能力 同时
也能考到学生的接收性能力 因为产生是建立在接收的基础之上 只有读懂 了试
题给予的情景才能做 出产生性的反馈 。第二写作试题 能同时测试语言的各个层
次和各个因素范畴 即能考 到单词、词组 、句子和语篇 四个层次同时也能考到
语法 、搭配和意义三个 因素范畴 。第三 能同时测试准确性 、流利性和得体性 。
准确性是指符合语言形式系统 流利性则是语言在交际中的效率 一旦语言进入
运用 自然会涉及到篇章和语用能力而得体性则指是否符合情景的要求 同样
属于篇章和语用能力的范畴 。由此可见 写作能同时考查到语法能力、篇章能力
和语用能力 因此具有较高的效度 。
然而写作试题 特别是用于大规模考试中却存在着信度低的问题 。 李
筱菊 这个 问题主要是来源于评分无法客观包括评分场次不同、评
分员之间的区别 以及评分员 自身的不一致导致的评分误差。不过对于小规模成
绩测试而言
不存在前两方面的因素
只要教师在 自己评分前制定一套评分细则
则信度相较于大规模考试能有所保障。虽然 如何进行评分 本文暂无力细谈
但无论如何这是可 以努力的少了前两方面的干扰因素信度应更有保障一些 。
所 以在成绩测试中写作是值得运用的题型之一但是在 出题时同样有几
点需要注意 。
第一写作任务明确且有刺激点推动学生去完成任务。在我们的日常生活
中我们的写作行为总是在特定情境的刺激下做出的带有明确 目的性的行为或
是为了分享经验或是情感表达的需求而更多的则是作为一种交际工具来完成
特定的任务达到 目标。同样 在考试中写作试题的作用就是给予学生一个刺
激 激发学生的表达欲望 从而完成任务。因此 我们在编写写作试题时首先
和学生形成互动
要设计一个相对真实的任务并在此任务中寻找合适的刺激点
从而激发学生的产生性行为。
例 “如果我有孩子 一
管、要求、遗产、带、指导、得到、成长、感情、希望、不利
当代中文 第 、 课单元考试
如果考生拿到这样一个题 目恐怕对于 自己要完成的任务会不太确定很难 自发
地进行输 出性行为而只能根据所给的 目标词语被动地进行表达 这似乎不太符
合我们 日常的写作模式 。如果我们的测试 目的是为了了解学生是否能运用课堂所
学来表达 自己对于教育子女问题 的观点那么我们不妨给 出一个具体的情境 在
此情境 中学生必须就教育子女 问题进行阐述 以完成任务。例如我们可 以把学生的
角色设计成为教育咨询家 而有一位家长来信诉说 了 自己教育孩子的问题 请学
生回信解答 问题 。这样学生不仅明确任务 而且我们可 以通过对家长来信 中问题
的设计来引导学生运用我们期望的 目标测试项 目包括语法知识和话题知识 。
第二任务应契合学生的语言能力和知识范围。对于学生语言能力 的考虑
《当代中文 期末考试
仅就话题知识而言这道题是否可用须视班级学生的背景情况而言虽然使用这
套试题 的学生都是美 国学生但如果其中有学生是犹太人 那么他们很可能是不
过圣诞节的也就不会有这样的经历在这种情况下这道题 目就不太合适 了。
此外 基于现实生活中写作的特性 同时也考虑到课堂考试时间有限我们
认为作为成绩测试所运用的写作试题不一定要规定学生在课堂中限时完成 而可
以让学生带回家完成 。这样就能给予学生更多思考及搜索资料的时间从而让试
题更具真实运用 的特质 同时也为试题任务的设计释放 了一定的空间能让任 务
向真 实生活延伸 并具可操作性 。
其他
除了上述常用题型外 还有很多我们可 以使用 的题型只是在运用 时我们
必须多加考虑 该题型适合哪些考 点在 出题 的过程 中如何能尽量使题型更符合
现实使用 提高其信 、效度 。比如 看拼音写汉字也是老师常会用来考学生汉字
能力的一种题型。考学生写汉字的能力是必须的看拼音写汉字的题型也是可行
的但是 如果只是简单地给 出某个字或词 的拼音 然后让学生根据拼音 写汉字 。
这样似乎缺少 了一定的真实性这种形式并非是学生在 日常生活中会碰到的情
况而且在缺少语境的情况下很难区别同音词。因此我们不如给学生一个含
有同音字的句子给出同音字的拼音让学生根据语境判断其汉字应该是什么。
例把 一 上的行李 一 给我。
区分同音字对于非汉字圈的外国学生而言尤其重要也是他们在 日常书写中的确
会碰到的问题这样的题 目就既考了目标考点同时又具有相对较高的真实运用
性。
成绩测试不需要题型的稳定性因此我们可以尝试一些不常见的题型教
师完全可 以根据考试 内容发挥创造力设计适合考点的题型一种合适的题型对于
整道题的有用性来说是至关重要的。
考试语言
对于考生而言考试不仅仅是一次测试试卷的语言对学生来说是直接的刺
激也是一次他们学习的机会 是马虎不得的。
上文我们针对各题型分析 了不同的题型在选择语料上需要注意的地方 除 了
这些还有一些所有在试卷中出现的语言都需要注意的问题我们觉得有必要特
别拿 出来讨论一下 。
首先是语言的规范性。在试卷中出现的语言应该是现代汉语的标准用法
不应存在语法或语用上的错误否则不但会对学生的作答造成阻碍性影响而且
会对学生本身的中介语系统造成一定的负面影响。出题人在试卷中出现的语言错
误一方面可能是出题时的粗心造成的也有可能是受考点或其他因素影响而造成
的。
例 表演 表示 表现 表明 表达
东西方文化的差异 一 在喝水上 中国人喜欢喝热水美国人却冬
天也 喝 冰 水 。
本章小结
方法介绍
样本介绍
我们所使用的样本是 年弗吉尼亚大学上海暑期汉语集训班中级一第三
周的周考 样卷请见附录 。项 目中该年级学生总数为 人都是在美国正常学
习过两个学期弗大中文课程 的弗大学生。使用的教材为 《新的中国》第三周周
考 内容为 《新的中国 第 、 、 、 、 。
课
我们之所 以选择这样一个样本 是因为弗大项 目的教学理念是 以结构为基
础 以运用为方法和 目标 教学中始终强调在有意义的沟通 中真实地运用汉语 。
因此他们的试题注重真实性和学生的运用能力比较能体现本文的观点。
当然 没有一份试卷是完美的同样本文所分析的这套试题也存在着各种
不足之处。我们希望通过对该套试题的分析 一方面验证上文提 出的操作框架的
可行性 另一方面指 出不足之处同时也希望提供一个进行试题分析 、改进和筛
选 的方法 。
分析方法介绍
我们将从信度和效度这两方面对样卷进行分析 。
信度
对于客观题 我们将采用 信度系数来统计 而对于主观题 我们用阿
尔法系数来统计 。
效度
… 一
污 … 乃丁
了 ‘
甲 甲
。。
表 学生成绩统计
信度分析
对于多项选择题 、配对题 、综合填空题和阅读题这 四种客观题 我们用
计算得 出以下这个信度系数
厂确一 一艺 ’
公式
而对于回答 问题和短文写作这两大主观题 我们用 计算得 出的阿尔法
系数如下 图 图 所示
图 阿尔法信度系数
从统计结果得 出的信度系数来看 无论是客观题还是主观题 信度都较 高
说 明题 目的内部一致性相 当高测试 目标是 同质 的。主观题 由于存在评分 问题
所 以信度系数相对低一点儿 这是可 以理解 的也是一个值得我们 以后深入研究
的 问题 。
试题 的信度系数高说明试题具有高度 的内部一致性 。这在一定程度上说 明了
在设计之初对于试题质量的控制起到了有效的成果此份试卷的试题指 向了同一
目标即经过三周的课堂学习后 学生运用所学汉语的能力。此外 也 由于在试
题设计之初就从 目标测试项 目的角度规避 了一些干扰因素因此在 内部一致性上
取得了较高的信度。
效度分析
我们对整份试卷做 了统计 其考点分布详见下表 表
欺 多
项选配
对综合
填阅
择读
理回答
问短文
写 空 解 题 作
语法层 名词
词 、
面 形容词
词 、 、 、
动词 、
副词 、、、 、 、
、
介词 、
连词 、
短语结 、、、 、、、
构 、 、
复句 、 、
篇章层 语义理 、 、 、 、、、
面 解 、
篇章连 、、、
贯
修辞
语用层 施为功 、 、
面 育
旨
语域 、 、、、
文化差
别等
综合 目 、 、 、
标 行为
为
表
从表 中我们可以看到 试题覆盖 了对语法 、篇章 、语用和 目标行为的考查。
其 中多项选择题集 中于对语法层面 的分散考查 配对题主要考查 了学生对 复句 的
掌握情况 综合填空题既考查了对实词词义的掌握情况又利用篇章的特点考查
了篇章能力和语用能力 阅读理解全部都集中于对意义即信息抓取能力的考查
回答 问题 利用 目标词考查 了语法层面的知识点同时又利用 问题 考查 了篇章
和语用能力甚至综合性的 目标行为 短文写作主要是考查综合性的 目标行为能
力同时也考查 了学生对文化差异的理解 。
另一方面我们对这个班级的部分授课老师进行了采访他们对于学生的评
价与测试结果非常吻合。
总结
从样卷分析来看 试题的信效度都相对较高达到 了预期的效果测试结果
对于学生的真实情况是具有解释力的。这就说明以语言运用为指导从试题设计
之初从测试有用性的六因素对试题进行一定的监控是能取得较好的效果的。
第六章 结语
研究成果
通过对各种性质的对外汉语教学项 目使用的成绩测试试卷的分析我们发现
目前的成绩测试试题设计在内容和形式上都还存在着很多的问题 但究其根源是
缺乏一定的理论指导因而编写随意 。鉴于此 本文在分析 了成绩测试的特点、
语言能力理论和测试有用性理论的基础上提出了成绩测试编写的一些理论原则
和操作步骤及原则。
首先 成绩测试是 以检测学生对课程 目标的掌握情况为 目的而我们 的课程
目标是培养学生运用汉语的能力。因此 成绩测试 的试题设计应 以语言运用为指
导考查学生对所学 内容的运用能力 突出真实性和互动性 。
其次课堂成绩测试的规模相对较小对学生不会产生重大的抉择性影响
因此 在平衡信效度的同时效度优于信度 。
第三由于成绩测试对于教与学都有直接影响所 以应尽量发挥其正面的回
流效应 。
至于具体的操作步骤 从确定范围和 内容 到选择题型和语料直至编写具
体的题 目我们都应从上述理论原则 出发 提高试题 的有效性 。
首先 目标测试 内容的确定要 以具体的教材、教学大纲和教学实际为基础
同时要考虑到语言能力各要素所 以应包括语法 内容和语用 内容 以及综合性的行
为 目标 。
第二题型和语料的选择 一方面要考虑到与测试 内容相契合以真正发挥
该题型的优势避免其劣势 。另一方面要从真实性和互动性上着手提高试题 的
运用性和有用性 。即题型的作答方式尽量接近真实的生活中的交际行为语料及
语料 中设计的情境接近学生课上课下的真实汉语使用域 。
第三具体试题的编写应尽量设计真实的语境 以激发学生的 自然运用 。
本文除了得 出上述这些理论和操作原则 以外还对 目前成绩测试 中常用 的题
型做 了具体的分析 。每种题型都有其 自身的优 点和缺点 我们能做 的就是结合 自
己的测试 目的从形式或者 内容上做适 当的改变或调整 扬长避短 发挥题 型最
大的优势 。因此本文通过对真实试题 的评析 将上述理论原则运用于具体 的实
践 指 出了各种题型在设计时需要注意的方面 操作性强 。
而且 文章最后一部分从信效度两个指标对我们认为符合本文提 出的操作模
式和原则的样卷做 了统计分析说 明了所提 出的模式的合理性及可行性 。
总的来说本文通过对现有理论 的分析 以及真实试题 的考察不仅在理论上
提 出了成绩测试应遵循的原则 以供参考 而且在实践上指 出了具体步骤和注意
点为对外汉语教师实际编写或修改成绩试题提供 了可参考的示例。因此对于
对外汉语成绩测试的试题编写在理论和实践上都有了一定的突破 。
不足与展望
本文对于所提 出的操作模式和原则虽然 以信效度为标准从定量和定性方
面进行 了一定的论证 。但是 由于使用该套试题 的是一个短期培训班 我们未有时
间对接受此套试题测试的学生进行采访或问卷调查因而缺乏学生角度的论证
这是 比较遗憾的。
我们希望 以后能有机会从学生的角度 以及使用其他更多的方法 比如说对试
题的教学敏感性和题 目一致性指数的统计以发掘问题 做出弥补。
当然 这样
我们也希望如果 日后有能力能对评分和试题分析做深入的研究
对于成绩测试的考察将更加完善。
附 录
、 田旧
七
《新的中国》第 课
姓名
老师希望我们能 去图书馆因为那里很安静可以好好学习。
往往 常常 很多
来上海三个星期 了但是 生活 我还有很多不习惯的事。
在 一上 在·
一 里 在 ·
…
来中国以前 父母 告诉我不要吃不干净的东西。
一再 重复 再
中国人 连夏天都喝热水真奇怪。
虽然 固然 居然
上海的 真多 地方都能看到。
论 无论 任何
要是你生病了不能上课应该 老师请假。
从 向 对
能找到好工作很多学生都希望能进入好的大学。
为 因为 为了
有时候 我太 累了连上课的时候也
睡觉起来 睡起 觉来 睡起 来觉
我 已经吃 了很 多菜 了真的 了。
吃不下 吃不到 不可 以吃
大家都觉得高考很公平我 觉得对生病的人来说高考不太公平。
并 倒 但
一听说这个大学的公共浴室里没有 门。
一是 吗 洗澡 的时候 大家不 觉得 吗
不好意 思 没有 意思 不有 意思
今天 太热 了我不想 出去玩 儿 。
实在 其实 挺
我们 的宿舍有服 务员所 以我 自己打扫房间。
不得 不必 不能
因为考试的关系 昨天晚上我才睡 了 个小时。
少 没有 不到
巧 在 中国我要
多说汉语少说英语
说多汉语 说少英语
说汉语 多说英语少
几叮
只要喝一杯咖啡 没想到这么小。
才能越来越健康 。
我们并不是来中国旅行的
只有早睡早起 而是来学习汉语 的。
所以我昨天晚上没睡着。
我 以为宿舍的房间很大
合适 忙碌 推让 人 山人海 平时
时
年纪 随便 华丽 不敢 当 忙碌
碌
阴 尔 翻 夕
你好你好 来来纽之一 坐 。
好 的我可 以坐这儿吗
好 吧。那我就坐 了。
你们家装饰得真泣 业 一
一。
对
卫 业 一工作太紧张了只有周末有时间做点儿家常菜 。
是啊 我觉得上海人的生活都很述二 一 一
很少有悠闲的时候 。
不过 周末外头哪儿都 还不如在家里吃 。
是啊在家吃舒服饭馆里人又多又吵
对对 来 别客气 再 多吃点儿 。
论 挺 ……的 得 不到
来中国旅游的外国人会去哪儿 为什么
往往 既…又 … 到
你现在跟我一起去喝酒 好不好
是 可是… 实在 宁可 …也不…
父母 生 日的时候 你会做什么
得起 不起 为 比 得多
、乞的学生平 时喜欢 做什 么
有 的……有 的…… 一 就是
昨天晚上我喝醉 了。
怪不得
来 中国以后 你是不是常常喝醉啊
到 目前为止 ……
姓名
房 间号
年 月 日星期五
在 旅馆的一件事。
— 我们己经付过钱 了为什么还要再给消费
我们代表团的张先生认为付帐以后再给小费是美国的方式并不能体现中国特色。而中
国人就不必给小费。
紧张。
二
二
二 呷
即 ‘
飞
—
外
“
一 姓名
在你看来男人和女人一起吃饭的时候 是各付各的好 还是男人付账 字
吴丽英
王凤元 语言测试 的回顾与展望【 浙江万里学院学报
席仲恩 《语言测试分数的导出、报道和解释》四川四川大学出版社
熊学亮 《认知语用学概论》上海上海外语教育出版社
修旭东
王俊菊 的语言测试信度计算模式 烟台师范学院学报
徐 昂 多项选择完形填充与传统完形填空信度和效度之研究〔 外语与外语
教学
徐强 《交际法英语教学和考试评估》上海 上海外语教育出版社
徐子亮 《汉语作为外语教学的认知理论研究》北京华语教学出版社
许希阳’ 汉语 口语测试研究【 云南师范大学学报
许希阳 汉语 口语测试研究【 云南师范大学学报
颜薇 交际性听力测试 中选择题型与建构题型的对 比研究华东师 范大学硕
士学位 论文
杨满珍 世纪 年代 国外语言测试 的发展【 外语教学
易兴霞 从效度 、内省法看我 国英语阅读测试 广 东教育学院学报
曾妙芬 《推动专业化的 中文教学》北京 北京语言大学 出版社
曾葡初 论语用观的语言测试【 外语与外语教学
张和生 与汉语 口语水平 的测试【 北京师范大学学报
张凯 《语言测试及测量理论研究》北京 北京语言大学 出版社
张凯 《语言测试理论及汉语测试研究》北京商务印书馆
张凯 《标准参照测验理论研究》北京北京语言大学 出版社
张敏强 《教育测量学》北京人 民教育出版社
张权 《语言测试中的项 目分析与等值技术 研究与应用》北京高等教育
出版社
张志英 《教育统计学》北京中国财经经济出版社
周大军
高兰生 交际性语言测试理论述评【 外语教学与研究
周胜 语言测试各环节真实性概述【 语言教学与研究
庄起敏 对翻译作为英语能力测试手段的分析与思考〔 〕外语界
邹 申
杨任明 对标准参照考试的再认识— 兼谈其在考试反拨效应中的积极
作用 外语 电化教学
邹 申 语言教学大纲与语言测试的衔接— 的设计与实施【 外语
界
材 肠 客观语言测试 上海上海外语教育出
版社
以
如 ’ 。 ’ 语言测试的设计与评估 北京外语教学与研究
出版社 剑桥大学出版社
’
痴 语言项 目中的测试与评价
北京高等教育 出
版社
螂 夕 语言测试实
践 上海 上海外语教育 出版社
知 凡 祝口 语言测试要
略 上海 上海外语教育 出版社
叮 叨 ’ 车 以
后 记
终于写下 了论文的最后一个句号。百感交集 。
在师大美丽的校园已经生活、学习了 年熟悉这里的一草一木 眷恋这里
的人和事此刻却真的要说 “ 再见” 了不舍与无奈 已难分辨但是感激之心
明然于心 。
我要感谢我的导师徐子亮教授 。初次聆听徐老师的课也是毕业那年—
年本科毕业 那种时候总有太多的事情扑面而来而只有当回到课堂时我的
心才有 了一份安宁是徐老师让我静下心来继续体味前人的智慧和思考的磨砺。
这三年来 我更是从徐老师身上看到了一种治学的虚静 那是老师给我的一笔宝
贵财富。当然 我也感谢导师对于本论文 的悉心指导。
要感谢吴勇毅老师、张建民老师和王幼敏老师在论文开题阶段所给予的中肯
批评及意见因为有了你们的帮助才有 了一个 良好的开端 。
要感谢梁新欣老师对本文研究的支持不仅提供了宝贵的意见而且还提供
样卷和学生的答卷供参考与分析。
要感谢陈菊咏老师对于试卷分析和数据统计所提供的建议和帮助 。
要感谢我的同学和师兄师姐为我提供 了大量的试题做样本 感谢你们 的关
心和帮助 。