You are on page 1of 6

第 54 卷第 2 期 江西师范大学学报( 哲学社会科学版) Vol. 54 No. 2

2021 年 3 月 Journal of Jiangxi Normal University( Philosophy and Social Sciences Edition) Mar. 2021

普通话水平测试的真实性研究

1,
2 2
黄乙玲 , 姚喜双
( 1. 江西师范大学 国际教育学院,江西 南昌 330022; 2. 中国社会科学院 研究生院,北京 102488)

摘要: 真实性是现代语言测试研究中的核心问题之一。真实性保证了测试结果能够有效地表征应试者在
目标语域中的语言运用能力,是衡量测试质量的重要依据。目前,学界对真实性的概念界定及其在测试各环
节中的应用实践尚有争议。开展普通话水平测试中的真实性研究有助于提升测试对汉语普通话学习的反拨
效用,为未来新兴技术在测试领域的开发、利用及测试向不同界域发展提供了参考依据。首先,通过探索学界
三种主流测试真实观在汉语普通话测试领域的适用性,对普通话测试真实性进行了概念界定,提出真实性与
信度、效度等因素共同构成评价普通话测试质量的依据; 其次,从普通话水平测试活动的基本要素出发,分析
测试各环节的真实性因素,探索如何提升普通话水平测试的真实性程度以提高测试质量; 最后,探讨了真实性
研究在汉语普通话测试中的发展前景。
关键词: 语言测试; 普通话; 真实性
中图分类号: H102 文献标志码: A 文章编号: 1000 - 579( 2021) 02 - 0134 - 06

A Study on the Authenticity of Putonghua Proficiency Test

HUANG Yiling1,2 , YAO Xishuang2


( 1. School of International Studies,Jiangxi Normal University,Nanchang,Jiangxi 330022;
2. Graduate School of Chinese Academy of Social Sciences,Beijing 102488,China)

Abstract: Authenticity is one of the core issues in modern language testing research. Authenticity en-
sures that the test results can effectively represent the examinee’s language performance in the target
domain,which is an important basis for measuring the test quality. At present,the definition of au-
thenticity and its application in testing are still controversial in academic circles. The research on the
authenticity of Putonghua proficiency test is helpful to improve the backwash effect of the test on the
learning of Putonghua,and provide a reference for the development and utilization of new technolo-
gies in the field of testing and the development of testing in different fields in the future. Firstly,this
paper explores the applicability of three mainstream testing concepts in the field of Putonghua tes-
ting,defines the concept of authenticity of Putonghua testing,and proposes that authenticity,reliabili-
ty,validity and other factors constitute the basis for evaluating the quality of Putonghua testing; Sec-
ondly,starting from the basic elements of the Putonghua proficiency test,this paper analyzes the au-
thenticity factors of each link of the test,and explores how to improve the authenticity of the Putong-

收稿日期: 2020 - 10 - 22
作者简介: 黄乙玲( 1979 - ) ,女,江西上饶人,江西师范大学副教授,中国社会科学院研究生院博士研究生。研究方
向为语言测试。
姚喜双,男,黑龙江双城人,国家语委咨询委员会委员,中国社会科学院研究生院教授、博士生导师。研究
方向为语言测试、媒体语言。
第2 期 黄乙玲,等 普通话水平测试的真实性研究 135

hua proficiency test to improve the quality of the test,Finally,this paper discusses the development
prospect of authenticity research in Chinese Putonghua testing.
Key words: language testing; Putonghua; authenticity

一、普通话水平测试的真实性问题发源
语言测试的真实性问题是现代语言测试研究中的核心问题之一 ,也是复杂而颇有争议的话题。 真
实性保证了测试结果能够有效地表征应试者在目标语域中的语言运用能力 。在 20 世纪 70 年代,“真实
性”问题开始在教学和测试中受到关注 ,随着语言测试的演进,语言测试的真实性逐渐成为热点问题。
Morrow 在 1991 年提出真实性问题是语言测试的重要方面[1]( p111 - 118) ; Wood[2]( p39 - 78) 指出语言测试的两
[3]( p20 - 78)
个主要问题“效度”“信度”可以归结为“真实与不真实 ”一个问题; Bachman 和 Palmer 认为,真
[4]
实性与信度、构想效度、交互性、适用性和后效共同构成了评价测试质量的依据。 韩宝成 ,邹申,周
[5]
胜,徐启龙 等分别从真实性的概念、语言测试中的真实性要素、外语口试的真实性等角度进行了研
究。2016 年国际语言测试权威期刊 Language Testing 发特刊专门探讨了专门用途语言 ( Language for
Special purposes,LSP) 测试中真实性问题[6],对真实性在语言测试中的运用做出了有益的探索 。 从国内
外研究来看,不同类型测试中的真实性问题存在着许多争议 ,主要体现在真实性的概念界定及其在测试
各环节中的应用实践。真实性是衡量考试质量的关键标准之一 ,目前在外语测试领域,有关真实性的研
究较多,但在汉语测试领域,有关真实性的研究极少,尤其是在世界参测人数最多的母语标准语考
试———普通话水平测试( 以下简称 PSC) 中未得到充分重视。
PSC 是我国目前影响力较大的一项口语测试 。自 1994 年正式实施以来,其较高的信度和效度使其
受到海内外社会各界的认可,有效地促进了普通话事业的推广和发展 。对于多数考生而言,他们从小就
接触外语口语考试,而对于 PSC 既感到陌生又感到熟悉。 陌生的是它考察母语标准语水平,考试方式
与外语口试有所不同; 熟悉的是它的考试内容是自己平时经常接触的 、运用的汉语普通话。 因此,考试
的“真实性”问题往往成为考生们关注和热议的话题之一。 例如,在参加完 PSC 后,考生们最常议论的
话题往往就是“成绩是不是真实地反映了我平时说普通话的水平 ”。 考生们往往对话题内容、对话形
式、考场环境等口语考试中的表面元素是否再现真实生活过于在意 ,认为以上元素不贴近生活,没有人
与人面对面对话,考试就不真实。质疑有助于发现问题、解决问题,从而推动事业向前进步。 对真实性
问题开展研究有助于未来汉语普通话测试的研发和革新 。
( 一) 普通话水平测试真实性界定的原则和方法
对于语言测试真实性界定的原则和方法 ,学界主要有真实生活观、交互能力观、任务特征一致观三
种理论观点。在汉语普通话测试领域,这三种理念真实性界定原则的适用性值得探讨 。
1. 真实生活观
[7]( p10)
该观点认为“真实性”是“测试行为复现某种特定的非测试语言行为的程度 ” ,测试任务越接
近真实的生活行为,其真实性程度越高,把测试任务的真实程度作为测试真实性的衡量依据 。假如基于
该观点来设计口语测试,应该尽可能地创建真实的生活会话情境,设置真实的言语交流任务。 也就是
说,它通过真实场景、真实任务、真实文本等达到测量语言能力的目的 。
PSC 主要测查人们运用汉语普通话的标准程度和熟练程度 。测试的主要功能是通过受试者在考试
时的表现来推断其在现实生活中的普通话水平 。然而,现实生活有无数的情景语境,要从中获得足以代
表全部日常言语行为的抽样,且该样本要小到能放进一次考试里 ,这对于测试设计者来说几乎是不可能
达成的。真实生活观比较适合指导开发语言任务和语境有限制的考试 ,如用于检测阶段性普通话学习
成果的随堂考试,或者用于测试在专门职业领域使用汉语普通话的能力 。 在常规的考试中时间和试题
数量有限,难以覆盖普通话的全部日常运用场景和语言任务,因此用真实生活观界定和指导 PSC 的真
136 江西师范大学学报( 哲学社会科学版) 2021 年

实性研究显然不具备可操作性。
2. 交互能力观
持此种观点的学者认为真实性与考试任务是否模拟真实生活无关 ,而是取决于受试者与测试任务、
测试情境之间的相互作用程度,相互作用的程度越高,其真实性就越高。 例如,全国英语等级考试五级
( PETS 5) 口试中的一个环节是用考试任务创设一个语境 ,在此语境下两名( 或三名) 考生通过对话交流
完成考试任务。依据交互能力观,该项测试的真实性体现在其通过考试任务创设语境 ,考生在该语境下
以完成考试任务为目标进行语言交流互动 。再如,目前测试领域积极研发的计算机自适应考试 ( CAT)
由计算机根据考生对试题不同的回答来自动选择较适合考生能力的试题 ,最终对考生能力做出判断。
CAT 基于考生与考试任务的互动关系来强化考试任务对考生能力水平的真实反馈 ,从而提升考试的真
实性。
从这个观点出发来界定 PSC 的真实性,虽然受试者在完成考试任务时能真实地展现自己的语言水
平,但忽视了测试活动内在要素的真实性 ,如测试依据、测试主体和测试客体的真实性等。 测试依据是
实施测试活动的规则和标准体系 。PSC 的测试依据包括试题、评分标准、等级确定、评分方法和大纲,这
些因素是界定 PSC 内在真实性的根本保障,必须具有可靠可信的特征。 测试主体即测试员的评分信度
对整个 PSC 测试活动的真实性也有很大影响 。测试客体即受试者如果身份不符 ( 如受试者是汉语作为
外语的学习者、文化程度较低或年龄幼小的汉语母语者等 ) 也会影响到考试的真实性。 交互能力观虽
然在一定程度上能够说明普通话测试的真实性 ,但它忽略了普通话测试活动的其他特征 ,而这些特征也
是决定测试是否真实的要素,因此交互能力观不足以确定普通话测试的真实性程度 。
3. 一致观
这种观点认为真实性是测试任务的特征与目标语使用任务特征的一致性程度 。测试任务的特征指
[5]
的是测试任务的形式、内容、情境、性质等要素的特征 。这里所提出的一致并非真实生活观里单纯的
模仿或复现日常言语行为,而是强调任务特征里各要素的一致 。例如,当我们要设计一项针对小学生的
普通话测试时,为保证测试具有较高的真实性,我们首先要决定小学生日常使用汉语普通话时的关键特
征要素。这些特征应该包括小学生日常运用普通话的生活场景以及他们的识字能力及说普通话的能
力,也应该涵盖他们能够理解和接受的题型和测试方式 、能够适应的测试情境等。除了确定以上任务特
征要素以外,依据一致观,我们还要设计包含这些关键特征的测试任务 ,使测试任务的特征与小学生日
常运用普通话的有关特征尽可能保持一致 ,这样设计出来的测试具有较高的真实性。 完成上述两个步
骤既能为研究该测试是否可以在小学生层面上推广提供依据 ,又可以提升小学生应试者在测试时的正
面情感作用,帮助他们在普通话测试中发挥真实水平。 由此看来,在 PSC 实践中一致观指导下的真实
性界定具有较强的可操作性。
以上分析了三种主要的真实性界定原则在普通话测试领域的适用性 。 综上所述,基于一致观理论
的 PSC 真实性界定方法具有系统性、适用性和实践性。
( 二) 普通话测试真实性的概念界定
基于任务特征一致的原则,PSC 真实性的概念可以界定为 PSC 任务特征与汉语普通话日常运用特
征之间的对应程度。对应程度的确认可分为两个步骤 : 首先,要看是否能描述目标语也就是汉语普通话
日常运用的范围和特征; 其次,是该测试是否有效地采用包含上述特征的任务作为其测试任务 。汉语普
通话日常运用的范围包含在非测试环境下可能遇到的一切具体语言行为 ,涵盖普通话的语音、词汇和语
法等整个语言结构系统,对其特征的描述也就是在考试大纲中规定测试的内容和范围 。
真实性与信度、效度等因素共同构成评价普通话测试质量的依据 ,它区别于信效度,两者有区别也
有一定的联系。信度高的测试,其结果是稳定的,但测试结论未必能够真实反映语言水平,其真实性程
度也未必高; 效度高的测试保证了测试成绩能够有效地区分考生的水平 ,但未必能保证测试的任务特征
与普通话运用任务特征的一致性 ,其真实性程度也未必高。而测试真实性越高,就越能保障测试有效且
第2 期 黄乙玲,等 普通话水平测试的真实性研究 137

可靠地进行,其效度也越高。因此,真实性在对提高母语标准语测试的有效性和社会声誉等方面有着举
足轻重的影响力,是提升测试质量的一个必要维度 。

二、普通话水平测试的真实性分析
以下我们将从 PSC 活动的基本要素———测试依据、测试手段、测试主体和客体出发分析 PSC 各环
节的真实性因素,探索如何提升汉语普通话测试的真实性程度 。
( 一) 测试依据的真实性
PSC 的测试依据是实施测试活动时所依据的标准和规定 ,包括: 大纲、试题、评分标准、等级确定和
评分方法。
1. 大纲
PSC 各分项所依托的测试构想理论反映在大纲中 。测试的构想,也称为构思或构念,指的是整个考
试理论结构的基础。这个理论结构实际上是一个假设,测试结果应在相当程度上解释这一理论假设。
PSC 的测试构想理论是关于普通话能力的构思 ,认为考察以下任务———读单音节字、双音节词、朗读短
文和命题说话能够充分说明应试者的语言水平 。PSC 的构想理论与考生的真实语言水平相匹配,不同
的语言水平都能得到不同等级的分数反馈 。大纲所规定的测试任务类型和内容与普通话在日常运用过
程中的语言特征相一致,如生僻字、绕口令、复杂演讲等日常很少遇到的语言任务不会出现在大纲里 。
如此一来,设计出的大纲具有相当程度的真实性 ,以此为根本进行的命题工作才能继承其真实性,从而
使考生的普通话能力水平得以真实反馈 。
2. 试题
PSC 试题的真实性在于命题者依据大纲框架保持测试任务与汉语普通话特征的一致性 。 试题是测
试任务特征与汉语普通话日常使用特征之间的桥梁 。当分析和研究试题的真实性时,主要从以下几个
方面入手: 试题所测量的普通话能力与大纲规定的语言能力是否一致; 试题的结构分布是否与 PSC 的
构想理论相一致; 试题表述是否真实地传达了测试任务的要求而不会造成误解 。 试题设计中蕴含着真
实性,它与大纲的内容相关性越高,且越具代表性,则测试的真实性就越高。
3. 评分标准和等级评定办法
评分标准和等级评定办法的真实性在于测试的反拨效度如何 ,分数和等级是否能解释被试的普通
话水平; 依据评分标准和等级评定办法所确定的普通话等级是否真实地反映了被试的普通话水平 。 如
果结果是肯定的,我们可以说该评分标准和等级评定办法真实性很高 。
4. 评分方法
PSC 评分的一个显著特征是定性与定量方法的结合 。 对测试成绩的判断依据是应试者的语言内
容,包括语音、词汇、语法等方面。PSC 的语言评定过程是连续性的语言听辨。 应试人的语言表征具有
一定的连续性和模糊性,对其评判不能强制性地简化为“非对即错 ”的二元标准,而应由评分者依据自
身对评分标准的认识对应试人的答案作出其正确 、错误或缺陷的主观判断。 评分方法的真实性在于评
分者进行主观判断的稳定性和可靠性 。提高评分者的稳定性和可靠性即提高了评分的真实性 。
( 二) 测试手段中的真实性
测试手段是测试主体在对测试客体评分的过程中所依赖的外部客观条件 ,可以分为测试方式和测
试设施两大类。测试方式指测试的组织实施方式 ; 测试设施包括考试设备和技术手段。 进入 21 世纪,
PSC 的社会需求日益增大,现代信息技术在 PSC 的信息管理与实际测试中的应用取得了一定的突破 ,
[8]
许多研究表明测试手段的信息化提高了 PSC 的信度 ,从而使得 PSC 成绩的真实性进一步得到保障。
现代语言处理技术的发展又带来了新的真实性问题 。 计算机辅助 PSC 建构在人机对话的平台上,
测试的引导和馈入都依赖计算机 ,测试环境也由过去的教室、办公室等相对真实的学习工作空间移入了
具有隔音效果的语言实验室,应试者佩戴耳麦独自面对一台电脑进行测试 。相对于传统的测试方式,一
138 江西师范大学学报( 哲学社会科学版) 2021 年

方面这些因素的改变使一些考生在考试心态上发生了变化 ,其根源是考生对考试真实性的感知发生了
变化; 另一方面语言所承载的文化和情感是丰富的 ,熟练地用语言表达自己的真情实感是语言生活中的
一部分,也成为 PSC 的考察要点。在目前开展的机辅测试中,说话项有自然流畅扣分项,由人工评分。
人工评分时评分员会依据语气、语调、流畅、节奏等方面来测查。但是朗读项是由机器评分,机器评分对
于语言里情感的真实性表达难以识别 。 机辅测试环境下出现极少数“无效话语”“离题”“舞弊 ”等现
[9]
象,其中最后一项说话题“雷同( 抄袭) ”现象相对突出 。 这些现象完全违背了测试的真实性,导致测
试结果无效。近年来,随着 PSC 信息管理系统、测试管理制度和体系的不断完善,测试里的违纪行为大
幅减少。未来测试手段还会不断革新,新的测试手段必然出现新问题,应有针对性地改进测试系统,使
应试者的语音行为真实反映其语言能力 。
新技术带来的最大挑战之一就是对测试真实性的考验 。测试研发者在研发和改进测试时必须考虑
到新技术应用于 PSC 将带来以下要素的更新: 考试环境、导语( 人机交互) 、答题方式、评分方式等,这些
要素恰恰是决定考试任务真实性程度的关键要素 ,通过改进这些要素可以提高测试的真实性 。
( 三) 测试主体、客体的真实性
PSC 真实性也存在于测试主体与客体的互动活动中。PSC 主体与客体分别是测试员和应试人。
PSC 活动从根本上讲是测试员确认应试人普通话水平的活动 。当测试员对应试人的语音面貌进行主观
判断时,其稳定性和可靠性是应试人是否能获得真实评价的关键。 在目前的计算机辅助 PSC 中,应试
人无须面对测试员,可以认为测试主体转换成了计算机 ,应试人与计算机测试界面发生交互作用 。人机
交互过程中的真实性取决于计算机界面设计是否友好 ,是否能真实反馈考生的回答。 测试客体在与测
试主体互动时,主体、客体自身的非语言因素,如焦虑、情绪等心理因素和社会文化背景等,也可能对应
试人语言的真实表达产生影响。
[10]
开展 PSC 是促进国家通用语普及和提高其应用水平的基本措施之一 ,因此,测试客体范围相当
广泛。从实际操作层面上来看,目前参加测试的人群主要集中在教育系统 、新闻媒体、行政机关、公共服
务行业。普通话水平被看作与职业能力相关的一个重要方面 ,其测试成绩能说明受测者是否具备从事
相应职业所需的普通话基础表达能力 。事实上,职业生活的语言表达有别于日常生活表达 ,涵盖语音语
[11]
调、用词用语、句式规范等方面 。从这一点来看,设置偏向职业生活的测试任务,甚至针对不同职业
人群开发不同的 PSC,有助于提高测试的真实性。 在研发过程中应关注到不同人群的职业对测试真实
性的影响,测试用语言材料、交际场景、反馈机制等对该领域人群是否真实适用。 只有当应试人在相关
领域的汉语口语水平得以真实评价 ,测试才是可靠的、真实的,才是有意义的、高效度的。

三、讨论与展望
PSC 真实性不仅受到应试者们的广泛关注 ,还给测试的研究和设计提出了挑战。 未来 PSC 真实性
研究应致力于提升测试的科学性和实效性 ,并重点关注 PSC 真实性要素构成、PSC 真实性评价体系构
建、真实性研究在 PSC 中的应用等问题。
研究中尤其要注意区分母语与二语测试真实性的差异 。多数二语考试为了达到测量交际能力的目
标,比较注重设置“人与人真实对话 ”的考试任务。PSC 则没有对话题型,在实施人工测试时测试员可
能会简短地与应试者进行指令性或提示性交流以支持应试者完成考试 ,而且在机辅测试里完全不存在
人与人之间的对话,因此常有人提出对 PSC 进行真实性对话改革的建议。本研究表明 PSC 真实性应界
定为普通话实际使用特征与测试任务特征之间的对应程度 ,认为单纯地模仿生活对话不一定就能得到
语言水平的真实评价。PSC 在最初研发时已证实独白式说话与双方或多方间的会话相比 ,完整性、连续
[12]( p70 - 71)
性和自足性优势突出 ,也就是说,真实对话任务在短时间内不足以反馈作为母语的普通话使用
特征,其实效性偏低。PSC 研制的直接目的是客观地反映人们的普通话面貌 ,由此看来母语与二语的测
试目标有较大差异,PSC 任务的真实性不应效仿二语测试 、不宜过多地纠结人与人真实对话 。
第2 期 黄乙玲,等 普通话水平测试的真实性研究 139

四、结语
本研究提出了普通话测试真实性概念界定方法 ,主张汉语普通话测试的真实性取决于测试所采用
的任务特征与目标语言的运用特征的一致性程度 。普通话测试真实性要看是否有效地采用了包含普通
话全部语言特征的任务样本作为测试任务进行测试 。这种真实性程度应该是动态的,因为即使大纲已
较全面地对普通话语音、词汇和语法的语言结构系统做了具体描述和规定 ,且测试内容能够真实地反映
普通话语言结构系统,在选择或设计具有普通话语言结构系统特征的样本作为测试任务时也存在是否
有效的问题。其有效性会受到测试主体、客体个人因素的影响而有所变化 ,也会因测试依据和测试手段
的改进而得以提高。所以,汉语普通话测试真实性是一个相对的 、动态的概念。普通话水平测试不可能
百分之百的真实,其发展趋势是不断向绝对的“真实”靠拢。

参考文献:
[1]Morrow,K. Evaluating Communicative Tests[M]/ / In Anivan,S. ,Editor. Current Developments in Language Testing. Singa-
pore: SEAMEO Regional Language Centre,
1991.
[2]Wood. ,R. Assessment and Testing[M]. Cambridge: Cambridge University Press,
1993.
[3]Bachman,L. F. & Palmer,A. S. Language Assessment in Practice: Developing Language Assessments and Justifying Their Use
in the Real World[M]. Oxford: Oxford University Press,
2010.
[4]韩宝成. 语言测试: 理论、实践与发展[J]. 外语教学与研究,
2000( 1) : 47 - 52.
[5]徐启龙. L. F. Bachman 关于语言测试真实性的研究与发展综述[J]. 外语测试与教学,
2012( 3) : 53 - 59.
[6]Hoekje,B.“Language”“Communication”and the Longing for the Authentic in LSP Testing[J]. Language Testing,
2016( 2) :
289 - 299.
[7]Clark,J. L. D. Theoretical and Technical Considerations in Oral Proficiency Testing[M]/ / In Randall,L. J. ,Spolsky,B. Tes-
ting Language Proficiency. Virginia: Centre for Applied Linguistics,
1975.
[8]朱丽红,韩世梅. 远程计算机辅助普通话水平测试的改进策略研究[J]. 中国远程教育,
2013( 11) : 74 - 79.
[9]齐军华. 计算机辅助普通话测试与人工测试对比分析[J]. 语言文字应用,
2020( 1) : 69 - 75.
[10]姚喜双.《语言文字规划纲要》与国民语言能力提高[J]. 语言科学,
2016( 4) : 337 - 338.
[11]刘楚群. 当今语言规范观: 中和诚雅[J]. 江西师范大学学报( 哲学社会科学版) ,
2019( 6) : 68 - 75.
[12]韩玉华. 普通话水平测试发展历程[M]. 北京: 语文出版社,
2014.

( 责任编辑: 舒 娜)

You might also like