Professional Documents
Culture Documents
管延增 北京语言大学应用中文学院
Key words HSK listening; vocabulary teaching; data mining; topic clustering; co-occurrence networks
* 本文系中央高校基本科研业务费专项资金北京语言大学院级项目“基于多元线性回归的留学生学习数据分析与预测研究成果”(项目编
号:23YJ010301)研究成果。
22
主题论坛:国际中文词汇教学研究 / 基于共现网络的 HSK 听力词汇教学模式构建
一、引言 听觉输入可以获得几乎与视觉输入相同的词汇习得
效果
(常乐、马军财,
2017)
。但仅简单重复听录音,
中文水平考试(以下简称“HSK”)是对非汉
会导致听力课程变得机械化,教学效果往往不尽如
语母语学习者汉语水平的综合评估。
人意(卢岚岚,1997)。
外国学生进入中国高校攻读本科学位的语言
周小兵(1994)提出,构建现实情境、回忆情
水平要求多为通过 HSK 四级。HSK 四级考试试题
境、联想情境等可以帮助学习者更好地习得词汇。
包括三个部分:听力(45 题,30 分钟)、阅读(40
李立新(2006)也指出,语境,包括上下文语境、
题,40 分钟)、书写(15 题,25 分钟)。每个部分
情境语境、民族文化传统语境等,在语言教学中
满分均为 100 分,其中听力部分为 HSK 考试中极
具有关键作用,特别是在 HSK 听力词汇教学方面,
为重要的一环。
其重要性愈加凸显。
与更低等级的听力考试相比,HSK 四级试题
参考学界关于词汇习得与教学的研究成果,
听力部分涉及的话题涵盖面更为广泛,对话力求反
本研究采用 2012—2018 年的 HSK 四级考试真题,
映真实交际场景。由于录音语速较快,约为每分钟
以及 HSK 官网上提供下载的历年考试真题听力文
180 个音节,考生需要具备较高的听后反应和理解
本,共计 32 套题目作为研究语料。随后,利用文
能力。根据杨惠元(2000)的听力理解实验结果,
本挖掘技术对研究语料进行计量分析,根据语义计
词汇是听力理解的第一障碍。
算对听力文本内容进行聚类分析,提取出聚类后的
根据 Laufer(1992)的研究,二语学习者需要
主题词汇。这一步骤有助于从听力材料中提取出与
掌握文章中 95% 的词汇,才能对整篇文章有大致
实际语境相关的词汇。继而,使用这些从文本中挖
的理解。而 Adolph 和 Schmitt
(2003)的研究指出,
掘出来并经过统计分析的主题词汇,构建基于共现
词汇覆盖率需要达到 98%—99%,才能充分理解文
网络的 HSK 听力词汇教学模式。
本。因此,让学习者积累足够的听力词汇是 HSK
听力教学的首要任务。 二、研究方法与实现步骤
听力词汇
(Listening Vocabulary)指的是在语
(一)研究方法
音通道中能够被成功解码的词汇(Nation,1990)
。 1
K 均值聚类算法
(K-means Clustering Algorithm)
那么,通过何种手段才能在尽量短的时间内,让学
是一种迭代求解的聚类分析算法,该算法以其“算
习者迅速扩大听力词汇量,提升词汇听解能力呢?
法简单,收敛速度快,能有效处理大数据集等多方
在听力教学实践中,很多学生存在“一听就
面的优点”(熊忠阳等,2011)而广受欢迎。
错,一看就懂”的现象。连秀萍和黄港飞(2010)
韩普等(2013)基于标准的 K 均值算法,对
通过对 408 名被试的研究发现,视觉输入的词汇习
英汉双语对照语料进行了文本聚类的比较实验研
得效果优于听觉输入。刘超英(1993)的分析显示,
究,结果证明该算法能够对双语语料取得较好的聚
在学生听不懂的 135 个词汇中,有 57% 的词汇一
类结果。张会兵等(2019)利用该算法对社会商务
旦被写出后,学生就能理解。尽管有的研究认为,
中的用户评论文本进行主题向量的聚类分析,发
在重复收听并且提供丰富的上下文线索的情况下,
现此方法能够挖掘出不同主题词对用户观点的不同
23
国际中文教育(中英文) 第 9 卷 2024 年第 1 期
24
主题论坛:国际中文词汇教学研究 / 基于共现网络的 HSK 听力词汇教学模式构建
表1 HSK 四级真题听力语料主题聚类结果
通过数据分析我们可以看到,这 10 个主题聚
名词
类语料在文本中的比例相对均衡,它们涵盖了多个 5305
动词
4801
话题,充分反映了“重点考查考生在复杂的生活、 专名
29
学习、工作等情境下运用中文进行基本完整、连 人名
53
贯、有效的社会交际能力”这一考试原则。在此基 地名
157
础上,我们对各个主题聚类语料进行分词,统计 名动词
副词
416
出主题词汇 711 个,并根据它们的出现频率进行排 1205
形容词
1169
序,“出现频率前 5 的主题词汇”能基本反映不同
主题类别文本内容和词汇使用特点。
图 2 HSK 四级真题听力语料词汇按词性占比统计
25
国际中文教育(中英文) 第 9 卷 2024 年第 1 期
表2 基础词汇教学单元
26
主题论坛:国际中文词汇教学研究 / 基于共现网络的 HSK 听力词汇教学模式构建
图 4 “爱好习惯”高频主题词汇共现网络 表3 包含“没想到”的真题语料内容检索示意
文本内容
在“爱好习惯”主题的语料中,出现频率前
没想到 吧?第一次见她的时候,我也以为她刚大
5 的主题词汇为“比赛、结果、羽毛球、运动、女 1
学毕业。
朋友”。这些词汇处于共现网络的核心位置,其节 那天的事情太突然了,李先生也没想到 会弄成这
2
点颜色和连线密度也能反映出它们在网络中的地 个样子,他当时并不是故意的。
位,同时连线箭头也反映了词汇之间的共现关系。 3 谢谢,没想到打乒乓球的运动量也这么大。
例如,我们可以找到“开始—继续—马上—商场— 基于上述总结,我们可以设计相关练习,如
女朋友”这样的共现链条,然后组织学生进行以 听后选词填空、听后判断、听后回答问题、听后完
该链条为提示的造句练习。这种高度可控的造句练 成句子等,以加强学生对这个习惯用语的理解和应
习可以降低学生产生偏误的概率,也可以进一步巩 用能力。这些个性化练习能够有针对性地提高学生
固记忆,增进学生对语境的理解和掌握,满足交 的听力水平。
27
国际中文教育(中英文) 第 9 卷 2024 年第 1 期
合。教师可以充分把握听力考试中的词汇要点和难 摆脱反复听讲的简单模式,帮助学生在词汇共现网
点,有针对性地设计教学内容和训练项目,更好地 络中全面理解词类、词义、词性和使用语境。
实现“考教结合”的重点突破。 基于自然语言处理的文本分析技术能够挖掘
词汇成分之间的不同组合,形成网状知识结构,有
五、讨论 助于教师识别学生在学习过程中遇到的难点和挑
通过数据挖掘和文本分析方法将听力语料进 战,并相应实施有针对性的教学策略,为学生提供
个性化的教学内容。此外,这种技术还能够自动生
行聚类分析,深入挖掘文本类别和主题词汇的内在
成评估和反馈,帮助教师更好地跟踪学生的学习进
关系,随后进行可视化呈现,教师能够区分基础词
度。综合运用听觉和视觉双通道输入的教学方法能
汇和核心主题词汇,从而减少课堂上的讲解时间,
够显著改善 HSK 听力词汇教学效果,帮助学生更
留出更多时间进行更多有针对性的练习。
好地掌握词汇知识,同时提高听后快速反应能力,
在数据统计结果和词汇共现网络的基础上,
进而提高解题、答题的听力应考能力。
教师可以将词汇使用条件、上下文语境、语用条
件、语气态度等特点,以词云图、共现网络图、左 作者简介
右邻词图等方式可视化呈现。这样能让学生通过听 管延增,北京语言大学应用中文学院讲师,主要研究方向
觉和视觉的双通道输入,更好地理解和掌握词汇, 为对外汉语教学法和现代教育技术。
附注
1 K 均值聚类算法(K-means Clustering Algorithm)将数据分为 K 组,则随机选取 K 个对象作为初始的聚类中心,然后计算每个对象与
各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心及分配给它们的对象就代表一个聚类。每分配一
个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或
最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
2 困惑度
(Perplexity)是一种用于评估语言模型
(Language Model)质量的指标。它主要用于衡量语言模型对新样本的预测能力,即在给
定一组样本后,语言模型能够产生多大程度上符合这些样本的新样本。
3 《国际中文教育中文水平等级标准
(GF0025—2021)
》于 2021 年正式发布并实施,其中要求的各等级需掌握的词汇量均有所提升。但目
《HSK 考试大纲》为准。
4 字体加粗词汇为词云图中的主题词汇。
参考文献
常乐,马军财,2017. 听力与阅读输入模态下二语附带词汇习得效果对比研究 [J]. 外语教育研究(3):21-29.
28
主题论坛:国际中文词汇教学研究 / 基于共现网络的 HSK 听力词汇教学模式构建
京大学出版社 .
会科学)(5):80-82,98.
LAUFER B, 1992. How much lexis is necessary for reading comprehension?[G] // ARNAUD P, BEJOINT H. Vocabulary and applied
NATION I S P, 1990. Teaching and learning vocabulary[M]. New York: Newbury House.
(责任编辑 张俊睿)
(上接 9 页)
王佶旻,2021. 来华留学预科教育的汉语能力标准 [J]. 语言教学与研究(2):26-34.
Press.
(责任编辑 张俊睿)
29