You are on page 1of 8

国际中文教育(中英文) 第 9 卷 2024 年第 1 期

基于共现网络的 HSK 听力词汇教学模式构建


——以 HSK 四级听力考试为例

管延增 北京语言大学应用中文学院

提 要 本研究针对 HSK 听力考试的特点及当前听力词汇教学中存在的问题,构建基于词


汇共现网络的教学模式。该模式下的教学过程包含三个阶段:第一阶段聚焦基础
词汇教学,主要利用词义网络组织教学;第二阶段聚焦主题词汇教学;第三阶段
依托学生的学习数据分析进行有针对性的突破性练习。采用词云图、共现网络图
等可视化辅助工具,实现听觉和视觉的双通道输入以提升词汇教学效果。研究结
果表明,该模式有助于学生更好地记忆词汇,能够运用在 HSK 听力词汇教学中并
取得积极效果。

关键词 HSK 听力;词汇教学;数据挖掘;主题聚类;共现网络

Construction of HSK Listening Vocabulary Teaching Model Based on Co-occurrence Networks


—Taking HSK-4 Listening Test as an Example
 Guan Yanzeng
Abstract This study addresses the characteristics of the HSK listening test and the current issues in the listening
vocabulary teaching, and investigates the construction of a teaching model based on a vocabulary co-
occurrence networks. The teaching process based on this model consists of three stages: the first stage
focuses on basic vocabulary teaching, mainly utilizing semantic networks for organizing teaching;
the second stage concentrates on thematic vocabulary teaching; the third stage relies on targeted
breakthrough exercises based on the analysis of students’ learning data. Visual aids such as word
colud maps and co-occurrence network graphs are employed to achieve dual-channel input from both
auditory and visual perspectives, enhancing the effectiveness of vocabulary teaching. The research
results indicate that this model helps students memorize vocabulary more effectively and is a feasible
and efficient approach for teaching HSK listening vocabulary.

Key words HSK listening; vocabulary teaching; data mining; topic clustering; co-occurrence networks

* 本文系中央高校基本科研业务费专项资金北京语言大学院级项目“基于多元线性回归的留学生学习数据分析与预测研究成果”(项目编
号:23YJ010301)研究成果。

22
主题论坛:国际中文词汇教学研究 / 基于共现网络的 HSK 听力词汇教学模式构建

一、引言 听觉输入可以获得几乎与视觉输入相同的词汇习得
效果
(常乐、马军财,
2017)
。但仅简单重复听录音,
中文水平考试(以下简称“HSK”)是对非汉
会导致听力课程变得机械化,教学效果往往不尽如
语母语学习者汉语水平的综合评估。
人意(卢岚岚,1997)。
外国学生进入中国高校攻读本科学位的语言
周小兵(1994)提出,构建现实情境、回忆情
水平要求多为通过 HSK 四级。HSK 四级考试试题
境、联想情境等可以帮助学习者更好地习得词汇。
包括三个部分:听力(45 题,30 分钟)、阅读(40
李立新(2006)也指出,语境,包括上下文语境、
题,40 分钟)、书写(15 题,25 分钟)。每个部分
情境语境、民族文化传统语境等,在语言教学中
满分均为 100 分,其中听力部分为 HSK 考试中极
具有关键作用,特别是在 HSK 听力词汇教学方面,
为重要的一环。
其重要性愈加凸显。
与更低等级的听力考试相比,HSK 四级试题
参考学界关于词汇习得与教学的研究成果,
听力部分涉及的话题涵盖面更为广泛,对话力求反
本研究采用 2012—2018 年的 HSK 四级考试真题,
映真实交际场景。由于录音语速较快,约为每分钟
以及 HSK 官网上提供下载的历年考试真题听力文
180 个音节,考生需要具备较高的听后反应和理解
本,共计 32 套题目作为研究语料。随后,利用文
能力。根据杨惠元(2000)的听力理解实验结果,
本挖掘技术对研究语料进行计量分析,根据语义计
词汇是听力理解的第一障碍。
算对听力文本内容进行聚类分析,提取出聚类后的
根据 Laufer(1992)的研究,二语学习者需要
主题词汇。这一步骤有助于从听力材料中提取出与
掌握文章中 95% 的词汇,才能对整篇文章有大致
实际语境相关的词汇。继而,使用这些从文本中挖
的理解。而 Adolph 和 Schmitt
(2003)的研究指出,
掘出来并经过统计分析的主题词汇,构建基于共现
词汇覆盖率需要达到 98%—99%,才能充分理解文
网络的 HSK 听力词汇教学模式。
本。因此,让学习者积累足够的听力词汇是 HSK
听力教学的首要任务。 二、研究方法与实现步骤
听力词汇
(Listening Vocabulary)指的是在语
(一)研究方法
音通道中能够被成功解码的词汇(Nation,1990)
。 1
K 均值聚类算法
(K-means Clustering Algorithm)
那么,通过何种手段才能在尽量短的时间内,让学
是一种迭代求解的聚类分析算法,该算法以其“算
习者迅速扩大听力词汇量,提升词汇听解能力呢?
法简单,收敛速度快,能有效处理大数据集等多方
在听力教学实践中,很多学生存在“一听就
面的优点”(熊忠阳等,2011)而广受欢迎。
错,一看就懂”的现象。连秀萍和黄港飞(2010)
韩普等(2013)基于标准的 K 均值算法,对
通过对 408 名被试的研究发现,视觉输入的词汇习
英汉双语对照语料进行了文本聚类的比较实验研
得效果优于听觉输入。刘超英(1993)的分析显示,
究,结果证明该算法能够对双语语料取得较好的聚
在学生听不懂的 135 个词汇中,有 57% 的词汇一
类结果。张会兵等(2019)利用该算法对社会商务
旦被写出后,学生就能理解。尽管有的研究认为,
中的用户评论文本进行主题向量的聚类分析,发
在重复收听并且提供丰富的上下文线索的情况下,
现此方法能够挖掘出不同主题词对用户观点的不同

23
国际中文教育(中英文) 第 9 卷 2024 年第 1 期

突出程度。吴锦池和余维杰(2021)的实验结果显 解 HSK 听力词汇在真题文本中的使用情况和共现


示,采用 K 均值算法对同义词词林知识库进行聚 模式。
类,在查准率、召回率和 F1 值等指标上都有较好 关于听力语料主题的分类,既有研究通常以
的表现。 人工划分的具体子类来帮助学生学习和理解。一些
虽然应用 K 均值算法对文本进行主题向量的 研究者从内容出发,将听力语料划分为地点类、时
聚类分析已经取得了较为丰硕的成果,但在国际中 间类、评价类和因果类等(张庆、薄彤,2015),
文教育领域的相关研究成果尚不多见。本研究探索 也有学者从认知心理学的角度将听力训练方法分为
如何应用 K 均值算法分析 HSK 听力部分的真题语 正误信息混合听力刺激法、选择信息听力刺激法、
料,以更深入地了解其中的词汇使用情况,为中文 逆向式听力刺激法三类(毛海莹,2002)。
教师提供更有针对性的听力词汇教学策略。 2. 听力语料主题聚类结果
(二)实现步骤 本研究采用自然语言文本挖掘的方法,通过
1. 主题聚类 计算困惑度确定主题的具体数量(见图 1)。困惑
主题聚类(Topic Clustering)是一种无监督的 度是一项用于评估语言模型(或主题模型)性能的
文本挖掘方法,用于发现文本集合中的主题结构。 指标,反映了模型对新样本的预测能力。较低的困
其主要思路是将文本表示为词频向量的形式,然后 惑度意味着模型能够更好地预测新样本,能够更好
使用聚类算法(如 K 均值算法)基于这些词频向 地捕捉文本的概率分布。
量对文本进行聚类。聚类到一起的文本具有相似的
词频分布,因而可以归属于同一主题。主题聚类的
一般步骤包括:
第一,文本预处理。本研究使用中文分词通
用库(Jieba)对语料文本进行分词和数据清洗,排
除数字字母、特殊符号、指令性语言及样题说明等
内容,以确保数据的一致性。
第二,特征表示。使用 Word2Vec 词嵌入模
型,将真题语料中的词汇表示为向量形式,形成特
征表示。
图1 不同主题数量下文本困惑度计算
第三,算法聚类。使用 K 均值模型对语料进
行聚类,主题数“K”的选择可以通过计算模型的 根据图 1 中困惑度数值的计算结果,我们确定
2
困惑度(Perplexity) 来确定,以确保聚类效果的 最佳的主题数量为 10 个。由此,我们采用 K 均值
准确性和稳定性。 算法将语料分成 10 个簇,具体的主题聚类分布情
第四,主题聚类词汇数据统计分析。分析不 况如表 1 所示。
同主题语料中基础词汇和高频词汇的出现频率,统
计词汇在不同语境下的分布情况,有助于深入了

24
主题论坛:国际中文词汇教学研究 / 基于共现网络的 HSK 听力词汇教学模式构建

表1 HSK 四级真题听力语料主题聚类结果

主题 语料数量(占比) 主题词数 出现频率前 5 的主题词汇


日常生活 132(3.78%) 68 生活、人们、事情、习惯、爱情
婚姻家庭 148(4.24%) 52 孩子、工作、女儿、父母、毕业
地点方向 150(4.29%) 66 点儿、东西、地方、房子、地铁
关系态度 105(3.01%) 78 朋友、麻烦、经理、性格、师傅
爱好习惯 97(2.78%) 88 比赛、结果、羽毛球、运动、女朋友
介绍说明 151(4.32%) 72 沙发、印象、小姐、饺子、房间
天气气候 111(3.18%) 88 阳光、宾馆、叶子、气候、皮肤
学习工作 116(3.32%) 74 专业、活动、网站、法律、事情
事物细节 127(3.63%) 61 问题、大家、方面、方法、内容
时间时候 124(3.55%) 64 北京、玩儿、航班、长城、参观

通过数据分析我们可以看到,这 10 个主题聚
名词
类语料在文本中的比例相对均衡,它们涵盖了多个 5305
动词
4801
话题,充分反映了“重点考查考生在复杂的生活、 专名
29
学习、工作等情境下运用中文进行基本完整、连 人名
53
贯、有效的社会交际能力”这一考试原则。在此基 地名
157
础上,我们对各个主题聚类语料进行分词,统计 名动词
副词
416
出主题词汇 711 个,并根据它们的出现频率进行排 1205
形容词
1169
序,“出现频率前 5 的主题词汇”能基本反映不同
主题类别文本内容和词汇使用特点。
图 2 HSK 四级真题听力语料词汇按词性占比统计

三、词汇数据挖掘统计整体情况 由图 2 可见,HSK 四级真题听力语料中名词


和动词出现频率最高,其次是副词和形容词。类似
经 过 处 理 的 HSK 四 级 真 题 听 力 语 料 总 字 数
“比赛、影响、调查、发展、变化”等名动词往往
为 78,546,总词数为 13,275,其中特征词汇数为
是 HSK 四级听力的考查重点,因此单独作为一类
2514,平均每句话含有 3.79 个词汇,词汇密度
(特
进行统计。
征词汇数 / 总词数)为 18.94%。听力语料中出现的
此外,语料中还包括一些地名、人名、专名、
词汇按词性分布情况如图 2 所示。
成语、节日名称等。除常见地名“中国、北京、上
海”外,还有考生相对陌生的地理名词,如“新疆、
亚洲、武昌、东三省”等;人名如“邓亚萍、李想”
等;专名如“国家图书馆、交通银行、中国大使馆”
等;成语如“言而有信、丰富多彩、精神百倍”等;

25
国际中文教育(中英文) 第 9 卷 2024 年第 1 期

节日名称如“春节、中秋节、儿童节、母亲节、父 代词 语气和态度 饭馆和饮食 服饰和鞋帽


亲节”等。
量词 原因和结果 邮电和网络
词汇分布统计结果提醒我们,考生备考 HSK
这种以词义网络为基础的词汇教学方法,能
听力部分时,除应熟记词汇大纲内容外,还需要积
较好地避免按词汇表音序教学的单调乏味,使教学
累一定数量的习惯用语、人名、地名、节日名称及
任务更加紧凑高效。同时,词义网络也能帮助学生
文化常识相关词语等。这些词汇虽不见于 HSK 四
更好更快地记忆词汇。
级词汇大纲 3,其构词语素却均符合大纲的要求,
第二阶段教学则以主题词汇为主要内容。我
往往对于考试成绩的分布具有决定性的影响。这些
们根据 10 个主题聚类语料分析结果,组织了包含
经组合而成的词语往往会成为考生理解听力语料的
711 个主题词汇的教学内容。主题词汇既包括 HSK
“拦路虎”。例如,“母亲河、天外有天”等词语,
四级词汇大纲中的高频词,也包括语料中的超纲
大部分考生很难快速理解,更难以抓住其象征意义
词。这一阶段的学习目标是整体掌握,重点突破。
及隐含的语用信息。
教学任务以练习为主,以核心主题词汇讲解为辅。
四、 基 于 共 现 网 络 的 HSK 听 力 词 汇 教 受篇幅所限,我们以语料数量占比较小的“爱好习
学模式构建 惯”主题为例,展示说明依托可视化教学工具开展
听力词汇教学和练习的流程。我们采用词云图(见
根据统计结果,我们的教学过程分三个阶段
图 3)的可视化方式展开教学,以视觉输入方式进
进行。第一阶段侧重基础词汇,第二阶段注重主题
行听力词汇训练。
词汇的讲练,第三阶段有针对性地进行重点突破。
HSK 四级词汇大纲共包含 1200 个词语,其中
600 个是一—三级词汇,600 个为四级新增词汇,
这些新增词汇就是需要掌握的基础词汇。第一阶段
的基础词汇教学中,我们主要依据同义词、近义
词、反义词和类义词等词汇特征,按不同的组合关
系和聚合关系,将基础词汇分为 31 个单元(见表
2),采用词义网络的方式开展听力词汇教学。

表2 基础词汇教学单元

地点 语气词 亲属和称谓 医院和健康


图 3 “爱好习惯”主题词汇词云
方式 习惯用语 样子和相貌 商店和超市
学生在观察词云图的同时进行听力理解练习,
数量 时间和日期 个性和性格 宾馆和旅游
回答相应的问题。例如:
动物 物品和事情 天气和气候 国家和城市
(1) 昨天的羽毛球比赛,你看了吗? 4
交通 职业和身份 方向和方位 节日和活动
(2) 首 都 体 育 馆 今 晚 有 乒 乓 球 比 赛, 你 去
爱好 人物和关系 房屋和环境 职业和工作
不去?

26
主题论坛:国际中文词汇教学研究 / 基于共现网络的 HSK 听力词汇教学模式构建

(3) 听力材料:上午 10 点以后就可以知道 结 际需求,培养语篇处理能力。正如张晋涛(2005)


果了。 所指出,听力理解是一个“明示—推理”的过程,
问题:什么时候可以知道结果? 需要语境的支持。
(4) 听力材料:结果比过程更重要。 第三阶段是词汇应用练习。我们利用网络教
问题:说话的人认为什么更重要? 学平台记录学生的学习数据(出错点、错误率、整
这种结合视觉和听觉两种不同输入模态的词 体正确率、完成用时等),设计个性化的应用练
汇训练手段,可以有效提升教学绩效,帮助学生更 习。根据学习数据反馈中发现的不足,我们可以利
好地识记生词。 用 HSK 四级真题听力语料所提供的词汇使用语境,
此外,我们还可以利用主题词汇的共现网络 有针对性地帮助学生解决学习中有代表性的问题、
图(见图 4)进行词汇练习。 错误率高的语言点,或整体正确率偏低的难点。
举例来说,习惯用语的听后理解水平往往会
影响学生考试成绩。如果学生在使用习惯用语“没
想到”时遇到困难,我们可以检索所有相关的语
料,通过真题例句提炼其使用语境、语用条件或语
法特点。表 3 展示了在“爱好习惯”主题聚类语料
中检索到包含“没想到”的全部真题例句。通过分
析这些语料,我们总结出以下使用语境:①“没想
到”独立用于疑问句中,通常用于引出话题或进行
解释;②“没想到”表示事情的发展结果与预期不
符;③“没想到”表明说话者非常惊讶,改变了之
前的认知。

图 4 “爱好习惯”高频主题词汇共现网络 表3 包含“没想到”的真题语料内容检索示意

文本内容
在“爱好习惯”主题的语料中,出现频率前
没想到 吧?第一次见她的时候,我也以为她刚大
5 的主题词汇为“比赛、结果、羽毛球、运动、女 1
学毕业。
朋友”。这些词汇处于共现网络的核心位置,其节 那天的事情太突然了,李先生也没想到 会弄成这
2
点颜色和连线密度也能反映出它们在网络中的地 个样子,他当时并不是故意的。

位,同时连线箭头也反映了词汇之间的共现关系。 3 谢谢,没想到打乒乓球的运动量也这么大。

例如,我们可以找到“开始—继续—马上—商场— 基于上述总结,我们可以设计相关练习,如
女朋友”这样的共现链条,然后组织学生进行以 听后选词填空、听后判断、听后回答问题、听后完
该链条为提示的造句练习。这种高度可控的造句练 成句子等,以加强学生对这个习惯用语的理解和应
习可以降低学生产生偏误的概率,也可以进一步巩 用能力。这些个性化练习能够有针对性地提高学生
固记忆,增进学生对语境的理解和掌握,满足交 的听力水平。

27
国际中文教育(中英文) 第 9 卷 2024 年第 1 期

这样的词汇教学模式能够与 HSK 考试紧密结 从而提高教学绩效。这种教学方法可以使词汇教学

合。教师可以充分把握听力考试中的词汇要点和难 摆脱反复听讲的简单模式,帮助学生在词汇共现网

点,有针对性地设计教学内容和训练项目,更好地 络中全面理解词类、词义、词性和使用语境。

实现“考教结合”的重点突破。 基于自然语言处理的文本分析技术能够挖掘
词汇成分之间的不同组合,形成网状知识结构,有
五、讨论 助于教师识别学生在学习过程中遇到的难点和挑

通过数据挖掘和文本分析方法将听力语料进 战,并相应实施有针对性的教学策略,为学生提供
个性化的教学内容。此外,这种技术还能够自动生
行聚类分析,深入挖掘文本类别和主题词汇的内在
成评估和反馈,帮助教师更好地跟踪学生的学习进
关系,随后进行可视化呈现,教师能够区分基础词
度。综合运用听觉和视觉双通道输入的教学方法能
汇和核心主题词汇,从而减少课堂上的讲解时间,
够显著改善 HSK 听力词汇教学效果,帮助学生更
留出更多时间进行更多有针对性的练习。
好地掌握词汇知识,同时提高听后快速反应能力,
在数据统计结果和词汇共现网络的基础上,
进而提高解题、答题的听力应考能力。
教师可以将词汇使用条件、上下文语境、语用条

件、语气态度等特点,以词云图、共现网络图、左 作者简介
右邻词图等方式可视化呈现。这样能让学生通过听 管延增,北京语言大学应用中文学院讲师,主要研究方向

觉和视觉的双通道输入,更好地理解和掌握词汇, 为对外汉语教学法和现代教育技术。

附注
1 K 均值聚类算法(K-means Clustering Algorithm)将数据分为 K 组,则随机选取 K 个对象作为初始的聚类中心,然后计算每个对象与

各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心及分配给它们的对象就代表一个聚类。每分配一

个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或

最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
2 困惑度
(Perplexity)是一种用于评估语言模型
(Language Model)质量的指标。它主要用于衡量语言模型对新样本的预测能力,即在给

定一组样本后,语言模型能够产生多大程度上符合这些样本的新样本。
3 《国际中文教育中文水平等级标准
(GF0025—2021)
》于 2021 年正式发布并实施,其中要求的各等级需掌握的词汇量均有所提升。但目

前正在实施的 HSK 一—四级考试在未来几年内不会进行难度调整,考试内容与考试效力不变,本研究及相关教学实践仍以 2015 年的

《HSK 考试大纲》为准。
4 字体加粗词汇为词云图中的主题词汇。

参考文献
常乐,马军财,2017. 听力与阅读输入模态下二语附带词汇习得效果对比研究 [J]. 外语教育研究(3):21-29.

韩普,等,2013. 基于混合策略的英汉双语新闻聚类研究 [J]. 情报科学(1):118-122.

李立新,2006. 论对外汉语词汇教学对语境理论的应用 [J]. 陕西师范大学学报(哲学社会科学版)(S2):286-288.

连秀萍,黄港飞,2010. 不同输入方式对附带英语词汇习得的影响 [J]. 西安外国语大学学报(3):110-113.

刘超英,1993. 从留学生入系听课的困难看中高级听力教学 [D]. 北京:北京大学 .

28
主题论坛:国际中文词汇教学研究 / 基于共现网络的 HSK 听力词汇教学模式构建

卢岚岚,1997. 改进听力课教学的几个问题 [G]// 北京语言文化大学汉语速成学院 . 汉语速成教学研究(第一辑). 北京:北

京大学出版社 .

毛海莹,2002. 提高零起点短期班留学生 HSK 听力成绩对策 [J]. 宁波大学学报(教育科学版)(2):94-97.

熊忠阳,等,2011. 一种有效的 K-means 聚类中心初始化方法 [J]. 计算机应用研究(11):4188-4190.

杨惠元,2000. 辨音辨调跟理解词义句义的关系:一次听力理解的实验 [J]. 世界汉语教学(1): 82-88.

吴锦池,余维杰,2021. 融合知识库语义的文本聚类研究 [J]. 情报杂志(5):156-164.

张会兵,等,2019. 基于主题分析的用户评论聚类方法 [J]. 计算机科学(8):50-55.

张庆,薄彤,2015. 关于 HSK 四级听力教学的思考:以天津中医药大学越南短期汉语强化班为例 [J]. 南昌师范学院学报(社

会科学)(5):80-82,98.

周小兵,1994. 情景和情景教学 [J]. 中山大学学报论丛(2):68-73.

张晋涛,2005. 关联理论在对外汉语听力教学中的应用 [D]. 长春:吉林大学 .


ADOLPH S, SCHMITT N, 2003. Lexical coverage of spoken discourse[J]. Applied linguistics, 24(4): 425-438.

LAUFER B, 1992. How much lexis is necessary for reading comprehension?[G] // ARNAUD P, BEJOINT H. Vocabulary and applied

linguistics. London: Macmillan: 126-132.

NATION I S P, 1990. Teaching and learning vocabulary[M]. New York: Newbury House.

(责任编辑 张俊睿)

(上接 9 页)
王佶旻,2021. 来华留学预科教育的汉语能力标准 [J]. 语言教学与研究(2):26-34.

王佶旻,等,2020. 中国政府奖学金预科教育结业考试:基础汉语常用词汇表 [M]. 北京:北京语言大学出版社 .

王军,2019. 高级汉语集合式词汇课程的设计与实践 [J]. 国际汉语教学研究(3):25-39.

魏晖,等,2023.“国际中文教育集成创新”大家谈 [J]. 语言教学与研究(5):1-12.

杨惠元,2003. 强化词语教学,淡化句法教学:也谈对外汉语教学中的语法教学 [J]. 语言教学与研究(1):37-43.

翟艳,2018. 汉语预科教育模式的建构 [J]. 国际汉语教学研究(3):10-14.

张博,2018. 提高汉语第二语言词汇教学效率的两个前提 [J]. 世界汉语教学(2):241-255.


张博,2020.“语素法”“语块法”的要义及应用 [J]. 语言教学与研究(4):12-24.

祝智庭,2016. 智慧教育新发展:从翻转课堂到智慧课堂及智慧学习空间 [J]. 开放教育研究(1):18-26,49.


HATCH E, BROWM C, 2001. Vocabulary, semantics and language education[M]. Beijing: Foreign Language Teaching and Research

Press.

(责任编辑 张俊睿)

29

You might also like