Professional Documents
Culture Documents
基于 LDA 主题模型的中国国家形象研究
———以越南通讯社报道为例
覃秋荣
( 广西大学新闻与传播学院 广西南宁 530004)
摘 要:[ 目的 / 意义] 越南通讯社作为越南官方媒体,具有一定地位,研究其如何报道中国、如何建构中国国家形象对于中
国完善国际传播的形式、考量未来与越南的发展方向具有重要意义。 [ 方法 / 过程] 使用文本挖掘的研究方法,对越南通讯社官
方网站 2022 年 1 月至 2023 年 5 月的涉华报道进行内容分析,使用 LDA 主题模型提取媒体报道的重要主题,通过主题分析揭示
越南媒体报道建构的潜在中国形象,并将研究结果可视化。 [ 结果 / 结论] 从文本集中共提取到 7 个主题,进行主题聚类后赋予
主题名称并展示 15 个关键词。 越南官方媒体塑造的中国形象既有大国崛起的“ 威胁” ,又是经济发展的机遇,还有文化“ 同化”
的风险。
关键词:LDA 主题模型;中国国家形象;越南通讯社
中图分类号:G206 文献标识码:A doi:10.3969 / j.issn.1005-8095.2023.10.006
Abstract: [ Purpose / significance] As the official media of Vietnam, Vietnam News Agency ( “ VNW” for short) has a certain sta⁃
tus. Studying how it reports on China and how to construct China’ s national image is important for China to improve the form of interna⁃
tional communication and consider the future direction of development with Vietnam. [ Method / process] This paper uses the research
method of text mining to analyze the content of China-related reports on the official website of VNA from January 2022 to May 2023, uses
the LDA models to extract the important topics of media reports, reveals the potential China image constructed by Vietnamese media re⁃
ports through thematic analysis, and visualizes the research results. [ Result / conclusion] A total of 7 topics are extracted from the text
set. After topic clustering, topic names are given and 15 keywords are displayed. The image of China shaped by Vietnamese official media
has both the “ threat” of the rise of a great power, the opportunity of economic development, and the risk of cultural “ assimilation” .
Keywords: LDA model; China’ s national image; VNA
0 引言 由贸易区的开设,《 区域全面经济伙伴关系协定》 的
国家形象作为国家软实力的重要组成部分,对 签订等有了更多互惠往来。 越南在东南亚国家中具
一个国家在全球政治中的战略地位具有重要作用。 有一定影响力,作为中国的邻居、伙伴与竞争对手,
中国国家形象的建构包含基于民族文化特性与对外 对于中国国家形象的建构可能发挥积极作用,也可
话语权争夺而“ 自塑” 的形象,也包括其他国家和民 能发挥消极作用。 越南通讯社( 简称越通社) 作为官
族基于对中国的现实观察和政治目的而“ 他塑” 的形 方媒体,是越南民众了解信息的来源,研究其如何报
象。 中国与越南有着数千年的交往史,两国毗邻而 道中国、如何建构中国国家形象对于中国完善国际
居,在历史的长河中曾是亲密无间的伙伴,也曾兵戎 传播的形式、考量未来与越南的发展方向具有重要
相向;在南海问题上发生过争端,也因中国—东盟自 意义。
收稿日期:2023-06-15
作者简介:覃秋荣(1999—) ,女,2021 级硕士研究生,研究方向为网络与新媒体。
37
2023 年 10 月 情报探索 第 10 期( 总 312 期)
1 文献综述 的作用,对塑造国家形象相关研究具有重要意义,但
1.1 LDA 主题模型 是公众的态度极大程度会受到媒体的影响,该研究
Blei 等人于 2003 年提出 LDA 主题模型( Latent 没有从媒体的角度进行分析。
Dirichlet Allocation) ,这是一种文档主题生成模型。 同时,随着中国与东南亚国家的交往越来越频
由于包含词、主题和文档三层结构,也被称为三层贝 繁,如何向东南亚国家塑造全面立体的中国国家形
叶斯概率模型。 [1]
LDA 可以用来推测文档的主题分 象、东南亚国家如何看待中国成为研究的热点,通过
布,根据词语的概率分布情况推导出文章主题的概 内容分析的方法研究东南亚国家的涉华报道也早有
率分布情况,因此可以用于识别文本数据中隐含的 先例。 罗奕以东盟国家大众媒体的涉华报道为研究
主题。 运行 LDA 模型得到文档的主题分布后,就可 对象,对报道进行舆情分析,他认为这些报道虽存在
以根据主题分布进行主题聚类或文本分类。 [2]
LDA 偏颇,但中国国家形象传播策略的制定也可从中挖
采用的是词袋模型,不计词汇出现的顺序,即仅考量 掘参考价值。[8] 该研究以东盟国家大众媒体为研究
其在文档中是否出现。 很多词语构成主题的概率分 对象,虽然全面,但却缺乏针对性。 东南亚各个国家
布,多个主题又构成文档的概率分布。 LDA 主题模 之间的差异也将导致不同国家对中国的看法不同。
型不是单纯的词频统计,而是词语、主题与文档之间 李春霞与黄敏则聚焦于越南,李春霞以越南 《 人民
的概率统计,能够精确客观地揭示词项间的语义关 报》 为样本分析了越南官方媒体的中国认知变迁,从
[3]
联,有助于分析文本深层次的语义关系。 榜样到伙伴、从追赶到平等,关注的政治领域从低级
1.2 当前研究概况 到高级。[9] 但是该研究重点在于越南官方媒体对中
LDA 主题模型应用的科学性已经有学者在实例 国的认知,而非其塑造的中国国家形象。 黄敏用内
中进 行 佐 证, Xu 等 通 过 LDA 主 题 模 型 与 基 于 容分析法研究了越南《 年轻人报》 报道中的中国形
kmeans 文本挖掘的方法相比较,抽取网络新闻文本 象,更详尽精准地分析出中国在越南民众心目中的
中的 话 题 内 容, 发 现 LDA 主 题 识 别 的 结 果 更 准 形象。[10] 该研究虽关注到越南媒体报道中的中国形
确。[4] 长期以来有大量学者利用 LDA 主题模型挖掘 象,但是所取样本已经过于陈旧。
文档的潜在主题及其演化趋势,LDA 主题模型已经 主题建模在文本挖掘、医学、经济学、社会网络
成为一种有效且热门的方法。 就传播效果研究而 分析等领域都有着广泛的应用,但却很少有研究使
言,尹章池等利用包含 LDA 主题模型在内的研究计 用 LDA 主题模型来研究越南官方媒体的涉华报道
算工具获取量化数据,探讨微博上两大公益博主的 并以此分析中国国家形象。 因此,本文基于 LDA 主
传播策略,及其在不同维度内形成的传播效果。 [5]
该 题模型对越南官方媒体越通社 2022 年以来的报道
研究所取的样本是微博博文,因此只能看到 LDA 主 内容进行分析,挖掘报道潜在主题,并分析越南官方
题模型在短文本中的应用情况。 就网络舆情研究而 媒体试图构建的中国国家形象。
言,李振鹏等利用 LDA 主题模型基于天涯杂谈语料 2 研究方法
库对帖子分类,探究天涯杂谈版块的网络舆情方向 本文使用文本挖掘的研究方法对媒体报道进行
[6]
和网民态度。 该研究虽然在网络舆情监测方面为 数据分析与可视化。 首先进行数据收集,收集特定
研究者提供了良好的方向,但却缺乏一定国际视野。 时间范围内更具权威性与相关性的媒体报道文章,
就国家形象研究而言,段淳林等运用 LDA 主题模型 创建新闻文本语料库;其次对文本进行预处理,目的
分析“ 一带一路” 背景下的网络舆情及公众态度,得 在于去除冗余与无意义信息;再进行 TF -IDF 向量化
到的主题基本都是积极的反馈,表明该倡议确实能 处理,以确定词语重要性;最后利用 LDA 模型提取
[7]
够驱动国家品牌形象构建。 该研究以公众态度的 主题与关键词,并将结果可视化。 具体操作步骤如
视角分析了“ 一带一路” 倡议对于构建中国国家形象 图 1 所示。
图1 数据处理流程图
38
2023 年 10 月 覃秋荣:基于 LDA 主题模型的中国国家形象研究 第 10 期( 总 312 期)
图3 主题间距离图
图4 主题 1 关键词条形图
40
2023 年 10 月 覃秋荣:基于 LDA 主题模型的中国国家形象研究 第 10 期( 总 312 期)
造真实立体的国家形象。 本研究仍存在一定局限 topic detection and tracking for online news texts[ J] . IEEE Ac⁃
性:首先,是样本选择,本文只选取了特定时段与特 cess,2019,7:58407-58418.
43