You are on page 1of 12

第9卷 第4期 数学建模及其应用 Vol.9No.4

2020 年 12 月 Ma
thema
tica
lMode
lingandI
tsApp
lica
tion
s Dec.2020
檺檺殣
檺檺檺檺檺檺檺殣
建模探索

檺殣
檺檺檺檺檺檺殣

新冠肺炎网络舆情的启示 :复工复产的
文本挖掘与分析
朱建平1,2,王炫力1
1.厦门大学 管理学院,福建 厦门 361005;2.厦门大学 健康医疗大数据国家研究院,福建 厦门 361005)

摘 要:统筹推进新冠肺炎疫情防控和复工复产,既是一场大战,也是一场大考 .以统筹推进复工复产为主题,采集
了 2020 年 2 月 1 日至 7 日网络舆情数据,经筛选得出 11 个热点话题,采用有向聚类的方法将 11 个热 点 话 题 分 为 5
类,运用词云、关联规则、复杂网络、文本倾向性分析等数据挖掘与可视化技术,着重描绘了话题的热度差异、内容
特征、关联关系以及倾向趋势,从而对这 7 天内民众对话题的关注特征进行刻画,并给出适当建议 .
关键词:统筹推进复工复产;词云;关联规则;复杂网络;文本倾向性分析

中图分类号:C812 文献标志码:A 文章编号:2095-3070(


2020)
04-0037-12

0 引言
网络舆情,是以网络为载体,以事件为核心,是广大网民情感、态度、意见和观点的表达 [1]、传播
与互动,以及后续影响 力 的 集 合 .根 据 中 国 互 联 网 信 息 中 心 第 44 次 《中 国 互 联 网 络 发 展 状 况 统 计 报
告》[2],截至 2019 年 6 月,我 国 网 民 规 模 达 8.
54 亿,较 2018 年 增 长 2 598 万,互 联 网 普 及 率 达
2% ,较 2018 年底提高 1.
61. 6 个百分点 .巨大的网民规模和不断攀升的互联网普及率说明,网络舆情
成为了当下舆情研究的重点 [3].因此,网络舆情分析是十分必要的 .
2020 年初,新型冠状病毒肺炎疫情开始,短期内给经济社会发展带来阵痛,但不会影响经济稳中
向好、长期向好的基本面 .当前疫情防控形势发生积极向好变化,我们有信心、有能力打赢这场决胜之
战 .自新冠疫情发生后,社会经济曾一度被按下 “暂停键”,基 于 当 下 防 控 的 良 好 态 势,复 工 复 产 势 在
必行 .当然,“两手都要抓、两手都 要 硬”,必 须 统 筹 推 进 疫 情 防 控 和 经 济 社 会 发 展 工 作,千 方 百 计 在
“暂停”后跑出 “加速度”.
大数据挖掘,是高级智能的最充分的体现 .互联网时代,计算机能够利用大量的信息与数据,类似
于人类 的 方 式,对 这 些 信 息 和 数 据 进 行 碰 撞、提 炼,总 结 出 一 些 前 所 未 有 的 规 则 [4-5].文 本 数 据 挖 掘
ng)是大数据挖掘中的重要一类,指从文本数据中抽取有价值的信息和知识 6-9 ,而词云、关
[ ]

tex
tmi
ni
联规则、复杂网络、文本倾向性分析,都是文 本 挖 掘 的 重 要 手 段 [1,10].词 云 图 [11]过 滤 掉 了 大 量 的 庞 杂
文本信息,从而使浏览者只要一眼扫过文本就可以领略文本的主旨 ;关联规则 [12-13]注重寻找特征之间
的影响关系,包括支持度、置信度、提升度三方面;复 杂 网 络 [14]可 以 抽 出 各 个 话 题 之 间 的 关 系;文 本
倾向性分析 [15-17]有助于更好地了解社会群体对有关话题的偏好程度,从而为推测舆情信息对群体行为
的影响提供依据 .
本文以统筹推进复工复产为主题,从近期受民众关注较高的11 个热点话题出发,采用有向聚类的
方法将其分为 5 类,并运用词云、关联规则、复杂网络、文本倾向性分析等大数据挖掘技术,着重描绘

收稿日期:2020-07-29
基金项目:国家社会科学基金重点项目( 005)
20ATJ
通讯作者:王炫力,E-ma
il:1492312730@qq.
com

· 37 ·
·建模探索· 新冠肺炎网络舆情的启示:复工复产的文本挖掘与分析 2020 年 12 月

了 2020 年 2 月 1 日至 7 日相关网络舆情话题间的热度差异、内容特征、关联关系以及倾向趋势,从而
对这 7 天内民众对话题的关注特征进行刻画,并给出适当建议 .
本文其余章节安排如下:第 1 节 介 绍 了 以 “统 筹 推 进 复 工 复 产”为 主 题 的 舆 情 数 据 的 来 源 情 况,
并采用有向聚类的方法,将从舆情信息中抽取的 11 个热点话题分为 5 类;第 2 节通过词云技术与描述
性统计,对5 类热点话题中高频词汇的内容特征进行描绘,并联系实际加以分析;第3 节,基于词云分
析,选取在热点话题中反复出现的 4 个高频词汇,分别以这些词汇 作 为 关 键 词,运 用 关 联 规 则 探 究 其
他词汇与其关系,基于相关关系给出分析和建议;第4 节运用复杂网络技术探究 11 个热点话题之间的
联系;第 5 节运用自适应调整倾向性分析方法,得到了民众对 5 类 热 点 话 题 情 感 态 度 的 数 量 描 述,并
对其 7 天变化趋势加以分析;第 6 节对本文进行总结 .本文第 2 节、第 3 节、第 4 节和第 5 节的实验均
采用 R 语言实现 [18].

1 舆情数据来源及预处理

1 数据来源
1.
以 “统筹推进复工复产”为主题,对百度、腾讯等 7 家大型门户网站进行网络舆情获取,以2020 年 2
月 1 日至 7 日为限,共获取舆情 2726 条,作为分词、话题筛选、词频统计的基础,如表 1 和图 1 所示 .
表 1 舆情来源网站及网址

网站 网址 占比/%

腾讯 h
ttps:
//www.
qq.
com/ 32
人民网 h
ttp:
//www.
peop
le.
c cn/
om. 28
网易 h
ttps:
//www.
163.
com 20
丁香网 h
ttp:
//www. cn/
dxy. 7
百度 h
ttps:
//www.
bai
du.
com 7
国家卫健委 h
ttp:
//www.
nhc.
gov.
cn 7

图 1 舆情来源时间分布图 凤凰网 h
ttp:
//www.

feng.
com 1

2 舆情热点话题
1.
基于复工复产的工作实际与网络舆情分析的相关需要,围绕统筹推进复工复产的主题,根据有关
筛选及分类规则,对抓取的 2726 条舆情信息进行精简,从中抽取出以下 11 个民众普遍关注的复工话
题作为目标热点话题 .
话题 1:复工复产 .复工复产,是指因特殊原因、特殊时期、非常时期而使全部或大部分企事业单
位不能进行生产活动、生产经营活动、停工停产后,由国家和地方政 府 统 一 指 导 的 复 工 与 复 产 相 关 事
项及系列问题 .当下疫情防控态势向好,复工复产条件成熟 .
话题 2:防疫物资 .为扎实做好疫情防控工作,消毒液、酒精、口罩、测温枪等防疫物资必不可少 .
增加供给,提供货源的稳定渠道,并且保证物资质量,是消除民众恐慌情绪、推进复工复产的坚实后盾 .
话题 3:健康监测 .健康监测是指对 特 定 人 群 或 人 群 样 本 的 健 康 状 况 的 定 期 观 察 或 不 定 期 调 查 及
普查,以掌握其健康及疾病状况 .健康监 测 是 健 康 管 理 的 工 作 基 础,对 健 康 危 险 因 素 的 早 期 干 预 和 疾
病早期发现具有重要意义 .
话题 4:防疫政策 .防疫政策是一切行动的指挥棒 .政策对控 制 疫 情 传 播、普 及 防 疫 知 识、缓 解 公
众焦虑情绪以及维护社会稳定起到了积 极 作 用 .为 配 合 做 好 相 关 防 疫 工 作,保 障 公 民 健 康 和 安 全,应
遵守防疫政策,减少不必要的外出,避免人员聚集 .
话题 5:服务行业 .本次疫情对服务行业是一次重大考验 .如何保证服务行业的稳定,从而保障人
们的基本生活需求,成为民众关注的热点 .如超市、医院等服务行业,员工坚守在工作岗位,保障了人
民的基本生活需求 .超市成为居民生活重要的补给站,而医院是抗疫的重要阵地 .
话题 6:企业帮扶 .疫情期间,很多企业遭受重创,如何为企业发展创造良好环境,帮助企业解决
困难,促进企业发展,成为重要话题 .企业是社会经济平稳运行的中坚力量,只有帮扶企业渡过疫情困
· 38 ·
第 9 卷第 4 期 数学建模及其应用 Vo
l.9No.
4 Dec.
2020

难期,才能确保社会经济的稳定和发展 .
话 题 7:特殊医保 .医疗保险又称健康保险,是为补偿疾病所带来的医疗费用的一种保险 .在我国,
该险种处于起步阶段 .而对于突发疾病,普通医保不能报销,此时,对于重大的、突发的疾病,特殊医
保的重要性不言而喻 .
话题 8:反扑 .在复工复产热火朝天的当下,如果疫情反扑,就 会 重 新 给 民 众 带 来 恐 慌 .如 果 找 不
到传染源,不能有效切掉传染链,复工人员将面对巨大的感染风险,复 工 后 开 足 马 力 抢 回 的 疫 情 损 失
也会因疫情的反扑而付诸东流 .因此,必 须 更 加 重 视 卫 生 和 健 康,并 在 任 何 时 候 都 保 持 对 公 共 卫 生 威
胁的警惕和防范 .
话题 9:远程(在线)技术 .远程技术是利用无线或有线信号对远端的设备进行操作的一种能力 .疫
情下,远程医疗、远程教育等,改变了人们的生产生活方式,其依赖的远程在线技术,成为民众关注的
热点话题 .
话题 10:传染病监测 .传染病监测是国家赋予出入境检验检疫机构的职 责,是 国 境 卫 生 检 疫 的 工
作内容之一 .它基于影响人体健康因素的调查研究,预测有关传染病的发生、发展和流行规律,并采取
必要的预防控制措施 .通过传染病监测能有效地防止传染病的传入和传出 ,保护人体健康 .
话题 11:数 据 开 放 .秉 持 整 合 资 源、促 进 共
享、强化安全的原则,加强数据共享开放和大数
据服务能力,能 够 促 进 跨 领 域、跨 部 门 合 作,推
进信息数据交换,打破部门壁垒,遏制信息孤岛
和重复建设,提高行政效率,转变思维观念 .
3 数据预处理
1.
11 个热点 话 题 各 自 包 含 的 舆 情 信 息 数 量 如
图 2 和表 2 所示 .
本节采用有 向 聚 类 的 方 法,将 11 个 热 点 话
题分为 5 类,具体分类过程如下: 图 2 热点话题所含舆情信息量直方图

1)将11 个热点话题( i=1,2,…,11)按所含信


xi , 表 2 热点话题所含信息量

息量qi 从大到 小 排 序,并 计 算 相 邻 热 点 话 题 信 息 量 之 序号 热点话题 所含信息量

差 di,i+1= qi+1 -qi(


i=1,2,…,10),如 表 3 所 示 .设 1 复工复产 1007

置阈值α=80,若 di,i+1 >α,则在i, i+1 处断开,由此 2 防疫物资 719

可分得 4 类,如表 4 所示 . 3 健康监测 309


nj 4 防疫政策 246
2)计算各类的组内方差σj

=∑ (
qjk -qj )/nj (

j= 5 服务行业 160
k=1

1,2,3,4),其中:nj 为第j 类所含标志值的个数;qjk 6 企业帮扶 100

7 特殊医保 33
为第j 类第k 个标志值;qj 为第j 类标志 值 的 组 内 平 均
8 反扑 55
数 .设置阈值β=1000,若σj

>β,则说明该类组内误差
9 远程(在线)技术 52
大,需要再次分类 .经 计 算 发 现 第 4 类 组 内 方 差 大 于 阈
10 传染病监测 27
值,因 此 对 第 4 类 进 行 再 分 类:设 置 阈 值 γ =40,若
11 数据开放 18
di,i+1 >γ,( i+1 处断开,由
i=5,6,…,10 ),则在i,
此将第 4 类拆分为 2 类 .综上,将 11 个热点话题共分为 5 类,如表 5 所示 .

表 3 相邻热点话题信息量的差值

序号i 1 2 3 4 5 6 7 8 9 10

di,i+1 288 410 63 86 60 45 3 19 6 9

第 1 类包含热点话题 “复工复产”,当下疫情防控成积极向好态势,复工复产是受全社会关注的重
要话题 .
· 39 ·
·建模探索· 新冠肺炎网络舆情的启示:复工复产的文本挖掘与分析 2020 年 12 月

第 2 类包含热点话题 “防疫物资”,物资是一切防疫工作的基础,保障物资稳定才能打好防疫工作
的坚实基础 .
第3 类包含热点话题 “健康监测”和 “防疫政策”.健康监测是防控传染性新冠肺炎的有效手段,防疫
政策对疫情防控呈纲领性指导作用,通过防疫政策来完善健康监测体系,是当下必须讨论的重要话题 .
第 4 类包含 热 点 话 题 “服 务 行 业”和 “企 表 4 第一次分类的组内方差

业帮扶”.服 务 行 业 在 本 次 疫 情 中 面 临 着 严 峻 序号i 1 2 3 4

考验,如何通过企 业 帮 扶 来 重 振 服 务 行 业,是 2
σj 0 0 992.
25 2168.
82
打赢疫情保卫战的重要组成部分 .
第 5 类包含热点话题 “反扑”“远程(在线)技术”“特殊医保”“传染病监测”和 “数据开放”.如何
将新科技应用于医疗体系、提高监测质量、防止疫情反扑,都是值得探讨的重要话题 .
表 5 两次分类结果

第一次分类 第二次分类 分类最终结果

第1类 {
1} 第1类 {
1} {复工复产}

第2类 {
2} 第2类 {
2} {防疫物资}

第3类 {
3,4} 第3类 {
3,4} {健康监测,防疫政策}

第4类 {
5,6,7,8,9,10,11} 第4类 {
5,6} {服务行业,企业帮扶}

第5类 {
7,8,9,10,11} {反扑,远程(在线)技术,特殊医保,传染病监测,数据开放}

2 舆情话题分词特征介绍

1 词语技术概述
2.
“词云”就是通过形成 “关键词云层”或 “关键词渲染”,对网络文本中 出 现 频 率 较 高 的 “关 键 词”
的视觉上的突出 .词云图(
wordc
loud)1 11 是一种信息文本可视化技术,通过布局算法,用文字大小表
[, ]

示词频,并辅以多种色彩显示形式,直观反映词汇的重要性差异,从 而 对 目 标 文 本 的 关 键 词 汇 信 息 进
行展示 .词云图是近几年出现的文本挖掘中可视化技术,其强大 的 数 据 展 现 力 得 到 学 术 和 信 息 传 播 界
的广泛关注 .
2 统筹推进复工复产舆情词云分析
2.
第 1 类:复工复产
通过观察 “复工复产”话题的高频词汇分布及词云(图 3)不难发现,企业是复工 复 产 的 中 流 砥 柱 .
人们高度关注疫情给企业复工复产带来 的 巨 大 挑 战 .在 企 业 复 工 中,如 何 采 取 有 效 防 疫 手 段、保 证 生
产工作顺利进行,也是人们关注的焦点 .

图 3 第 1 类话题高频词汇分布及词云

第 2 类:防疫物资
通过观察 “防疫物资”话题的高频词汇分布及词云(图 4)发现,“物资”“疫情”出现频率最高,体
现了疫情期间基本生活物资和医疗物资对民众的重要性 .此外,“防控”“企业”两词的高频出现,体现
了防疫物资在企业疫情防控中的重要地位 .“口罩”一词的高频出现反映出在所有物资中,民众对口罩
最为关注 .
· 40 ·
第 9 卷第 4 期 数学建模及其应用 Vo
l.9No.
4 Dec.
2020

图 4 第 2 类话题高频词汇分布及词云

第 3 类:健康监测,防疫政策
通过观察 “健康监测”和 “防疫政策”话题的高频词汇分布及词云(图5),发现 “防控”“疫情”“企
业”“工作”“人员”是人们关注的焦点,体现了在企业疫情防控中人们对指导政策的重视,而人员的健
康监测是企业疫情防控的重中之重 .只有保障人员身体监控,才能保障企业复工工作稳步进行 .

图 5 第 3 类话题高频词汇分布及词云

第 4 类:服务行业,企业帮扶
通过观察第 4 类话题的高频词汇分布及词云(图 6),发现 “企业”一词受民众关注度最高,这反映
出企业在统筹推进复工复产工作中的核心地位 .此外,“服务”一词的高频出现,体现出服务业在本次
疫情中处于风口浪尖的位置,服务行业如何能挺过疫情寒冬期、谋求新发展,也是人们关注的重点 .

图 6 第 4 类话题高频词汇分布及词云

第 5 类:反扑,远程(在线)技术,特殊医保,传染病监测,数据开放
通过观察第 5 类话题的高频词汇分布和词云(图 7),发 现 “防 控”“疫 情”“肺 炎”“数 据”“企 业”
等词出现频率较高 .这体现出民众对新技术的高度关注 .运用远程(在线)技术和大数据平台,完善医疗
体系并提高传染病监测效率,从而更加有效地进行疫情防控,推动企业复工复产 .

图 7 第 5 类话题高频词汇分布及词云

· 41 ·
·建模探索· 新冠肺炎网络舆情的启示:复工复产的文本挖掘与分析 2020 年 12 月

3 舆情关键词关联规则分析

1 关联规则简介
3.
关联反映的是一个事件和其他事件之间依 赖 或 联 系 的 知 识 .关 联 规 则 [1,12-13]是 数 据 挖 掘 的 主 要 技
术之一,也是在无监督学习系统中挖掘本 地 模 式 的 最 普 通 形 式,它 注 重 寻 找 特 征 之 间 的 影 响 关 系 .设
I1 ,I2 ,…,Im }为一组数据项集(简称项集),Ip (
I= { p=1,2,…,m )称 为 数 据 项(简 称 项).
I 的任
何非空子集 X ,若集合 X 中包含k 个项,则称 k 项集 .关联规则的事务 Tk ( k=1,2,…,n)是项集 I
的非空子集,即 Tk I,项集的集合构成事务集,记为 D ,D = {
T1 ,T2 ,…,Tk ,…,Tn }.若 X I,
Y I ,且 X ∩Y =,蕴含式 R :X Y 称为关联规则 .关联规则的内容包含三点:支持度、置信度和
提升度 .支持度衡量事务集 D 中有百分之多少的事 务 同 时 支 持 项 子 集 X 和 Y ;置 信 度 衡 量 D 中 在 支
持项子集 X 的事务中有百分之多少的事务同时也支持项子集 Y ;提升度衡量 D 中支持项子集 X 的事
务出现,对项子集 Y 的出现有多大的影响 .
2 统筹推进复工复产舆情中关键词的关联分析
3.
本文以统筹推进复工复产为主题,对百度、腾讯等 7 家大型门户网站进行网络舆情获取,以 2020
年 2 月1 日至 7 日为限,共获取舆情 2726 条,每条舆情信息构成一个事务,众多舆情信息一起构成事
务项集 .基于上述词云分析,选取在热点话题中反 复 出 现 的 高 频 词 汇 “复 工”“疫 情”“监 测”“企 业”,
分别以这些词作为核心,探究其他 词 汇 与 其 关 系 [18],并 基 于 相 关 关 系,给 出 分 析 和 建 议 .例 如:在 以
“企业”为核心的关联分析中,5 类热点话题均包含 了 “企 业”一 词,因 此 以 这 5 类 热 点 话 题 的 舆 情 信
息为基础,设置一定的支持度和置信 度 为 阈 值,得 到 与 “企 业”高 度 相 关 的 一 些 词 汇 “帮 扶”“发 展”
等,基于这些词汇之间的相关关系和实际意义,进行分析并提出建议 .
为了更直观地表示输出结果,采取图 示 方 式 对 其 进 行 表 示 .在 图 中,箭 头 方 向 表 示 关 联 规 则 的 指
向,圆点越大代表规则的支持度越高,圆点颜色越深则代表规则的提升度越高 .
3.1 复工
2.
在支持度大于 0. 9 的水平下,共运算得 60 条关联规则,如图 8 所示 .以 “复工”为
7,置信度大于 0.
核心出发点,其中,“工作”“企业”等对 “复工”支持度较高,体现出“复工”“复产”“工作”“企业”之间
的紧密联系 .复工复产离不开企业,疫情之下,如何让企业员工正常工作,成为复工复产的重中之重 .
3.2 疫情
2.
在支持度大于 0. 9 的 水 平 下,共 运 算 得 26 条 规 则,如 图 9 和 表 7 所 示 .其 中,
6,置信度大于 0.
“疫情”一词处于核心位置,“防控”“物 资”等 词 对 其 支 持 度 和 提 升 度 都 较 高,与 其 关 系 紧 密 .疫 情 期
间,人们高度关注物资,物资是防疫抗疫的物质基础 .目前,疫情仍以防控手段为主,这也体现了传染
病以预防为主的特征 .
表 6 以 “复工”为核心的关联规则节选

先导 后继 支持度 可信度 提升度

{复产}  {复工} 0.
9575707 0.
9982654 1.
003273

{复工}  {复产} 0.
9575707 0.
9623746 1.
003273

{疫情}  {复工} 0.
9484193 0.
9986859 1.
003696

{复工}  {疫情} 0.
9484193 0.
9531773 1.
003696

{复产}  {疫情} 0.
9163894 0.
9553339 1.
005967

{疫情}  {复产} 0.
9163894 0.
9649584 1.
005967

{复产,疫情}  {复工} 0.
9159734 0.
9995461 1.
004561

{复产,复工}  {疫情} 0.
9159734 0.
9565595 1.
007258

{复工,疫情}  {复产} 0.
9159734 0.
9565595 1.
006833

{防控}  {复工} 0.
8768719 0.
9985789 1.
003588

· 42 ·
第 9 卷第 4 期 数学建模及其应用 Vo
l.9No.
4 Dec.
2020

图 8 以 “复工”为核心的关联图 图 9 以 “疫情”为核心的关联图
表 7 以 “疫情”为核心的关联规则节选

先导 后继 支持度 可信度 提升度

{防疫}  {物资} 0.
9015306 0.
9794900 1.
0061847

{物资}  {防疫} 0.
9015306 0.
9261006 1.
0061847

{疫情}  {物资} 0.
9005102 0.
9740618 1.
0006086

{物资}  {疫情} 0.
9005102 0.
9250524 1.
0006086

{防疫}  {疫情} 0.
8505102 0.
9240576 0.
9995326

{疫情}  {防疫} 0.
8505102 0.
9199779 0.
9995326

{防疫,疫情}  {物资} 0.
8336735 0.
9802040 1.
0069181

{防疫,疫情}  {疫情} 0.
8336735 0.
9247312 1.
0002611

{防疫,疫情}  {防疫} 0.
8336735 0.
9257790 1.
0058353

{疫情,物资}  {防疫} 0.
7479592 0.
9905405 1.
0714456

3.3 监测
2.
在支持度大于 0. 9 的水平下,共运算得 46 条规则,如表 8 和图 10 所示 .以 “监
6,置信度大于 0.
测”为核心,“传染病”与其支持度、置信度 和 提 升 度 都 很 高,体 现 了 二 者 相 互 间 的 密 切 联 系 .“监 测”
是控制传染病的一种手段 .新冠病毒传染性极强,目前还未有特效药出现,“监测”便成为防控疫情的
主要手段 .
表 8 以 “监测”为核心的关联规则节选

先导 后继 支持度 可信度 提升度

{监测}  {传染病} 0.
9173333 0.
9899281 1.
001951

{传染病}  {监测} 0.
9173333 0.
9284750 1.
001951

{工作}  {传染病} 0.
7853333 0.
9899160 1.
001939

{工作}  {监测} 0.
7506667 0.
9462185 1.
021099

{工作,监测}  {传染病} 0.
7440000 0.
9911190 1.
003157

{传染病,工作}  {监测} 0.
7440000 0.
9473684 1.
022340

{疫情}  {传染病} 0.
7306667 0.
9945554 1.
006635

{疫情}  {监测} 0.
6986667 0.
9509982 1.
026257

{监测,疫情}  {传染病} 0.
6946667 0.
9942748 1.
006351

{传染病,疫情}  {监测} 0.
6946667 0.
9507299 1.
025968

3.4 企业
2.
在支持度大于 0. 9 的水平下,运算共得 10 条关联规则,如表 9 和图 11 所示 .以
5,置信度大于 0.
“企业”为焦点可以发现,“帮扶”“发展”与其置信度和提升度较高 .由此说明,需要大力帮扶企业挺过
疫情的寒冬期,助力其转型、发展 .此次疫情对企业而言,既是机遇,更是挑战 .如:餐馆虽不能堂食,
· 43 ·
·建模探索· 新冠肺炎网络舆情的启示:复工复产的文本挖掘与分析 2020 年 12 月

但新增外卖服务;超市虽不能正常营 业,但 新 增 送 货 上 门 服 务 等 .通 过 帮 扶,使 企 业 以 此 次 疫 情 为 契


机,获得更进一步的发展 .

图 11 以 “企业”为核心的关联图
图 10 以 “监测”为核心的关联图
表 9 以 “企业”为核心的关联规则节选

先导 后继 支持度 可信度 提升度

{帮扶}  {企业} 0.
8516484 0.
9412955 0.
9989259

{企业}  {帮扶} 0.
8516484 0.
9037901 0.
9989259

{发展}  {企业} 0.
6630037 0.
9513798 1.
0096275

{工作}  {企业} 0.
6465201 0.
9489247 1.
0070222

{发展}  {帮扶} 0.
6382784 0.
9159001 1.
0123107

{工作}  {帮扶} 0.
6373626 0.
9354839 1.
0339559

{帮扶,发展}  {企业} 0.
6053114 0.
9483501 1.
0064123

{发展,企业}  {帮扶} 0.
6053114 0.
9129834 1.
0090869

{帮扶,工作}  {企业} 0.
6043956 0.
9482759 1.
0063336

{工作,企业}  {帮扶} 0.
6043956 0.
9348442 1.
0332488

4 舆情复杂网络分析

1 复杂网络技术简介
4.
复杂网络(
comp
lexne rk),是对复杂系统的抽象和描述方式,任何包含大量 组 成 单 元(或 子 系
two
统)的复杂系统,当把构成单元抽象成节点、单元之间的相互关系抽象为边时,都可以当作复杂网络来
研究 [14].通过对复杂网络的研究,人们可以对模糊世界进行量化 .其复杂性主要表现在以下几个方面:
1)结构复杂,节点数目巨大,网络结构呈现多种不同特征;2)网络进化,节点或连接的产生与消失;3)
连接多样性,节点之间的连接权重存在差异,且 有 可 能 存 在 方 向 性;4)节 点 多 样 性,复 杂 网 络 中 的 节
点可以代表任何事物 .
2 热点话题复杂网络分析
4.
为了刻画这 11 个热点话题之间的联系,本节以 “统筹推进复工复产”为主题,基于词频的相关矩
阵,绘制了 11 个热点话题的网络分布 .线段代表热点话题两两之间相关,线段的粗细代表相关性的强
度,每个节点代表一个热点话题,节点大小表示词汇对热点话题描述的相对词汇量,如图 12 所示 .由
图 12 可以得出以下几个结论:
1)防疫物资与防疫政策关系最为紧密 .疫情期间,人们最关心的就是物资能否充分供给 .在疫情初
期,由于民众恐慌,曾一度出现口罩、消毒 水 等 物 资 一 抢 而 空 的 局 面,此 时 仅 仅 依 靠 市 场 力 量 是 不 够
的,必须需要政府的宏观调控 .而政府随后发出的增加生产线、全面提高供给能力以及限购等政策,有
效缓解了民众的恐慌情绪,平衡了市场供求关系,也稳定了民心,为防疫打下了坚实基础 .
2)复工复产、健康监测和传染病监测,三 者 关 系 密 切 .传 染 病 监 测 是 健 康 监 测 的 一 个 重 要 组 成 部
分 ,而 复 工 复 产 又 离 不 开 健 康 监 测 .
复 工 复 产 过 程 中 ,民 众 最 关 心 的 就 是 健 康 问 题 ,只 有 保 障 员 工 健
· 44 ·
第 9 卷第 4 期 数学建模及其应用 Vo
l.9No.
4 Dec.
2020

康,才能顺利推进复 工 复 产 .新 冠 病 毒 又 是 一 种 新 型 传
染病病毒,因此,必须在健 康 监 测 中 突 出 传 染 病 监 测 的
重要地位,才能符合形势要求 .
3)数 据 开 放 与 服 务 行 业、远 程 (在 线 )技 术 关 系 紧
密 .通过数据开 放,服 务 行 业 内 可 以 实 现 信 息 共 享,互
通有无,以携手抵御 疫 情 寒 冬 期;同 时,数 据 开 放 也 可
以进一步推动 远 程 (在 线)技 术 的 应 用,通 过 共 享 数 据,
可以让运用 远 程 技 术 办 公 的 民 众 获 得 更 为 广 阔 的 数 据
源,从而改进在办公中的决策,提高办公效率 .

5 舆情话题倾向性分析

1 文本倾向性分析方法
5.
图 12 11 个热点话题构成的复杂网络
文本倾向性分析是网络舆情分析中的重要一环,对
各个话题的网络舆情信息进行倾向性的识别,有助于更好地了解社会群体对有关话题的偏好程度,从
而为推测舆情信息对群体行为的影响提供依据 [15-17].
通过基于情感词加权的倾向性分析方法,根据11 个热点话题制定与之对应的情感词词库,并通过
自适应调整法得到情感词的权重 [1],从 而 获 取 11 个 热 点 话 题 网 络 舆 情 信 息 的 倾 向 性 量 化 指 标 [18].其
中,若指标结果小于 0,则表示该舆情信息倾向消极;若指标结果大于 0,则表示该舆情信息倾向积极 .
此外,指标的绝对值越大,代表对应倾向中的消极或积极程度越高 .
2 缺失值处理
5.
对于原始数据存在缺失的情况,即在某个热点话 题 下 的 某 一 天 新 闻 条 数 为 0,本 文 基 于 类 均 值 替
代的思想处理缺失值 .类均值法,是把均 值 替 代 的 思 想 应 用 到 分 类 数 据 中,用 缺 失 数 据 记 录 所 在 的 类
别的属性平均值代替缺失数据 .例如,第k 个热点话题下 2 月 x 日新闻条数为 0,就采用同一热点话题
下 2 月(
x-1)日与 2 月(
x+1)日倾向性指标的平均值作为缺失值的替代 .若缺失数据日前后两天也缺
失数据,即无法采用上述方法,就取该热点话题 1 月 x 日与 3 月 x 日的倾向性指标作为此热点话题 2
月 x 日缺失值的替代 .
3 热点话题的倾向性分析步骤
5.
1)以 “传染病监测”和 “
2020 年 2 月 1 日”为筛选条件,共得 M 条新闻 .将这 M 条新闻作为一个
整 体,进行分词,得积极词库 ΩP 和消极词库ΩN .其中,第k 条新闻中有Pnumk 个积极词汇,有 Nnumk 个
消极词汇,若 Pnumk -Nnumk >0,则第 k 条新闻为积极新闻,反之为消极新闻 .
2)计算第i 个积极词汇在所有积极新闻中出 现 的 次 数 Pi 、在 所 有 消 极 新 闻 中 出 现 的 次 数 Ni ,得
第i 个积极词汇的积极权重 WPi =Pi/(
Pi +Ni),i∈ΩP ;计算第j 个消极词汇在所有积极新闻中出
现的次数 Pj 、在所有消极新闻中出现的次数 Nj ,得第j 个消极词汇的消极权重 WNj =Nj/(
Pj +Nj ),
j∈ΩN .
3)计算第 k 条新闻的倾向性:
PNk = ∑Pki × WPi - ∑N k
j × WNj ,
i∈ΩP j∈ΩN

其中:Pki 为第i 个积极词汇在第k 篇新闻中出现的次数;Nkj 为 第j 个 消 极 词 汇 在 第k 篇 新 闻 中 出 现


的次数 .

4)计算 (∑PNk )
/M ,作为 “传染病监测”话题在 2020 年 2 月 1 日的平均倾向性指标 .
k=1

5)同理得 “传染病监测”2020 年 2 月 2 日 -7 日每天的平均倾向性指标 .


6)以此类推,计算余下 10 个热点话题 2020 年 2 月 1 日 -7 日每天的平均倾向性指标,共计 11×7
个数据(缺失值按 5.
2 中方法处理).
· 45 ·
·建模探索· 新冠肺炎网络舆情的启示:复工复产的文本挖掘与分析 2020 年 12 月

图 13 为 “复工复产”话题的倾向性趋势分析 .
以 2 月 3 日为转折点,自 2 月 3 日至 2 月 6 日,民众对 “复工复产”话题的积极倾向呈陡增趋势 .
这体现出人们在经历因疫情而引起的数月停工后,迫不及待地 想 要 复 工 复 产 .而 2 月 6 日 到 7 日 的 下
跌,体现出民众对复工复产的态度逐渐冷静、理智下来 .疫情有反扑的风险,复工复产是件大事,需要
有计划的、稳妥地统筹推进 .
图 14 为 “防疫物资”话题的倾向性趋势分析 .

图 13 第 1 类话题平均倾向性趋势分析 图 14 第 2 类话题平均倾向性趋势分析
“防疫物资”倾向性指数在 2 月 3 日至 2 月 7 日波动巨大,且整体数值较小 .这体现出民众对物资
的高度关注和较为紧张的情绪 .疫情期间,物资是 一 切 的 命 脉 .医疗物资、生活物资等等,都是控制疫
情、维持正常生活的重要基础 .因此,加大供给,确保物资稳定、充足的供给,是疫情期间的重中之重 .
图 15 为 “健康监测,防疫政策”的倾向性趋势分析 .
健康监测:虽然2 月2 日至2 月3 日有下跌,但自2 月3 日以后,民众对健康监测的积极倾向呈稳
步上升趋势 .这反映出健康监测的手段越来越科学、效果越来越好 .健康监测是统筹推进复工复产工作
中的重要板块,全面监测员工健康、防止疫情因复工人员密集而扩散,才能平稳推进复工工作 .
防 疫政策:2 月1 日至 2 月 2 日,民众对防疫政策的情感倾向有一个陡增趋势,这是由于政府新颁
布的防疫政策切中要害,切实解决了百姓 的 问 题 .随 后 几 天 呈 下 降 趋 势,说 明 疫 情 期 间 新 问 题 层 出 不
穷,需要不断出台新政策,以及时解决民众问题 .
图 16 为 “服务行业,企业帮扶”话题的倾向性趋势分析 .

图 15 第 3 类话题平均倾向趋势 图 16 第 4 类话题平均倾向趋势
服务行业:民众对服务行业情感指标波动较大 .疫情给服务行业带来了巨大考验 .一方面,疫情不
允许人口聚集,对于餐饮、超市等服务业无疑是重创;另一方面,长期而言,人们的生活离不开服务行
业 .因此,在统筹推进复工复产的过程中,服务行业的复工势在必行 .
企业帮扶:2 月 5 日至 2 月 6 日有段断崖式下跌,体现民众对企业帮扶的积极情绪急剧降低 .疫情
期间,很多企业因停工而遭受重创 .帮扶 企 业 挺 过 疫 情 寒 冬 期,既 是 统 筹 推 进 复 工 复 产 工 作 的 重 要 组
成部分,也是解决就业、保障民众生计、促动经济发展过程中不可或缺的一部分 .
图 17 为 “反扑,远程(在线)技术,特殊医保,传染病监测,数据开放”话题的倾向性趋势分析 .
· 46 ·
第 9 卷第 4 期 数学建模及其应用 Vo
l.9No.
4 Dec.
2020

反扑:“反扑”话题尽管波动较大,但
整体都为正数,这 说 明,民 众 虽 然 担 忧 疫
情反扑,但仍持 积 极 的 正 面 态 度,认 为 反
扑可能性较小,或 者 即 使 有 反 扑,政 府 也
能及时控制 .这体 现 出 民 众 对 我 国 的 医 疗
水平、信息披露的透明度以及政府公 信 力
的自信 .
远程(在线)技术:自 2 月 2 日 至 2 月
3 日完成陡增 后,民 众 对 该 话 题 的 情 感 指
标虽略 有 波 动,但 整 体 维 持 在 较 高 水 平 .
这体现出远程(在线)技术在防控疫情、统
筹推进复工复产 过 程 中 的 重 大 作 用 .无 论
是医院的 远 程 会 诊,还 是 学 校 网 上 复 课,
图 17 第 5 类话题平均倾向性趋势
抑或是企业复工时举行的视频会议,都 离
不开远程(在线)技术 .远程(在线)技术在民众心中的重要性不言而喻 .
特殊医保:民众对 “特殊医保”话题的积极情感倾向在 2 月 4 日达到顶峰 .这体现出民众一度对特
殊医保持非常正面的态度,因为普通医保无法解决重大、突发的特殊疾病 .自 2 月 4 日后逐渐下降,但
仍为正数,这体现出民众对特殊医保的态度趋于理性,除了特殊医保外,还需很多其他手段(如特殊病
情监测机制等)联合并施,才能应对突发重大疾病 .
传染病监测:2 月 1 日至 2 月 4 日,民众对传染病监测的情绪越来越积极,几乎成陡增趋势,这体
现出民众信心急剧上涨,虽后三天略有下降,但总体水平仍维持在 较 高 状 态,反 映 出 传 染 病 监 测 的 手
段与效果都有极大突破 .
数据开放:“数据开放”话题平均倾向虽有波折,但整体数值都较高,这高度体现了数据开放在统
筹推进复工复产过程中的重要性 .数 据 开 放、打 破 信 息 孤 岛、共 享 资 源,能 够 更 好 地 利 用 数 据 分 析 形
势,如新增病例人数、治愈人数等,从而决策出最佳复工日期 .

6 总结
本文以 “统筹推进复工复产”为主题,拟定了 “传染病监测”“反扑”“防疫物资”“防疫政策”“服
务 行业”“复工复产”“健康监测”“企业帮扶”“数据开放”“特殊医保”和 “远程(在线)技术”这11 个热
点话题,对 2020 年 2 月 1 日至 7 日的相关网络舆情进行剖析,了解广大民众对各个话题的关注度和倾
向性,对统筹推进复工复产工作具有一定的现实意义,得到如下结论:
第一,民众迫切希望复工复产 .由于疫情不允许人员聚集,社会一度陷入停工的困境,这不仅影响
了民众的生计,也不利于社会经济长远发展 .因此,民众强烈希望复工复产,统筹推进复工复产顺应民
心、势在必行 .
第二,疫情防控不能松懈 .虽然疫情目前已大有好转,但绝不可掉以轻心 .复工复产意味着劳动力
可能会聚集,人口密集可能带来风险,因此,应将健康监测、尤其是对新冠传染病的监测,严格执 行、
落到实处 .
第三,复工复产需要全社会的支持与帮扶 .企业承担着生产线复产、员工复工的重任,疫情无疑给
企业带来巨大的考验,一些中小企业甚至因为资金周转不灵而濒临破产 .企业帮扶需要社会各方援手 .
首先,政府可以予以税收政策上的减免;其次,企业可以互相帮扶,通过共享资源等方式实现共赢;最
后,广大民众也要积极支持,如购买企业产品等 .

参考文献
1]朱建平 .中国房地产网络舆情分析[
[ J].数理统计与管理,2016,35(
4):722-741.
· 47 ·
·建模探索· 新冠肺炎网络舆情的启示:复工复产的文本挖掘与分析 2020 年 12 月

2]中国互联网络信息中心 .中国互联网络发展状况统计报告[
[ R].北京:中国互联网络信息中心,2019:17-19.
3]邵琦,牟冬梅,王萍,等 .基于语义 的 突 发 公 共 卫 生 事 件 网 络 舆 情 主 题 发 现 研 究 [
[ J].数 据 分 析 与 知 识 发 现,2020,
4(
9):68-80.
4]朱建平 .数据挖掘的统计方法及实践[M].北京:中国统计出版社,2005.

5]朱建平,谢邦昌,马双鸽,等 .大数据:统计理论、方法与应用[M].北京:北京大学出版社,2018.

6]朱建平,刘晓葳,欧阳汉 .《统计研究》的历史阶段性回顾与特征分析[
[ J].统计研究,2014,31(
9):3-10.

7]Ame
ur M S H,Be
lke
birR,Gu
ess
oum A.Robu
sta
rab
ict
extc
ate
gor
iza
tionbyc
omb
ini
ngc
onv
olu
tion
ala
ndr
ecu
rre
ntn
eur
al

etwo
rks[
J].ACM T
ran
sac
tion
sonAs
iana
ndLow-Re
sou
rceLa
ngu
ageI
nfo
rma
tionPr
oce
ssng ,2020,19(
i 5):1-16.

8]Lan Y,J
iang J.Que
r r
ygaph gene
rat
ionf
oranswe
ring mu
lti-hop c
omp
lex que
sti
onsf
rom knowl
edge ba
ses[
C].
Pr
oce
edngso
i fthe58
th Annua
lMe
eti
ngo
ftheAs
soc
iat
ionf
orCompu
tat
iona
lLi
ngu
ist
ics,2020:969-974.
9]冯兴杰,曾云泽 .基于评分矩阵与评论文本的深度推荐模型[
[ J].计算机学报,2020,43(
5):884-900.
10]丁兆云,贾焰,周斌 .微博数据挖掘研究综述[
[ J].计算机研究与发展,2014,51(
4):691-706.

11]He
art M,Pede
s rsen E,Pa
tilL P,e
tal.An e
val
uat
ion o
fseman
tic
all
ygr
ouped wo
rdc
loud de
signs[
J].IEEE
Tr
ans
act
ionson Vi
sua
liz
ati
onandCompu
terGr
aph
ics,2020,26(
9):2748-2761.
12]张蕾,蔡明 .基于主题融合和关联规则挖掘的图像标注[
[ J].计算机科学,2019,46(
7):246-251.

13]
ShaoZ,L
iY,Wang X,e
tal.Re
sea
rch onanew au
toma
ticgene
rat
iona
lgo
rit
hm o
fconc
ept map ba
sedont
ext
ana
lys
isanda
sso
cia
tionr
ule
s mi
ning[
J].
Jou
rna
lofAmb
ien
tIn
tel
ligenc
eand Human
izedCompu
ting,2020,11(
2):
539-551.

14]
CaiN,He M,Wu Q,e
tal.Ona
lmo
stc
ont
rol
lab
ili
tyo
fdynami
calc
omp
lexne
two
rks wi
thno
iss[
e J].
Jou
rna
lof
Sy
stemsSc
ienc
eandComp
lex
ity,2019,32(
4):1125-1139.

15]
Liu B.Sen
timen
tana
lys
isand op
ini
on mi
ning[
J].Syn
the
sis Le
ctu
reson Human Language Te
chno
log
ies,2012,
5(
1):1-167.
16]王兰成,徐震 .基于情感本体的主题网络舆情倾向性分析[
[ J].信息与控制,2013,1:46-52.

17]Medha
t W, Ha
ssan A,Ko
rashy H.Sen
timen
tanna
lys
isa
lgo
rit
hmsand app
lic
aton:A su
i rvey[
J].Ai
n Shams
Eng
ine
erngJ
i our
nal,2014,5(
4):1093-1113.

18]
Kaba
cofRI.R 语言实战[M].
f 2 版 .王小宁,刘撷芯,黄俊文,等译 .北京:人民邮电出版社,2016.

Re
vel
ati
ono
fCOVID-19Ne
t-me
dia
tedPub
licOp
inon:Te
i xtMi
ningandAna
lys
iso

Re
sump
tiono
f Wo
rkandPr
odu
cti
on

ZHUJ
ianp
ing1 2 ,WANG Xuan
li1

1.Schoo
lo t,Xi
f Managemen amen Un
ive
rsi
ty,Xi
amen,Fu
jian361005,Ch
ina;
2.Na
tiona
lIns
tit
utef
orDa
taSc
ienc
ein He
alt
hand Med
icne,Xi
i amen Un
ive
rsi
ty,Xi
amen,Fu
jian361005,Ch
ina)

Ab
str
act:Coo
rdi
nat
ingt
hep
reven
tionandc
ont
rolo
fCOVID-19andt
her
esump
tiono
f wo
rkand p
roduc
tioni
sbo
tha
ba
ttl
eandat
est.Wi
tht
het
hemeo
fpr
omo
tingt
her
esump
tiono
fwo
rkandp
roduc
tiona
sa who
le,t
hispape
rco
lle
cted
ne
t-med
iat
edpub
licop
ini
onda
taf
rom Feb
rua
ry1,2020s
ols
tic
eto7.Af
ters
cre
enng,11ho
i ttop
ics we
red
ivi
dedi
nto5

atego
rie
sby d
ire
cti
ona
lcl
ust
eri
ng me
thod.By us
ing da
ta mi
ning and v
isua
liz
ati
on t
echn
ique
s such a
s wo
rdc
loud,

sso
cia
tionr
uls,c
e omp
lex ne
two
rk,t
exto
rien
tat
ion ana
lys
is,e
t ,t
c. he pape
r ma
inl
y de
scr
ibe
sthe he
atd
iff
er e,
enc

ont
entcha
rac
ter
ist
ics,r
ele
vanc
ere
lat
ionsh
ipandt
endencyo
fthet
opc,s
i oast
ode
scr
ibet
hecha
rac
ter
ist
icso
fthepub
lic

sat
ten
tiont
othet
opi
cint
hes
e7day
sandg
iveapp
rop
ria
tesugge
sti
ons.
Ke
ywo
rds:c
oor
dina
tet
opr
omo
tet
her
esump
tion o
f wo
r r
k and poduc
tion;wo
rdc
loud;a
sso
cia
tion r
uls;c
e omp
lex
ne
two
rk;t
extt
endencyana
lys
is

作者简介
朱建平(
1962- ),男,2003 年获南开大学理学博士学位,现任厦门大学管 理 学 院 教 授、博 士 生 导
师、厦门大学健康医疗大数据国家研究院副院长、厦门大学数据挖 掘 研 究 中 心 主 任,担 任 教 育 部 高 等
学校统计学类专业教学指导委员会副主任,主要研究方向为数理统计、数据挖掘 .
王炫力(
1999- ),女,厦门大学管理学院会计学专业 .

· 48 ·

You might also like