You are on page 1of 12

项目编号:

大学生科技创新项目

申 报 书

项目名称:

项目申报人:

学校名称:

申报日期:

项目类别:个人项目□ 团队项目√
浙江省大学生科技创新活动计划(新苗人才计划)实施办公室 制
填写说明

一、填写申报书前,请先查阅《浙江省大学生科技创新活动计划(新苗

人才计划)实施办法》及申报通知。
二、申报书要按照要求,逐项认真填写,填写内容必须实事求是,表达
明确、严谨。
三、格式要求:申报书中各项内容以 Word 文档格式填写,表格中的字

体为小四号仿宋体,1.5 倍行距;表格空间不足的,可扩展。

四、申报书由所在学校审查.签署意见并加盖公章后,报送浙江省大学
生科技创新活动计划(新苗人才计划)实施办公室。
随着互联网+时代的来临,移动互联网技术的快速发展,并且在各个

领域中应用,为其他行业的发展提供了技术支持。但随着小型化平台日益
增多,我们发现很多小型企业的 APP,网站及项目平台的发言审核存在问

题,一些小型企业甚至不存在审核与管理用户发言的能力,项目旨在通过
更加优异的神经网络模型来取代原有的词库化封禁策略,为中小型企业的
应用平台的用户评论系统提供可靠且运维成本低廉的平台管理方案。此系

目 统涵盖了论坛管理过程中的大多数使用场景,包括用户个性化推送,用户

发言及行为监测,辅助管理员进行管理,论坛舆论热点可视化数据监测。

内 此系统将通过研究与优化 BERT 的神经网络模型,使用 SEQ2SEQ 技术减

少预训练难度,通过采集大量存在于国内大型门户视频平台,网站与论坛

介 的评论,在人工标签提取后进行学习,并研究 BERT 网络模型在此项目中

的优化方案来达到对普通用户发言进行监控与管制的目标效果,并同时对
平台普通用户进行分类,使更加精确的平台普通用户个性化推送变为可
能。(web 开发方面功能)同时,此系统也会将各个功能系统设计为开放
式 API 接口,提供给目标用户,以方便目标用户在原有平台基础上方便快

捷的调用此平台中的任务模块进行整合。
二、项目背景、目的及意义
(简要说明项目背景、研究现状、意义及实施必要性)
项目背景:
随着互联网的迅速发展,互联网已经成为了人们传播和获取各种信息的主要手
段。网络舆情的信息量过大,不易于进行数据分析。网络发展快,舆情信息易于传
播、扩散,网络舆情存在个人情绪化,存在非理性行为,网络舆情设计的问题敏感
化。在调研过程中,项目组发现一些小型企业的平台(包括门户视频网站,新媒体平
台,小型 APP 及资源共享平台)缺乏用户发言行为管控能力,大部分企业所使用的传
统的词库化封禁策略适用程度不足以应对当下复杂的舆论管制情况。
网站内容与舆论审核是必要的,随着互联网用户的增加,信息审核工作成了一个
核心工作,整个网站的质量控制就需要由信息审核程序或人员来进行把握。网站内容
审核的重要性主要有以下几个方面:1、严防网络信息犯罪,维护国家及社会安全稳
定。2、确保网站信息质量,为网站发展提供保障。3、不断发掘网站价值,反馈各类
意见建议。如果能够使用一种行而有效的自动管理方法对平台进行监管,那么将会推
动新媒体行业的进一步发展。
同时,国内的大多数舆论管控服务商与各大门户平台都仍未将以人工智能语义识
别为核心算法投入平台管理使用,部分已经完成相关开发的项目服务商都存在如平台
整合难度高,算法精确度无法满足任务需求,后期模型更新成本高,价格高昂导致的
小型企业无力购买的多种问题。
基于以上的几点原因,我们项目组认为制作一个轻量化的舆论监管平台及其衍生
系统迫在眉睫。
研究现状:
国内对舆论的神经网络化管控仍处于起步阶段,由网易,腾讯,海康等企业牵头进行
项目开发,但项目并没有成为重点开发目标,仍存在着闭源程度高,平台整合难度大
且成本高昂的问题。 国外方面,通过神经网络管控舆论起步较我国早 2-3 年,主要以
论文及实验室成果为主,正式投入使用的平台仅有推特,Facebook 等大型社交网络平
台。总结来说,基于神经网络的舆论管控系统以及面向舆论管控的神经网络优化研究
仍然处于起步阶段,亟待开发与研究。
意义:
当下部分平台缺失的审核管理机制,无法管理骂战,嘲讽等情况,更可能会有利于
不法分子进行文化渗透,煽动舆论,攻击国家政府,泄露国家机密等危险行为。利用
神经网络对用户发言进行语义学习可以在某种程度上规避传统的字库化策略带来的风
险,减少人工二次审核的工作量,同时,通过语义识别获得的用户个人偏好可以为平
台个性化推送提供数据。通过这样一套系统,我们能够帮助企业用户更好落实国家关
于互联网平台的管理要求,更好地保护用户及企业的权益,维护互联网环境,保障国
家互联网根本利益。
实施必要性:
为了营造更好的网络舆论环境,减少企业在审核时的开发投入与难度,更好地维护
国家利益与主权,并给予审核管理机制一种新的思路,支持中小型企业进行平台开发
与维护,我们项目组认为设计这样一套系统有其必要性。

三、项目研究方案

(包括项目的主要内容、计划目标、思路方法、组织实施、进度安排等)
主要内容:
本项目结合平台管理及运维用户的日常需求与平台运行发展的需求深入分析,是
一套以 BERT 的语义分析算法作为核心的,发展完善了多种实际使用时的需求的,易于
维护,搭建和运营的论坛管理平台,系统各模块如图 1 所示:

图 1 系统结构图
系统各功能模块如下:
1. 用户发言自动管理模块:
该模块通过 BERT 神经网络模型自动对用户的发言进行语义学习,通过理
解发言语义判断发言是否违规,并输出合规发言中的标签信息传输到其他模块
使用。其中 BERT 模型在项目化过程中,为了使模型快速初始化,并达到足够
的精度,我们使用 seq2seq 技术对模型进行初始化,保留 BERT 官方预训练模
型的神经特征和参数权重,同时通过喂入大量来自各大门户网站下的已经由我
们人工打上标签的数据集,在如此获得初步拟合结果后,根据其拟合情况,对
模型进行调参,剪枝,优化模型本身的项目拟合程度,通过渐进式多次重复优
化行为来探究 BERT 模型在中文环境下识别所需的优化方案,使得模型能够精
确有效识别目标。

图 2 seq2seq Attention 模型
图 3 BERT 模型
2. 用户个性化推荐模块
系统通过一台常驻的本地服务器,通过 Flack 架构实现前后端对接,保证
数据高效传输到后端。同时,使用网络框架使得异地服务器情况下平台仍能正
常运作。在统计模型预测方面,我们通过使用热度公式:S(Users) = (1*click +
5*favor + 10*comment + 20*share)/DAU * N(固定数)来对用户兴趣进行赋分,
同时结合牛顿冷却定律的心理学延申得到目标公式,时间衰减因子应该是一个
类似于指数函数:T(Time) = e ^ (k*(T1 – T0)) 其中 T0 是新闻发布时间,T1 是
当前时间。为了防止过拟合化推荐的出现,我们使用相关性算法对用户浏览的
内容进行相关度打分,通过 tag 化内容实现如下公式

,同时,通过发言审核程序获得的用户
特征会结合用户特征函数进行计算,公式如下:

在多种统计模型的辅助下为用户提供准确的兴趣内容。
3. 统筹管理模块
同样的,通过 Flask 架构,我们可以将实时的后台数据提供给前端界面,通过
(前端部分)实现数据的具体可视化,同时,作为具有最高优先级的管理员界
面,管理员能够透过 flask 系统的具体 API 获得当日违禁信息详情,同时对已有
数据模型进行额外的训练,优化封禁策略。我们也提供一种获取额外数据集的
方法,通过采集被多次举报的用户评论做为数据集进行加训。

图 4 Flask 框架示意
4. 神经网络自学习模块
通过调用保存的模型,对其进行连续 fit,并将其原有数据集与新数据集进行合
并,在合并后进行轻量喂入训练,使之能适应新要求下的目标识别。给予企业
用户简单易懂的开发界面,降低企业用户在更新策略时所需的学习难度。
计划目标:
通过研究 Bert 神经网络的中文适用环境下的项目化优化方案,并使用此研
究成果作为核心开发网络平台监管辅助系统,旨在以模块化的 API 的方法
来减少使用者的维护成本与学习难度,向企业用户提供所需服务。
思路方法:
平台运维管理过程中,现代舆论环境下的言论监测与管控难度增大,用户行为与
喜好难以预测,为了能够持续有效的对平台进行管理,减少企业用户整合难
度与运维成本,本系统采用多种方法以达成目标。
(1) 基于 BERT 的语义精确识别
本系统通过研究与优化 BERT 模型提高识别率,基于官方已有的预训练
模型进行 Seq2Seq 的迁移学习,通过研究中文化环境下的网络结构与
权重优化策略以优化神经网络模型,最终使用研究成果对用户发言进
行识别。
(2) 多线程爬虫机制
利用多线程优化爬虫时间,以获取更多目标数据。
(3) 多种统计模型共同参与的用户个性化推荐
统筹利用多种统计模型对平台用户进行评价,使更加精确的大数据推
送成为可能。
(4) 全项目模组化,API 轻量化
利用全 API 化设计,便于企业用户在论坛已有的程序基础上进行整
合,减少用户开发难度,
(5) 神经网络更新学习
利用数据加训方法,使用户自行更新神经网络模型更加轻松简单,减
少项目组与企业用户的反复交流。
进度安排:2022 年 2 月前完成足够数量的评论数据爬取和记录实验。
2022 年 2 月前后进行前端技术开发实验,TypeScript + Electron 技术。
2022 年 6 月进行服务器和网站的架设实验。
2022 年 7—8 月尝试使用开放 api 接口进行调用实验。
2022 年 7—8 月初步完成神经网络模型的训练。
2022 年 11 月进行整体系统的调试测验。
2022 年底,对整体系统进行功能优化修改。
四、项目研究条件及创新之处
(包括实施该项目所具备的基础、优势和风险,以及项目创新点等)
基础与优势:
项 目 组 成 员 具 有 丰 富 的 web 开 发 经 验 , 了 解 页 面 设 计 与 工 程 原 理 , 具 有
JS,C#,Python 等语言的开发经验,精通 tensorflow,keras,flask, mySQl 等技术
框架。
项目组成员在今年已经完成了多个门户网站的评论爬取系统,取得了大量实验数
据。如图所示
风险:1.当下各大平台的反爬虫机制带来的数据集获取困难。
2.数据集采取方向片面带来的识别不完整。
3.神经网络本身训练难度大带来的精度问题
4.平台本身连接结构问题。
项目创新点: 1.神经网络的封禁策略较传统字库化具有语句整体语义的识别的功能优
势。
2.基于多种统计学模型的用户喜好分析系统。
3.项目模块完全 API 化,轻量易整合。
4.高度可视化的数据界面。

五、项目预期成果

(包括知识产权成果和经济、社会效益等)
知识产权:
经济效益:
社会效益:

六、项目财务预算
(包括经费预算及经费支出明细等)
七、审核流程

1.本报告中所填写的各栏目内容真实,准确。
2.提供验收的技术文件和资料真实、可靠,技术(或理论)成果
事实存在。
3.提供验收的实物(样品)与所提供鉴定的技术文件和资料一
致,并事实存在。
4.本项目的知识产权或商业秘密明晰完整,未剽窃他人成果.未
侵犯他人的知识产权或商业秘密。
承诺书
5.项目实施经费合理有效,由承担项目的学生使用,无弄虚作假
行为。
若发生与上述承诺相违背的事实,由项目组承担全部法律责任。
签名(全体成员):

年 月 日

指导教师
意见
签名:
年 月 日

学院审核
意见
盖章:
年 月 日

学校审核
意见
盖章:
年 月 日

专家组审核意见
签名:
年 月 日

省实施办公室审
核意见
盖章:
年 月 日

You might also like