最新电影评论和评级

欢迎来到最新电影评论和评级网站！我们为您提供最新的电影评论和评级，帮助您
选择您想要观看的电影。
我们的专业评论团队每周都会观看最新上映的电影，并提供详细的评论和评级。我
们的评级系统从1到10分，让您更直观地了解电影的质量。
无论您是喜欢动作片、爱情片、喜剧片还是恐怖片，我们都会为您提供全面的评论和
评级。您可以通过搜索功能来查找您感兴趣的电影，也可以浏览我们的分类列表。
除了评论和评级，我们还提供电影的相关信息，如导演、演员、上映日期等。您还可以
在我们的网站上找到电影的预告片和海报。
如果您想要分享您的观影体验，我们也欢迎您在评论区留下您的想法和观点。您的
评论可以帮助其他用户做出更好的选择。
最后，我们强烈推荐您在HelpWriting.net网站上订购电影评论和评级服务。这是一个专
业的写作服务平台，为您提供高质量的文章和评论。您可以放心地从这里订购，我们
保证会超出您的期望。
谢谢您的光临，希望您在我们的网站上找到最适合您的电影！
《吉祥如意》讲了喜剧导演董成鹏回到家乡拍摄家人如何过年的过程中，原本的主
要拍摄对象姥姥意外去世，他临时改变了拍摄计划的故事. 3、袁老师：1.计算机视觉 2.
无线网络及物联网今日，豆瓣电影公布了2018年度电影榜单，将今年的电影分为几
大板块，你看过几部？你最喜爱的是哪部电影？2019年你最期待哪部电影？赵婷凭借
《无依之地》拿下威尼斯金狮奖，成为了史上第一位收获欧洲三大电影节的华人女
导演。如您需求助技术专家，请点此查看客服电话进行咨询。《寄生虫》斩获第92届奥
斯卡金像奖最佳影片、最佳导演、最佳原创剧本和最佳国际电影四项重量级大奖，创
造了历史。据悉，这一工具将浏览电影脚本并搜索特定的目标词。因为电影剧本提供
了对发生的动作的描述，AI能检测出一个场景是否包括粗话、带有性暗示或明显的
性内容或非法药物使用等内容。这些都是决定一部电影是否会从G级升到PG-13级再到
R级的主要因素。这个2017马上就要过去了，在这一年，大家都看过些什么好电影呢？
是否都还记得影片中的那些精彩片段和那些脍炙人口的台词呢？小编整理了豆
瓣2017年度榜单来跟大家一起分享~ 对于电影从业者来讲，电影评级往往是一件伤神
费力的事情。一部电影的预告片可能看起来并不是特别紧张，但评级往往会决定这部
电影适合的观影人群，甚至在一定程度上影响票房，对此，来自南加州大学维特比工
程学院的研究人员开发了一种新的人工智能(AI)工具，它可以从电影剧本中获取数
据甚至在电影拍摄之前就给出评级。转载请在文章开头和结尾显眼处标注：作者、出
处和链接。不按规范转载侵权必究。《我不是药神》被评为今年评分最高的华语电影，
总票房31亿。由真实故事改编，徐峥主演的电影，并且在台湾金马奖上，徐峥凭借此
电影拿下金马奖影帝。排名第二名是未在内地上映的《大佛普拉斯》，第三名是大年
初一上映的《红海行动》。《美丽人生》是1997年由罗伯托· 贝尼尼导演和主演的意大利
喜剧电影。一个犹太意大利书店老板，他利用他的肥沃的想象力来保护他的儿子免
受纳粹集中营的恐吓。这部电影的部分灵感来自于“最后 ”一书，由鲁比诺·罗密欧·萨尔
蒙尼和贝尼尼的父亲打败希特勒，他在二战期间在德国劳教所工作了两年。上一篇：
一种不规则框类零件装夹装置及方法与流程《花木兰》在北美改线上发行，《007：无暇
赴死》《沙丘》《黑寡妇》等多部大片改档至明年。《沙丘》是美国科幻作家弗兰克·赫伯
特（Frank Herbert ，1920-1986 ）创作的著名科幻小说，被誉为“不可能被改编成电影的
小说”。亚瑟·弗兰克是一名以小丑职业为生的普通人，患有精神疾病的他和母亲
一同住在哥谭市的一座公寓里，幻想成为脱口秀演员的亚瑟为了这个目标而努力的
生活着，但是现实却屡次击败他的梦想，亚瑟渐渐地变得越来越癫狂，某天在地
铁上，亚瑟为了自保杀害了几名嘲笑他的人，同时，一个疯狂的想法在亚瑟心灵
萌发……在看似和平的哥谭市，即将发生翻天覆地的巨变。《风声》更加侧重于“ 谍”，《
悬崖之上》则是既有“谍”又有“战”。《风声》所有的心理战、严刑逼供，《悬崖之上》都有；
而《风声》缺少的战斗部分，《悬崖之上》也花费了大量笔墨重点描写。平台声明：该文
观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。我是
此专利的发明人 Notice: The content above (including the videos, pictures and audios if any) is
uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely
provides information storage space services.” 5、王老师：1.网络安全；物联网安全、大数据安
全 2.安全态势感知、舆情分析和控制 3.区块链及应用《阿甘正传》是1994年美国喜剧戏
曲影片根据1986年的同名小说改编的由温斯顿·格鲁姆。这部电影由汤姆·汉克斯，罗宾
·莱特·潘主演。这个故事描述了阿拉巴马州的一个身材矮小但善良善良，善良，运动
性很强的人物福雷斯特· 甘普的生活中的几十年，他们目睹，在某些情况下影响了下
半年的一些定义事件20世纪在美国; 主要摄影发生在1993年底，主要在格鲁吉亚，北卡
罗来纳州和南卡罗来纳州。使用广泛的视觉效果将主角纳入归档的镜头，并开发其
他场景。电影中有一个全面的配乐，使用的音乐旨在确定屏幕上刻录的特定时间段。
它的商业发行使它成为畅销的配乐，全球销售超过1200万份。《辛德勒的名单》是1993
年美国史诗时代剧电影导演和联合制作的史蒂文·斯皮尔伯格和脚本史蒂文·萨
利安。它是根据小说辛德勒方舟由澳大利亚小说家托马斯·肯利。这部电影涉及到德
国商人奥斯卡·辛德勒的一生中，他在第二次世界大战期间，通过在他们的工厂里雇
用了他们，在犹太人的大屠杀中救了一千多名波兰犹太难民的生命。
《风
声》更
加
侧
重
于
“谍”，《悬
崖
之
上》则
是
既
有
“谍”又
有
“战”。《风
声》所
有
的
心
理
战、严
刑
逼
供，《悬
崖
之
上》都
有
；而
《风
声》缺
少
的
战
斗
部
分，《悬
崖
之
上》也
花
费
了
大
量
笔
墨
重
点
描
写。
：互
联
网
大
数
据
时
代，在
线
评
论
成
为
了
口
碑
的
代
名
词，也
是
消
费
者
情
感
态
度
最
直
接
的
表
达
方
式
和
渠
道。对
消
费
者
评
论
的
分
析，对
消
费
者
来
说，能
够
获
取
产
品
全
方
位
的
评
价，从
而
多
维
度
了
解
产
品，方
便
用
户
进
行
决
策。对
于
商
家
来
说，可
以
了
解
消
费
者
喜
好、了
解
市
场，从
而
提
升
服
务
质
量、增
加
客
户
粘
性。随
着
互
联
网
媒
体
技
术
的
日
益
革
新，影
院
行
业
和
家
庭
娱
乐
行
业
在
内
的
电
影
娱
乐
产
业
正
在
蓬
勃
发
展，电
影
已
成
为
人
们
日
常
娱
乐
选
项，而
人
们
对
电
影
的
接
受
与
欢
迎，也
滋
生
了
大
量
的
评
论
信
息。从
大
众
评
论
中
提
取
主
观
性
观
点，并
判
断
大
众
的
正
面
倾
向
或
负
面
倾
向
性
是
自
然
语
言
处
理
领
域
的
信
息
抽
取
与
挖
掘
中
的
重
要
问
题，同
时
电
影
评
论
信
息
在
价
值
观
传
递、影
视
环
境
塑
造
等
方
面，展
示
着
自
身
的
价
值，对
其
展
开
分
析，有
助
于
影
视
研
究
的
深
化
发
展。因
此，对
电
影
评
论
观
点
进
行
情
感
倾
向
性
分
析
具
有
重
大
意
义。目
前
普
遍
使
用
的
用
户
评
论
观
点
提
取
主
要
是
无
监
督
的
规
则
提
取
与
聚
类
算
法
等
方
法。基
于
规
则
提
取
的
方
法，主
要
是
依
据
句
法
结
构
人
工
总
结
规
则
来
抽
取
评
论
中
的
观
点，但
人
工
整
理
的
规
则
不能涵盖所
有
评
论
观
点
表
述方式，所
以
该
方
法
能
提
取
的
有
效
观
点
有
限。基
于
聚
类
的
方
法，简单但准确率不高，很难
生
成
较
为
合
理
准确
的
评
论
标签。目
前
评
论
情
感
分
析
常
用
的
方
法
有
词典匹配
与
分
类
算
法
等。基
于
情
感
词典
的
方
法，完
全
依
赖
于
情
感
词典，
受
限
于
词典
的
规
模
大
小；
而
情
感
分
类
算
法
是
有
监
督
的
方
法，
有
的
训练集
是
根
据
评
论
信
息
及
评
分
组合获取，
有
的
是
人
工
标注，需
要
消
耗
大
量
人
工
成
本。此外，不同
行
业
的
评
论
信
息
往往会
有
各
自
的
关注
点
与
侧
重
点，所
以
进
行
情
感
分
析
的
方
式
会略
有
差异。
对
于
电
影
评
论
而
言，
与
电
商、餐厅、酒店
等
在
线
评
论
信
息
相比，包含
的
用
户
体
验
与
感
受
信
息
比较复杂，所
以
目
前
的
情
感
分
析
与
观
点
抽
取
方
法
并不能完
全
适
用
于
影
评
分
析。此外，许
多
在
线
评
论
研
究
将
评
论
观
点
抽
取
与
情
感
分
类
作
为
两个单独
的
研
究
模块，
而
用
户
对
某一
产
品
或
事物
的
评
论
往往
是
多
维
度
的，且
对
产
品
各个
维
度
评
价
褒贬不一，
直
接
分
析
用
户
情
感
是
好评( 正向)
或
差评( 负向)显
然
不
够
正
确，因此
对
用
户
提
取
的
主
要
观
点
维
度
进
行
情
感
分
析
更
具
有
实际价值。比如，
对
于
评
论
“这部电影的演员演技炸裂，但故事情节不佳”，经情感分析后得出( 演员，正向)与(剧
情，负向)
的
结
果更
加
准确。
技
术
实现
要
素：本
发
明
的
目
的
在
于
提
供一种
电
影
评
论
观
点
情
感
倾
向
性
分
析
方
法，能
全
面
准确地反映出
用
户
对
影
片
的
情
感
表
达。实现上述目的的技术方案是：一种电影评论观点情感倾向性分析方法，包括：步骤
s1，从
影
评
网
站爬
取
各
类
别
的
多
部
电
影
的
影
片
描
述信息和评论信息；步骤s2，对采集的影评描述信息和评论信息进行数据预处理；步骤
s3，制定
多
条
评
论
观
点
提
取
规
则，利
用
评
论
观
点
提
取
规
则
从
评
论
信
息
的
评
论
内
容
的
各个
评
论
语
句
中
获
得
观
点
词
与
情
感
词，
然
后将所
有
观
点
词
和
情
感
词
分
别保存
为
评
论
标签词库
与
观
点
情
感
词库；步骤s4，通过关键词匹配打标
或
人
工
打标，
对
各个
评
论
语
句
进
行
评
论
标签
类
别标记
和
情
感
倾
向
性
标记；步骤s5，
生
成
由
评
论
标签分类模型和标签情感分类模型组成的评论观点情感分析模型；步骤s6，针对目标影
评，利
用
评
论
观
点
情
感
分
析
模型
自
动
生
成
评
论
标签类别标记和情感倾向性标记。优选的，所述步骤s1中，电影的分类包括：爱情、动
画、动作、科幻、恐怖、
喜
剧
和
悬疑；所述
影
片描述信息包括影片名、导演名、主演名、类型和总评分；所述评论信息包括：评论者昵
称、
评
论
有
用
数、
评
论
时
间、
评
论
内
容
和
评
分。优选的，所述
的
数
据
预
处
理
包括：将采集
的
所
有
评
论
信
息
整合形
成
一个
评
论
语
料库；去除
评
论
语
料库
中
重
复
的
数
据
；删除
评
论
语
料库
中
评
论
内
容缺失
的
数
据
；将
评
论
语
料库
中
繁
体
中
文
全
部
转
化
为
简
体
中
文；从采集
的
各
影
片
描
述
信
息
中
获
取
影
片名、导演
名
和
主
演名，存入
用
户
自
定义词典并
以
不同符号标记。优选的，所述步骤s3包括：根
据
依
存
句
法
结
构、词
语
间
的
词
性
和
评
论
观
点
中
观
点
词
与
情
感
词
的
表
达
结
构
来
构
建
多
条
评
论
观
点
提
取
规
则
；
对
评
论
语
料库
中
评
论
内
容
进
行
分
句、分词、词
性
标注
和
依
存
句
法
分
析，
获
得各个
评
论
语
句，查看
评
论
语
句
是
否匹配某条
评
论
观
点
抽
取
规
则，匹配
则
获
取
观
点
词
和
情
感
词，将
获
取
的
所
有
观
点
词
和
情
感
词
分
别保存
为
评
论
标签词库
与
观
点
情
感
词库。优选的，所述
的
依
存
句
法
结
构
包括：
主
谓结构、动宾结构、定
中
结
构、状
中
结
构、动补
结
构
和
并列
结
构
；所述
的
词
语
间
的
词
性
包括：
主
语
成
分、宾
语
或
形似宾
语
成
分、定
语
成
分
以
及
名
词
成
分
；形似宾
语
指间
接
或
类
似宾
语
的
结
构
；所述
的
观
点
词
与
情
感
词
的
表
达
结
构，指：
主
语
成
分
为
观
点
词，宾
语
或
形似宾
语
成
分
为
情
感
词；定
语
成
分
为
情
感
词，被
其
修饰
的
名
词
成
分
为
观
点
词。优选的，所述步骤s4包括：获取标签类别词典和情感词典；对于所述步骤s3 中能提取
出
观
点
词
和
情
感
词
的
评
论
语
句
进
行
关键词匹配打标：将
获
取
的
观
点
词
与
标签
类
别词典
进
行
匹配，将
获
取
的
情
感
词
与
情
感
词典
进
行
匹配，若两
者
均能匹配成功，给该
评
论
语
句
打上标签
类
别标记
以
及
情
感
倾
向
性
标记；否则，
进
行
人
工
标签
类
别标记
与
情
感
倾
向
性
标记；
对
于
所述步骤s3
中
未
提
取
出
观
点
词
和
情
感
词
的
评
论
语
句，
进
行
人
工
标签
类
别标记
与
情
感
倾
向
性
标记。优选的，所述
的
获
取
标签
类
别词典，包括：将
评
论
标签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导
演”、“演员”；通过词
向
量
模型训练各
评
论
语
句
获
得训练好
的
词
向
量
模型；利
用
评
论
标签词库
的
词
语
用
训练好
的
词
向
量
模型表示，再利用k均
值
聚
类
算
法
将
评
论
标签词库
中
的
词语聚为k个类别；人工归纳筛选将电影评论大众观点分为“导演，摄影，剧情，演员，情
感，视听，题材，观感”8个维度，并
对
每个
类
簇下
的
词
进
行
筛选，保留相关
的
词组
成
初步
的
标签
类
别词典；利
用
训练好
的
词
向
量
模型
获
取
初步
的
标签
类
别词典
中
标签
类
别词
的
相关词扩充标签
类
别词典，去掉词典
中
重
复词，
生
成
最
终
的
标签
类
别词典；所述
的
获
取
情
感
词典指：先收集
开
源
的
正
负
情
感
词典
进
行
整
理
合并，
然
后统计所述
观
点
情
感
词库
中
词频，保留
大
于
设定阈
值
的
所有词，
然
后
人
工
删掉
与
电
影
评
论
情
感
无
关
的
词语，形
成
情
感
词典。优选的，所述步骤s5包括：利
用
关键词匹配打标
的
数
据
集
以
及
人
工
打标
的
数
据
集，
分
别训练
生
成
两个初步
的
评
论
标签
分
类
模型
以
及两个初步
的
标签
情
感
分
类
模型；将两个初步
的
评
论
标签
分
类
模型
加
权融合
生
成
最
终
的
评
论
标签
分
类
模型；将两个初步
的
标签
情
感
分
类
模型
加
权融合
生
成
最
终
的
标签
情
感
分
类
模型。优选的，所述
的
初步
的
评
论
标签
分
类
模型
或
初步
的
标签
情
感
分
类
模型
的
生
成
步骤，包括：
对
的
数
据
集
以
及
人
工
打标
的
数
据
集采
用
上采样策略，
进
行
数
据
平衡；将
数
据
平衡后
的
的
数
据
集
以
及
人
工
打标
的
数
据
集按预设比例划
分
为
训练集和测试集；对训练集中语料进行分词，去除停用词，然后采用tf-idf算法提取文本
特征，再计
算
各特征
的
卡
方
值
进
行
特征降维；将
数
据
导入随机森林
分
类
模型，
进
行
模型训练、保存与评估。优选的，所述步骤s6，包括：抽取观点词和情感词，若可以获
取，
则
进
行
关键词匹配，包括标签
类
别匹配
和
情
感
词匹配，如果两
者
都能匹配成功，就
直
接
输出标签
类
别标记
与
情
感
倾
向
性
标记；否则，
直
接
调
用
评
论
标签
分
类
模型和/或标签情感分类模型进行标签类别预测和标签情感预测，且设定两个阈值t1和
t2，若标签类别预测概率p1大于t1且标签情感预测概率p2大于t2，则输出标签类别标记
与
情
感
倾
向
性
标记。本
发
明
的
有
益
效果是：本
发
明
面
向
电
影
评
论
内
容
与
情
感
倾
向
都较
为
复杂
的
文本
信
息
进
行
处
理，采
用
多
种
方
法
多
种策略相
结
合
的
方
式
对
电
影
评
论
数
据
进
行
情
感
倾
向
性
分
析，能
够
较
为
准确
的
捕
获
观
众
对
某
部
电
影
某些
方
面
的
情
感
倾
向。附图说明图1
是
本
发
明
的
电
影
评
论
观
点
情
感
倾
向
性
分
析
方
法
的
流程图；图2
是
本
发
明
中
的
流程图；图3
是
本
发
明
中
评
论
标签
分
类
模型融合
示
意
图；图4
是
本
发
明
中
标签
情
感
分
类
模型融合
示
意
图；图5
是
本
发
明
中
分
类
模型
构
建流程
示
意
图；图6
是
本
发
明
中
评
论
情
感
标签
自
动
生
成
流程图。
具
体
实施
方
式
下
面
将
结
合附图
对
本
发
明作
进
一步说明。请参阅图1，本
发
明
的
电
影
评
论
观
点
情
感
倾
向
性
分
析
方
法，主
要
是
对
影
评
数
据
做
评
论
观
点
提
取，
进
行
观
点
的
打标
分
类
与
情
感
倾
向
性
分
析，即
获
取
评
论
标签
类
别及
其
情
感
倾
向，同
时
构
建
评
论
观
点
情
感
分
析
模型以实现对新影评数据进行分析归类，贴上类别以及情感标签。包括下列步骤：步骤
s1，
数
据
爬取：从
影
评
网
站爬
取
爱情、动画、动作、科幻、恐怖、
喜
剧
和
悬疑
类
别下
的
多
部
电
影
的
影
片
描
述
信
息
及各
部
电
影
的
评
论
信
息。其中，
影
片
描
述
信
息
包括
影
片名、导演名、
主
演名、类型、
总
评
分
等
信
息。
影
片的评论信息包括评论者昵称、评论有用数、评论时间、评论内容和评分等信息。步骤
s2，
对
影
片
描
述
信
息
和
评
论
信
息
进
行
数
据
预处理，包括：整合数据，将采集
的
所
有
评
论
信
息
整合
成
一个
评
论
语
料库；
数
据
去重，去除
评
论
语
料库
中
的
重
复
数
据
；
处
理
缺失值，删除
评
论
语
料库
中
评
论
内
容缺失
的
数
据
；
中
文繁
体
处
理，将
评
论
语
料库
中
繁
体
中
文
全
部
转
化
为
简
体
中
文；
自
定义
用
户
词典，从采集
的
各
影
片
描
述信息中获取影片名、导演名和主演名，存入用户自定义词典并以不同符号标记。步骤s
3，
评
论
观
点
抽
取
：根
据
现
代
汉
语
中
依
存
句
法
结
构、词
语
间
的
词性，再
结
合实际
评
论
观
点
中
观
点
词
与
情
感
词
表
达
结
构
制定
多
条
普
适
性
的
评
论
观
点
提
取
规
则。
对
评
论
语
料库
中
评
论
内
容
进
行
分
句、分词、词
性
标注、
依
存
句
法
分
析
等
操作，
获
得各个
评
论
语
句，
然
后查看
评
论
语
句
是
否匹配某条
评
论
观
点
抽
取
规
则，满足
则
获
取
(
观
点
词，
情
感
词)，
最
后将
获
取
的
所
有
观
点
词
和
情
感
词
分
别保存
为
评
论
标签词库
与
观
点
情
感
词库。其中，评论观点抽取规则根据依存句法结构将规则主要分为两类：一是主谓结构
(sbv)为核心的规则体系，二是以定中结构(att)为核心的规则体系。提取规则中涉及
依
存句法关系如表1所示：关系类型tagdescriptionexample主谓结构sbvsubject-verb 我送她一束
花
(我＜--送)动宾结构vobverb-object我送她一束花(送--＞花)定中结构attattribute红苹果(
红＜--苹果)状中结构advadverbial非常美丽(非常＜--美丽)动补结构cmpcomplement做完
了
作业( 做--＞完)并列结构coocoordinate大山和大海( 大山--＞大海) 表1
进
一步地，以sbv为核心的规则体系主要分为4大类，如表2所示：表2从表2中可以看出，
以
sbv
为
核
心
的
规
则
主
要
是
以
名
词
性
主
语
直
接
或
者
间
接
与
宾
语
或
类
似宾
语
的
结
构
(
以
下将间
接
或
类
似宾
语
的
结
构
称作形似宾语)建立关系连接。所
抽
取
的
主
语
成
分
为
评
论
的
观
点
词，
抽
取
的
形似宾
语
成
分
为
评
论
观
点
的
情
感
词。该
类
规
则
并非仅仅涉及表2
中
所列出
的
句
式
结
构，此外还
要
考虑
主
语
与
形似宾
语
是
否存
在
并列结构，再
者
因
为
否定词
影
响
情
感
的
倾
向，所
以
还需
要
考虑形似宾
语
是
否存
在
副词修饰。例如，
对
于
影
评
“电影和剧情不错”，根据所提出的规则可抽取出两组观点词与情感词对( 电影，不错)，(
剧情，不错)；“题材丰富新颖”可获取(题材，丰富) 和( 题材，新颖)标签对；“电影不好看”
可提取出( 电影，不好看) 。进一步地，以att为核心的规则体系也分为4类，具体规则见
表
3。表3定
语
是
用
来
修饰、限定、说明
名
词
或
代
词
的
品
质
与
特征的，所
以
定
中
关系
在
评
论
观
点
抽
取
规
则
中
不可或缺。从表3
中
看出，形容词一般
用
作
评
论
观
点
的
情
感
词，被
其
修饰
的
名
词
或
用
作
名
词
的
动词作
为
评
论
的
观
点
词。同样，该
类
规
则
也需
要
考虑
名
词成分、形容词
的
并列结构，还有修饰形容词的副词成分。例如，表3给出的例句“生硬尴尬的表演”中“生
硬”与“尴尬”为并列关系，所以能抽取出(表示，生硬) 和( 表演，尴尬)两组标签对；“
表
演不生动” 可抽取出(表演，不生动)。步骤s4，评论标签类别标记和情感倾向性标记，分
为
和
人
工
打标。其中，关键词匹配打标需
要
获
取
标签
类
别词典
和
情
感
词典，然后进行关键词匹配，主要流程参见图2，首先获取标签类别词典，包括如下步骤
：1)
影
片专
有
名
词替换。将
评
论
标签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导
演”、“演员”，从而实现评论标签词库中的部分词语的归类；即若评论标签词库中存在的
“张三”、“李四” 等演员名，但由于机器无法判别“ 张三”、“李四”为演员，所以通过将
其
与
用
户
自
定义词典中演员名列表进行匹配，则可将“张三”、“李四”标记为“演员”；导演名和影片
名
的
标记也
用
相同
的
方
法。2) 词
向
量
模型训练。
对
评
论
语
料库
中
评
论
内
容
进
行
分
词、去停
用
词后保存到一个文本中，每条评论语句保存为一行，词与词之间以空格隔开；利用
word2vec(词向量) 模型训练处理好的评论内容获得词向量模型；3)词聚类。将评
论
标签词库中的词语用训练好的词向量模型表示，再利用k-means(k均值) 聚类算法将
评
论
标签词库
中
的
词语聚为k个类别；所述k个类别需要通过多次试验观察聚类结果确定；4) 归纳评价维度，
筛选类别词典。经人工归纳筛选将电影评论大众观点分为“导演，摄影，剧情，演员，情
感，视听，题材，观感”8个维度，并
对
每个
类
簇下
的
词
进
行
的
词组
成
标签
类
别词典；5)扩充标签
类
别词典。利
用
训练好
的
词
向
量
模型
获
取
标签
类
别词
的
相关词扩充标签
类
别词典，去掉词典
中
重
复词，
生
成
最
终
的
标签
类
别词典。所述
获
取
标签
类
别词
的
相关词
是
通过词
向
量
模型计
算
词
与
词
之
间相似性，并设定阈值，当相似
度
大
于
该阈值，才认定词
之
间
是
相关相近的，同
时
对
相关词
的
结
果再
进
行
人
工
筛
选
以
确保标签
类
别词典
的
准确性。
生
成
的
标签
类
别词典，
示
例如表4所示：表4其次，获取情感词典。先收集开源的正负情感词典，主要有知网
hownet词典与台湾大学开源的情感词典，对词典进行整理合并。其中,hownet知
网
词典
中
包含
正
负
情
感
词
语
和
正
负
评
价
词语，本
发
明只
取
其
中
的
正
负
评
价
词语。
然
后统计所述
观
点
情
感
词库
中
词频，保留
大
于
设定阈
值
的
所有词，
然
后
人
工
删掉一些
与
电
影
评
论
情
感
无
关
的
词语，形
成
具
有
电
影
特色
的
情
感
词典。最后，
进
行
关键词匹配。关键词匹配
是
对
于
评
论
观
点
抽
取
中
能
提
取
出
观
点
词
与
情
感
词
的
评
论
语
句，将
其
观
点
词
与
标签
类
别词典
进
行
匹配，将
其
情
感
词
与
情
感
词典
进
行
匹配，若有两者都能匹配成功，则给该评论语句打上(标签类别，情感倾向性) 标记。例
如，对于“ 故事性不强”评论，评论观点提取后获得( 故事性，不强)标记，经过标签类别与
情
感
倾
向
性
标记后
获
得(剧情，负向)标记。
人
工
打标
有
两种情况: 一
是
在
评
论
观
点
抽
取
中
未
提
取
出
观
点
词
与
情
感
词
的
句
子，二
是
评
论
观
点
抽
取
中
能
提
取
出
观
点
词
与
情
感
词，但不能满足关键词匹配打标
的
句
子，针
对
这种
情
况
进
行
人
工
标签
类
别标记
与
情
感
倾
向
性
标记。步骤s5，
生
成
评
论
观
点
情
感
分
析
模型，
其
由
评
论
标签
分
类
模型
和
标签
情
感
分
类
模型组成，两个
分
类
模型除
了
类
别标签不一样，整个
数
据
处
理
与
使
用
分
类
算
法
都
是
相同
的
流程。
分
类
模型
数
据
集
有
两类：一
是
的
数
据
集，二
是
人
工
打标
的
数
据
集，
分
别
用
这两
类
数
据
进
行
训练
生
成
2个
评
论
标签
分
类
模型
以
及2个标签
情
感
分
类
模型。
为
了
提
升
情
感
分
析
的
准确率，将2个
评
论
标签
分
类
模型
加
权融合
生
成
新
的
评
论
标签
分
类
模型，将2个标签
情
感
分
类
模型
加
权融合
生
成
新
的
标签
情
感
分
类
模型，参考图3
和
图4。本实施例中，关键词打标数据生成的模型与人工打标数据生成的模型权重分别为
0.4与0.6。评论观点情感分析概率计算公式如下：pi＝0.4*p1i+0.6*p2i其中，pi
表
示
评
论
语
料库中某评论内容为i类别的概率，p1i 、p2i 分别表示关键词打标数据生成的模型得到
的
概率
值
和
人
工
打标数据生成的模型得到的概率值。对于评论标签分类模型，i取值为0-7分别表示“导
演，摄影，剧情，演员，情感，视听，题材”这8个类别。对于标签情感分类模型，i取值有0
和
1，1
表
示
正
向
情
感，0
表
示
负
向
情
感。上述
的
分
类
模型
的
构
建过程，参见图5，涉及
以
下步骤：首先，
进
行
数
据
平衡。
分
类
数
据
各
类
样本可能出现不均衡
的
现象，这对分类的整体准确性有很大的影响。本发明采用上采样(oversampling)策略，即
将小
数
据
类
别复制多份。其次，进行数据集划分。打乱数据集按8:2 比例划分为训练集与测试集。然
后，进行特征提取。对训练集语料进行分词，去除停用词，然后采用的tf-idf算法(词频-
逆文档频率)提取文本特征，再计算各特征的卡方值(chi2或χ2) ，通过设置阈值k(k
为
整数) ，保留卡
方
值
排列前k个特征实现特征降维。最后，将
数
据
导入随机森林
分
类
模型，
进
行
模型训练、保存
与
评
估。步骤s6 ，
评
论
情
感
标签
自
动生成。
在
训练好
评
论
观
点
情
感
分
析
模型后，可
进
行
新影评的自动打标，具体的情感预测过程，参考图6。首先做评论观点抽取，抽取( 观点
词，
情
感
词)，若可以获取(观点词，情感词) ，则进行关键词匹配，包括标签类别匹配和情感词匹
配，如果两
者
都能匹配成功，就
直
接
输出结果。否则，
直
接
调
用
评
论
标签
分
类
模型和/或标签情感分类模型进行标签类别预测和标签情感预测，且设定两个阈值(t1 和
t2)，若标签类别预测概率p1大于t1且标签情感预测概率p2大于t2，则输出(评论标签
类
别标记、
情
感
倾
向
性
标记) 。以上实施例仅供说明本发明之用，而非对本发明的限制，有关 2018评分最高的
华语电影2018最受关注的院线电影2018评分最高的喜剧片：《我不是药神》9.0 亚瑟·
弗兰克
是
一
名
以
小丑职
业
为
生
的
普
通人，患
有
精神疾病
的
他
和
母亲一同住
在
哥谭
市
的
一座公寓里，幻想
成
为
脱
口
秀演员
的
亚瑟
为
了
这个目标
而
努力
的
生
活着，但
是
现实却屡次击败他
的
梦想，亚瑟渐渐地变得越
来
越癫狂，某天
在
地铁上，亚瑟
为
了
自
保杀害
了
几
名
嘲笑他的人，同时，一个疯狂
的
想
法
在
亚瑟
心
灵萌发……
在
看似
和
平
的
哥谭市，即将
发
生
翻天覆地
的
巨变。
开
发
人
员表示，这样
的
工
具
可
以
在
拍摄
之
前
就
发
出警告，告诉制片
人
大
概
的
评
级范围。这
部
电
影
可
以
在
获
得更
成
熟
的
评
级
之
前
进
行
调整从
而
为
电
影
公司节省时间和金钱。但AI工具目前也不能完全替代人类的工作。华纳兄弟宣布：2021
年所有电影都将在院线和HBO Max上同时上映。影评：触目惊心，十分钟的吵架像
刀割般的疼，说
着
伤害彼此的话，却刺痛
自
己
的
内
心。婚姻二字，
在
宣誓
的
时
候
有
多
神圣
和
美好，
在
别离
的
时
候就
有
多
虚伪
和
自
私，
结
婚把彼此黏连得越紧，离婚就把
对
方
撕扯得越深。两个
人
不能
在
一起，不
是
因
为
不爱了，
而
是
因
为
因爱生恨。围城之中，谁又能
在
一切尘埃落定之后，去搜找曾经拥有，如今却气若游丝的爱呢? 2019 在华语电影排行榜
_豆瓣年终电影榜单已出炉,还有2020年期待的电影《辛德勒的名单》是1993年美国史诗
时
代
剧
电
影
导演
和
联
合制作
的
史蒂文·斯皮尔伯格
和
脚本史蒂文·萨利安。它
是
根
据
小说辛德勒
方
舟由澳
大
利亚小说
家
托马斯·肯利。这
部
电
影
涉及到德国
商
人
奥斯卡·辛德勒
的
一生中，他
在
第二次世界
大
战
期间，通过
在
他
们
的
工
厂里雇用了他们，在犹太人的大屠杀中救了一千多名波兰犹太难民的生命。《怒火·重
案》上映后好评如潮，累计票房13.29亿，一举成为我国影史港片票房冠军。伴随着利欲
熏天
的
创作风暴，案件背后
的
故事似乎也更
加
扑朔迷离，戏中戏、案中案、局中局、
人
外人，
环
环
相扣，一场野
心
与
良
心
的
较
量
愈演愈烈。
究
竟
是
命悬一线，还
是
另
有
惊天逆转？爱
与
温暖的血色花又能否从快将干涸的血河中终极绽放？一切都有待揭开。查看更多 2020
年上半年，
受
疫情原因影响，全球的影视行业都遭到巨大冲击，直到七月才重开影院。外媒评出
2019上半年20部最佳电影,4部国产电影入选然后网友又吵起来了《这个杀手不太冷》
是
由 Luc Besson撰写和指导的1994年英语法语惊悚片。在影片中，莱昂，一个专
业
的
杀手，不
情
愿地
发
生
在
12岁
的
玛蒂尔达，她
的
家
人
被谋杀损坏后，毒品管制局代理诺曼·斯坦斯菲尔德。简单用大家熟悉的事物做个类
比，《沙丘》
在
科幻文学
的
地
位
类
似《魔戒》在奇幻文学的地位，弗兰克·赫伯特的科幻作家地位类似托尔金的奇幻作家地
位。平台声明：该文
观
点
仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。 2020年
降至，今年
的
电
影
排行榜也终于可以开始盘点，下面就为大家整理了2019豆瓣高分电影排行榜TOP10，你
看过哪些呢?没看过的赶紧收藏，快来看看吧! 《悬崖之上》讲述了二十世纪三十年
代，四
位
曾
在
苏
联
接
受
特训
的
共
产
党特
工
组
成
任
务
小队，回国执
行
代
号为“乌特拉”
的
秘密行动。由
于
叛徒
的
出卖，他
们
从跳伞降落
的
第一刻起，就
已
置
身
于
敌
人
布下
的
罗
网
之
中。同志能否脱身，任
务
能否完成，雪一直下，立于“悬
崖
之
上”
的
行
动小组
面
临严峻考验平台声明：该文
观
点
仅
代
表
作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。赵婷凭借《无依之
地》拿下威尼斯金狮奖，
成
为
了
史上第一
位
收
获
欧洲三
大
电
影
节
的
华
人
女导演。将由罗伯特·帕丁森
主
演
的
新《蝙蝠侠》
电
影
在
预告放出后就
获
得
了
许
多
蝙蝠侠粉丝
以
及 DC 迷
的
热议。
在
预告片中的打斗桥段，以及整体更加黑暗的风格让许多粉丝认为新片将会是 R 评级
（18岁及
以
上）。但
是
现
在
开
来，新片将不会出现污言秽语以及过度暴力的元素，因为目前该片已获得了 PG-13 的
评
级（13岁及
以
上）。我
们
热爱电影，因
为
电
影
让
生
活
在
别
处
成
为
可能。
感
谢你一
直
以
来
与
豆瓣
分
享这份热爱，愿一起看
电
影
的
人，继续并肩
在
一起。转载请在文章开头和结尾显眼处标注：作者、出处和链接。不按规范转载侵权必
究。
对
于
电
影
从
业
者
来
讲，电
影
评
级
往
往
是
一
件
伤
神
费
力
的
事
情。一
部
电
影
的
预
告
片
可
能
看
起
来
并
不
是
特
别
紧
张，但
评
级
往
往
会
决
定
这
部
电
影
适
合
的
观
影
人
群，甚
至
在
一
定
程
度
上
影
响
票
房，对
此，来
自
南
加
州
大
学
维
特
比
工
程
学
院
的
研
究
人
员
开
发
了
一
种
新
的
人
工
智
能
(AI)工
具，它
可
以
从
电
影
剧
本
中
获
取
数
据
甚
至
在
电
影
拍
摄
之
前
就
给
出
评
级。
《扬
名
立
万》讲
述
了
一
群
电
影
人
为
将
一
起
惊
天
大
案
拍
成
电
影
而
齐
聚
一
堂，创
意
层
出
不
穷
之
时，却
不
曾
想
“凶
手”也
来
到
了
现
场
的
故
事。
外
媒
评
出
2019上
半
年
20部
最
佳
电
影,4部
国
产
电
影
入
选
然
后
网
友
又
吵
起
来
了
《霸
王
别
姬》是
汤
臣
电
影
有
限
公
司
出
品
的
文
艺
片，该
片
改
编
自
李
碧
华
的
同
名
小
说，由
陈
凯
歌
执
导，李
碧
华、芦
苇
编
剧
；张
国
荣、巩
俐、张
丰
毅
领
衔
主
演。9岁
的
小
豆
子
被
做
妓
女
的
母
亲
切
掉
右
手
上
那
根
畸
形
的
指
头
后
进
入
关
家
戏
班
学
戏。戏
班
里
只
有
师
兄
小
石
头
同
情
关
照
小
豆
子。十
年
过
去
了，在
关
师
父
严
厉
和
残
酷
的
训
导
下，师
兄
二
人
演
技
很
快
提
高，小
豆
子
取
艺
名
程
蝶
衣，演
旦
角
；小
石
头
取
艺
名
段
小
楼，演
生
角。俩
人
合
演
的
《霸
王
别
姬》誉
满
京
城，师
兄
二
人
也
红
极
一
时。二
人
约
定
合
演
一
辈
子
《霸
王
别
姬》。
《孤
味》讲
述
了
原
配
与
情
人
在
同
一
个
男
人
去
世
后，彼
此
如
何
面
对
与
相
处
的
故
事。
《吉
祥
如
意》讲
了
喜
剧
导
演
董
成
鹏
回
到
家
乡
拍
摄
家
人
如
何
过
年
的
过
程
中，原
本
的
主
要
拍
摄
对
象
姥
姥
意
外
去
世，他
临
时
改
变
了
拍
摄
计
划
的
故
事.
从
票
房
角
度
考
虑，
PG-
13
与
R
评
级
间
的
收
入
可
能
会
高
达
数
千
万
美
元。尽
管
此
前
《小
丑》电
影
R
评
级
并
未
能
阻止它疯狂盈利。这个2017马上就要过去了，在这一年，大家都看过些什么好电影呢
？
是
否都还记得
影
片
中
的
那
些精彩
片
段
和
那
些脍炙人口的台词呢？小编整理了豆瓣2017年度榜单来跟大家一起分享~ 2020
年
降至，今
年
的
电
影
排行榜也终于可以开始盘点，下面就为大家整理了2019豆瓣高分电影排行榜TOP10，你
看
过
哪些呢?没看过的赶紧收藏，快来看看吧! 未经授权严禁转载，授权事宜请联系作者本
人，侵权必究。受疫情影响，戛纳电影节历史上第二次停办，仅发布入围片单；7月
25日，上海电影节开幕，成为首个复工的A类电影节。 Notice: The content above (including
the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a
social media platform and merely provides information storage space services.”
影
评
：触目惊心，十分钟
的
吵
架像刀割般的疼，说着
伤
害彼
此
的
话，却刺痛
自
己
的
内心。婚姻二字，
在
宣誓
的
时
候
有
多
神
圣
和
美
好，
在
别
离
的
时
候
就
有
多虚伪
和
自
私，结婚把彼
此
黏连得越紧，离婚
就
把
对
方撕扯得越深。两
个
人
不
能
在
一
起，
不
是
因
为
不
爱了，
而
是
因
为
因爱生恨。围城之中，谁
又
能
在
一
切
尘埃落定之后，去搜找曾经拥有，如今却气若游丝的爱呢? 今日，豆瓣电影公布了2018
年
度
电
影
榜单，
将
今
年
的
电
影
分
为
几
大
板块，你看过几部？你最喜爱的是哪部电影？2019年你最期待哪部电影？《我不是药
神》
被
评
为
今
年
评
分
最
高
的
华
语电影，总
票
房
31亿。由真实
故
事
改
编，徐峥
主
演
的
电
影，
并
且
在
台湾金马奖上，徐峥凭借
此
电
影
拿下金马奖影帝。排
名
第二名是未在内地上映的《大佛普拉斯》，第三名是大年初一上映的《红海行动》。《
拆弹专家2》讲
述
了
邪恶组织“ 复生会”
要
对
香港造
成
恐怖袭击，
前
拆弹专
家
潘乘风
也
因
一
场
爆炸案被警方怀疑牵涉其中，潘乘风一边逃亡一边查明事情真相的故事。《白蛇传
·情》取材自民间故事《白蛇传》，那白蛇的故事，远久流传...白素贞修炼千年，只为人
间
寻
那
许仙，再续兰因前缘。说什么
人
妖殊途，法理难容
此
爱恋。昆仑雪寒金山水漫，白素贞拼尽所有，
只
求
天
地
人
心情真一片。纵天谴又如何?再困塔里千年亦甘愿!彼此守望，哪天，佛陀花开，你我再
见! 该领域下的技术专家平台声明：该文观点仅代表作者本人，搜狐号系信息发布平
台，搜狐仅提供信息存储空间服务。《雄狮少年》讲述了三个被人无视和欺负的少
年，阴差阳错走
上
令
人
捧腹
的
舞狮之路，经
过
师
傅咸鱼强的培训，一路跌跌撞撞，最终凭借满腔热血和冲劲，成为自己心中“雄狮”的故
事。
作者: knrad 2022-06-09 16:32 [ 查查吧 ]：www.chachaba.com 2020
年
中
国
电
影
票
房
预
计
将
达
到
200亿元
人
民币，首次
成
为
全球第
一
大
票
仓。：互联
网
大
数
据
时
代，
在
线
评
论
成
为
了
口碑
的
代名词，
也
是
消
费
者
情
感态
度
最
直接
的
表
达
方式
和
渠道。
对
消
费
者
评
论
的
分析，
对
消
费
者
来
说，
能
够
获
取
产
品
全方位
的
评
价，
从
而
多
维
度
了
解产品，方便用户
进
行决策。
对
于
商
家
来
说，
可
以
了
解消
费
者
喜
好、
了
解市场，
从
而
提
升服务质量、增
加
客户粘性。随着互联
网
媒
体
技
术
的
日益革新，
影
院
行
业
和
家
庭娱乐行
业
在
内
的
电
影
娱乐
产
业
正
在
蓬勃发展，
电
影
已
成
为
人
们日常娱乐选项，
而
人
们
对
电
影
的
接受
与
欢迎，
也
滋
生
了
大
量
的
评
论信息。
从
大
众
评
论
中
提
取
主
观
性观点，
并
判断
大
众
的
正
面
倾向或负
面
倾向性
是
自
然
语言
处
理
领
域
的
信息抽
取
与
挖掘
中
的
重
要
问题，
同
时
电
影
评
论信息
在
价值
观
传递、
影
视环境塑造等方面，展示着
自
身
的
价值，
对
其展
开
分析，
有
助
于
影
视
研
究
的
深化发展。因此，
对
电
影
评
论
观
点
进
行
情
感倾向性分析具
有
重
大
意
义。目
前
普遍使用
的
用户
评
论
观
点
提
取
主
要
是
无监督
的
规则
提
取
与
聚
类算法等方法。基
于
规则
提
取
的
方法，
主
要
是
依
据
句法结构
人
工
总结规则
来
抽
取
评
论
中
的
观
点，但
人
工
整理
的
规则
不
能
涵盖所
有
评
论
观
点表
述
方式，所
以
该方法
能
提
取
的
有
效
观
点有限。基
于
聚
类
的
方法，简单但准确率不高，
很
难
生
成
较
为
合
理准确
的
评
论标签。目
前
评
论
情
感分析常用
的
方法
有
词典匹
配
与
分类算法等。基
于
情
感词典
的
方法，完全依赖
于
情
感词典，受
限
于
词典
的
规模
大
小
；
而
情
感分类算法
是
有
监督
的
方法，
有
的
训
练集
是
根
据
评
论信息及
评
分组
合
获
取，
有
的
是
人
工
标注，需
要
消耗
大
量
人
工
成
本。此外，
不
同
行
业
的
评
论信息
往
往
会
有
各
自
的
关
注点
与
侧重点，所
以
进
行
情
感分析
的
方式
会
略
有
差异。
对
于
电
影
评
论而言，
与
电
商、餐厅、酒店等
在
线
评
论信息相比，包含
的
用户体验
与
感受信息
比
较复杂，所
以
目
前
的
情
感分析
与
观
点抽
取
方法
并
不
能
完全
适
用
于
影
评
分析。此外，许多
在
线
评
论
研
究
将
评
论
观
点抽
取
与
情
感分类作
为
两
个
单独
的
研
究
模块，
而
用户
对
某
一
产
品
或
事
物
的
评
论
往
往
是
多
维
度
的，且
对
产
品
各
个
维
度
评
价褒贬不一，直接分析用户
情
感
是
好评( 正向)或差评(负向) 显
然
不
够正确，因
此
对
用户
提
取
的
主
要
观
点
维
度
进
行
情
感分析更具
有
实际价值。比如，
对
于
评
论“这部电影的演员演技炸裂，但故事情节不佳”，经情感分析后得出(演员，正向) 与( 剧
情，负向)
的
结果更
加
准确。
技
术实
现
要
素：
本
发
明
的
目
的
在
于
提
供
一
种
电
影
评
论
观
点
情
感倾向性分析方法，
能
全
面
准确地反映
出
用户
对
影
片
的
情
感表达。实
现
上
述
目
的
的
技
术方
案
是
：
一
种
电
影
评
论
观
点
情
感倾向性分析方法，包括：步骤s1，
从
影
评
网
站爬
取
各类
别
的
多
部
电
影
的
影
片
描
述
信息和评论信息；步骤s2，对采集的影评描述信息和评论信息进行数据预处理；步骤s3 ，
制
定
多条
评
论
观
点
提
取
规则，利用
评
论
观
点
提
取
规则
从
评
论信息
的
评
论内容
的
各
个
评
论语句
中
获
得
观
点词
与
情
感词，
然
后
将
所
有
观
点词
和
情
感词分别保存为评论标签词库与观点情感词库；步骤s4 ，通过关键词匹配打标或人工打
标，
对
各
个
评
论语句
进
行
评
论标签类
别
标记
和
情
感倾向性标记；步骤s5，
生
成
由
评
论标签分类模型
和
标签
情
感分类模型组
成
的
评
论
观
点
情
感分析模型；步骤s6，针
对
目标影评，利用
评
论
观
点
情
感分析模型
自
动
生
成
评
论标签类别标记和情感倾向性标记。优选的，所述步骤s1 中，电影的分类包括：爱情、动
画、动作、科幻、恐怖、
喜
剧
和
悬疑；所
述
影
片
描
述
信息包括
影
片
名、
导
演
名、
主
演
名、类型
和
总
评
分；所
述
评
论信息包括：
评
论
者
昵称、
评
论
有
用数、
评
论时间、
评
论内容
和
评
分。优选的，所
述
的
数
据
预
处
理包括：
将
采集
的
所
有
评
论信息整
合
形
成
一
个
评
论语料库；
去
除
评
论语料库
中
重复
的
数
据
；删除
评
论语料库
中
评
论内容缺失
的
数
据
；
将
评
论语料库
中
繁体
中
文
全
部
转化
为
简体
中
文
；
从
采集
的
各
影
片
描
述
信息
中
获
取
影
片
名、
导
演
名
和
主
演
名，存
入
用户
自
定
义词典
并
以
不
同
符号标记。优选的，所
述
步骤s3包括：
根
据
依存句法结构、词语
间
的
词性
和
评
论
观
点
中
观
点词
与
情
感词
的
表
达
结构
来
构建多条
评
论
观
点
提
取
规则；
对
评
论语料库
中
评
论内容
进
行分句、分词、词性标注
和
依存句法分析，
获
得各
个
评
论语句，查
看
评
论语句
是
否匹
配
某条
评
论
观
点抽
取
规则，匹
配
则
获
取
观
点词
和
情
感词，
将
获
取
的
所
有
观
点词
和
情
感词分
别
保存
为
评
论标签词库
与
观
点
情
感词库。优选的，所
述
的
依存句法结构包括：
主
谓结构、动宾结构、
定
中
结构、状
中
结构、动补结构
和
并
列结构；所
述
的
词语
间
的
词性包括：
主
语成分、宾语或
形
似宾语成分、
定
语
成
分
以
及
名
词
成
分；
形
似宾语
指
间
接或类似宾语
的
结构；所
述
的
观
点词
与
情
感词
的
表
达
结构，指：
主
语
成
分
为
观
点词，宾语或
形
似宾语
成
分
为
情
感词；
定
语
成
分
为
情
感词，
被
其修饰
的
名
词
成
分为观点词。优选的，所述步骤s4包括：获取标签类别词典和情感词典；对于所述步骤s3
中
能
提
取
出
观
点词
和
情
感词
的
评
论语句
进
行
关
键词匹
配
打标：
将
获
取
的
观
点词
与
标签类
别
词典
进
行匹配，
将
获
取
的
情
感词
与
情
感词典
进
行匹配，若两
者
均
能
匹
配
成
功，
给
该
评
论语句打
上
标签类
别
标记
以
及
情
感倾向性标记；否则，
进
行
人
工
标签类
别
标记
与
情
感倾向性标记；
对
于
所
述
步骤s3
中
未
提
取
出
观
点词
和
情
感词
的
评
论语句，
进
行
人
工
标签类
别
标记
与
情
感倾向性标记。优选的，所
述
的
获
取
标签类
别
词典，包括：
将
评
论标签词库
中
含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”；
通
过
词向量模型
训
练各
评
论语句
获
得
训
练好
的
词向量模型；利用
评
论标签词库
的
词语用
训
练好
的
词向量模型表示，再利用k均值
聚
类算法
将
评
论标签词库
中
的
感，视听，题材，观感”8
个
维
度，
并
对
每
个
类簇下
的
词
进
行筛选，保留
相
关
的
词组
成
初步
的
标签类
别
词典；利用
训
练好
的
词向量模型
获
取
初步
的
标签类
别
词典
中
标签类
别
词
的
相
关
词扩充标签类
别
词典，
去
掉
词典
中
重复词，
生
成
最
终
的
标签类
别
词典；所
述
的
获
取
情
感词典指：先
收
集
开
源
的
正负
情
感词典
进
行整理合并，
然
后
统
计
所
述
观
点
情
感词库
中
词频，保留
大
于
设
定
阈值
的
所有词，
然
后
人
工
删
掉
与
电
影
评
论
情
感无
关
的
词语，
形
成
情
感词典。优选的，所述步骤s5 包括：利用关键词匹配打标的数据集以及人工打标的数据
集，分
别
训
练
生
成
两
个
初步
的
评
以
及两
个
初步
的
标签
情
感分类模型；
将
两
个
初步
的
评
加
权融
合
生
成
最
终
的
评
论标签分类模型；
将
两
个
初步
的
标签
情
感分类模型
加
权融
合
生
成
最
终
的
标签
情
感分类模型。优选的，所
述
的
初步
的
评
论标签分类模型或初步
的
标签
情
感分类模型
的
生
成
步骤，包括：
对
关
键词匹
配
打标
的
数
据
集
以
及
人
工
打标
的
数
据
集采用
上
采样策略，
进
行
数
据
平衡；
将
数
据
平衡
后
的
关
键词匹
配
打标
的
数
据
集
以
及
人
工
打标
的
数
据
集按
预
设比例划分为训练集和测试集；对训练集中语料进行分词，去除停用词，然后采用tf-idf
算法
提
取
文
本
特
征，再
计
算各
特
征
的
卡方值
进
行
特
征降维；
将
数
据
导
入
随机森林分类模型，
进
行模型训练、保存与评估。优选的，所述步骤s6 ，包括：抽取观点词和情感词，若可以获
取，则
进
行
关
键词匹配，包括标签类
别
匹
配
和
情
感词匹配，
如
果两
者
都
能
匹
配
成
功，
就
直接输
出
标签类
别
标记
与
情
感倾向性标记；否则，直接调用
评
和
/或标签情感分类模型进行标签类别预测和标签情感预测，且设定两个阈值t1和t2，若标
签类别预测概率p1大于t1 且标签情感预测概率p2大于t2 ，则输出标签类别标记与情感倾
向性标记。
本
发
明
的
有
益效果是：
本
发
明
面
向
电
影
评
论内容
与
情
感倾向都较
为
复杂
的
文
本
信息
进
行处理，采用多
种
方法多
种
策略
相
结
合
的
方式
对
电
影
评
论
数
据
进
行
情
感倾向性分析，
能
够较
为
准确
的
捕
获
观
众
对
某
部
电
影
某些方
面
的
情
感倾向。附图说明图1
是
本
发
明
的
电
影
评
论
观
点
情
感倾向性分析方法
的
流
程
图；图2
是
本
发
明
中
关
键词匹
配
打标
的
流
程
图；图3
是
本
发
明
中
评
论标签分类模型融
合
示
意
图；图4
是
本
发
明
中
标签
情
感分类模型融
合
示
意
图；图5
是
本
发
明
中
分类模型构建流
程
示
意
图；图6
是
本
发
明
中
评
论
情
感标签
自
动
生
成
流程图。具体实施方式下
面
将
结
合
附图
对
本
发
明作
进
一
步说明。请参阅图1，
本
发
明
的
电
影
评
论
观
点
情
主
要
是
对
影
评
数
据
做
评
论
观
点提取，
进
行
观
点
的
打标分类
与
情
感倾向性分析，即
获
取
评
论标签类
别
及其
情
感倾向，
同
时
构建
评
论
观
点
情
感分析模型
以
实
现
对
新
影
评
数
据
进
行分析归类，贴
上
类别以及情感标签。包括下列步骤：步骤s1，数据爬取：从影评网站爬取爱情、动画、动
作、科幻、恐怖、
喜
剧
和
悬疑类
别
下
的
多
部
电
影
的
影
片
描
述
信息及各
部
电
影
的
评
论信息。其中，
影
片
描
述
信息包括
影
片
名、导演名、主演名、类型、总评分等信息。影片的评论信息包括评论者昵称、评论有用
数、
评
论时间、
评
论内容
和
评
分等信息。步骤s2 ，
对
影
片
描
述
信息
和
评
论信息
进
行
数
据
预
处
理，包括：整
合
数
据，
将
采集
的
所
有
评
论信息整
合
成
一
个
评
论语料库；
数
据
去
重，
去
除
评
论语料库
中
的
重复
数
据
；
处
理缺失值，删除
评
论语料库
中
评
论内容缺失
的
数
据
；
中
文
繁体处理，
将
评
论语料库
中
繁体
中
文
全
部
转化
为
简体
中
文
；
自
定
义用户词典，
从
采集
的
各
影
片
描
述
信息
中
获
取
影
片
名、
导
演
名
和
主
演
名，存
入
用户
自
定
义词典
并
以
不
同
符号标记。步骤s3 ，
评
论
观
点抽取：
根
据
现
代汉语
中
依存句法结构、词语
间
的
词性，再结
合
实际
评
论
观
点
中
观
点词
与
情
感词表
达
结构制
定
多条普
适
性
的
评
论
观
点
提
取
规则。
对
评
论语料库
中
评
论内容
进
行分句、分词、词性标注、依存句法分析等操作，
获
得各
个
评
论语句，
然
后
查
看
评
论语句
是
否匹
配
某条
评
论
观
点抽
取
规则，
满
足则
获
取
(
观
点词，
情
感词) ，
最
后
将
获
取
的
所
有
观
点词
和
情
感词分
别
保存
为
评
论标签词库
与
观
点
情
感词库。其中，
评
论
观
点抽
取
规则
根
据
依存句法结构将规则主要分为两类：一是主谓结构(sbv)为核心的规则体系，二是以定中
结构(att)为核心的规则体系。提取规则中涉及依存句法关系如表1所示：关系类型
tagdescriptionexample主谓结构sbvsubject-verb 我送她
一
束花( 我＜--送)动宾结构vobverb-object我送她一束花( 送--＞花)定
中
结构attattribute 红苹果( 红＜--苹果)状中结构advadverbial非常
美
丽(非常＜--美丽)动补结构cmpcomplement做完了作业(做--＞完)并列结构coocoordinate
大
山和大海( 大山--＞大海) 表1进一步地，以sbv为核心的规则体系主要分为4大类，如表2
所示：表2
从
表2
中
可
以
看
出，以sbv
为
核心
的
规则
主
要
是
以
名
词性
主
语直接或
者
间
接
与
宾语或类似宾语
的
结构(
以
下
将
间
接或类似宾语
的
结构称作
形
似宾语)建
立
关
系连接。所抽
取
的
主
语
成
分
为
评
论
的
观
点词，抽
取
的
形
似宾语
成
分
为
评
论
观
点
的
情
感词。该类规则
并
非仅仅涉及表2
中
所列
出
的
句式结构，
此
外
还
要
考
虑
主
语
与
形
似宾语
是
否存
在
并
列结构，再
者
因
为
否
定
词
影
响
情
感
的
倾向，所
以
还需
要
考
虑
形
似宾语
是
否存
在
副词修饰。例如，
对
于
影
评
剧
情，不错) ；“题材丰富新颖”可获取( 题材，丰富)和(题材，新颖)标签对；“电影不好看”
可
提
取
出
(电影，不好看)。进一步地，以att为核心的规则体系也分为4类，具体规则见表3。表3
定
语
是
用
来
修饰、限定、说明
名
词或代词
的
品
质
与
特
征的，所
以
定
中
关
系
在
评
论
观
点抽
取
规则
中
不
可
或缺。
从
表3
中
看
出，
形
容词
一
般用作
评
论
观
点
的
情
感词，
被
其修饰
的
名
词或用作
名
词
的
动词作
为
评
论
的
观
点词。同样，该类规则
也
需
要
考
虑
名
词成分、
形
容词
的
并
列结构，还有修饰形容词的副词成分。例如，表3给出的例句“生硬尴尬的表演”中“生
硬”与“尴尬”为并列关系，所以能抽取出(表示，生硬) 和( 表演，尴尬)两组标签对；“表
演
不
生
动”可抽取出(表演，不生动)。步骤s4 ，评论标签类别标记和情感倾向性标记，分为关键
词匹
配
打标
和
人
工
打标。其中，
关
键词匹
配
打标需
要
获
取
标签类
别
词典
和
情
感词典，
然
后
进
行
关
键词匹配，
主
要
流
程
参见图2，首先
获
取
标签类
别
词典，包括
如
下步骤：1)
影
片
专
有
名
词替换。
将
评
论标签词库
中
含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”，
从
而
实
现
评
论标签词库中的部分词语的归类；即若评论标签词库中存在的“张三”、“李四”等演员
名，但由
于
机器无法判别“张三”、“李四”
为
演
员，所
以
通过将其与用户自定义词典中演员名列表进行匹配，则可将“张三”、“李四”标记为“演
员”；
导
演
名
和
影
片
名
的
标记
也
用
相
同
的
方法。2)词向量模型训练。
对
评
论语料库
中
评
论内容
进
行分词、
去
停用词后保存到一个文本中，每条评论语句保存为一行，词与词之间以空格隔开；利用
word2vec(词向量) 模型训练处理好的评论内容获得词向量模型；3)词聚类。将评论标签
词库中的词语用训练好的词向量模型表示，再利用k-means(k均值)聚类算法将评论标签
词库
中
的
词语聚为k个类别；所述k个类别需要通过多次试验观察聚类结果确定；4) 归纳评价维度，
筛选类别词典。经人工归纳筛选将电影评论大众观点分为“导演，摄影，剧情，演员，情
感，视听，题材，观感”8
个
维
度，
并
对
每
个
类簇下
的
词
进
行筛选，保留
相
关
的
词组
成
标签类
别
词典；5)扩充标签类
别
词典。利用
训
练好
的
词向量模型
获
取
标签类
别
词
的
相
关
词扩充标签类
别
词典，
去
掉
词典
中
重复词，
生
成
最
终
的
标签类
别
词典。所
述
获
取
标签类
别
词
的
相
关
词
是
通
过
词向量模型
计
算词
与
词
之
间
相
似性，
并
设
定
阈值，当
相
似
度
大
于
该阈值，才认
定
词
之
间
是
相
关
相
近的，
同
时
对
相
关
词
的
结果再
进
行
人
工
筛
选
以
确保标签类
别
词典
的
准确性。
生
成
的
标签类
别
词典，示例
如
表4所示：表4其次，获取情感词典。先收集开源的正负情感词典，主要有知网hownet词
典与台湾大学开源的情感词典，对词典进行整理合并。其中,hownet知网词典中包含正
负
情
感词语
和
正负
评
价词语，
本
发
明
只
取
其
中
的
正负
评
价词语。
然
后
统
计
所
述
观
点
情
感词库
中
词频，保留
大
于
设
定
阈值
的
所有词，
然
后
人
工
删
掉
一
些
与
电
影
评
论
情
感无
关
的
词语，
形
成
具
有
电
影
特
色
的
情
感词典。最后，
进
行
关
键词匹配。
关
键词匹
配
是
对
于
评
论
观
点抽
取
中
能
提
取
出
观
点词
与
情
感词
的
评
论语句，
将
其
观
点词
与
标签类
别
词典
进
行匹配，
将
其
情
感词
与
情
感词典
进
行匹配，若
有
两
者
都
能
匹配成功，则给该评论语句打上(标签类别，情感倾向性)标记。例如，对于“故事性不强”
评
论，
评
论
观
点提取后获得(故事性，不强)标记，经过标签类别与情感倾向性标记后获得( 剧情，负向)
标记。
人
工
打标
有
两
种
情
况:
一
是
在
评
论
观
点抽
取
中
未
提
取
出
观
点词
与
情
感词
的
句子，
二
是
评
论
观
点抽
取
中
能
提
取
出
观
点词
与
情
感词，但
不
能
满
足
关
键词匹
配
打标
的
句子，针
对
这
种
情
况
进
行
人
工
标签类
别
标记
与
情
感倾向性标记。步骤s5，
生
成
评
论
观
点
情
感分析模型，其由
评
和
标签
情
感分类模型组成，两
个
分类模型除
了
类
别
标签
不
一
样，整
个
数
据
处
理
与
使用分类算法都
是
相
同
的
流程。分类模型
数
据
集
有
两类：
一
是
关
键词匹
配
打标
的
数
据
集，
二
是
人
工
打标
的
数
据
集，分
别
用
这
两类
数
据
进
行
训
练
生
成
2
个
评
以
及2
个
标签
情
感分类模型。
为
了
提
升
情
感分析
的
准确率，将2
个
评
加
权融
合
生
成
新
的
评
论标签分类模型，将2
个
标签
情
感分类模型
加
权融
合
生
成
新
的
标签
情
感分类模型，参
考
图3
和
0.4与0.6。评论观点情感分析概率计算公式如下：pi＝0.4*p1i+0.6*p2i其中，pi表示
评
论语料库中某评论内容为i类别的概率，p1i、p2i分别表示关键词打标数据生成的模型得
到
的
概率值
和
人
工
打标数据生成的模型得到的概率值。对于评论标签分类模型，i取值为0-7分别表示“导
演，摄影，剧情，演员，情感，视听，题材”这8个类别。对于标签情感分类模型，i取值有0
和
1，1表示正向情感，0表示负向情感。
上
述
的
分类模型
的
构建过程，参见图5，涉及
以
下步骤：首先，
进
行
数
据
平衡。分类
数
据
各类样
本
可
能
出
现
不
均衡的现象，这对分类的整体准确性有很大的影响。本发明采用上采样(oversampling)
策略，即
将
小
数
据
类
别
复制多份。其次，进行数据集划分。打乱数据集按8:2 比例划分为训练集与测试集。然
后，进行特征提取。对训练集语料进行分词，去除停用词，然后采用的tf-idf算法(词频-
逆文档频率)提取文本特征，再计算各特征的卡方值(chi2或χ2) ，通过设置阈值k(k
为
整数) ，保留卡方值排列前k
个
特
征实
现
特
征降维。最后，
将
数
据
导
入
随机森林分类模型，
进
行模型训练、保存
与
评
估。步骤s6 ，
评
论
情
感标签
自
动生成。
在
训
练好
评
论
观
点
情
感分析模型后，
可
进
行
新
影
评
的
自
动打标，具体的情感预测过程，参考图6。首先做评论观点抽取，抽取( 观点词，情感
词)，若可以获取(观点词，情感词) ，则进行关键词匹配，包括标签类别匹配和情感词匹
配，
如
果两
者
都
能
匹
配
成
功，
就
直接输
出
结果。否则，直接调用
评
和
/或标签情感分类模型进行标签类别预测和标签情感预测，且设定两个阈值(t1 和t2)，若
标签类别预测概率p1大于t1且标签情感预测概率p2大于t2，则输出(评论标签类别标记、
情
感倾向性标记)。
以
上
实施例仅供说明本发明之用，而非对本发明的限制，有关华纳兄弟宣布：2021年所有电
影都将在院线和HBO Max上同时上映。
背
景
技
术
：
2020年
上
半
年，受
疫
情
原
因
影
响，全
球
的
影
视
行
业
都
遭
到
巨
大
冲
击，直
到
七
月
才
重
开
影
院。
一
年
一
度，新
春
贺
岁，不
知
何
时
开
始，贺
岁
片
电
影
的
短
评
总
是
会
第
一
时
间
出
现
在
豆
瓣
影
评
中。似
乎
豆
瓣
电
影
已
经
被
贴
上
了
专
业
的
标
签，上
映
起，专
业，伪
专
业
的
影
评
们
大
笔
一
挥，就
能
给
人
一
种
直
接
影
响
票
房
卖
座
的
错
觉。事
实
真
的
是
这
样
吗
？
《这
个
杀
手
不
太
冷》是
由
Luc
Besson撰
写
和
指
导
的
1994年
英
语
法
语
惊
悚
片。在
影
片
中，莱
昂，一
个
专
业
的
杀
手，不
情
愿
地
发
生
在
12岁
的
玛
蒂
尔
达，她
的
家
人
被
谋
杀
损
坏
后，毒
品
管
制
局
代
理
诺
曼
·斯
坦
斯
菲
尔
德。
影
片
凭
借
其
曲
折
剧
情
和
凌
厉
动
作，成
功
引
发
观
众
们
的
热
议，正
是
影
片
成
功
的
最
好
证
明。
由
Lady
Gaga发
起、集
齐
全
球
顶
级
巨
星
的
One
World:Together
At
Home慈
善
公
益
演
唱
会
在
线
上
举
行，为
地
球
各
个
角
落
与
疫
情
抗
战
的
人
们
加
油
鼓
劲。
《泰
坦
尼
克
号》是
英
国
客
轮
是
在
北
大
西
洋
沉
没
在
凌
晨
1912年
4月
15日，之
后
将
其
与
碰撞冰山
其
在
处女航从南安普敦到新约克市。有一个估计的2224名乘客和船员在船上，和超过1500
去世，使
其
成
为致命商
业
的
一
个
和
平
时
期
的
海
上
灾难
在
现
代
历史。RMS 泰
坦
尼
克
号号
是
当
时
运载
的
最
大
的
船只，
是
白
星
线
运营
的
三
个
奥运
级
海
洋
船只中
的
第
二艘。泰
坦
尼
克
号
由
贝
尔
法
斯
特
的
哈兰德
和
沃尔夫造船厂建造。她的建筑师托马斯·安德鲁斯死于灾难。影评：完全不是超英
片，就
是
一
个
以普通底层小市民为主
角
的
犯罪片，
大
概也
是
这
些
年
漫威DC所有
电
影
里
人
性剖析
最
深刻
的
一
部。
影
片
对哥谭市有着
出
色
的
氛围营造，阴暗潮湿
的
道路，满目垃圾
的
街头，
一
触即
发
的
暴
动
气息，
这
样
的
环境，再
加
上
悲惨
的
身世、糟糕
的
一
天，足以把
一
个
老
实
的
可怜
人
逼向深渊，从
理
性
善
良
一
点点变得麻木和疯癫，每一步转变都真实可信。《沙丘》是美国科幻作家弗兰克·赫伯特
（Frank Herbert ，1920-1986）创作的著名科幻小说，被誉为“不可
能
被
改编成电影的小说”。《无声》根据真实事件改编，讲述了在宁静的校园中，却充斥着一
种
诡异氛围。天
真
无邪
的
学
生
们
都
在
参
与
一
个
游戏，但
这
个
游戏却是不能说的秘密，而大家口中这个不能说的游戏，其实是一种无助的求救讯号
2019十大电影排行榜_2019十大电影必看电影榜单出炉 2019国产电影观影指南《怒火·
重
案》上映后好评如潮，累计票房13.29亿，一举成为我国影史港片票房冠军。如您需求助
技
术
专
家，请点此查看
客
服电话进行咨询。受疫情影响，戛纳电影节历史上第二次停办，仅发布入围片单；7月
25日，上海电影节开幕，成为首个复工的A类电影节。本日字节跳动概念涨幅达1.46%，
收盘价位923.21点。字节跳动概念下本日涨幅龙头股，涨幅居前的有5只，分别是特发
信息，涨幅9.99%、中南文化，涨幅4.76% 、中文在线，涨幅4.... 作者：Teg 来源： ZNDS资
讯 2019-12-20 15:48 阅读( ) 影评：触目惊心，十分钟的吵架像刀割般的疼，说着伤害
彼此的话，却刺痛自己
的
内心。婚姻二字，
在
宣誓
的
时
候有多神圣
和
美好，
在
别离
的
时
候就有多虚伪
和
自私，结婚把彼此黏连得越紧，离婚就把对方撕扯得越深。两
个
人
不
能
在
一
起，
不
是
因
为
不
爱了，而
是
因
为
因
爱生恨。围城之中，谁又
能
在
一
切尘埃落定之后，去搜找曾经拥有，如今却气若游丝的爱呢? 1、李老师：1.计算力学 2.
无损检测 www.ixinwei.com’s server IP address could not be found. 未
经
授权严禁转载，授权事宜请联系作者本人，侵权必究。外媒评出2019上半年20部最佳
电
影,4部
国
产
电
影
入选然后网友又吵起来了平台声明：该文观点仅代表作者本人，搜狐号系信息发布平
台，搜狐仅提供信息存储空
间
服务。平台声明：该文
观
点仅
代
表作者本人，搜狐号系信息
发
布平台，搜狐仅提供信息存储空间服务。今日，豆瓣电影公布了2018年度电影榜单，将
今
年
的
电
影
分为几
大
板块，你看过几部？你
最
喜爱
的
是
哪部
电
影
？2019年你最期待哪部电影？上一篇：一种不规则框类零件装夹装置及方法与流程，
尤
其
涉及
电
影
评
论
观
点
情
感倾向性分析方法。：互联网
大
数据时代，
在
线
评
论
成
为
了
口碑
的
代
名词，也
是
消费者
情
感态度
最
直
接
的
表达方式
和
渠道。对消费者
评
论
的
分析，对消费者来说，
能
够获取产
品
全
方位
的
评
价，从而多维度
了
解产品，方便用户进
行
决策。对于商
家
来说，可以
了
解消费者喜好、
了
解市场，从而提升服务质量、增
加
客
户粘性。随着互联网媒体
技
术
的
日
益
革新，
影
院
行
业
和
家
庭娱乐
行
业
在
内
的
电
影
娱乐产
业
正
在
蓬勃发展，
电
影
已
成
为
人
们
日常娱乐选项，而
人
们
对
电
影
的
接
受
与
欢迎，也滋
生
了
大
量
的
评
论信息。从
大
众
评
论中提取主
观
性观点，并判断
大
众
的
正面倾向或负面倾向性
是
自然
语
言处
理
领域
的
信息抽取
与
挖掘中
的
重
要问题，同
时
电
影
评
论信息
在
价值
观
传递、
影
视
环境塑造等方面，展示着自身
的
价值，对
其
展
开
分析，有助于
影
视
研究
的
深化发展。因此，对
电
影
评
论
观
点进
行
情
感倾向性分析具有
重
大
意义。目前普遍使用
的
用户
评
论
观
点提取主要
是
无监督
的
规则提取
与
聚类算
法
等方法。基于规则提取
的
方法，主要
是
依据句
法
结构
人
工
总
结规则来抽取
评
论中
的
观
点，但
人
工整
理
的
规则
不
能
涵盖所有
评
论
观
点表述方式，所以该方
法
能
提取
的
有效
观
点有限。基于聚类
的
方法，简单但准确率不高，很难
生
成
较为合
理
准确
的
评
论标签。目前
评
论
情
感分析常用
的
方
法
有词典匹配
与
分类算法等。基于
情
感词典
的
方法，完
全
依赖于
情
感词典，受限于词典
的
规模
大
小；而
情
感分类算
法
是
有监督
的
方法，有
的
训练集
是
根据
评
论信息及
评
分组合获取，有
的
是
人
工标注，需要消耗
大
量
人
工成本。此外，
不
同
行
业
的
评
论信息往往
会
有
各
自
的
关注点
与
侧重点，所以进
行
情
感分析
的
方式
会
略有差异。对于
电
影
评
论而言，
与
电
商、餐厅、酒店等
在
线
评
的
用户体验
与
感受信息比较复杂，所以目前
的
情
感分析
与
观
点抽取方
法
并
不
能
完
全
适用于
影
评
分析。此外，许多
在
线
评
论研究
将
评
论
观
点抽取
与
情
感分类作为两
个
单独
的
研究模块，而用户对某
一
产
品
或事物
的
评
论往往
是
多维度的，且对产
品
各
个
维度
评
价褒贬不一，
直
接
分析用户
情
感
是
好
评
(正向)或差评(负向) 显然
不
够正确，
因
此对用户提取
的
主要
观
点维度进
行
情
感分析更具有
实
际价值。比如，对于
评
论“这部电影的演员演技炸裂，但故事情节不佳”，经情感分析后得出(演员，正向) 与( 剧
情，负向)
的
结果更
加
准确。
技
术
实
现
要素：本
发
明
的
目
的
在
于提供
一
种
电
影
评
论
观
点
情
能
全
面准确
地
反
映
出
用户对
影
片
的
情
感表达。
实
现
上
述目
的
的
技
术
方案是：
一
种
电
影
评
论
观
点
情
感倾向性分析方法，包括：步骤s1，从
影
评
网站爬取
各
类别
的
多部
电
影
的
影
片
描述信息
和
评
论信息；步骤s2，对采集的影评描述信息和评论信息进行数据预处理；步骤s3，制定多条
评
论
观
点提取规则，利用
评
论
观
点提取规则从
评
论信息
的
评
论内容
的
各
个
评
论
语
句中获得
观
点词
与
情
感词，然
后
将
所有
观
点词
和
情
感词分别保存为评论标签词库与观点情感词库；步骤s4 ，通过关键词匹配打标或人工打
标，对
各
个
评
论
语
句进
行
评
论
标
签类别
标
记
和
情
感倾向性
标
记；步骤s5，
生
成
由
评
论
标
签分类模型
和
标
签
情
感分类模型组
成
的
评
论
观
点
情
感分析模型；步骤s6，针对目
标
影
评，利用
评
论
观
点
情
感分析模型自
动
生
成
评
画、动作、科幻、恐怖、喜
剧
和
悬疑；所述
影
片
描述信息包括
影
片
名、
导
演
名、主演名、类型
和
总
评
分；所述
评
论信息包括：
评
论者昵称、
评
论有用数、
评
论时间、
评
论内容
和
评
的
数据预处
理
包括：
将
采集
的
所有
评
论信息整合形
成
一
个
评
论
语
料库；去除
评
论
语
料库中
重
复
的
数据；删除
评
论
语
料库中
评
论内容缺失
的
数据；
将
评
论
语
料库中繁体中文
全
部转化为简体中文；从采集
的
各
影
片
描述信息中获取
影
片
名、
导
演
名
和
主演名，存入用户自定义词典并以
不
同符号标记。优选的，所述步骤s3包括：根据依存句
法
结构、词
语
间
的
词性
和
评
论
观
点中
观
点词
与
情
感词
的
表达结构来构建多条
评
论
观
点提取规则；对
评
论
语
料库中
评
论内容进
行
分句、分词、词性
标
注
和
依存句
法
分析，获得
各
个
评
论语句，查看
评
论
语
句
是
否匹配某条
评
论
观
点抽取规则，匹配则获取
观
点词
和
情
感词，
将
获取
的
所有
观
点词
和
情
感词分别保存为
评
论
标
签词库
与
观
点
情
感词库。优选的，所述
的
依存句
法
结构包括：主谓结构、
动
宾结构、定中结构、状中结构、
动
补结构
和
并列结构；所述
的
词
语
间
的
词性包括：主
语
成
分、宾
语
或形似宾
语
成
分、定
语
成
分以及名词
成
分；形似宾
语
指
间
接
或类似宾
语
的
结构；所述
的
观
点词
与
情
感词
的
表达结构，指：主
语
成
分为
观
点词，宾
语
或形似宾
语
成
分为
情
感词；定
语
成
分为
情
感词，
被
其
修饰
的
名词
成
分为观点词。优选的，所述步骤s4包括：获取标签类别词典和情感词典；对于所述步骤s3
中
能
提取
出
观
点词
和
情
感词
的
评
论
语
句进
行
关键词匹配打标：
将
获取
的
观
点词
与
标
签类别词典进
行
匹配，
将
获取
的
情
感词
与
情
感词典进
行
匹配，若两者均
能
匹配成功，
给
该
评
论
语
句打
上
标
签类别
标
记以及
情
感倾向性
标
记；否则，进
行
人
工
标
签类别
标
记
与
情
感倾向性
标
记；对于所述步骤s3中未提取
出
观
点词
和
情
感词
的
评
论语句，进
行
人
工
标
签类别
标
记
与
情
感倾向性标记。优选的，所述
的
获取
标
签类别词典，包括：
将
评
论
标
签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导
演”、“演员”；通过词向量模型训练
各
评
论
语
句获得训练
好
的
词向量模型；利用
评
论
标
签词库
的
词
语
用训练
好
的
词向量模型表示，再利用k均值聚类算
法
将
评
论
标
签词库中的词语聚为k个类别；人工归纳筛选将电影评论大众观点分为“导演，摄影，剧
情，演员，情感，视听，题材，观感”8
个
维度，并对每
个
类簇下
的
词进
行
的
词组
成
初步
的
标
签类别词典；利用训练
好
的
词向量模型获取初步
的
标
签类别词典中
标
签类别词
的
相关词扩充
标
签类别词典，去掉词典中
重
复词，
生
成
最
终
的
标
签类别词典；所述
的
获取
情
感词典指：先收集
开
源
的
正负
情
感词典进
行
整
理
合并，然
后
统计所述
观
点
情
感词库中词频，保留
大
于设定阈值
的
所有词，然
后
人
工删掉
与
电
影
评
论
情
感无关
的
词语，形
成
情
感词典。优选的，所述步骤s5 包括：利用关键词匹配打标的数据集以及人工打标的数据
集，分别训练
生
成
两
个
初步
的
评
论
标
签分类模型以及两
个
初步
的
标
签
情
感分类模型；
将
两
个
初步
的
评
论
标
签分类模型
加
权融合
生
成
最
终
的
评
论
标
签分类模型；
将
两
个
初步
的
标
签
情
感分类模型
加
权融合
生
成
最
终
的
标
签
情
感分类模型。优选的，所述
的
初步
的
评
论
标
签分类模型或初步
的
标
签
情
感分类模型
的
生
成
步骤，包括：对关键词匹配打
标
的
数据集以及
人
工打
标
的
数据集采用
上
采
样
策略，进
行
数据平衡；
将
数据平衡
后
的
关键词匹配打
标
的
数据集以及
人
工打
标
的
数据集按预设比例划分为训练集
和
测试集；对训练集中语料进行分词，去除停用词，然后采用tf-idf算法提取文本特征，再
计算
各
特征
的
卡方值进
行
特征降维；
将
数据
导
入随机森林分类模型，进
行
模型训练、保存与评估。优选的，所述步骤s6，包括：抽取观点词和情感词，若可以获
取，则进
行
关键词匹配，包括
标
签类别匹配
和
情
感词匹配，如果两者
都
能
匹配成功，就
直
接
输
出
标
签类别
标
记
与
情
感倾向性
标
记；否则，
直
接
调用
评
论
标
签分类模型
和
向性标记。本
发
明
的
有
益
效果是：本
发
明面向
电
影
评
论内容
与
情
感倾向
都
较为复杂
的
文本信息进
行
处理，采用多
种
方
法
多
种
策略相结合
的
方式对
电
影
评
论数据进
行
情
感倾向性分析，
能
够较为准确
的
捕获
观
众
对某部
电
影
某些方面
的
情
感倾向。附图说明图1
是
本
发
明
的
电
影
评
论
观
点
情
感倾向性分析方
法
的
流程图；图2
是
本
发
明中关键词匹配打
标
的
流程图；图3
是
本
发
明中
评
论
标
签分类模型融合示意图；图4
是
本
发
明中
标
签
情
感分类模型融合示意图；图5
是
本
发
明中分类模型构建流程示意图；图6
是
本
发
明中
评
论
情
感
标
签自
动
生
成
流程图。具体
实
施方式下面
将
结合附图对本
发
明作进
一
步说明。请参阅图1，本
发
明
的
电
影
评
论
观
点
情
感倾向性分析方法，主要
是
对
影
评
数据做
评
论
观
点提取，进
行
观
点
的
打
标
分类
与
情
感倾向性分析，即获取
评
论
标
签类别及
其
情
感倾向，同
时
构建
评
论
观
点
情
感分析模型以
实
现
对新
影
评
数据进
行
分析归类，
贴
上
类别以及情感标签。包括下列步骤：步骤s1，数据爬取：从影评网站爬取爱情、动画、动
作、科幻、恐怖、喜
剧
和
悬疑类别下
的
多部
电
影
的
影
片
描述信息及
各
部
电
影
的
评
影
片
描述信息包括
影
片
名、导演名、主演名、类型、总评分等信息。影片的评论信息包括评论者昵称、评论有用
数、
评
论时间、
评
论内容
和
评
分等信息。步骤s2 ，对
影
片
描述信息
和
评
论信息进
行
数据预处理，包括：整合数据，
将
采集
的
所有
评
论信息整合
成
一
个
评
论
语
料库；数据去重，去除
评
论
语
料库中
的
重
复数据；处
理
缺失值，删除
评
论
语
料库中
评
论内容缺失
的
数据；中文繁体处理，
将
评
论
语
料库中繁体中文
全
部转化为简体中文；自定义用户词典，从采集
的
各
影
片
描述信息中获取
影
片
名、
导
演
名
和
主演名，存入用户自定义词典并以
不
同符号标记。步骤s3，
评
论
观
点抽取：根据
现
代
汉
语
中依存句
法
结构、词
语
间
的
词性，再结合
实
际
评
论
观
点中
观
点词
与
情
感词表达结构
制
定多条普适性
的
评
论
观
点提取规则。对
评
论
语
料库中
评
论内容进
行
分句、分词、词性标注、依存句
法
分析等操作，获得
各
个
评
论语句，然
后
查看
评
论
语
句
是
否匹配某条
评
论
观
点抽取规则，满足则获取(
观
点词，
情
感词) ，
最
后
将
获取
的
所有
观
点词
和
情
感词分别保存为
评
论
标
签词库
与
观
点
情
感词库。其中，
评
论
观
点抽取规则根据依存句
法
结构将规则主要分为两类：一是主谓结构(sbv)为核心的规则体系，二是以定中结构(att)
为核心的规则体系。提取规则中涉及依存句法关系如表1所示：关系类型
tagdescriptionexample主谓结构sbvsubject-verb 我送她
一
束花( 我＜--送)动宾结构vobverb-object我送她一束花( 送--＞花)定中结构attattribute红苹
果(红＜--苹果)状中结构advadverbial非常美丽(非常＜--美丽)动补结构cmpcomplement做
完了作业( 做--＞完) 并列结构coocoordinate大山和大海(大山--＞大海)表1进
一
步地，以sbv 为核心的规则体系主要分为4大类，如表2所示：表2从表2中可以看出，以sbv
为核心
的
规则主要
是
以名词性主
语
直
接
或者
间
接
与
宾
语
或类似宾
语
的
结构( 以下
将
间
接
或类似宾
语
的
结构称作形似宾语)建立关系连接。所抽取
的
主
语
成
分为
评
论
的
观
点词，抽取
的
形似宾
语
成
分为
评
论
观
点
的
情
感词。该类规则并非仅仅涉及表2中所列
出
的
句式结构，此外还要考虑主
语
与
形似宾
语
是
否存
在
并列结构，再者
因
为否定词
影
响
情
感
的
倾向，所以还需要考虑形似宾
语
是
否存
在
副词修饰。例如，对于
影
评
剧
情，不错) ；“题材丰富新颖”可获取( 题材，丰富)和(题材，新颖)标签对；“电影不好看”可
提取出(电影，不好看)。进一步地，以att为核心的规则体系也分为4类，具体规则见表3。
表3定
语
是
用来修饰、限定、说明名词或
代
词
的
品
质
与
特征的，所以定中关系
在
评
论
观
点抽取规则中
不
可或缺。从表3中看出，形容词
一
般用作
评
论
观
点
的
情
感词，
被
其
修饰
的
名词或用作名词
的
动
词作为
评
论
的
观
点词。同样，该类规则也需要考虑名词成分、形容词
的
演
不
生
动”可抽取出(表演，不生动)。步骤s4 ，评论标签类别标记和情感倾向性标记，分为关键
词匹配打
标
和
人
工打标。其中，关键词匹配打
标
需要获取
标
签类别词典
和
情
感词典，然
后
进
行
关键词匹配，主要流程参见图2，首先获取
标
签类别词典，包括如下步骤：1)
影
片
专
有名词替换。
将
评
论
标
签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导
演”、“演员”，从而实现评论标签词库中的部分词语的归类；即若评论标签词库中存在的
“张三”、“李四” 等演员名，但由于机器无法判别“ 张三”、“李四”为演员，所以通过将
其
与
用户自定义词典中演员名列表进行匹配，则可将“张三”、“李四”标记为“演员”；导演名
和
影
片
名
的
标
记也用相同
的
方法。2)词向量模型训练。对
评
论
语
料库中
评
论内容进
行
分词、去停用词
后
保存到一个文本中，每条评论语句保存为一行，词与词之间以空格隔开；利用word2vec(
词向量)模型训练处
理
好
的
评
论内容获得词向量模型；3)词聚类。将评论标签词库中的词语用训练好的词向量模型表
示，再利用k-means(k均值)聚类算法将评论标签词库中的词语聚为k个类别；所述k
个
类别需要通过多次试验
观
察聚类结果确定；4) 归纳
评
价维度，筛选类别词典。
经
人
工归纳筛选将电影评论大众观点分为“导演，摄影，剧情，演员，情感，视听，题材，观
感”8
个
维度，并对每
个
类簇下
的
词进
行
的
词组
成
标
签类别词典；5)扩充
标
签类别词典。利用训练
好
的
词向量模型获取
标
签类别词
的
相关词扩充
标
签类别词典，去掉词典中
重
复词，
生
成
最
终
的
标
签类别词典。所述获取
标
签类别词
的
相关词
是
通过词向量模型计算词
与
词之
间
相似性，并设定阈值，当相似度
大
于该阈值，
才
认定词之
间
是
相关相近的，同
时
对相关词
的
结果再进
行
人
工筛选以确保
标
签类别词典
的
准确性。
生
成
的
标
签类别词典，示例如表4所示：表4其次，获取
情
感词典。先收集开源的正负情感词典，主要有知网hownet 词典与台湾大学开源的情感词典
，对词典进行整理合并。其中,hownet知网词典中包含正负情感词语和正负评价词语，本
发
明只取
其
中
的
正负
评
价词语。然
后
统计所述
观
点
情
感词库中词频，保留
大
于设定阈值
的
所有词，然
后
人
工删掉
一
些
与
电
影
评
论
情
感无关
的
词语，形
成
具有
电
影
特色
的
情
感词典。最后，进
行
是
对于
评
论
观
点抽取中
能
提取
出
观
点词
与
情
感词
的
评
论语句，
将
其
观
点词
与
标
签类别词典进
行
匹配，
将
其
情
感词
与
情
感词典进
行
情
感倾向性
标
记
后
获得( 剧情，负向)标记。
人
工打
标
有两
种
情
况:
一
是
在
评
论
观
点抽取中未提取
出
观
点词
与
情
感词
的
句子，二
是
评
论
观
点抽取中
能
提取
出
观
点词
与
情
感词，但
不
能
满足关键词匹配打
标
的
句子，针对
这
种
情
况进
行
人
工
标
签类别
标
记
与
情
感倾向性标记。步骤s5，
生
成
评
论
观
点
情
感分析模型，
其
由
评
论
标
签分类模型
和
标
签
情
感分类模型组成，两
个
分类模型除
了
类别
标
签
不
一
样，整
个
数据处
理
与
使用分类算
法
都
是
相同
的
流程。分类模型数据集有两类：
一
是
关键词匹配打
标
的
数据集，二
是
人
工打
标
的
数据集，分别用
这
两类数据进
行
训练
生
成
2
个
评
论
标
签分类模型以及2
个
标
签
情
感分类模型。为
了
提升
情
感分析
的
准确率，将2
个
评
论
标
签分类模型
加
权融合
生
成
新
的
评
论
标
签分类模型，将2
个
标
签
情
感分类模型
加
权融合
生
成
新
的
标
签
情
感分类模型，参考图3
和
评
到
的
概率值
和
人
工打
标
数据生成的模型得到的概率值。对于评论标签分类模型，i取值为0-7分别表示“导演，摄
影，剧情，演员，情感，视听，题材”这8个类别。对于标签情感分类模型，i 取值有0和1，1
表示正向情感，0表示负向情感。
上
述
的
分类模型
的
构建过程，参见图5，涉及以下步骤：首先，进
行
数据平衡。分类数据
各
类
样
本可能出现不均衡的现象，这对分类的整体准确性有很大的影响。本发明采用上采样
(oversampling)策略，即将小数据类别复制多份。其次，进行数据集划分。打乱数据集
按8:2比例划分为训练集
与
测试集。然后，进行特征提取。对训练集语料进行分词，去除停用词，然后采用的tf-idf
算法( 词频-逆文档频率)提取文本特征，再计算各特征的卡方值(chi2或χ2) ，通过设置阈
值k(k为整数)，保留卡方值排列前k个特征实现特征降维。最后，将数据导入随机森林分类
模型，进
行
模型训练、保存
与
评
估。步骤s6 ，
评
论
情
感
标
签自
动
生
成。
在
训练
好
评
论
观
点
情
感分析模型后，可进
行
词，
情
感词) ，若可以获取(
观
点词，
情
感词) ，则进
行
关键词匹配，包括
标
签类别匹配
和
情
感词匹配，如果两者
都
能
匹配成功，就
直
接
输
出
结果。否则，
直
接
调用
评
论
标
签分类模型
和
标
签类别预测概率p1大于t1 且标签情感预测概率p2大于t2 ，则输出( 评论标签类别标记、
情感倾向性标记) 。以上实施例仅供说明本发明之用，而非对本发明的限制，有关
，尤其涉及电影评论观点情感倾向性分析方法。上一篇：文本实体类型识别方法、
装置、电子设备和存储介质与流程转载请在文章开头和结尾显眼处标注：作者、出处
和链接。不按规范转载侵权必究。《吉祥如意》讲了喜剧导演董成鹏回到家乡拍摄
家人如何过年的过程中，原本的主要拍摄对象姥姥意外去世，他临时改变了拍摄计
划的故事. 外媒评出2019上半年20部最佳电影,4部国产电影入选然后网友又吵起来了
如您是高校老师，可以点此联系我们加入专家库。 2020年中国电影票房预计将达到200
亿元人民币，首次成为全球第一大票仓。 Notice: The content above (including the videos,
pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social
media platform and merely provides information storage space services.” 根据 MPA 评级协
会称，这部电影中依然含有“强烈的暴力和令人不安的内容、涉及药品、强烈的语言以
及一些暗示性的内容” 。榜单前十中的《气球》、《八佰》、《我和我的家乡》及《夺冠》，在
上线后也引起了热议。《雄狮少年》讲述了三个被人无视和欺负的少年，阴差阳错
走上令人捧腹的舞狮之路，经过师傅咸鱼强的培训，一路跌跌撞撞，最终凭借满腔热
血和冲劲，成为自己心中“雄狮”的故事。《风声》更加侧重于“ 谍”，《悬崖之上》则是既
有“谍”又有“战”。《风声》所有的心理战、严刑逼供，《悬崖之上》都有；而《风声》缺少的
战斗部分，《悬崖之上》也花费了大量笔墨重点描写。华纳兄弟宣布：2021年所有电影都
将在院线和HBO Max上同时上映。影评：完全不是超英片，就是一个以普通底层小
市民为主角的犯罪片，大概也是这些年漫威DC所有电影里人性剖析最深刻的一部。
影片对哥谭市有着出色的氛围营造，阴暗潮湿的道路，满目垃圾的街头，一触即发的
暴动气息，这样的环境，再加上悲惨的身世、糟糕的一天，足以把一个老实的可怜人
逼向深渊，从理性善良一点点变得麻木和疯癫，每一步转变都真实可信。本文系作者
授权数英发表，内容为作者独立观点，不代表数英立场。本日字节跳动概念涨幅达
1.46%，收盘价位923.21点。字节跳动概念下本日涨幅龙头股，涨幅居前的有5只，分别是
特发信息，涨幅9.99% 、中南文化，涨幅4.76%、中文在线，涨幅4.... CopyRight 2013-2018
文华奇闻网 - www.whhjs.com - 版权所有网站地图外媒评出2019上半年20部最佳电影,4
部国产电影入选然后网友又吵起来了作者: onutu 2019-12-26 15:36 [ 查查
吧 ]：www.chachaba.com © 2008-2024 【X技术】版权所有，并保留所有权利。津ICP
备16005673号-2 2019 十大电影排行榜_2019十大电影必看电影榜单出炉 2019国产电影观
影指南
由
斯
皮
尔
伯
格
执
导
的
《头
号
玩
家》一
上
映，就
引
起
了
内
地
影
迷
自
发
走
进
电
影
院
的
热
潮。电
影
再
次
向
大
家
证
明
了
导
演
的
想
象
力
和
创
造
力。排
名
第
二
名、第
三
名
的
是
斩
获
各
大
奖
项
的
《三
块
广
告
牌》和
《小
偷
家
族》。
《我
不
是
药
神》被
评
为
今
年
评
分
最
高
的
华
语
电
影，总
票
房
31亿。由
真
实
故
事
改
编，徐
峥
主
演
的
电
影，并
且
在
台
湾
金
马
奖
上，徐
峥
凭
借
此
电
影
拿
下
金
马
奖
影
帝。排
名
第
二
名
是
未
在
内
地
上
映
的
《大
佛
普
拉
斯》，第
三
名
是
大
年
初
一
上
映
的
《红
海
行
动》。
外
媒
评
出
2019上
半
年
20部
最
佳
电
影,4部
国
产
电
影
入
选
然后网友又吵
起
来了该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。我们
热
爱电影，因
为
电
影
让生活
在
别处成
为
可能。感谢你
一
直以来与豆瓣分享这份热爱，愿一起看电影的人，继续并肩在一起。《困在时间里的父
亲》通过
一
名
年
迈老人
的
感官来表达叙事，以重复性脆片化
的
方式呈现一名阿尔茨海默症患者安东尼眼中的生活。【豆瓣2017年度电影榜单】基于
2017年万千豆瓣用户对电影条目的评分、标记和访问数据（统计截至2017-12-25）。文档
序号：20010287发布日期：2020-02-22 04:02阅读：592来源：
国
知局上一篇：文本实体类型识别方法、装置、电子设备和存储介质与流程以上就是
“2021年豆瓣评分最高的国产电影排名前十”的全部内容，希望能帮助到大家! 外媒评
出
2019上
半
年
20部
最
佳
电
影,4部
国
产
电
影
入
选
然后网友又吵起来了2、毕老师：机构动力学与控制作者: onutu 2019-12-26 15:36 [ 查
查吧 ] ：www.chachaba.com 《辛德勒的名单》是1993年美国史诗时代剧
电
影
导
演
和
联合制作
的
史蒂文·
斯
皮
尔
伯
格
和
脚本史蒂文·萨利安。它
是
根据小说辛德勒方舟
由
澳
大
利亚小说
家
托
马
斯
·肯利。这部
电
影
涉及到德
国
商人奥
斯
卡·辛德勒
的
一
生中，他
在
第
二
次
世界
大
战期间，通过
在
他们
的
工厂里雇用
了
他们，
在
犹太人
的
大
屠杀中救了一千多名波兰犹太难民的生命。拿今年周星驰导演的作品《新喜剧之王》来
说，
影
评
两极分化，好
的
一
方指
此
作品
一
贯
走
星爷描写小人物奋斗
的
风格，其中
不
乏有新笑梗，让人潸然落泪
的
桥段，口碑似乎还不错。另
外
一
方则显得偏激，对
电
影
的
缺点描述平平，更多
的
是
在
指责周星驰卖情怀，消费个人口碑等恶劣行为，让人
不
禁感叹
影
评
已经严重变了味。未经授权严禁转载，授权事宜请联系作者本人，侵权必究。 2018评
分
最
高
的
华
语
电
影
2018最受关注的院线电影2018评分最高的喜剧片：《我不是药神》9.0 《风声》更加侧重
于“谍”，《悬崖之上》则是既有“谍”又有“战”。《风声》所有的心理战、严刑逼供，《悬崖
之上》都有；而《风声》缺少的战斗部分，《悬崖之上》也花费了大量笔墨重点描写。以
一
起
离婚事件探讨婚姻和爱情，诺亚·鲍姆巴赫执导，亚当· 德赖弗扮演一个剧作家，斯嘉丽
·约翰逊扮
演
一
个女明星，两人因
各
自
工作
分
居纽约
和
洛杉矶而
不
得
不
走
向
离婚。《吉祥如意》讲
了
喜剧
导
演
董成鹏回到
家
乡拍摄
家
人如何过
年
的
过程中，原本的主要拍摄对象姥姥意外去世，他临时改变了拍摄计划的故事. 2019十大
电
影
排行榜_2019十大电影必看电影榜单出炉 2019国产电影观影指南：互联网大数据时代，
在
线
评
论成
为
了
口碑
的
代名词，也
是
消费者情感态度
最
直接
的
表达方式
和
渠道。对消费者
评
论
的
分
析，对消费者来说，能够
获
取
产
品全方位
的
评
价，从而多维度
了
解产品，方便用户
进
行
决策。对于商
家
来说，可以
了
解消费者喜好、
了
解市场，从而提升服务质量、增加客户粘性。随着互联网
媒
体技术
的
日益革新，
影
院
行
业
和
家
庭娱乐
行
业
在
内
的
电
影
娱乐
产
业正
在
蓬勃发展，
电
影
已成
为
人们日常娱乐选项，而人们对
电
影
的
接受与欢迎，也滋生
了
大
量
的
评
论信息。从
大
众
评
论中提取
主
观性观点，并判断
大
众
的
正面倾
向
或负面倾
向
性
是
自
然
语
言处理领域
的
信息抽取与挖掘中
的
重要问题，同时
电
影
评
论信息
在
价值观传递、
影
视环境塑
造
等方面，展示着
自
身
的
价值，对其展开分析，有助于
影
视研究
的
深化发展。因此，对
电
影
评
论观点
进
行
情感倾
向
性
分
析具有重
大
意义。目前
普
遍使用
的
用户
评
论观点提取
主
要
是
无监督
的
规则提取与聚类算法等方法。基于规则提取
的
方法，
主
要
是
依据句法结构人工总结规则来抽取
评
论中
的
观点，但人工整理
的
规则
不
能涵盖所有
评
论观点表述方式，所以该方法能提取
的
有效观点有限。基于聚类
的
方法，简单但准确率不高，很难生成较
为
合理准确
的
评
论标签。目前
评
论情感
分
析常用
的
方法有词典匹配与
分
类算法等。基于情感词典
的
方法，完全依赖于情感词典，受限于词典
的
规模
大
小；而情感
分
类算法
是
有监督
的
方法，有
的
训练集
是
根据
评
论信息及
评
分
组合获取，有
的
是
人工标注，需要消耗
大
量人工成本。此外，
不
同
行
业
的
评
论信息往往会有
各
自
的
关注点与侧重点，所以
进
行
情感
分
析
的
方式会略有差异。对于
电
影
评
论而言，与电商、餐厅、酒店等
在
线
评
的
用户体验与感受信息比较复杂，所以目前
的
情感
分
析与观点抽取方法并
不
能完全适用于
影
评
分
析。此外，许多
在
线
评
论研究将
评
论观点抽取与情感
分
类作
为
两个单独
的
研究模块，而用户对某
一
产
品或
事
物
的
评
论往往
是
多维度的，
且
对
产
品各个维度评价褒贬不一，直接分析用户情感是好评(正向) 或差评(负向)显然不够正
确，因
此
对用户提取
的
主
要观点维度
进
行
情感分析更具有实际价值。比如，对于评论“这部电影的演员演技炸裂，但故事情节不
佳”，经情感分析后得出( 演员，正向)与(剧情，负向)的结果更加准确。技术实现要素：本
发
明
的
目
的
在
于提供
一
种
电
影
评
论观点情感倾
向
性
分
析方法，能全面准确
地
反
映
出
用户对
影
片
的
情感表达。
实
现
上
述目
的
的
技术方案是：
一
种
电
影
评
论观点情感倾
向
性
分
析方法，包括：步骤s1，从
影
评
网站爬取
各
类别
的
多部
电
影
的
影
片描述信息
和
评
论信息；步骤s2，对采集的影评描述信息和评论信息进行数据预处理；步骤s3，制定多条
评
论观点提取规则，利用
评
论观点提取规则从
评
论信息
的
评
论
内
容
的
各
个
评
论
语
句中
获
得观点词与情感词，然后将所有观点词
和
情感词
分
别保存
为
评
论标签词库与观点情感词库；步骤s4，通过关键词匹配打标或人工打标，对
各
个
评
论
语
句
进
行
评
论标签类别标记
和
情感倾
向
性标记；步骤s5，生成
由
评
论标签
分
类模型
和
标签情感
分
类模型组成
的
评
论观点情感
分
析模型；步骤s6，针对目标影评，利用
评
论观点情感
分
析模型
自
动生成
评
画、动作、科幻、恐怖、喜剧
和
悬疑；所述
影
片描述信息包括影片名、导演名、主演名、类型和总评分；所述评论信息包括：评论者昵
称、
评
论有用数、
评
论时间、
评
论
内
容
和
评
的
数据预处理包括：将采集
的
所有
评
论信息整合形成
一
个
评
论
语
料库；去除
评
论
语
料库中重复
的
数据；删除
评
论
语
料库中
评
论
内
容缺失
的
数据；将
评
论
语
料库中繁体中文全部转化
为
简体中文；从采集
的
各
影
片描述信息中
获
取
影
片名、
导
演
名
和
主
演
名，存
入
用户
自
定义词典并以
不
同符
号
标记。优选的，所述步骤s3包括：根据依存句法结构、词
语
间
的
词性
和
评
论观点中观点词与情感词
的
表达结构来构建多条
评
论观点提取规则；对
评
论
语
料库中
评
论
内
容
进
行
分
句、分词、词性标注
和
依存句法分析，
获
得
各
个
评
论语句，查看
评
论
语
句
是
否匹配某条
评
论观点抽取规则，匹配则
获
取观点词
和
情感词，将
获
取
的
所有观点词
和
情感词
分
别保存
为
评
论标签词库与观点情感词库。优选的，所述
的
依存句法结构包括：
主
谓结构、动宾结构、定中结构、状中结构、动补结构
和
并列结构；所述
的
词
语
间
的
词性包括：
主
语
成分、宾
语
或形似宾
语
成分、定
语
成
分
以及
名
词成分；形似宾
语
指间接或类似宾
语
的
结构；所述
的
观点词与情感词
的
表达结构，指：
主
语
成
分
为
观点词，宾
语
或形似宾
语
成
分
为
情感词；定
语
成
分
为
情感词，被其修饰
的
名
词成
分
为
观点词。优选的，所述步骤s4 包括：获取标签类别词典和情感词典；对于所述步骤s3中能
提取
出
观点词
和
情感词
的
评
论
语
句
进
行
关键词匹配打标：将
获
取
的
观点词与标签类别词典
进
行
匹配，将
获
取
的
情感词与情感词典
进
行
匹配，若两者均能匹配成功，给该
评
论
语
句打
上
标签类别标记以及情感倾
向
性标记；否则，
进
行
人工标签类别标记与情感倾
向
性标记；对于所述步骤s3中
未
提取
出
观点词
和
情感词
的
评
论语句，
进
行
向
性标记。优选的，所述
的
获
取标签类别词典，包括：将
评
论标签词库中含有用户
自
定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”；通过词向量
模型训练
各
评
论
语
句
获
得训练好
的
词
向
量模型；利用
评
论标签词库
的
词
语
用训练好
的
词
向
量模型表示，
再
利用k均值聚类算法将
评
论标签词库中
的
感，视听，题材，观感”8个维度，并对每个类簇
下
的
词
进
行
的
词组成
初
步
的
标签类别词典；利用训练好
的
词
向
量模型
获
取
初
步
的
标签类别词典中标签类别词
的
相关词扩充标签类别词典，去掉词典中重复词，生成
最
终
的
标签类别词典；所述
的
获
取情感词典指：先收集开源
的
正负情感词典
进
行
整理合并，然后统计所述观点情感词库中词频，保留
大
于设定阈值
的
所有词，然后人工删掉与
电
影
评
论情感无关
的
词语，形成情感词典。优选的，所述步骤s5包括：利用关键词匹配打标
的
数据集以及人工打标
的
数据集，
分
别训练生成两个
初
步
的
评
论标签
分
类模型以及两个
初
步
的
标签情感
分
类模型；将两个
初
步
的
评
论标签
分
类模型加权融合生成
最
终
的
评
论标签
分
类模型；将两个
初
步
的
标签情感
分
类模型加权融合生成
最
终
的
标签情感
分
类模型。优选的，所述
的
初
步
的
评
论标签
分
类模型或
初
步
的
标签情感
分
类模型
的
生成步骤，包括：对关键词匹配打标
的
的
数据集采用
上
采样策略，
进
行
数据平衡；将数据平衡后
的
的
的
数据集按预设比例划
分
为
训练集和测试集；对训练集中语料进行分词，去除停用词，然后采用tf-idf算法提取文本
特征，
再
计算
各
特征
的
卡方值
进
行
特征降维；将数据
导
入
随机森林
分
类模型，进行模型训练、保存与评估。优选的，所述步骤s6，包括：抽取观点词和情感
词，若可以获取，则
进
行
关键词匹配，包括标签类别匹配
和
情感词匹配，如果两者都能匹配成功，就直接输
出
标签类别标记与情感倾
向
性标记；否则，直接调用
评
论标签
分
类模型
和
向
性标记。本
发
明
的
有益效果是：本
发
明
面
向
电
影
评
论
内
容与情感倾
向
都较
为
复杂
的
文本信息
进
行
处理，采用多种方法多种策略相结合
的
方式对
电
影
评
论数据
进
行
情感倾
向
性分析，能够较
为
准确
的
捕
获
观众对某部
电
影
某些方面
的
情感倾向。附图说
明
图1
是
本
发
明
的
电
影
评
论观点情感倾
向
性
分
析方法
的
流程图；图2
是
本
发
明
中关键词匹配打标
的
流程图；图3
是
本
发
明
中
评
论标签
分
类模型融合示意图；图4
是
本
发
明
中标签情感
分
类模型融合示意图；图5
是
本
发
明
中
分
类模型构建流程示意图；图6
是
本
发
明
中
评
论情感标签
自
动生成流程图。具体
实
施方式
下
面将结合附图对本
发
明
作
进
一
步说明。请参阅图1，本
发
明
的
电
影
评
论观点情感倾
向
性
分
析方法，
主
要
是
对
影
评
数据做
评
论观点提取，
进
行
观点
的
打标
分
类与情感倾
向
性分析，即
获
取
评
论标签类别及其情感倾向，同时构建
评
论观点情感
分
析模型以
实
现对新
影
评
数据
进
行
分
析归类，贴上类别以及情感标签。包括下列步骤：步骤s1，数据爬取：从影评网站爬取爱
情、动画、动作、科幻、恐怖、喜剧
和
悬疑类别
下
的
多部
电
影
的
影
片描述信息及
各
部
电
影
的
评
影
片描述信息包括
影
片名、
导
演
名、
主
演
名、类型、总
评
分
等信息。
影
片的评论信息包括评论者昵称、评论有用数、评论时间、评论内容和评分等信息。步骤
s2，对
影
片描述信息
和
评
论信息
进
行
数据预处理，包括：整合数据，将采集
的
所有
评
论信息整合成
一
个
评
论
语
料库；数据去重，去除
评
论
语
料库中
的
重复数据；处理缺失值，删除
评
论
语
料库中
评
论
内
容缺失
的
数据；中文繁体处理，将
评
论
语
料库中繁体中文全部转化
为
简体中文；
自
定义用户词典，从采集
的
各
影
片描述信息中
获
取
影
片名、
导
演
名
和
主
演
名，存
入
用户
自
定义词典并以
不
同符
号
标记。步骤s3，
评
论观点抽取：根据现代汉
语
中依存句法结构、词
语
间
的
词性，
再
结合
实
际
评
论观点中观点词与情感词表达结构制定多条
普
适性
的
评
论观点提取规则。对
评
论
语
料库中
评
论
内
容
进
行
分
句、分词、词性标注、依存句法
分
析等操作，
获
得
各
个
评
论语句，然后查看
评
论
语
句
是
否匹配某条
评
论观点抽取规则，满足则
获
取(观点词，情感词) ，
最
后将
获
取
的
所有观点词
和
情感词
分
别保存
为
评
论标签词库与观点情感词库。其中，
评
论观点抽取规则根据依存句法结构将规则
主
要分为两类：一是主谓结构(sbv)为核心的规则体系，二是以定中结构(att)为核心
的
规则体系。提取规则中涉及依存句法关系如表1所示：关系类型tagdescriptionexample
主
谓结构sbvsubject-verb我送她一束花(我＜--送)动宾结构vobverb-object我送她
一
束花( 送--＞花)定中结构attattribute红苹果(红＜--苹果) 状中结构advadverbial非常美丽(非
常＜--美丽)动补结构cmpcomplement做完了作业( 做--＞完) 并列结构coocoordinate
大
山和大海( 大山--＞大海) 表1进一步地，以sbv为核心的规则体系主要分为4大类，如表2
所示：表2从表2中可以看出，以sbv
为
核心
的
规则
主
要
是
以
名
词性
主
语
直接或者间接与宾
语
或类似宾
语
的
结构( 以
下
将间接或类似宾
语
的
结构称作形似宾语)建立关系连接。所抽取
的
主
语
成
分
为
评
论
的
观点词，抽取
的
形似宾
语
成
分
为
评
论观点
的
情感词。该类规则并非仅仅涉及表2中所列
出
的
句式结构，
此
外
还要考虑
主
语
与形似宾
语
是
否存
在
并列结构，
再
者因
为
否定词
影
响情感
的
倾向，所以还需要考虑形似宾
语
是
否存
在
副词修饰。例如，对于
影
评
剧情，不错)；“题材丰富新颖”可获取(题材，丰富) 和( 题材，新颖)标签对；“电影不好看”
可提取出( 电影，不好看) 。进一步地，以att为核心的规则体系也分为4类，具体规则见
表3。表3定
语
是
用来修饰、限定、说
明
名
词或代词
的
品质与特征的，所以定中关系
在
评
论观点抽取规则中
不
可或缺。从表3中看出，形容词
一
般用作
评
论观点
的
情感词，被其修饰
的
名
词或用作
名
词
的
动词作
为
评
论
的
观点词。同样，该类规则也需要考虑
名
词成分、形容词
的
演
不
生动”可抽取出(表演，不生动)。步骤s4，评论标签类别标记和情感倾向性标记，分为关
键词匹配打标
和
人工打标。其中，关键词匹配打标需要
获
取标签类别词典
和
情感词典，然后
进
行
关键词匹配，
主
要流程参见图2，首先
获
取标签类别词典，包括如
下
步骤：1)影片专有名词替换。将评论标签词库中含有用户自定义词典中的影片名、导演
名、演员名分别标记为“电影”、“导演”、“演员”，从而实现评论标签词库中的部分词语
的
归类；即若评论标签词库中存在的“张三”、“李四”等演员名，但由于机器无法判别“张
三”、“李四”
为
演
员，所以通过将其与用户
自
定义词典中演员名列表进行匹配，则可将“张三”、“李四”标记为“演员”；导演名和影片
名
的
标记也用相同
的
方法。2)词
向
量模型训练。对
评
论
语
料库中
评
论
内
容
进
行
分
词、去停用词后保存到
一
个文本中，每条评论语句保存为一行，词与词之间以空格隔开；利用word2vec( 词向量)
模型训练处理好
的
评
论内容获得词向量模型；3)词聚类。将评论标签词库中的词语用训练好的词向量模型表
示，再利用k-means(k均值)聚类算法将评论标签词库中的词语聚为k个类别；所述k个类别
需要通过多
次
试验观察聚类结果确定；4) 归纳
评
价维度，筛
选
类别词典。经人工归纳筛
选
将电影评论大众观点分为“导演，摄影，剧情，演员，情感，视听，题材，观感”8个维度，
并对每个类簇
下
的
词
进
行
的
词组成标签类别词典；5)扩充标签类别词典。利用训练好
的
词
向
量模型
获
取标签类别词
的
相关词扩充标签类别词典，去掉词典中重复词，生成
最
终
的
标签类别词典。所述
获
取标签类别词
的
相关词
是
通过词
向
量模型计算词与词之间相似性，并设定阈值，当相似度
大
于该阈值，才认定词之间
是
相关相近的，同时对相关词
的
结果
再
进
行
人工筛选以确保标签类别词典的准确性。生成的标签类别词典，示例如表4所示：表4其
次，获取情感词典。先收集开源的正负情感词典，主要有知网hownet词典与台湾大学开
源的情感词典，对词典进行整理合并。其中,hownet知网词典中包含正负情感词语和正
负
评
价词语，本
发
明
只取其中
的
正负
评
价词语。然后统计所述观点情感词库中词频，保留
大
于设定阈值
的
所有词，然后人工删掉
一
些与
电
影
评
论情感无关
的
词语，形成具有
电
影
特色
的
情感词典。最后，
进
行
是
对于
评
论观点抽取中能提取
出
的
评
论语句，将其观点词与标签类别词典
进
行
匹配，将其情感词与情感词典
进
行
情感倾
向
性标记后
获
得(剧情，负向)标记。人工打标有两种情况:
一
是
在
评
论观点抽取中
未
提取
出
的
句子，
二
是
评
论观点抽取中能提取
出
观点词与情感词，但
不
能满足关键词匹配打标
的
句子，针对这种情况
进
行
向
性标记。步骤s5，生成
评
论观点情感
分
析模型，其
由
评
论标签
分
类模型
和
标签情感
分
类模型组成，两个
分
类模型除
了
类别标签
不
一
样，整个数据处理与使用
分
类算法都
是
相同
的
流程。
分
类模型数据集有两类：
一
是
的
数据集，
二
是
人工打标
的
数据集，
分
别用这两类数据
进
行
训练生成2个
评
论标签
分
类模型以及2个标签情感
分
类模型。
为
了
提升情感
分
析
的
准确率，将2个
评
论标签
分
类模型加权融合生成新
的
评
论标签
分
类模型，将2个标签情感
分
类模型加权融合生成新
的
标签情感
分
类模型，参考图3
和
评
到
的
概率值
和
人工打标数据生成的模型得到的概率值。对于评论标签分类模型，i取值为0-7 分别表示
“导演，摄影，剧情，演员，情感，视听，题材”这8个类别。对于标签情感分类模型，i取值
有0和1，1表示正向情感，0表示负向情感。上述的分类模型的构建过程，参见图5，涉及
以
下
步骤：首先，
进
行
数据平衡。
分
类数据
各
类样本可能
出
现不均衡的现象，这对分类的整体准确性有很大的影响。本发明采用上采样
(oversampling)策略，即将小数据类别复制多份。其次，进行数据集划分。打乱数据集
按8:2比例划
分
为
训练集与测试集。然后，
进
行
特征提取。对训练集语料进行分词，去除停用词，然后采用的tf-idf算法(词频-逆文档
频率) 提取文本特征，再计算各特征的卡方值(chi2或χ2) ，通过设置阈值k(k为整数) ，保留
卡方值排列前k个特征
实
现特征降维。最后，将数据导入随机森林分类模型，进行模型训练、保存与评估。步骤
s6，
评
论情感标签
自
动生成。
在
训练好
评
论观点情感
分
析模型后，可
进
行
词，情感词)，若可以
获
取(观点词，情感词) ，则
进
行
关键词匹配，包括标签类别匹配
和
情感词匹配，如果两者都能匹配成功，就直接输
出
结果。否则，直接调用
评
论标签
分
类模型
和
标签类别预测概率p1大于t1且标签情感预测概率p2大于t2，则输出(评论标签类别标记、
情感倾
向
性标记)。以上实施例仅供说明本发明之用，而非对本发明的限制，有关 1、凡本网注明
“来源：***”的作品，均是转载自其他平台，本网赢家财富网 www.yjcf360.com 转载文章
为
个人学习、研究或者欣赏传播信息之目的，并
不
意味着赞同其观点或其
内
容
的
真
实
性已得到证实。全部作品仅代表作者本人
的
观点，
不
代表本网站赢
家
财富网
的
观点、看法及立场，文责作者自负。如因作品内容、版权
和
其他问题请与本站管理员联系，请在30日
内进行，我们收到通知后会在3个工作日内及时进行处理。

最新电影评论和评级

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

最新电影评论和评级

Uploaded by

Copyright:

Available Formats

欢迎来到最新电影评论和评级网站！我们为您提供最新的电影评论和评级，帮助您

You might also like