You are on page 1of 233

欢迎来到最新电影评论和评级网站!我们为您提供最新的电影评论和评级,帮助您

选择您想要观看的电影。
我们的专业评论团队每周都会观看最新上映的电影,并提供详细的评论和评级。我
们的评级系统从1到10分,让您更直观地了解电影的质量。
无论您是喜欢动作片、爱情片、喜剧片还是恐怖片,我们都会为您提供全面的评论和
评级。您可以通过搜索功能来查找您感兴趣的电影,也可以浏览我们的分类列表。
除了评论和评级,我们还提供电影的相关信息,如导演、演员、上映日期等。您还可以
在我们的网站上找到电影的预告片和海报。
如果您想要分享您的观影体验,我们也欢迎您在评论区留下您的想法和观点。您的
评论可以帮助其他用户做出更好的选择。
最后,我们强烈推荐您在HelpWriting.net网站上订购电影评论和评级服务。这是一个专
业的写作服务平台,为您提供高质量的文章和评论。您可以放心地从这里订购,我们
保证会超出您的期望。
谢谢您的光临,希望您在我们的网站上找到最适合您的电影!
《吉祥如意》讲了喜剧导演董成鹏回到家乡拍摄家人如何过年的过程中,原本的主
要拍摄对象姥姥意外去世,他临时改变了拍摄计划的故事. 3、袁老师:1.计算机视觉 2.
无线网络及物联网 今日,豆瓣电影公布了2018年度电影榜单,将今年的电影分为几
大板块,你看过几部?你最喜爱的是哪部电影?2019年你最期待哪部电影? 赵婷凭借
《无依之地》拿下威尼斯金狮奖,成为了史上第一位收获欧洲三大电影节的华人女
导演。 如您需求助技术专家,请点此查看客服电话进行咨询。 《寄生虫》斩获第92届奥
斯卡金像奖最佳影片、最佳导演、最佳原创剧本和最佳国际电影四项重量级大奖,创
造了历史。 据悉,这一工具将浏览电影脚本并搜索特定的目标词。因为电影剧本提供
了对发生的动作的描述,AI能检测出一个场景是否包括粗话、带有性暗示或明显的
性内容或非法药物使用等内容。这些都是决定一部电影是否会从G级升到PG-13级再到
R级的主要因素。 这个2017马上就要过去了,在这一年,大家都看过些什么好电影呢?
是否都还记得影片中的那些精彩片段和那些脍炙人口的台词呢?小编整理了豆
瓣2017年度榜单来跟大家一起分享~ 对于电影从业者来讲,电影评级往往是一件伤神
费力的事情。一部电影的预告片可能看起来并不是特别紧张,但评级往往会决定这部
电影适合的观影人群,甚至在一定程度上影响票房,对此,来自南加州大学维特比工
程学院的研究人员开发了一种新的人工智能(AI)工具,它可以从电影剧本中获取数
据甚至在电影拍摄之前就给出评级。 转载请在文章开头和结尾显眼处标注:作者、出
处和链接。不按规范转载侵权必究。 《我不是药神》被评为今年评分最高的华语电影,
总票房31亿。由真实故事改编,徐峥主演的电影,并且在台湾金马奖上,徐峥凭借此
电影拿下金马奖影帝。排名第二名是未在内地上映的《大佛普拉斯》,第三名是大年
初一上映的《红海行动》。 《美丽人生》是1997年由罗伯托· 贝尼尼导演和主演的意大利
喜剧电影。一个犹太意大利书店老板,他利用他的肥沃的想象力来保护他的儿子免
受纳粹集中营的恐吓。这部电影的部分灵感来自于“最后 ”一书,由鲁比诺·罗密欧·萨尔
蒙尼和贝尼尼的父亲打败希特勒,他在二战期间在德国劳教所工作了两年。上一篇:
一种不规则框类零件装夹装置及方法与流程《花木兰》在北美改线上发行,《007:无暇
赴死》《沙丘》《黑寡妇》等多部大片改档至明年。《沙丘》是美国科幻作家弗兰克·赫伯
特(Frank Herbert ,1920-1986 )创作的著名科幻小说,被誉为“不可能被改编成电影的
小说”。 亚瑟·弗兰克是一名以小丑职业为生的普通人,患有精神疾病的他和母亲
一同住在哥谭市的一座公寓里,幻想成为脱口秀演员的亚瑟为了这个目标而努力的
生活着,但是现实却屡次击败他的梦想,亚瑟渐渐地变得越来越癫狂,某天在地
铁上,亚瑟为了自保杀害了几名嘲笑他的人,同时,一个疯狂的想法在亚瑟心灵
萌发……在看似和平的哥谭市,即将发生翻天覆地的巨变。 《风声》更加侧重于“ 谍”,《
悬崖之上》则是既有“谍”又有“战”。《风声》所有的心理战、严刑逼供,《悬崖之上》都有;
而《风声》缺少的战斗部分,《悬崖之上》也花费了大量笔墨重点描写。平台声明:该文
观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。 我是
此专利的发明人 Notice: The content above (including the videos, pictures and audios if any) is
uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely
provides information storage space services.” 5、王老师:1.网络安全;物联网安全 、大数据安
全 2.安全态势感知、舆情分析和控制 3.区块链及应用 《阿甘正传》是1994年美国喜剧戏
曲影片根据1986年的同名小说改编的由温斯顿·格鲁姆。这部电影由汤姆·汉克斯,罗宾
·莱特·潘主演。这个故事描述了阿拉巴马州的一个身材矮小但善良善良,善良,运动
性很强的人物福雷斯特· 甘普的生活中的几十年,他们目睹,在某些情况下影响了下
半年的一些定义事件20世纪在美国; 主要摄影发生在1993年底,主要在格鲁吉亚,北卡
罗来纳州和南卡罗来纳州。使用广泛的视觉效果将主角纳入归档的镜头,并开发其
他场景。电影中有一个全面的配乐,使用的音乐旨在确定屏幕上刻录的特定时间段。
它的商业发行使它成为畅销的配乐,全球销售超过1200万份。 《辛德勒的名单》是1993
年美国史诗 时代剧电影导演和联合制作的史蒂文·斯皮尔伯格和脚本史蒂文·萨
利安。它是根据小说辛德勒方舟由澳大利亚小说家托马斯·肯利。这部电影涉及到德
国商人奥斯卡·辛德勒的一生中,他在第二次世界大战期间,通过在他们的工厂里雇
用了他们,在犹太人的大屠杀中救了一千多名波兰犹太难民的生命。
《风
声》更




“谍”,《悬


上》则



“谍”又

“战”。《风
声》所




战、严


供,《悬


上》都

;而
《风
声》缺





分,《悬


上》也










写。
:互






代,在
线










词,也


















道。对







析,对




说,能










价,从







品,方
便





策。对




说,可







好、了


场,从






量、增




性。随












新,影
























展,电











项,而










迎,也









息。从











点,并





































题,同












递、影







面,展






值,对




析,有










展。因
此,对




















义。目



使




























法。基







法,主






















点,但







不能涵盖所






述方式,所













限。基





法,简单但准确率不高,很难






准确



标签。目













词典匹配





等。基



词典


法,完






词典,



词典




小;













法,


训练集










组合获取,





标注,需








本。此外,不同







往往会




关注




点,所










会略

差异。







言,


商、餐厅、酒店


线




相比,包含










比较复杂,所















并不能完







析。此外,许


线


















两个单独



模块,




某一



事物



往往




的,且



各个




褒贬不一,









好评( 正向)

差评( 负向)显




确,因此





















实际价值。比如,




“这部电影的演员演技炸裂,但故事情节不佳”,经情感分析后得出( 演员,正向)与(剧
情,负向)


果更

准确。


实现

素:本








供一种














法,能


准确地反映出









达。实现上述目的的技术方案是:一种电影评论观点情感倾向性分析方法,包括:步骤
s1,从



站爬













述信息和评论信息;步骤s2,对采集的影评描述信息和评论信息进行数据预处理;步骤
s3,制定









则,利




















各个













词,

后将所









别保存



标签词库





词库;步骤s4,通过关键词匹配打标



打标,

各个








标签

别标记






标记;步骤s5,





标签分类模型和标签情感分类模型组成的评论观点情感分析模型;步骤s6,针对目标影
评,利









模型






标签类别标记和情感倾向性标记。优选的,所述步骤s1中,电影的分类包括:爱情、动
画、动作、科幻、恐怖、



悬疑;所述

片描述信息包括影片名、导演名、主演名、类型和总评分;所述评论信息包括:评论者昵
称、




数、



间、






分。优选的,所述






包括:将采集







整合形

一个



料库;去除



料库






;删除



料库




容缺失



;将



料库













文;从采集












片名、导演



演名,存入



定义词典并

不同符号标记。优选的,所述步骤s3包括:根






构、词









































料库








句、分词、词

标注






析,

得各个



句,查看





否匹配某条







则,匹配









词,将













别保存



标签词库





词库。优选的,所述







包括:

谓结构、动宾结构、定


构、状


构、动补



并列


;所述







包括:



分、宾


形似宾


分、定









;形似宾

指间



似宾




;所述












构,指:







词,宾


形似宾






词;定






词,被

修饰








词。优选的,所述步骤s4包括:获取标签类别词典和情感词典;对于所述步骤s3 中能提取















关键词匹配打标:将







标签

别词典


匹配,将









词典


匹配,若两

均能匹配成功,给该




打上标签

别标记







标记;否则,




标签

别标记






标记;


所述步骤s3
















句,




标签

别标记






标记。优选的,所述



标签

别词典,包括:将


标签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导
演”、“演员”;通过词


模型训练各





得训练好




模型;利



标签词库




训练好




模型表示,再利用k均








标签词库


词语聚为k个类别;人工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情
感,视听,题材,观感”8个维度,并

每个

簇下




筛选,保留相关

词组

初步

标签

别词典;利

训练好




模型


初步

标签

别词典

标签

别词

相关词扩充标签

别词典,去掉词典


复词,





标签

别词典;所述





词典指:先收集







词典




合并,

后统计所述




词库

词频,保留


设定阈


所有词,




删掉










词语,形



词典。优选的,所述步骤s5包括:利

关键词匹配打标








打标



集,

别训练


两个初步



标签


模型

及两个初步

标签




模型;将两个初步



标签


模型

权融合







标签


模型;将两个初步

标签




模型

权融合





标签




模型。优选的,所述

初步



标签


模型

初步

标签




模型



步骤,包括:

关键词匹配打标








打标



集采

上采样策略,




平衡;将


平衡后

关键词匹配打标








打标



集按预设比例划


训练集和测试集;对训练集中语料进行分词,去除停用词,然后采用tf-idf算法提取文本
特征,再计

各特征






特征降维;将


导入随机森林


模型,


模型训练、保存与评估。优选的,所述步骤s6,包括:抽取观点词和情感词,若可以获
取,



关键词匹配,包括标签

别匹配



词匹配,如果两

都能匹配成功,就


输出标签

别标记






标记;否则,






标签


模型和/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值t1和
t2,若标签类别预测概率p1大于t1且标签情感预测概率p2大于t2,则输出标签类别标记






标记。本





效果是:本















都较

复杂

文本





理,采






种策略相




















析,能



准确










某些






向。附图说明图1





















流程图;图2





关键词匹配打标

流程图;图3







标签


模型融合


图;图4





标签




模型融合


图;图5







模型

建流程


图;图6









标签




流程图。


实施






合附图



明作

一步说明。请参阅图1,本

















法,主













取,





打标









析,即




标签

别及




向,同











模型以实现对新影评数据进行分析归类,贴上类别以及情感标签。包括下列步骤:步骤
s1,


爬取:从



站爬

爱情、动画、动作、科幻、恐怖、



悬疑

别下












及各







息。其中,






包括

片名、导演名、

演名、类型、





息。

片的评论信息包括评论者昵称、评论有用数、评论时间、评论内容和评分等信息。步骤
s2,
















预处理,包括:整合数据,将采集







整合

一个



料库;


去重,去除



料库









缺失值,删除



料库




容缺失





文繁


理,将



料库













文;

定义


词典,从采集





述信息中获取影片名、导演名和主演名,存入用户自定义词典并以不同符号标记。步骤s
3,






:根











构、词



词性,再

合实际
















制定













则。




料库








句、分词、词

标注、







操作,

得各个



句,

后查看





否匹配某条







则,满足



(


词,


词),

后将













别保存



标签词库





词库。其中,评论观点抽取规则根据依存句法结构将规则主要分为两类:一是主谓结构
(sbv)为核心的规则体系,二是以定中结构(att)为核心的规则体系。提取规则中涉及

存句法关系如表1所示:关系类型tagdescriptionexample主谓结构sbvsubject-verb 我送她一束

(我<--送)动宾结构vobverb-object我送她一束花(送-->花)定中结构attattribute红苹果(
红<--苹果)状中结构advadverbial非常美丽(非常<--美丽)动补结构cmpcomplement做完

作业( 做-->完)并列结构coocoordinate大山和大海( 大山-->大海) 表1

一步地,以sbv为核心的规则体系主要分为4大类,如表2所示:表2从表2中可以看出,

sbv


























似宾




(

下将间



似宾




称作形似宾语)建立关系连接。所













词,



形似宾











词。该



并非仅仅涉及表2

所列出




构,此外还

考虑



形似宾


否存

并列结构,再



否定词






向,所

还需

考虑形似宾


否存

副词修饰。例如,




“电影和剧情不错”,根据所提出的规则可抽取出两组观点词与情感词对( 电影,不错),(
剧情,不错);“题材丰富新颖”可获取(题材,丰富) 和( 题材,新颖)标签对;“电影不好看”
可提取出( 电影,不好看) 。进一步地,以att为核心的规则体系也分为4类,具体规则见

3。表3定




修饰、限定、说明









特征的,所



关系










不可或缺。从表3

看出,形容词一般









词,被

修饰









动词作






词。同样,该



也需

考虑

词成分、形容词

并列结构,还有修饰形容词的副词成分。例如,表3给出的例句“生硬尴尬的表演”中“生
硬”与“尴尬”为并列关系,所以能抽取出(表示,生硬) 和( 表演,尴尬)两组标签对;“

演不生动” 可抽取出(表演,不生动)。步骤s4,评论标签类别标记和情感倾向性标记,分

关键词匹配打标



打标。其中,关键词匹配打标需



标签

别词典



词典,然后进行关键词匹配,主要流程参见图2,首先获取标签类别词典,包括如下步骤
:1)

片专


词替换。将


标签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导
演”、“演员”,从而实现评论标签词库中的部分词语的归类;即若评论标签词库中存在的
“张三”、“李四” 等演员名,但由于机器无法判别“ 张三”、“李四”为演员,所以通过将





定义词典中演员名列表进行匹配,则可将“张三”、“李四”标记为“演员”;导演名和影片


标记也

相同


法。2) 词


模型训练。




料库








词、去停

词后保存到一个文本中,每条评论语句保存为一行,词与词之间以空格隔开;利用
word2vec(词向量) 模型训练处理好的评论内容获得词向量模型;3)词聚类。将评

标签词库中的词语用训练好的词向量模型表示,再利用k-means(k均值) 聚类算法将


标签词库


词语聚为k个类别;所述k个类别需要通过多次试验观察聚类结果确定;4) 归纳评价维度,
筛选类别词典。经人工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情
感,视听,题材,观感”8个维度,并

每个

簇下




筛选,保留相关

词组

标签

别词典;5)扩充标签

别词典。利

训练好




模型


标签

别词

相关词扩充标签

别词典,去掉词典


复词,





标签

别词典。所述


标签

别词

相关词

通过词


模型计





间相似性,并设定阈值,当相似



该阈值,才认定词



相关相近的,同


相关词


果再







确保标签

别词典

准确性。



标签

别词典,

例如表4所示:表4其次,获取情感词典。先收集开源的正负情感词典,主要有知网
hownet词典与台湾大学开源的情感词典,对词典进行整理合并。其中,hownet知

词典

包含











词语,本

明只








词语。

后统计所述




词库

词频,保留


设定阈


所有词,




删掉一些










词语,形





特色



词典。最后,


关键词匹配。关键词匹配

























句,将





标签

别词典


匹配,将







词典


匹配,若有两者都能匹配成功,则给该评论语句打上(标签类别,情感倾向性) 标记。例
如,对于“ 故事性不强”评论,评论观点提取后获得( 故事性,不强)标记,经过标签类别与





标记后

得(剧情,负向)标记。


打标

两种情况: 一






















子,二


















词,但不能满足关键词匹配打标


子,针

这种






标签

别标记






标记。步骤s5,










模型,




标签


模型

标签




模型组成,两个


模型除


别标签不一样,整个





使







相同

流程。


模型




两类:一

关键词匹配打标



集,二



打标



集,



这两





训练


2个


标签


模型

及2个标签




模型。









准确率,将2个


标签


模型

权融合






标签


模型,将2个标签




模型

权融合




标签




模型,参考图3

图4。本实施例中,关键词打标数据生成的模型与人工打标数据生成的模型权重分别为
0.4与0.6。评论观点情感分析概率计算公式如下:pi=0.4*p1i+0.6*p2i其中,pi





料库中某评论内容为i类别的概率,p1i 、p2i 分别表示关键词打标数据生成的模型得到

概率




打标数据生成的模型得到的概率值。对于评论标签分类模型,i取值为0-7分别表示“导
演,摄影,剧情,演员,情感,视听,题材”这8个类别。对于标签情感分类模型,i取值有0

1,1





感,0





感。上述



模型


建过程,参见图5,涉及

下步骤:首先,




平衡。






样本可能出现不均衡

现象,这对分类的整体准确性有很大的影响。本发明采用上采样(oversampling)策略,即
将小



别复制多份。其次,进行数据集划分。打乱数据集按8:2 比例划分为训练集与测试集。然
后,进行特征提取。对训练集语料进行分词,去除停用词,然后采用的tf-idf算法(词频-
逆文档频率)提取文本特征,再计算各特征的卡方值(chi2或χ2) ,通过设置阈值k(k

整数) ,保留卡


排列前k个特征实现特征降维。最后,将


导入随机森林


模型,


模型训练、保存


估。步骤s6 ,




标签

动生成。

训练好








模型后,可


新影评的自动打标,具体的情感预测过程,参考图6。首先做评论观点抽取,抽取( 观点
词,


词),若可以获取(观点词,情感词) ,则进行关键词匹配,包括标签类别匹配和情感词匹
配,如果两

都能匹配成功,就


输出结果。否则,






标签


模型和/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值(t1 和
t2),若标签类别预测概率p1大于t1且标签情感预测概率p2大于t2,则输出(评论标签

别标记、





标记) 。以上实施例仅供说明本发明之用,而非对本发明的限制,有关 2018评分最高的
华语电影2018最受关注的院线电影2018评分最高的喜剧片:《我不是药神》9.0 亚瑟·
弗兰克




小丑职





通人,患

精神疾病



母亲一同住

哥谭


一座公寓里,幻想




秀演员

亚瑟


这个目标

努力


活着,但

现实却屡次击败他

梦想,亚瑟渐渐地变得越

越癫狂,某天

地铁上,亚瑟



保杀害



嘲笑他的人,同时,一个疯狂




亚瑟

灵萌发……

看似



哥谭市,即将


翻天覆地

巨变。



员表示,这样






拍摄




出警告,告诉制片





级范围。这







得更









调整从




公司节省时间和金钱。但AI工具目前也不能完全替代人类的工作。 华纳兄弟宣布:2021
年所有电影都将在院线和HBO Max上同时上映。 影评:触目惊心,十分钟的吵架像
刀割般的疼,说

伤害彼此的话,却刺痛




心。婚姻二字,

宣誓





神圣

美好,

别离


候就


虚伪


私,

婚把彼此黏连得越紧,离婚就把


撕扯得越深。两个

不能

一起,不



不爱了,




因爱生恨。围城之中,谁又能

一切尘埃落定之后,去搜找曾经拥有,如今却气若游丝的爱呢? 2019 在华语电影排行榜
_豆瓣年终电影榜单已出炉,还有2020年期待的电影 《辛德勒的名单》是1993年美国史诗





导演


合制作

史蒂文·斯皮尔伯格

脚本史蒂文·萨利安。它



小说辛德勒

舟由澳

利亚小说

托马斯·肯利。这



涉及到德国


奥斯卡·辛德勒

一生中,他

第二次世界


期间,通过





厂里雇用了他们,在犹太人的大屠杀中救了一千多名波兰犹太难民的生命。 《怒火·重
案》上映后好评如潮,累计票房13.29亿,一举成为我国影史港片票房冠军。 伴随着利欲
熏天

创作风暴,案件背后

故事似乎也更

扑朔迷离,戏中戏、案中案、局中局、

外人,


相扣,一场野







愈演愈烈。



命悬一线,还



惊天逆转?爱

温暖的血色花又能否从快将干涸的血河中终极绽放?一切都有待揭开。查看更多 2020
年上半年,

疫情原因影响,全球的影视行业都遭到巨大冲击,直到七月才重开影院。外媒评出
2019上半年20部最佳电影,4部国产电影入选 然后网友又吵起来了《这个杀手不太冷》

由 Luc Besson撰写和指导的1994年英语法语惊悚片。在影片中,莱昂,一个专


杀手,不

愿地



12岁

玛蒂尔达,她



被谋杀损坏后,毒品管制局代理诺曼·斯坦斯菲尔德。 简单用大家熟悉的事物做个类
比,《沙丘》

科幻文学




似《魔戒》在奇幻文学的地位,弗兰克·赫伯特的科幻作家地位类似托尔金的奇幻作家地
位。 平台声明:该文


仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。 2020年
降至,今年



排行榜也终于可以开始盘点,下面就为大家整理了2019豆瓣高分电影排行榜TOP10,你
看过哪些呢?没看过的赶紧收藏,快来看看吧! 《悬崖之上》讲述了二十世纪三十年
代,四







特训



党特





小队,回国执


号为“乌特拉”

秘密行动。由

叛徒

出卖,他

从跳伞降落

第一刻起, 就






布下




中。同志能否脱身,任

能否完成,雪一直下,立于“悬


上”


动小组

临严峻考验 平台声明:该文





作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。 赵婷凭借《无依之
地》拿下威尼斯金狮奖,



史上第一



欧洲三







女导演。 将由罗伯特·帕丁森



新《蝙蝠侠》



预告放出后就





蝙蝠侠粉丝

及 DC 迷

热议。

预告片中的打斗桥段,以及整体更加黑暗的风格让许多粉丝认为新片将会是 R 评级
(18岁及

上)。但




来,新片将不会出现污言秽语以及过度暴力的元素,因为目前该片已获得了 PG-13 的

级(13岁及

上)。 我

热爱电影,因











可能。

谢你一




豆瓣

享这份热爱,愿一起看



人,继续并肩

一起。 转载请在文章开头和结尾显眼处标注:作者、出处和链接。不按规范转载侵权必
究。








讲,电














情。一


















张,但

















群,甚










房,对
此,来





























(AI)工
具,它

























级。
《扬


万》讲























堂,创






时,却



“凶
手”也







事。




2019上


20部



影,4部















《霸


姬》是













片,该











说,由




导,李

华、芦



;张

荣、巩
俐、张





演。9岁































戏。戏















子。十



了,在











下,师








高,小







衣,演


;小







楼,演

角。俩




《霸


姬》誉


城,师







时。二








《霸


姬》。
《孤
味》讲















后,彼










事。
《吉


意》讲























中,原













世,他











事.






虑,
PG-
13

R















元。尽



《小
丑》电

R





阻止它疯狂盈利。 这个2017马上就要过去了,在这一年,大家都看过些什么好电影呢


否都还记得





些精彩




些脍炙人口的台词呢?小编整理了豆瓣2017年度榜单来跟大家一起分享~ 2020

降至,今




排行榜也终于可以开始盘点,下面就为大家整理了2019豆瓣高分电影排行榜TOP10,你


哪些呢?没看过的赶紧收藏,快来看看吧! 未经授权严禁转载,授权事宜请联系作者本
人,侵权必究。 受疫情影响,戛纳电影节历史上第二次停办,仅发布入围片单;7月
25日,上海电影节开幕,成为首个复工的A类电影节。 Notice: The content above (including
the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a
social media platform and merely provides information storage space services.”


:触目惊心,十分钟


架像刀割般的疼,说着

害彼


话,却刺痛



内心。婚姻二字,

宣誓









好,








多虚伪


私,结婚把彼

黏连得越紧,离婚



方撕扯得越深。两






起,





爱了,




因爱生恨。围城之中,谁





尘埃落定之后,去搜找曾经拥有,如今却气若游丝的爱呢? 今日,豆瓣电影公布了2018




榜单,










板块,你看过几部?你最喜爱的是哪部电影?2019年你最期待哪部电影? 《我不是药
神》











语电影,总


31亿。由真实



编,徐峥




影,



台湾金马奖上,徐峥凭借



拿下金马奖影帝。排

第二名是未在内地上映的《大佛普拉斯》,第三名是大年初一上映的《 红海行动》。 《
拆弹专家2》讲


邪恶组织“ 复生会”


香港造

恐怖袭击,

拆弹专

潘乘风




爆炸案被警方怀疑牵涉其中,潘乘风一边逃亡一边查明事情真相的故事。 《白蛇传
·情》取材自民间故事《白蛇传》,那白蛇的故事,远久流传...白素贞修炼千年,只为人



许仙,再续兰因前缘。说什么

妖殊途,法理难容

爱恋。昆仑雪寒金山水漫,白素贞拼尽所有,





心情真一片。纵天谴又如何?再困塔里千年亦甘愿!彼此守望,哪天,佛陀花开,你我再
见! 该领域下的技术专家 平台声明:该文观点仅代表作者本人,搜狐号系信息发布平
台,搜狐仅提供信息存储空间服务。 《雄狮少年》讲述了三个被人无视和欺负的少
年,阴差阳错走



捧腹

舞狮之路,经


傅咸鱼强的培训,一路跌跌撞撞,最终凭借满腔热血和冲劲,成为自己心中“雄狮”的故
事。
作者: knrad 2022-06-09 16:32 [ 查查吧 ]:www.chachaba.com 2020












200亿元

民币,首次


全球第



仓。 :互联





代,

线





口碑

代名词,






感态


直接



方式

渠道。







分析,





说,






全方位


价,






解产品,方便用户

行决策。





说,



解消



好、

解市场,



升服务质量、增

客户粘性。随着互联






日益革新,






庭娱乐行






娱乐




蓬勃发展,






们日常娱乐选项,







接受

欢迎,








论信息。










性观点,

判断





倾向或负

倾向性



语言





信息抽


挖掘




问题,





论信息

价值

传递、

视环境塑造等方面,展示着



价值,

其展

分析,








深化发展。因此,










感倾向性分析具




义。目

普遍使用

用户









无监督

规则




类算法等方法。基

规则



方法,





句法结构


总结规则








点,但


整理

规则


涵盖所




点表

方式,所

该方法







点有限。基




方法,简单但准确率不高,







理准确


论标签。目




感分析常用

方法

词典匹


分类算法等。基


感词典

方法,完全依赖


感词典,受


词典

规模





感分类算法


监督

方法,



练集




论信息及

分组


取,





标注,需

消耗





本。此外,






论信息








注点

侧重点,所




感分析

方式



差异。





论而言,


商、餐厅、酒店等

线

论信息相比,包含

用户体验

感受信息

较复杂,所





感分析


点抽

方法



完全





分析。此外,许多

线








点抽



感分类作



单独



模块,

用户

















的,且








价褒贬不一,直接分析用户



好评( 正向)或差评(负向) 显


够正确,因


用户












感分析更具

实际价值。比如,



论“这部电影的演员演技炸裂,但故事情节不佳”,经情感分析后得出(演员,正向) 与( 剧
情,负向)

结果更

准确。

术实


素:



















感倾向性分析方法,



准确地反映

用户





感表达。实







术方












感倾向性分析方法,包括:步骤s1,




站爬

各类











信息和评论信息;步骤s2,对采集的影评描述信息和评论信息进行数据预处理;步骤s3 ,


多条






规则,利用






规则


论信息


论内容




论语句




点词


感词,






点词


感词分别保存为评论标签词库与观点情感词库;步骤s4 ,通过关键词匹配打标或人工打
标,




论语句



论标签类

标记


感倾向性标记;步骤s5,




论标签分类模型

标签

感分类模型组







感分析模型;步骤s6,针

目标影评,利用





感分析模型





论标签类别标记和情感倾向性标记。优选的,所述步骤s1 中,电影的分类包括:爱情、动
画、动作、科幻、恐怖、



悬疑;所





信息包括


名、


名、


名、类型



分;所


论信息包括:



昵称、



用数、

论时间、

论内容


分。优选的,所






理包括:

采集




论信息整






论语料库;



论语料库

重复



;删除

论语料库


论内容缺失






论语料库

繁体




转化

简体




采集






信息





名、






名,存

用户


义词典




符号标记。优选的,所

步骤s3包括:


依存句法结构、词语


词性







点词


感词



结构

构建多条






规则;


论语料库


论内容

行分句、分词、词性标注

依存句法分析,

得各


论语句,查


论语句

否匹

某条



点抽

规则,匹





点词


感词,







点词


感词分

保存


论标签词库




感词库。优选的,所


依存句法结构包括:

谓结构、动宾结构、


结构、状

结构、动补结构


列结构;所


词语


词性包括:

语成分、宾语或

似宾语成分、









分;

似宾语


接或类似宾语

结构;所



点词


感词



结构,指:






点词,宾语或

似宾语




感词;






感词,

其修饰




分为观点词。优选的,所述步骤s4包括:获取标签类别词典和情感词典;对于所述步骤s3






点词


感词


论语句



键词匹

打标:





点词

标签类

词典

行匹配,





感词


感词典

行匹配,若两






功,



论语句打

标签类

标记



感倾向性标记;否则,




标签类

标记


感倾向性标记;




步骤s3






点词


感词


论语句,




标签类

标记


感倾向性标记。优选的,所




标签类

词典,包括:


论标签词库

含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”;


词向量模型

练各

论语句



练好

词向量模型;利用

论标签词库

词语用

练好

词向量模型表示,再利用k均值

类算法


论标签词库


词语聚为k个类别;人工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情
感,视听,题材,观感”8


度,




类簇下



行筛选,保留



词组

初步

标签类

词典;利用

练好

词向量模型


初步

标签类

词典

标签类





词扩充标签类

词典,


词典

重复词,





标签类

词典;所





感词典指:先





正负

感词典

行整理合并,









感词库

词频,保留




阈值

所有词,












感无


词语,



感词典。优选的,所述步骤s5 包括:利用关键词匹配打标的数据集以及人工打标的数据
集,分







初步


论标签分类模型

及两

初步

标签

感分类模型;



初步


论标签分类模型

权融







论标签分类模型;



初步

标签

感分类模型

权融






标签

感分类模型。优选的,所


初步


论标签分类模型或初步

标签

感分类模型



步骤,包括:


键词匹

打标








打标



集采用

采样策略,




平衡;



平衡



键词匹

打标








打标



集按

设比例划分为训练集和测试集;对训练集中语料进行分词,去除停用词,然后采用tf-idf
算法





征,再

算各



卡方值



征降维;





随机森林分类模型,

行模型训练、保存与评估。优选的,所述步骤s6 ,包括:抽取观点词和情感词,若可以获
取,则



键词匹配,包括标签类





感词匹配,

果两






功,

直接输

标签类

标记


感倾向性标记;否则,直接调用

论标签分类模型

/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值t1和t2,若标
签类别预测概率p1大于t1 且标签情感预测概率p2大于t2 ,则输出标签类别标记与情感倾
向性标记。





益效果是:








论内容


感倾向都较

复杂



信息

行处理,采用多

方法多

策略




方式










感倾向性分析,

够较

准确










某些方



感倾向。附图说明图1












感倾向性分析方法



图;图2






键词匹

打标



图;图3






论标签分类模型融



图;图4





标签

感分类模型融



图;图5





分类模型构建流



图;图6








感标签




流程图。具体实施方式下




附图



明作


步说明。请参阅图1,











感倾向性分析方法,












点提取,





打标分类


感倾向性分析,即



论标签类

及其

感倾向,


构建





感分析模型










行分析归类,贴

类别以及情感标签。包括下列步骤:步骤s1,数据爬取:从影评网站爬取爱情、动画、动
作、科幻、恐怖、



悬疑类












信息及各





论信息。其中,




信息包括


名、导演名、主演名、类型、总评分等信息。影片的评论信息包括评论者昵称、评论有用
数、

论时间、

论内容


分等信息。步骤s2 ,





信息


论信息






理,包括:整


据,

采集




论信息整





论语料库;



重,



论语料库


重复




理缺失值,删除

论语料库


论内容缺失






繁体处理,


论语料库

繁体




转化

简体





义用户词典,

采集






信息





名、






名,存

用户


义词典




符号标记。步骤s3 ,



点抽取:



代汉语

依存句法结构、词语


词性,再结

实际






点词


感词表

结构制

多条普









规则。


论语料库


论内容

行分句、分词、词性标注、依存句法分析等操作,

得各


论语句,





论语句

否匹

某条



点抽

规则,

足则


(

点词,

感词) ,









点词


感词分

保存


论标签词库




感词库。其中,



点抽

规则


依存句法结构将规则主要分为两类:一是主谓结构(sbv)为核心的规则体系,二是以定中
结构(att)为核心的规则体系。提取规则中涉及依存句法关系如表1所示:关系类型
tagdescriptionexample主谓结构sbvsubject-verb 我送她

束花( 我<--送)动宾结构vobverb-object我送她一束花( 送-->花)定

结构attattribute 红苹果( 红<--苹果)状中结构advadverbial非常

丽(非常<--美丽)动补结构cmpcomplement做完了作业(做-->完)并列结构coocoordinate

山和大海( 大山-->大海) 表1进一步地,以sbv为核心的规则体系主要分为4大类,如表2
所示:表2

表2




出,以sbv

核心

规则





词性

语直接或




宾语或类似宾语

结构(




接或类似宾语

结构称作

似宾语)建


系连接。所抽











点词,抽



似宾语









感词。该类规则

非仅仅涉及表2

所列


句式结构,










似宾语

否存


列结构,再











倾向,所

还需




似宾语

否存

副词修饰。例如,




“电影和剧情不错”,根据所提出的规则可抽取出两组观点词与情感词对( 电影,不错),(

情,不错) ;“题材丰富新颖”可获取( 题材,丰富)和(题材,新颖)标签对;“电影不好看”




(电影,不好看)。进一步地,以att为核心的规则体系也分为4类,具体规则见表3。表3





修饰、限定、说明

词或代词





征的,所









点抽

规则



或缺。

表3


出,

容词

般用作






感词,

其修饰


词或用作



动词作





点词。同样,该类规则






词成分、

容词


列结构,还有修饰形容词的副词成分。例如,表3给出的例句“生硬尴尬的表演”中“生
硬”与“尴尬”为并列关系,所以能抽取出(表示,生硬) 和( 表演,尴尬)两组标签对;“表



动”可抽取出(表演,不生动)。步骤s4 ,评论标签类别标记和情感倾向性标记,分为关键
词匹

打标



打标。其中,

键词匹

打标需



标签类

词典


感词典,





键词匹配,




参见图2,首先


标签类

词典,包括

下步骤:1)





词替换。


论标签词库

含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”,





论标签词库中的部分词语的归类;即若评论标签词库中存在的“张三”、“李四”等演员
名,但由

机器无法判别“张三”、“李四”


员,所

通过将其与用户自定义词典中演员名列表进行匹配,则可将“张三”、“李四”标记为“演
员”;








标记





方法。2)词向量模型训练。


论语料库


论内容

行分词、

停用词后保存到一个文本中,每条评论语句保存为一行,词与词之间以空格隔开;利用
word2vec(词向量) 模型训练处理好的评论内容获得词向量模型;3)词聚类。将评论标签
词库中的词语用训练好的词向量模型表示,再利用k-means(k均值)聚类算法将评论标签
词库


词语聚为k个类别;所述k个类别需要通过多次试验观察聚类结果确定;4) 归纳评价维度,
筛选类别词典。经人工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情
感,视听,题材,观感”8


度,




类簇下



行筛选,保留



词组

标签类

词典;5)扩充标签类

词典。利用

练好

词向量模型


标签类





词扩充标签类

词典,


词典

重复词,





标签类

词典。所



标签类









词向量模型

算词





似性,



阈值,当





该阈值,才认








近的,







结果再







确保标签类

词典

准确性。



标签类

词典,示例

表4所示:表4其次,获取情感词典。先收集开源的正负情感词典,主要有知网hownet词
典与台湾大学开源的情感词典,对词典进行整理合并。其中,hownet知网词典中包含正


感词语

正负

价词语,








正负

价词语。









感词库

词频,保留




阈值

所有词,














感无


词语,










感词典。最后,



键词匹配。

键词匹







点抽







点词


感词


论语句,



点词

标签类

词典

行匹配,



感词


感词典

行匹配,若





匹配成功,则给该评论语句打上(标签类别,情感倾向性)标记。例如,对于“故事性不强”

论,



点提取后获得(故事性,不强)标记,经过标签类别与情感倾向性标记后获得( 剧情,负向)
标记。


打标




况:






点抽







点词


感词

句子,





点抽







点词


感词,但





键词匹

打标

句子,针









标签类

标记


感倾向性标记。步骤s5,







感分析模型,其由

论标签分类模型

标签

感分类模型组成,两

分类模型除



标签


样,整






使用分类算法都




流程。分类模型




两类:



键词匹

打标



集,




打标



集,分



两类








2


论标签分类模型

及2

标签

感分类模型。





感分析

准确率,将2


论标签分类模型

权融






论标签分类模型,将2

标签

感分类模型

权融





标签

感分类模型,参

图3

图4。本实施例中,关键词打标数据生成的模型与人工打标数据生成的模型权重分别为
0.4与0.6。评论观点情感分析概率计算公式如下:pi=0.4*p1i+0.6*p2i其中,pi表示

论语料库中某评论内容为i类别的概率,p1i、p2i分别表示关键词打标数据生成的模型得


概率值



打标数据生成的模型得到的概率值。对于评论标签分类模型,i取值为0-7分别表示“导
演,摄影,剧情,演员,情感,视听,题材”这8个类别。对于标签情感分类模型,i取值有0

1,1表示正向情感,0表示负向情感。



分类模型

构建过程,参见图5,涉及

下步骤:首先,




平衡。分类


各类样






均衡的现象,这对分类的整体准确性有很大的影响。本发明采用上采样(oversampling)
策略,即






复制多份。其次,进行数据集划分。打乱数据集按8:2 比例划分为训练集与测试集。然
后,进行特征提取。对训练集语料进行分词,去除停用词,然后采用的tf-idf算法(词频-
逆文档频率)提取文本特征,再计算各特征的卡方值(chi2或χ2) ,通过设置阈值k(k

整数) ,保留卡方值排列前k


征实


征降维。最后,





随机森林分类模型,

行模型训练、保存


估。步骤s6 ,



感标签

动生成。


练好





感分析模型后,








动打标,具体的情感预测过程,参考图6。首先做评论观点抽取,抽取( 观点词,情感
词),若可以获取(观点词,情感词) ,则进行关键词匹配,包括标签类别匹配和情感词匹
配,

果两






功,

直接输

结果。否则,直接调用

论标签分类模型

/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值(t1 和t2),若
标签类别预测概率p1大于t1且标签情感预测概率p2大于t2,则输出(评论标签类别标记、

感倾向性标记)。


实施例仅供说明本发明之用,而非对本发明的限制,有关华纳兄弟宣布:2021年所有电
影都将在院线和HBO Max上同时上映。





2020年


年,受





响,全












击,直







院。



度,新


岁,不




始,贺





















中。似















签,上

起,专
业,伪









挥,就















觉。事








《这





冷》是

Luc
Besson撰





1994年






片。在


中,莱
昂,一





手,不






12岁




达,她








后,毒








·斯




德。













作,成








议,正









明。

Lady
Gaga发
起、集








One
World:Together
At
Home慈







线


行,为

















劲。
《泰



号》是








西






1912年
4月
15日,之




碰撞冰山


处女航从南安普敦到新约克市。有一个估计的2224名乘客和船员在船上,和超过1500
去世,使


为致命商











灾难



历史。RMS 泰



号号



运载




船只,



线
运营



奥运



船只中


二艘。泰











哈兰德

沃尔夫造船厂建造。她的建筑师托马斯·安德鲁斯死于灾难。 影评:完全不是超英
片,就



以普通底层小市民为主


犯罪片,

概也




漫威DC所有




性剖析

深刻


部。


对哥谭市有着



氛围营造,阴暗潮湿

道路,满目垃圾

街头,

触即




气息,



环境,再


悲惨

身世、糟糕


天,足以把





可怜

逼向深渊,从





点点变得麻木和疯癫,每一步转变都真实可信。 《沙丘》是美国科幻作家弗兰克·赫伯特
(Frank Herbert ,1920-1986)创作的著名科幻小说,被誉为“不可


改编成电影的小说”。 《无声》根据真实事件改编,讲述了在宁静的校园中,却充斥着一

诡异氛围。天

无邪










游戏,但


游戏却是不能说的秘密,而大家口中这个不能说的游戏,其实是一种无助的求救讯号
2019十大电影排行榜_2019十大电影必看电影榜单出炉 2019国产电影观影指南 《怒火·

案》上映后好评如潮,累计票房13.29亿,一举成为我国影史港片票房冠军。 如您需求助



家,请点此查看

服电话进行咨询。 受疫情影响,戛纳电影节历史上第二次停办,仅发布入围片单;7月
25日,上海电影节开幕,成为首个复工的A类电影节。 本日字节跳动概念涨幅达1.46%,
收盘价位923.21点。字节跳动概念下本日涨幅龙头股,涨幅居前的有5只,分别是特发
信息,涨幅9.99%、中南文化,涨幅4.76% 、中文在线,涨幅4.... 作者:Teg 来源: ZNDS资
讯 2019-12-20 15:48 阅读( ) 影评:触目惊心,十分钟的吵架像刀割般的疼,说着伤害
彼此的话,却刺痛自己

内心。婚姻二字,

宣誓


候有多神圣

美好,

别离


候就有多虚伪

自私,结婚把彼此黏连得越紧,离婚就把对方撕扯得越深。两






起,





爱了,而




爱生恨。围城之中,谁又



切尘埃落定之后,去搜找曾经拥有,如今却气若游丝的爱呢? 1、李老师:1.计算力学 2.
无损检测 www.ixinwei.com’s server IP address could not be found. 未

授权严禁转载,授权事宜请联系作者本人,侵权必究。 外媒评出2019上半年20部最佳

影,4部




入选 然后网友又吵起来了平台声明:该文观点仅代表作者本人,搜狐号系信息发布平
台,搜狐仅提供信息存储空

服务。 平台声明:该文

点仅

表作者本人,搜狐号系信息

布平台,搜狐仅提供信息存储空间服务。 今日,豆瓣电影公布了2018年度电影榜单,将





分为几

板块,你看过几部?你

喜爱


哪部


?2019年你最期待哪部电影? 上一篇:一种不规则框类零件装夹装置及方法与流程,


涉及







感倾向性分析方法。 :互联网

数据时代,

线





口碑


名词,也

消费者

感态度




表达方式

渠道。对消费者



分析,对消费者来说,

够获取产


方位


价,从而多维度

解产品,方便用户进

决策。对于商

来说,可以

解消费者喜好、

解市场,从而提升服务质量、增


户粘性。随着互联网媒体





革新,






庭娱乐







娱乐产



蓬勃发展,







日常娱乐选项,而









欢迎,也滋






论信息。从



论中提取主

性观点,并判断



正面倾向或负面倾向性

自然

言处

领域

信息抽取

挖掘中


要问题,同




论信息

价值

传递、


环境塑造等方面,展示着自身

价值,对



分析,有助于


研究

深化发展。因此,对





点进


感倾向性分析具有


意义。目前普遍使用

用户



点提取主要

无监督

规则提取

聚类算

等方法。基于规则提取

方法,主要

依据句

结构



结规则来抽取

论中


点,但

工整


规则


涵盖所有



点表述方式,所以该方


提取

有效

点有限。基于聚类

方法,简单但准确率不高,很难


较为合

准确


论标签。目前



感分析常用



有词典匹配

分类算法等。基于

感词典

方法,完

依赖于

感词典,受限于词典

规模

小;而

感分类算


有监督

方法,有

训练集

根据

论信息及

分组合获取,有



工标注,需要消耗



工成本。此外,






论信息往往





关注点

侧重点,所以进


感分析

方式

略有差异。对于



论而言,


商、餐厅、酒店等

线

论信息相比,包含

用户体验

感受信息比较复杂,所以目前


感分析


点抽取方






适用于


分析。此外,许多

线

论研究




点抽取


感分类作为两

单独

研究模块,而用户对某



或事物


论往往

多维度的,且对产



维度

价褒贬不一,


分析用户





(正向)或差评(负向) 显然

够正确,

此对用户提取

主要

点维度进


感分析更具有

际价值。比如,对于

论“这部电影的演员演技炸裂,但故事情节不佳”,经情感分析后得出(演员,正向) 与( 剧
情,负向)

结果更

准确。




要素:本






于提供









感倾向性分析方法,


面准确




用户对




感表达。



述目




方案是:









感倾向性分析方法,包括:步骤s1,从


网站爬取

类别

多部





描述信息


论信息;步骤s2,对采集的影评描述信息和评论信息进行数据预处理;步骤s3,制定多条



点提取规则,利用



点提取规则从

论信息


论内容






句中获得

点词


感词,然


所有

点词


感词分别保存为评论标签词库与观点情感词库;步骤s4 ,通过关键词匹配打标或人工打
标,对





句进




签类别




感倾向性

记;步骤s5,






签分类模型




感分类模型组







感分析模型;步骤s6,针对目


评,利用





感分析模型自




论标签类别标记和情感倾向性标记。优选的,所述步骤s1 中,电影的分类包括:爱情、动
画、动作、科幻、恐怖、喜


悬疑;所述


描述信息包括


名、


名、主演名、类型



分;所述

论信息包括:

论者昵称、

论有用数、

论时间、

论内容


分。优选的,所述

数据预处

包括:

采集

所有

论信息整合形






料库;去除



料库中



数据;删除



料库中

论内容缺失

数据;




料库中繁体中文

部转化为简体中文;从采集




描述信息中获取


名、




主演名,存入用户自定义词典并以

同符号标记。优选的,所述步骤s3包括:根据依存句

结构、词



词性




点中

点词


感词

表达结构来构建多条



点提取规则;对



料库中

论内容进

分句、分词、词性



依存句

分析,获得



论语句,查看





否匹配某条



点抽取规则,匹配则获取

点词


感词,

获取

所有

点词


感词分别保存为



签词库




感词库。优选的,所述

依存句

结构包括:主谓结构、

宾结构、定中结构、状中结构、

补结构

并列结构;所述





词性包括:主


分、宾

或形似宾


分、定


分以及名词

分;形似宾




或类似宾


结构;所述


点词


感词

表达结构,指:主


分为

点词,宾

或形似宾


分为

感词;定


分为

感词,


修饰

名词

分为观点词。优选的,所述步骤s4包括:获取标签类别词典和情感词典;对于所述步骤s3


提取


点词


感词




句进

关键词匹配打标:

获取


点词


签类别词典进

匹配,

获取


感词


感词典进

匹配,若两者均

匹配成功,





句打


签类别

记以及

感倾向性

记;否则,进




签类别




感倾向性

记;对于所述步骤s3中未提取


点词


感词


论语句,进




签类别




感倾向性标记。优选的,所述

获取

签类别词典,包括:




签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导
演”、“演员”;通过词向量模型训练




句获得训练


词向量模型;利用



签词库



用训练


词向量模型表示,再利用k均值聚类算





签词库中的词语聚为k个类别;人工归纳筛选将电影评论大众观点分为“导演,摄影,剧
情,演员,情感,视听,题材,观感”8

维度,并对每

类簇下

词进

筛选,保留相关

词组

初步


签类别词典;利用训练


词向量模型获取初步


签类别词典中

签类别词

相关词扩充

签类别词典,去掉词典中

复词,






签类别词典;所述

获取

感词典指:先收集



正负

感词典进



合并,然

统计所述



感词库中词频,保留

于设定阈值

所有词,然


工删掉






感无关

词语,形


感词典。优选的,所述步骤s5 包括:利用关键词匹配打标的数据集以及人工打标的数据
集,分别训练




初步




签分类模型以及两

初步




感分类模型;



初步




签分类模型

权融合








签分类模型;



初步




感分类模型

权融合








感分类模型。优选的,所述

初步




签分类模型或初步




感分类模型



步骤,包括:对关键词匹配打


数据集以及

工打


数据集采用



策略,进

数据平衡;

数据平衡


关键词匹配打


数据集以及

工打


数据集按预设比例划分为训练集

测试集;对训练集中语料进行分词,去除停用词,然后采用tf-idf算法提取文本特征,再
计算

特征

卡方值进

特征降维;

数据

入随机森林分类模型,进

模型训练、保存与评估。优选的,所述步骤s6,包括:抽取观点词和情感词,若可以获
取,则进

关键词匹配,包括

签类别匹配


感词匹配,如果两者


匹配成功,就





签类别




感倾向性

记;否则,


调用



签分类模型

/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值t1和t2,若标
签类别预测概率p1大于t1 且标签情感预测概率p2大于t2 ,则输出标签类别标记与情感倾
向性标记。本





效果是:本

明面向



论内容


感倾向

较为复杂

文本信息进

处理,采用多





策略相结合

方式对



论数据进


感倾向性分析,

够较为准确

捕获


对某部


某些方面


感倾向。附图说明图1












感倾向性分析方


流程图;图2



明中关键词匹配打


流程图;图3



明中



签分类模型融合示意图;图4



明中



感分类模型融合示意图;图5



明中分类模型构建流程示意图;图6



明中





签自



流程图。具体

施方式下面

结合附图对本

明作进

步说明。请参阅图1,本










感倾向性分析方法,主要




数据做



点提取,进






分类


感倾向性分析,即获取



签类别及


感倾向,同

构建





感分析模型以


对新


数据进

分析归类,


类别以及情感标签。包括下列步骤:步骤s1,数据爬取:从影评网站爬取爱情、动画、动
作、科幻、恐怖、喜


悬疑类别下

多部





描述信息及






论信息。其中,


描述信息包括


名、导演名、主演名、类型、总评分等信息。影片的评论信息包括评论者昵称、评论有用
数、

论时间、

论内容


分等信息。步骤s2 ,对


描述信息


论信息进

数据预处理,包括:整合数据,

采集

所有

论信息整合






料库;数据去重,去除



料库中


复数据;处

缺失值,删除



料库中

论内容缺失

数据;中文繁体处理,




料库中繁体中文

部转化为简体中文;自定义用户词典,从采集




描述信息中获取


名、




主演名,存入用户自定义词典并以

同符号标记。步骤s3,



点抽取:根据




中依存句

结构、词



词性,再结合





点中

点词


感词表达结构

定多条普适性




点提取规则。对



料库中

论内容进

分句、分词、词性标注、依存句

分析等操作,获得



论语句,然

查看





否匹配某条



点抽取规则,满足则获取(

点词,

感词) ,



获取

所有

点词


感词分别保存为



签词库




感词库。其中,



点抽取规则根据依存句

结构将规则主要分为两类:一是主谓结构(sbv)为核心的规则体系,二是以定中结构(att)
为核心的规则体系。提取规则中涉及依存句法关系如表1所示:关系类型
tagdescriptionexample主谓结构sbvsubject-verb 我送她

束花( 我<--送)动宾结构vobverb-object我送她一束花( 送-->花)定中结构attattribute红苹
果(红<--苹果)状中结构advadverbial非常美丽(非常<--美丽)动补结构cmpcomplement做
完了作业( 做-->完) 并列结构coocoordinate大山和大海(大山-->大海)表1进

步地,以sbv 为核心的规则体系主要分为4大类,如表2所示:表2从表2中可以看出,以sbv
为核心

规则主要

以名词性主



或者





或类似宾


结构( 以下



或类似宾


结构称作形似宾语)建立关系连接。所抽取




分为




点词,抽取

形似宾


分为






感词。该类规则并非仅仅涉及表2中所列


句式结构,此外还要考虑主


形似宾


否存

并列结构,再者

为否定词





倾向,所以还需要考虑形似宾


否存

副词修饰。例如,对于


“电影和剧情不错”,根据所提出的规则可抽取出两组观点词与情感词对( 电影,不错),(

情,不错) ;“题材丰富新颖”可获取( 题材,丰富)和(题材,新颖)标签对;“电影不好看”可
提取出(电影,不好看)。进一步地,以att为核心的规则体系也分为4类,具体规则见表3。
表3定


用来修饰、限定、说明名词或






特征的,所以定中关系




点抽取规则中

可或缺。从表3中看出,形容词

般用作






感词,


修饰

名词或用作名词


词作为




点词。同样,该类规则也需要考虑名词成分、形容词

并列结构,还有修饰形容词的副词成分。例如,表3给出的例句“生硬尴尬的表演”中“生
硬”与“尴尬”为并列关系,所以能抽取出(表示,生硬) 和( 表演,尴尬)两组标签对;“表



动”可抽取出(表演,不生动)。步骤s4 ,评论标签类别标记和情感倾向性标记,分为关键
词匹配打



工打标。其中,关键词匹配打

需要获取

签类别词典


感词典,然



关键词匹配,主要流程参见图2,首先获取

签类别词典,包括如下步骤:1)



有名词替换。




签词库中含有用户自定义词典中的影片名、导演名、演员名分别标记为“电影”、“导
演”、“演员”,从而实现评论标签词库中的部分词语的归类;即若评论标签词库中存在的
“张三”、“李四” 等演员名,但由于机器无法判别“ 张三”、“李四”为演员,所以通过将


用户自定义词典中演员名列表进行匹配,则可将“张三”、“李四”标记为“演员”;导演名






记也用相同

方法。2)词向量模型训练。对



料库中

论内容进

分词、去停用词

保存到一个文本中,每条评论语句保存为一行,词与词之间以空格隔开;利用word2vec(
词向量)模型训练处




论内容获得词向量模型;3)词聚类。将评论标签词库中的词语用训练好的词向量模型表
示,再利用k-means(k均值)聚类算法将评论标签词库中的词语聚为k个类别;所述k

类别需要通过多次试验

察聚类结果确定;4) 归纳

价维度,筛选类别词典。


工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情感,视听,题材,观
感”8

维度,并对每

类簇下

词进

筛选,保留相关

词组


签类别词典;5)扩充

签类别词典。利用训练


词向量模型获取

签类别词

相关词扩充

签类别词典,去掉词典中

复词,






签类别词典。所述获取

签类别词

相关词

通过词向量模型计算词

词之

相似性,并设定阈值,当相似度

于该阈值,

认定词之


相关相近的,同

对相关词

结果再进


工筛选以确保

签类别词典

准确性。




签类别词典,示例如表4所示:表4其次,获取

感词典。先收集开源的正负情感词典,主要有知网hownet 词典与台湾大学开源的情感词典
,对词典进行整理合并。其中,hownet知网词典中包含正负情感词语和正负评价词语,本

明只取



正负

价词语。然

统计所述



感词库中词频,保留

于设定阈值

所有词,然


工删掉








感无关

词语,形

具有


特色


感词典。最后,进

关键词匹配。关键词匹配

对于



点抽取中

提取


点词


感词


论语句,



点词


签类别词典进

匹配,



感词


感词典进

匹配,若有两者都能匹配成功,则给该评论语句打上(标签类别,情感倾向性) 标记。例
如,对于“ 故事性不强”评论,评论观点提取后获得( 故事性,不强)标记,经过标签类别与

感倾向性



获得( 剧情,负向)标记。

工打

有两


况:






点抽取中未提取


点词


感词

句子,二




点抽取中

提取


点词


感词,但


满足关键词匹配打


句子,针对



况进




签类别




感倾向性标记。步骤s5,







感分析模型,





签分类模型




感分类模型组成,两

分类模型除

类别




样,整

数据处


使用分类算



相同

流程。分类模型数据集有两类:


关键词匹配打


数据集,二


工打


数据集,分别用

两类数据进

训练


2




签分类模型以及2




感分类模型。为

提升

感分析

准确率,将2




签分类模型

权融合







签分类模型,将2




感分类模型

权融合







感分类模型,参考图3

图4。本实施例中,关键词打标数据生成的模型与人工打标数据生成的模型权重分别为
0.4与0.6。评论观点情感分析概率计算公式如下:pi=0.4*p1i+0.6*p2i其中,pi表示

论语料库中某评论内容为i类别的概率,p1i、p2i分别表示关键词打标数据生成的模型得


概率值


工打

数据生成的模型得到的概率值。对于评论标签分类模型,i取值为0-7分别表示“导演,摄
影,剧情,演员,情感,视听,题材”这8个类别。对于标签情感分类模型,i 取值有0和1,1
表示正向情感,0表示负向情感。



分类模型

构建过程,参见图5,涉及以下步骤:首先,进

数据平衡。分类数据



本可能出现不均衡的现象,这对分类的整体准确性有很大的影响。本发明采用上采样
(oversampling)策略,即将小数据类别复制多份。其次,进行数据集划分。打乱数据集
按8:2比例划分为训练集

测试集。然后,进行特征提取。对训练集语料进行分词,去除停用词,然后采用的tf-idf
算法( 词频-逆文档频率)提取文本特征,再计算各特征的卡方值(chi2或χ2) ,通过设置阈
值k(k为整数),保留卡方值排列前k个特征实现特征降维。最后,将数据导入随机森林分类
模型,进

模型训练、保存


估。步骤s6 ,





签自


成。

训练






感分析模型后,可进

新影评的自动打标,具体的情感预测过程,参考图6。首先做评论观点抽取,抽取( 观点
词,

感词) ,若可以获取(

点词,

感词) ,则进

关键词匹配,包括

签类别匹配


感词匹配,如果两者


匹配成功,就




结果。否则,


调用



签分类模型

/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值(t1 和t2),若

签类别预测概率p1大于t1 且标签情感预测概率p2大于t2 ,则输出( 评论标签类别标记、
情感倾向性标记) 。以上实施例仅供说明本发明之用,而非对本发明的限制,有关
,尤其涉及电影评论观点情感倾向性分析方法。上一篇:文本实体类型识别方法、
装置、电子设备和存储介质与流程 转载请在文章开头和结尾显眼处标注:作者、出处
和链接。不按规范转载侵权必究。 《吉祥如意》讲了喜剧导演董成鹏回到家乡拍摄
家人如何过年的过程中,原本的主要拍摄对象姥姥意外去世,他临时改变了拍摄计
划的故事. 外媒评出2019上半年20部最佳电影,4部国产电影入选 然后网友又吵起来了
如您是高校老师,可以点此联系我们加入专家库。 2020年中国电影票房预计将达到200
亿元人民币,首次成为全球第一大票仓。 Notice: The content above (including the videos,
pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social
media platform and merely provides information storage space services.” 根据 MPA 评级协
会称,这部电影中依然含有“强烈的暴力和令人不安的内容、涉及药品、强烈的语言以
及一些暗示性的内容” 。 榜单前十中的《气球》、《八佰》、《我和我的家乡》及《夺冠》,在
上线后也引起了热议。 《雄狮少年》讲述了三个被人无视和欺负的少年,阴差阳错
走上令人捧腹的舞狮之路,经过师傅咸鱼强的培训,一路跌跌撞撞,最终凭借满腔热
血和冲劲,成为自己心中“雄狮”的故事。 《风声》更加侧重于“ 谍”,《悬崖之上》则是既
有“谍”又有“战”。《风声》所有的心理战、严刑逼供,《悬崖之上》都有;而《风声》缺少的
战斗部分,《悬崖之上》也花费了大量笔墨重点描写。华纳兄弟宣布:2021年所有电影都
将在院线和HBO Max上同时上映。 影评:完全不是超英片,就是一个以普通底层小
市民为主角的犯罪片,大概也是这些年漫威DC所有电影里人性剖析最深刻的一部。
影片对哥谭市有着出色的氛围营造,阴暗潮湿的道路,满目垃圾的街头,一触即发的
暴动气息,这样的环境,再加上悲惨的身世、糟糕的一天,足以把一个老实的可怜人
逼向深渊,从理性善良一点点变得麻木和疯癫,每一步转变都真实可信。 本文系作者
授权数英发表,内容为作者独立观点,不代表数英立场。 本日字节跳动概念涨幅达
1.46%,收盘价位923.21点。字节跳动概念下本日涨幅龙头股,涨幅居前的有5只,分别是
特发信息,涨幅9.99% 、中南文化,涨幅4.76%、中文在线,涨幅4.... CopyRight 2013-2018
文华奇闻网 - www.whhjs.com - 版权所有 网站地图 外媒评出2019上半年20部最佳电影,4
部国产电影入选 然后网友又吵起来了作者: onutu 2019-12-26 15:36 [ 查查
吧 ]:www.chachaba.com © 2008-2024 【X技术】 版权所有,并保留所有权利。津ICP
备16005673号-2 2019 十大电影排行榜_2019十大电影必看电影榜单出炉 2019国产电影观
影指南









《头


家》一

映,就
















潮。电


















力。排



名、第











《三

广

牌》和
《小


族》。
《我



神》被












影,总


31亿。由





编,徐





影,并







上,徐












帝。排












《大



斯》,第










《红


动》。




2019上


20部



影,4部






然后网友又吵

来了 该技术已申请专利。仅供学习研究,如用于商业用途,请联系技术所有人。 我们

爱电影,因



让生活

别处成

可能。感谢你

直以来与豆瓣分享这份热爱,愿一起看电影的人,继续并肩在一起。《困在时间里的父
亲》通过



迈老人

感官来表达叙事,以重复性脆片化

方式呈现一名阿尔茨海默症患者安东尼眼中的生活。【豆瓣2017年度电影榜单】基于
2017年万千豆瓣用户对电影条目的评分、标记和访问数据(统计截至2017-12-25)。 文档
序号:20010287发布日期:2020-02-22 04:02阅读:592来源:

知局 上一篇:文本实体类型识别方法、装置、电子设备和存储介质与流程 以上就是
“2021年豆瓣评分最高的国产电影排名前十”的全部内容,希望能帮助到大家! 外媒评

2019上


20部



影,4部






然后网友又吵起来了2、毕老师:机构动力学与控制 作者: onutu 2019-12-26 15:36 [ 查
查吧 ] :www.chachaba.com 《辛德勒的名单》是1993年美国史诗 时代剧





联合制作

史蒂文·






脚本史蒂文·萨利安。它

根据小说辛德勒方舟



利亚小说




·肯利。这部


涉及到德

商人奥

卡·辛德勒


生中,他




世界

战期间,通过

他们

工厂里雇用

他们,

犹太人


屠杀中救了一千多名波兰犹太难民的生命。 拿今年周星驰导演的作品《新喜剧之王》来
说,


两极分化,好


方指

作品



星爷描写小人物奋斗

风格,其中

乏有新笑梗,让人潸然落泪

桥段,口碑似乎还不错。另


方则显得偏激,对



缺点描述平平,更多



指责周星驰卖情怀,消费个人口碑等恶劣行为,让人

禁感叹


已经严重变了味。 未经授权严禁转载,授权事宜请联系作者本人,侵权必究。 2018评








2018最受关注的院线电影2018评分最高的喜剧片:《我不是药神》9.0 《风声》更加侧重
于“谍”,《悬崖之上》则是既有“谍”又有“战”。《风声》所有的心理战、严刑逼供,《悬崖
之上》都有;而《风声》缺少的战斗部分,《悬崖之上》也花费了大量笔墨重点描写。 以


离婚事件探讨婚姻和爱情,诺亚·鲍姆巴赫执导, 亚当· 德赖弗扮演一个剧作家,斯嘉丽
·约翰逊扮


个女明星,两人因


工作

居纽约

洛杉矶而





离婚。 《吉祥如意》讲

喜剧


董成鹏回到

乡拍摄

人如何过


过程中,原本的主要拍摄对象姥姥意外去世,他临时改变了拍摄计划的故事. 2019十大


排行榜_2019十大电影必看电影榜单出炉 2019国产电影观影指南 :互联网大数据时代,

线

论成


口碑

代名词,也

消费者情感态度

直接

表达方式

渠道。对消费者




析,对消费者来说,能够



品全方位


价,从而多维度

解产品,方便用户


决策。对于商

来说,可以

解消费者喜好、

解市场,从而提升服务质量、增加客户粘性。随着互联网

体技术

日益革新,






庭娱乐







娱乐

业正

蓬勃发展,


已成

人们日常娱乐选项,而人们对



接受与欢迎,也滋生





论信息。从



论中提取

观性观点,并判断



正面倾

或负面倾






言处理领域

信息抽取与挖掘中

重要问题,同时



论信息

价值观传递、

视环境塑

等方面,展示着



价值,对其展开分析,有助于

视研究

深化发展。因此,对



论观点


情感倾



析具有重

意义。目前

遍使用

用户

论观点提取



无监督

规则提取与聚类算法等方法。基于规则提取

方法,



依据句法结构人工总结规则来抽取

论中

观点,但人工整理

规则

能涵盖所有

论观点表述方式,所以该方法能提取

有效观点有限。基于聚类

方法,简单但准确率不高,很难生成较

合理准确


论标签。目前

论情感

析常用

方法有词典匹配与

类算法等。基于情感词典

方法,完全依赖于情感词典,受限于词典

规模

小;而情感

类算法

有监督

方法,有

训练集

根据

论信息及


组合获取,有


人工标注,需要消耗

量人工成本。此外,






论信息往往会有



关注点与侧重点,所以


情感



方式会略有差异。对于



论而言,与电商、餐厅、酒店等

线

论信息相比,包含

用户体验与感受信息比较复杂,所以目前

情感

析与观点抽取方法并

能完全适用于



析。此外,许多

线

论研究将

论观点抽取与情感

类作

两个单独

研究模块,而用户对某


品或




论往往

多维度的,



品各个维度评价褒贬不一,直接分析用户情感是好评(正向) 或差评(负向)显然不够正
确,因

对用户提取


要观点维度


情感分析更具有实际价值。比如,对于评论“这部电影的演员演技炸裂,但故事情节不
佳”,经情感分析后得出( 演员,正向)与(剧情,负向)的结果更加准确。技术实现要素:本






于提供





论观点情感倾



析方法,能全面准确




用户对



情感表达。



述目


技术方案是:





论观点情感倾



析方法,包括:步骤s1,从


网站爬取

类别

多部




片描述信息


论信息;步骤s2,对采集的影评描述信息和评论信息进行数据预处理;步骤s3,制定多条

论观点提取规则,利用

论观点提取规则从

论信息











句中

得观点词与情感词,然后将所有观点词

情感词

别保存


论标签词库与观点情感词库;步骤s4,通过关键词匹配打标或人工打标,对









论标签类别标记

情感倾

性标记;步骤s5,生成


论标签

类模型

标签情感

类模型组成


论观点情感

析模型;步骤s6,针对目标影评,利用

论观点情感

析模型

动生成

论标签类别标记和情感倾向性标记。优选的,所述步骤s1 中,电影的分类包括:爱情、动
画、动作、科幻、恐怖、喜剧

悬疑;所述

片描述信息包括影片名、导演名、主演名、类型和总评分;所述评论信息包括:评论者昵
称、

论有用数、

论时间、






分。优选的,所述

数据预处理包括:将采集

所有

论信息整合形成





料库;去除



料库中重复

数据;删除



料库中



容缺失

数据;将



料库中繁体中文全部转化

简体中文;从采集



片描述信息中



片名、






名,存

用户

定义词典并以

同符

标记。优选的,所述步骤s3包括:根据依存句法结构、词



词性


论观点中观点词与情感词

表达结构来构建多条

论观点提取规则;对



料库中







句、分词、词性标注

依存句法分析,





论语句,查看





否匹配某条

论观点抽取规则,匹配则

取观点词

情感词,将



所有观点词

情感词

别保存


论标签词库与观点情感词库。优选的,所述

依存句法结构包括:

谓结构、动宾结构、定中结构、状中结构、动补结构

并列结构;所述





词性包括:


成分、宾

或形似宾

成分、定



以及

词成分;形似宾

指间接或类似宾


结构;所述

观点词与情感词

表达结构,指:





观点词,宾

或形似宾




情感词;定




情感词,被其修饰


词成


观点词。优选的,所述步骤s4 包括:获取标签类别词典和情感词典;对于所述步骤s3中能
提取

观点词

情感词







关键词匹配打标:将



观点词与标签类别词典


匹配,将



情感词与情感词典


匹配,若两者均能匹配成功,给该



句打

标签类别标记以及情感倾

性标记;否则,


人工标签类别标记与情感倾

性标记;对于所述步骤s3中

提取

观点词

情感词


论语句,


人工标签类别标记与情感倾

性标记。优选的,所述


取标签类别词典,包括:将

论标签词库中含有用户

定义词典中的影片名、导演名、演员名分别标记为“电影”、“导演”、“演员”;通过词向量
模型训练






得训练好



量模型;利用

论标签词库



用训练好



量模型表示,

利用k均值聚类算法将

论标签词库中

词语聚为k个类别;人工归纳筛选将电影评论大众观点分为“导演,摄影,剧情,演员,情
感,视听,题材,观感”8个维度,并对每个类簇





筛选,保留相关

词组成



标签类别词典;利用训练好



量模型





标签类别词典中标签类别词

相关词扩充标签类别词典,去掉词典中重复词,生成



标签类别词典;所述


取情感词典指:先收集开源

正负情感词典


整理合并,然后统计所述观点情感词库中词频,保留

于设定阈值

所有词,然后人工删掉与



论情感无关

词语,形成情感词典。优选的,所述步骤s5包括:利用关键词匹配打标

数据集以及人工打标

数据集,

别训练生成两个




论标签

类模型以及两个



标签情感

类模型;将两个




论标签

类模型加权融合生成




论标签

类模型;将两个



标签情感

类模型加权融合生成



标签情感

类模型。优选的,所述





论标签

类模型或



标签情感

类模型

生成步骤,包括:对关键词匹配打标

数据集以及人工打标

数据集采用

采样策略,


数据平衡;将数据平衡后

关键词匹配打标

数据集以及人工打标

数据集按预设比例划


训练集和测试集;对训练集中语料进行分词,去除停用词,然后采用tf-idf算法提取文本
特征,

计算

特征

卡方值


特征降维;将数据


随机森林

类模型,进行模型训练、保存与评估。优选的,所述步骤s6,包括:抽取观点词和情感
词,若可以获取,则


关键词匹配,包括标签类别匹配

情感词匹配,如果两者都能匹配成功,就直接输

标签类别标记与情感倾

性标记;否则,直接调用

论标签

类模型

/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值t1和t2,若标
签类别预测概率p1大于t1 且标签情感预测概率p2大于t2 ,则输出标签类别标记与情感倾

性标记。本



有益效果是:本









容与情感倾

都较

复杂

文本信息


处理,采用多种方法多种策略相结合

方式对



论数据


情感倾

性分析,能够较

准确



观众对某部


某些方面

情感倾向。附图说

图1








论观点情感倾



析方法

流程图;图2




中关键词匹配打标

流程图;图3






论标签

类模型融合示意图;图4




中标签情感

类模型融合示意图;图5






类模型构建流程示意图;图6






论情感标签

动生成流程图。具体

施方式

面将结合附图对本





步说明。请参阅图1,本






论观点情感倾



析方法,






数据做

论观点提取,


观点

打标

类与情感倾

性分析,即



论标签类别及其情感倾向,同时构建

论观点情感

析模型以

现对新


数据



析归类,贴上类别以及情感标签。包括下列步骤:步骤s1,数据爬取:从影评网站爬取爱
情、动画、动作、科幻、恐怖、喜剧

悬疑类别


多部




片描述信息及






论信息。其中,

片描述信息包括

片名、


名、


名、类型、总


等信息。

片的评论信息包括评论者昵称、评论有用数、评论时间、评论内容和评分等信息。步骤
s2,对

片描述信息


论信息


数据预处理,包括:整合数据,将采集

所有

论信息整合成





料库;数据去重,去除



料库中

重复数据;处理缺失值,删除



料库中



容缺失

数据;中文繁体处理,将



料库中繁体中文全部转化

简体中文;

定义用户词典,从采集



片描述信息中



片名、






名,存

用户

定义词典并以

同符

标记。步骤s3,

论观点抽取:根据现代汉

中依存句法结构、词



词性,

结合



论观点中观点词与情感词表达结构制定多条

适性


论观点提取规则。对



料库中







句、分词、词性标注、依存句法

析等操作,





论语句,然后查看





否匹配某条

论观点抽取规则,满足则

取(观点词,情感词) ,

后将



所有观点词

情感词

别保存


论标签词库与观点情感词库。其中,

论观点抽取规则根据依存句法结构将规则

要分为两类:一是主谓结构(sbv)为核心的规则体系,二是以定中结构(att)为核心

规则体系。提取规则中涉及依存句法关系如表1所示:关系类型tagdescriptionexample

谓结构sbvsubject-verb我送她一束花(我<--送)动宾结构vobverb-object我送她

束花( 送-->花)定中结构attattribute红苹果(红<--苹果) 状中结构advadverbial非常美丽(非
常<--美丽)动补结构cmpcomplement做完了作业( 做-->完) 并列结构coocoordinate

山和大海( 大山-->大海) 表1进一步地,以sbv为核心的规则体系主要分为4大类,如表2
所示:表2从表2中可以看出,以sbv

核心

规则





词性


直接或者间接与宾

或类似宾


结构( 以

将间接或类似宾


结构称作形似宾语)建立关系连接。所抽取









观点词,抽取

形似宾





论观点

情感词。该类规则并非仅仅涉及表2中所列


句式结构,


还要考虑


与形似宾


否存

并列结构,

者因

否定词

响情感

倾向,所以还需要考虑形似宾


否存

副词修饰。例如,对于


“电影和剧情不错”,根据所提出的规则可抽取出两组观点词与情感词对( 电影,不错),(
剧情,不错);“题材丰富新颖”可获取(题材,丰富) 和( 题材,新颖)标签对;“电影不好看”
可提取出( 电影,不好看) 。进一步地,以att为核心的规则体系也分为4类,具体规则见
表3。表3定


用来修饰、限定、说


词或代词

品质与特征的,所以定中关系


论观点抽取规则中

可或缺。从表3中看出,形容词

般用作

论观点

情感词,被其修饰


词或用作



动词作




观点词。同样,该类规则也需要考虑

词成分、形容词

并列结构,还有修饰形容词的副词成分。例如,表3给出的例句“生硬尴尬的表演”中“生
硬”与“尴尬”为并列关系,所以能抽取出(表示,生硬) 和( 表演,尴尬)两组标签对;“表


生动”可抽取出(表演,不生动)。步骤s4,评论标签类别标记和情感倾向性标记,分为关
键词匹配打标

人工打标。其中,关键词匹配打标需要

取标签类别词典

情感词典,然后


关键词匹配,

要流程参见图2,首先

取标签类别词典,包括如

步骤:1)影片专有名词替换。将评论标签词库中含有用户自定义词典中的影片名、导演
名、演员名分别标记为“电影”、“导演”、“演员”,从而实现评论标签词库中的部分词语

归类;即若评论标签词库中存在的“张三”、“李四”等演员名,但由于机器无法判别“张
三”、“李四”


员,所以通过将其与用户

定义词典中演员名列表进行匹配,则可将“张三”、“李四”标记为“演员”;导演名和影片


标记也用相同

方法。2)词

量模型训练。对



料库中







词、去停用词后保存到

个文本中,每条评论语句保存为一行,词与词之间以空格隔开;利用word2vec( 词向量)
模型训练处理好


论内容获得词向量模型;3)词聚类。将评论标签词库中的词语用训练好的词向量模型表
示,再利用k-means(k均值)聚类算法将评论标签词库中的词语聚为k个类别;所述k个类别
需要通过多

试验观察聚类结果确定;4) 归纳

价维度,筛

类别词典。经人工归纳筛

将电影评论大众观点分为“导演,摄影,剧情,演员,情感,视听,题材,观感”8个维度,
并对每个类簇





筛选,保留相关

词组成标签类别词典;5)扩充标签类别词典。利用训练好



量模型

取标签类别词

相关词扩充标签类别词典,去掉词典中重复词,生成



标签类别词典。所述

取标签类别词

相关词

通过词

量模型计算词与词之间相似性,并设定阈值,当相似度

于该阈值,才认定词之间

相关相近的,同时对相关词

结果



人工筛选以确保标签类别词典的准确性。生成的标签类别词典,示例如表4所示:表4其
次,获取情感词典。先收集开源的正负情感词典,主要有知网hownet词典与台湾大学开
源的情感词典,对词典进行整理合并。其中,hownet知网词典中包含正负情感词语和正


价词语,本


只取其中

正负

价词语。然后统计所述观点情感词库中词频,保留

于设定阈值

所有词,然后人工删掉

些与



论情感无关

词语,形成具有


特色

情感词典。最后,


关键词匹配。关键词匹配

对于

论观点抽取中能提取

观点词与情感词


论语句,将其观点词与标签类别词典


匹配,将其情感词与情感词典


匹配,若有两者都能匹配成功,则给该评论语句打上(标签类别,情感倾向性) 标记。例
如,对于“ 故事性不强”评论,评论观点提取后获得( 故事性,不强)标记,经过标签类别与
情感倾

性标记后

得(剧情,负向)标记。人工打标有两种情况:




论观点抽取中

提取

观点词与情感词

句子,



论观点抽取中能提取

观点词与情感词,但

能满足关键词匹配打标

句子,针对这种情况


人工标签类别标记与情感倾

性标记。步骤s5,生成

论观点情感

析模型,其


论标签

类模型

标签情感

类模型组成,两个

类模型除

类别标签


样,整个数据处理与使用

类算法都

相同

流程。

类模型数据集有两类:


关键词匹配打标

数据集,


人工打标

数据集,

别用这两类数据


训练生成2个

论标签

类模型以及2个标签情感

类模型。


提升情感



准确率,将2个

论标签

类模型加权融合生成新


论标签

类模型,将2个标签情感

类模型加权融合生成新

标签情感

类模型,参考图3

图4。本实施例中,关键词打标数据生成的模型与人工打标数据生成的模型权重分别为
0.4与0.6。评论观点情感分析概率计算公式如下:pi=0.4*p1i+0.6*p2i其中,pi表示

论语料库中某评论内容为i类别的概率,p1i、p2i分别表示关键词打标数据生成的模型得


概率值

人工打标数据生成的模型得到的概率值。对于评论标签分类模型,i取值为0-7 分别表示
“导演,摄影,剧情,演员,情感,视听,题材”这8个类别。对于标签情感分类模型,i取值
有0和1,1表示正向情感,0表示负向情感。上述的分类模型的构建过程,参见图5,涉及


步骤:首先,


数据平衡。

类数据

类样本可能

现不均衡的现象,这对分类的整体准确性有很大的影响。本发明采用上采样
(oversampling)策略,即将小数据类别复制多份。其次,进行数据集划分。打乱数据集
按8:2比例划


训练集与测试集。然后,


特征提取。对训练集语料进行分词,去除停用词,然后采用的tf-idf算法(词频-逆文档
频率) 提取文本特征,再计算各特征的卡方值(chi2或χ2) ,通过设置阈值k(k为整数) ,保留
卡方值排列前k个特征

现特征降维。最后,将数据导入随机森林分类模型,进行模型训练、保存与评估。步骤
s6,

论情感标签

动生成。

训练好

论观点情感

析模型后,可


新影评的自动打标,具体的情感预测过程,参考图6。首先做评论观点抽取,抽取( 观点
词,情感词),若可以

取(观点词,情感词) ,则


关键词匹配,包括标签类别匹配

情感词匹配,如果两者都能匹配成功,就直接输

结果。否则,直接调用

论标签

类模型

/或标签情感分类模型进行标签类别预测和标签情感预测,且设定两个阈值(t1 和t2),若
标签类别预测概率p1大于t1且标签情感预测概率p2大于t2,则输出(评论标签类别标记、
情感倾

性标记)。以上实施例仅供说明本发明之用,而非对本发明的限制,有关 1、凡本网注明
“来源:***”的作品,均是转载自其他平台,本网赢家财富网 www.yjcf360.com 转载文章

个人学习、研究或者欣赏传播信息之目的,并

意味着赞同其观点或其





性已得到证实。全部作品仅代表作者本人

观点,

代表本网站赢

财富网

观点、看法及立场,文责作者自负。如因作品内容、版权

其他问题请与本站管理员联系,请在30日
内进行,我们收到通知后会在3个工作日内及时进行处理。

You might also like