You are on page 1of 6

第 49 卷第 1 期 郑 州 大 学 学 报( 理 学 版) Vol. 49 No.

1
2017 年 3 月 J. Zhengzhou Univ. ( Nat. Sci. Ed. ) Mar. 2017

基于增强字向量的微博观点句情感极性分类方法

健 , 王素格 , 李德玉 , 王
1 1,
2 1,
2 1
廖 杰
( 1. 山西大学 计算机与信息技术学院 山西 太原 030006;
2. 山西大学 计算智能与中文信息处理教育部重点实验室 山西 太原 030006)

摘要: 针对微博观点句识别及情感极性分类任务,提出了基于增强字向量的微博观点句情感极性分类方法. 使用单


字作为句子表示的基本单元,同时在单字中嵌入了该字所在的词信息以及该词的词性信息,以此训练得到字向量
替代传统的词向量融合的句子表示方法. 使用基于 K-means 的方法对向量化的句子进行情感判别,仅需要对文本
进行分词和词性标注,无需额外的语言学资源. 在 COAE2015 任务 2 的微博句子数据集上进行测试,取得了较好的
结果.
关键词: 增强字向量; 观点句分类; 深度学习
中图分类号: TP391 文献标志码: A 文章编号: 1671-6841( 2017) 01-0039-06
DOI: 10. 13705 / j. issn. 1671-6841. 2016327

0 引言

以微博为代表的社交网络的兴起使得每一个网民都能自由地表达自身的观点 、态度、情感等主观性信
息. 截至 2015 年 12 月,我国微博用户规模为 2. 04 亿. 分析和监测微博所包含的情感信息,能够了解广大网
民对某产品、人物或者事件的关注程度和情感变化 ,为决策者提供实时科学的理论依据,具有巨大的商业价
值和社会价值,也给自然语言处理( NLP) 带来了新的机遇和挑战.
微博观点句情感分析的主要目的就是从用户发布的微博中识别含有观点的句子 ,并判断其情感极性. 目
前研究主要集中于基于人工特征工程和基于机器学习的方法 . 基于人工特征工程的方法通常采用情感词典
和规则相结合,通过在已有的词典或知识库资源进行一定的扩展生成情感倾向词典 ,或是预先建立一个倾向
性语义规则集,进而实现对文本的情感识别. 例如,文献[1]提出一种整合语言学现象、常识推理的概念层的
情感分析方法. 基于机器学习的方法通常是将情感分析问题看作是一个分类问题 ,标注好的训练集通过机器
学习算法,以情感词、主题相关特征等作为分类特征训练得到分类模型,用于以后的情感分类. 例如,文献
[2]在 Twitter 数据集上实现了基于朴素贝叶斯、支持向量机和条件随机场的情感分类器 ,取得了良好的
效果.
近年来,深度学习成为 NLP 领域最热门的研究之一. 对于句子的表示学习,主要有使用词表示的组合和
[3 - 4]
直接学习句子的分布两种方法. 卷积神经网络( CNN) 是一种有效的对句子进行建模的方法 ,其核心就是
对语言片段中出现的词进行窗口平滑 ,利用平滑后句子向量进行后续的 NLP 相关研究. 文献[5]使用递归循
环神经网络( RNN) 训练句子表示,RNN 剔除了窗口限制,可以充分利用所有上文信息来预测下一个词 . 文献
[6]通过将句子 ID 号作为一个输入单元训练,以学习到的向量作为该句子的表示. 文献[7]使用深度置信
网,从自动标注的语料集中学习句向量作为独立的补充特征 ,可用于微博情绪分类. 针对传统以词为基本单
元的方法在对语言表达建模上存在精度刻画不足的问题 ,文献[8 - 9]在英文字符级粒度上进行语言建模,
这类工作使用字符级的 n-gram,并使用 CNN 学习其特征表示,提高了在语音识别和文本分类上的效果 . 文献
[10]在词向量的基础上,联合学习了汉字向量,并设计了基于位置和基于聚类的字向量学习方法 ,将字向量

收稿日期: 2016-11-24
基金项目: 国家自然科学基金项目( 61632011,61573231, 61432011) ; 山西省科技基础条件平台计划项目( 2015091001-0102) ; 山
61672331,
西省回国留学人员科研项目( 2013-014) .
作者简介: 廖健( 1990—) ,男,湖北鄂州人,博士研究生,主要从事细粒度情感分析研究,E-mail: liaojian_iter@ 163. com; 通讯作者: 王素格
( 1964—) ,女,河北定州人,教授,主要从事自然语言处理研究,E-mail: wsg@ sxu. edu. cn.
40 郑州大学学报( 理学版) 第 49 卷

作为词向量的额外补充信息. 这类方法仍是以词作为主要建模对象 ,字符表示仅仅作为词的补充信息 .


本文提出了基于增强字向量的微博观点句情感极性分类方法 ,使用单字作为句子表示的基本单元 ,同时
在单字中嵌入了该字所在的词信息以及该词的词性信息 ,以此训练得到字向量替代传统的词向量融合的句
子表示方法. 利用给定的样例集信息,使用 K-means 聚类对向量化的句子进行情感判定. 该方法仅需要对文
本进行分词和词性标注,无需额外的语言学资源.

1 基于增强字向量的观点句分类

使用合适的句子表示方法是句子级情感分析的核心 . 传统基于词袋模型或词向量的方法以词为基本单
元进行建模,忽略了更细粒度的字之间含有的语言信息. 本文提出了基于增强字向量 ( enhanced-character
vector,ECV) 的微博观点句情感极性分类方法 .
1. 1 增强字向量训练
[11 - 12]
借助 Google 的 Word2vec 开源词向量工具,选用基于霍夫曼编码的 Skip-gram 神经网络模型 为基础
进行改造,提出了基于 ECV 的训练框架,该框架与 Skip-gram 模型的关系如图 1 所示.

图1 Skip-gram 与 ECV Skip-gram 的关系


Fig. 1 Relationship between Skip-gram and ECV Skip-gram

给定一个词 w i ,Skip-gram 模型首先将其映射成一个连续向量 e i ,使用该映射来预测词 w i 的上下文窗口


内的词语 w i - n ,…,w i - 1 ,w i + 1 ,…,w i + n ,
2n 为窗口大小. 优化目标是最大化如下的对数似然 :
L = ∑ log p( Context( w i ) wi ) = ∑ ∑ log p( u wi ) , ( 1)
w ∈C
i w ∈C u∈Context( w )
i i

其中:
lu

log p( u w i ) = ∑ log p( d uj e w i ,θuj-1 ) , ( 2)


j =2
u u u
式中: d j 表示该词 u 在其路径上第 j 个节点的编码; θj - 1 表示路径上非叶子节点对应的参数向量 ; l 表示从霍
夫曼树的根节点到词 u 的路径长. 在霍夫曼树中,将一个节点分到左侧为负类,分到右侧为正类. 即有

{
T u u
σ( e w θj -1 ) ,d j = 0,
p( d uj e w ,θuj-1 ) = ( 3)
1 - σ( e Tw θuj-1 ) ,d uj = 1 ,
式中: σ 为 Sigmoid 函数. 在 Word2vec 的代码实现中,由输入向量 v( w i ) → e( w i ) 的映射采用的是恒等映射,
即 v( w i ) = e( w i ) ,因此( 2) 式可以等价为
lu

log p( u w i ) = ∑ log p( d uj v( w i ) ,θuj-1 ) . ( 4)


j =2

为使该模型适应以字向量为基本单元的需要 ,文本的输入为三元组 t i =〈c i ,w i ,pos i 〉,映射函数设置为


e( t i ) = concatenate( V c i ,V w i ,V pos i ) . ( 5)
将式( 3) 、( 5) 代入式( 2) 并展开,得
第1 期 廖 健,等: 基于增强字向量的微博观点句情感极性分类方法 41

lu

log p( u t i ) = ∑ log p( d uj e( t i ) ,θuj-1 ) =


j =2

lu
u u
∑ log{ [σ( e( t i ) T θuj-1) ]1 -d ·[1 j
- σ( e( t i ) T u d
θj -1) ] j } =
j =2

lu

∑ {(1 - d uj ) log[σ( e( t i ) T u u
θj -1) ] + d j log[1 - σ( e( t i )
T u
θj -1 ) ]} . ( 6)
j =2

整个模型的对数似然函数为
lu

L = ∑ ∑ ∑{ ( 1 - d uj ) log[σ( e( t i ) T u u
θj -1) ] + d j log[1 - σ( e( t i )
T u
θj -1 ) ]} . ( 7)
w∈C u∈Context( w) j = 2

使用梯度上升法计算该对数似然的优化 ,有
L
u = [1 - d uj - σ( e( t i ) T u
θj -1) ]e( t i ) ;
θj -1
lu
L
= ∑ ∑[1 - d uj - σ( e( t i ) T u u
θj -1) ]θj -1 . ( 8)
e( t i ) u∈Context( t ) j = 2
i

因此,参数更新公式为
u
θj -1 : = θuj-1 + η[1 - d uj - σ( e( t i ) T θuj-1) ]e( t i ) , ( 9)
lu

e( t i ) : = e( t i ) + η ∑ ∑[1 - d uj - σ( e( t i ) T θuj-1) ]θuj-1 . ( 10)


u∈Context( t i) j = 2

因为输入向量三元组 t i 分别由字向量、词向量和词性向量拼接而成,每次迭代完成后,对于得到的上下
文向量 V( u) 也是 t i 的上下文三元组向量. 可以通过将 V( u) 分别与一个对应位置为 1,其余为 0 的 0-1 向量
作内积截取得到 t i 中的字、词、词性向量表示. 而在实际实验中,因为只需使用三元组 t i 拼接后的向量表示
信息,同时也为了加快模型的训练速度 ,在初始对每个三元组单元 t i 随机赋值后,在模型迭代过程中将直接
使用三元组 t i 的向量作为下一次迭代的输入,不再进行拼接与截取操作.
基于 boostrapping 的主题词扩展算法
1. 2
由于微博文本具有开放性,利用给定小规模样例中的对象词作为种子集 ,使用 bootstrapping 算法扩展主
题词集合,以滤除主题无关的句子. 扩展算法( 算法 1) 如下:
Input: 初始种子主题词集 S seed ,全语料词集 S all ;
Output: 扩展主题词集 S wt .
1: Initialize S wt = S seed
2: for each word w i in S all
3: for each word wt j in S wt
4: if w i ∈k-NN( wt j ) and sim( wt j ,w i ) ≥α
5: S wt = S wt ∪{ w i }
6: S all = S all / { w i }
7: end if
8: end for
9: end for
10: repeat steps 2 ~ 9 until S wt no longer change
算法 1 中 k-NN( wt j ) 为与种子词 wt j 最相似的 k 词集合,sim( wt j ,w i ) 表示候选词 w i 与种子词 wt j 之间的
相似度,α 为给定阈值参数. 经过扩展的主题词词典可以有效过滤掉部分主题无关句子,同时可以为观点句
表示提供额外的主题信息.
1. 3 观点句表示
经过 1. 1 训练得到的字向量,需要对其进行组合以表示句子向量 . 同时,为了加强主题词的权重,将主题
词的词向量拼接到句向量中,句子的向量表示为
42 郑州大学学报( 理学版) 第 49 卷

n m
1 1
V c ki , ∑ V wt kj ) ,c ki ∈ { c k } ,wt kj ∈ { wt k } , ( 11)
n∑
V Sk = concatenate(
i =1 m j =1

式中: { c k } 、{ wt k } 分别为句子 S k 中包含的字集和主题词集.


1. 4 基于 K-means 的观点句极性判别算法
使用 K-means 聚类方法判定观点句的情感极性 ,用给定小规模样例中的句子情感标签提供初始的情感
信息,分别以各情感标签下句子向量的均值作为初始聚类中心 . 基于 K-means 的观点句极性判别算法 ( 算法
2) 如下:
Input: 初始样例句子向量集 S sample ,待分类句子向量集 S;
Output: 分类句子集{ L i } Ki= 1 .
1: Initialize cluster center { V C i } Ki= 1 = { AVG( V S sample - i ) } Ki= 1 ,{ L i } Ki= 1 = { S sample - i } Ki= 1
2: for each sentence S i in S
3: if max( sim( V S j ,V C i ) ) ≥β
4: Label( S j ) = argmax( sim( V S j ,V C i ) )
i

5: { L Label( S j) } = { L Label( S j) } ∪{ S j }
6: S = S / { Sj }
7: end if
8: end for
9: update cluster center { V C i } Ki= 1 = { AVG( V Li ) } Ki= 1
10: repeat steps 2 ~ 9 until { L i } Ki= 1 no longer change
算法 2 中 S sample-i 表示样例句子集中类别标签为 i 的句子,AVG(·) 为取向量均值函数,K 为类别标签个
数,β 为待测阈值参数.

2 数据与实验

数据集
2. 1
[13]
使用 COAE2015 任务 2 提供的微博句子语料 进行实验. 该任务是给定较大规模的微博句子集,要求
参赛系统识别其中的观点句并判定观点极性 . 语料规模共计文本 50 000 篇, 133 202 条句子,涉及手机、美
食、汽车、新闻、娱乐等领域.
2. 2 实验与结果分析
根据算法 1 和算法 2 可知,α 和 β 取值越大,则识别出的观点句精确率越高,反之召回率越高. 经过多次
实验综合考虑,将参数设为 α = 0. 5,β = 0. 4. 具体过程如下:
1) 使用 ICTCLAS 对所有句子进行基础分词.
2) 以给定样例中的对象词为种子集 ,使用 Word2vec 学习得到种子集和待测数据中词语的词向量 . 为使
训练的词向量更加精确,在 COAE2015 任务 2 数据集的基础上,额外加入了 COAE2014 任务 3 的 1 000 万条
无标签微博数据,合并进行学习. 得到词语的词向量后,根据 1. 2 节扩展主题词集 S wt .
3) 利用 S wt 对任务数据集进行筛选,得到 63 716 句.
4) 利用 1. 1 节在全部任务数据上使用 Word2vec 学习增强字向量.
5) 利用 1. 3 节得到 3) 中句子的向量表示.
6) 使用 1. 4 节的算法对句子进行情感极性判定 .
本文方法参与了 COAE2015 任务 2 评测,实验结果如表 1 所示. 可以看出,本文方法在限定资源使用的
提交答案中处于中上水平,其中宏平均 F1 值在全部 18 个 run 中排名第 4. 分析结果发现: ① 本文结果中召
回率与最好值差距较大. 原因是本次评测不限制各单位提交的结果数 ,提交结果共计 6 万余条,相对其他单
位提交结果较少,一定程度上使得本文召回率相对较低 . ② 对于混合情感极性的结果相对较差 . 一方面说明
基于字向量方法对于混合情感类的句子相对欠缺 ,另一方面由于给定样例中混合句子比例过少 ( 占全部样
例的 14% ) ,使得初始聚类中心并不准确. ③ 准确率与最好值相比还有一些不足 . 主要是因为本文是以单字
第1 期 廖 健,等: 基于增强字向量的微博观点句情感极性分类方法 43

为基础单元,相比词汇级粒度其多义性问题更加严重 . 在后续的实验中尝试加入了单字所属词的情感极性特
征,然而其分类效果不升反降,是由于在单字组词过程中,其有较高概率同时出现在褒义词和贬义词中 ,使得
加入的情感特征对于单字表示产生了负面影响 ,特别是对混合情感的判定尤为明显 . 此外,在实验中发现,在
全部句子中显示含有限定情感词典中的情感词的句子只有约 1 万句,大部分句子无法通过情感词典获得有
效的情感信息.

表1 实验结果
Tab. 1 The experimental result
褒义 贬义 混合 微平均 宏平均
参评系统
P R F1 P R F1 P R F1 P R F1 P R F1
本文方法 0. 88 0. 60 0. 71 0. 75 0. 44 0. 56 0. 16 0. 46 0. 23 0. 64 0. 54 0. 59 0. 59 0. 50 0. 54
最好值 0. 92 0. 80 0. 85 0. 75 0. 69 0. 72 0. 38 0. 40 0. 39 0. 81 0. 73 0. 77 0. 68 0. 63 0. 65
中位值 0. 83 0. 58 0. 69 0. 71 0. 43 0. 54 0. 12 0. 26 0. 13 0. 61 0. 54 0. 58 0. 56 0. 43 0. 48

3 小结

提出了基于增强字向量的微博观点句情感极性分类方法 ,使用单字作为句子表示的基本单元 ,同时在单


字中嵌入了该字所在的词信息以及该词的词性信息 ,以此训练得到字向量替代传统的词向量融合的句子表
示方法. 利用给定的样例集信息,使用 K-means 聚类对向量化的句子进行情感判定. 在 COAE2015 任务 2 数
据集上的实验结果表明,基于字向量的观点句情感极性分类具有一定的可行性 .
在未来的工作中,针对性地解决单字的多义性问题 ,将归属于不同语义、情感的单字分别学习其表示,而
不仅仅以所属词汇进行区分,以达到更精准的表示效果. 同时,任务数据为开放领域,而本文方法利用了给定
的小规模样例数据集提供初始主题种子和情感信息 ,样例信息的不完备对最终结果有一定影响. 此外,本次
评测数据是以篇章-句子二级粒度的形式,在今后的工作中还需要充分考虑篇章内的上下文信息,进一步完
善对于混合情感句的识别方法.

参考文献:
[1] PORIA S,CAMBRIA E,WINTERSTEIN G,et al. Sentic patterns: dependency-based rules for concept-level sentiment analysis
[J]. Knowledge-based systems,2014,69( 1) : 45 - 63.
[2] PAK A,PAROUBEK P. Twitter as a corpus for sentiment analysis and opinion mining[C]/ / Proceedings of the International
Conference on Language Resources and Evaluation. Stroudsburg,
2010: 1320 - 1326.
[3] BLUNSOM P,GREFENSTETTE E,KALCHBRENNER N. A convolutional neural network for modelling sentences[C]/ / Pro-
ceedings of 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg,
2014: 655 - 665.
[4] KIM Y. Convolutional neural networks for sentence classification[C]/ / Proceedings of the Conference on Empirical Methods in
Natural Language Processing. Stroudsburg,2014: 1746 - 1751.
[5] MIKOLOV T,KARAFIT M,BURGET L,et al. Recurrent neural network based language model[C]/ / Proceedings of 11th
Annual Conference of the International Speech Communication Association. Chiba,2010: 1045 - 1048.
[6] LE Q V,MIKOLOV T. Distributed representations of sentences and documents[C]/ / Proceedings of the 31st International Con-
ference on Machine Learning. New York,2014: 1188 - 1196.
[7] TANG D,QIN B,LIU T,et al. Learning sentence representation for emotion classification on microblogs[C]/ / Proceedings of
Natural Language Processing and Chinese Computing. Berlin,2013: 212 - 223.
[8] SANTOS C N D,ZADROZNY B. Learning character-level representations for part-of-speech tagging[C]/ / Proceedings of the
31st International Conference on Machine Learning. New York,2014: 1818 - 1826.
[9] ZHANG X,ZHAO J,LECUN Y. Character-level convolutional networks for text classification[C]/ / Proceedings of the Ad-
vances in Neural Information Processing Systems. Montreal,
2015: 649 - 657.
[10] CHEN X X,XU L,LIU Z Y,et al. Joint learning of character and word embeddings[C]/ / Proceedings of International Joint
44 郑州大学学报( 理学版) 第 49 卷

Conference on Artificial Intelligence. San Francisco,2015: 1236 - 1242.


[11] MIKOLOV T,CHEN K,CORRADO G,et al. Efficient estimation of word representations in vector space[J]. Computer sci-
ence,
2013: 1 - 12.
[12] MIKOLOV T,SUTSKEVER I,CHEN K,et al. Distributed representations of words and phrases and their compositionality
[C]/ / Proceedings of the Advances in Neural Information Processing Systems. South Lake Tahoe,
2013: 3111 - 3119.
[13] JIAN L,YANG L,SUGE W. The constitution of a fine-grained opinion annotated corpus on Weibo[C]/ /15th China National
Conference on Computational Linguistics. Yantai,2016: 227 - 240.

Sentiment Classification of Weibo Opinion Sentences Based on


Enhanced-character Vector
LIAO Jian1 ,WANG Suge1,2 ,LI Deyu1,2 ,WANG Jie1
( 1. School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China;
2. Key Laboratory of Computational Intelligence and Chinese Information Processing of
Ministry of Education,Shanxi University,Taiyuan 030006,China)

Abstract: A method based on enhanced-character vector was proposed for the identification and classifi-
cation of Weibo opinion sentences. The characters,which embedded the corresponding information of
words and part-of-speech,were used as the basic unit for sentence representation instead of words. Then
a method based on K-means was adopted for sentence polarity classification. The proposed method was
almost free of linguistic resources ( except POS tags) ,and required no elaborated linguistic rules. Experi-
ment on the data of COAE2015 task 2 showed that this method achieved good results.
Key words: enhanced-character vector; opinion sentence classification; deep learning

( 责任编辑: 孔 薇)

( 上接第 38 页)
The Medical Image Segmentation Method of Improved
RSF Active Contour Model
YUAN Chang'an1,2 ,ZHENG Yan1 ,QIN Xiao2 ,ZHOU Kai1 ,ZHAO Qingbei1
( 1. School of Computer and Electronic Information,Guangxi University,Nanning 530004,China;
2. School of Computer and Information Engineering,Guangxi Teachers
Education University,Nanning 530032,China)

Abstract: A modified region-scalable fitting model was put forward against the defects such as being less
divided and the slow convergence of outline during the segmentation of certain medical images by the RSF
model. K-means was employed to process the medical image globally,and then a new kernel function re-
placed the Gaussian function. On the basis of the new kernel function,a new energy function was re-es-
tablished,and the internal energy was introduced into the level set model as a penalty function. Com-
pared with traditional RSF model,the results showed that the accuracy of the improved model increased
by nearly 40% ,and the rate increased by about 30% .
Key words: active contour model; level set method; RSF model; K-means; kernel function
( 责任编辑: 孔 薇)

You might also like