Professional Documents
Culture Documents
研究木
叶光辉李松烨宋孝英
(华中师范大学信息管理学院武汉430079)
摘要:【目的】针对当前城市画像领域数据计算面临的相关文本非结构化、长短不一、主题非单一化等问题,
研究利用机器学习技术,分析获取社交长文本的多标签,为城市画像文本分析和其他相关分析提供新的思
路。【方法】从知乎平台获取有关城市印象的社交文本,对文本进行分句和降噪处理,结合已有的城市画像标
注框架,对部分文本进行人工标注,采用支持向量机分类模型、卷积神经网络模型、朴素贝叶斯模型行训练,
并对三种模型的结果进行对比分析。通过效果最优模型得到所有长文本的全部标签,使用ML.kNN多标注
学习模型进行训练得到多标签社交文本分类模型。【结果】在单标签文本分类模型方面,支持向量机分类模
型整体效果最优,对于短文本标注准确率达0.690 0。使用ML.kNN构建多标签文本分类模型,准确率最高达
到o.810 3,平均汉明损失为0.035 3。【局限】没有充分考虑文本前后关联对主题分类的影响。【结论】基于社
交长文本数据,利用ML.kNN多标签学习算法,构建长文本多标签分类模型,能够有效实现城市画像社交长
文本的多标签识别。
关键词:多标签 城市画像社交文本文本分类ML.kNN
分类号:G350
DOI:1 0.1l 925/infotech.2096.3467.2022.0673
引用本文:叶光辉,李松烨,宋孝英.基于多标签标注学习的城市画像文本分类方法研究[J].数据分析与知
识发现,2023,7(5):60—70.(re Guanghui,Li Songye,Song Xiaoying.Text Classification Method for Urban
Portrait Based on Multi—Label Annotation Learning[J].Data Analysis and Knowledge Discovery,2023,7(5):
60.70.1
1 引 言 大城市都在大力推进城市智能基础设施建设,各类
终端传感设备、网络设备可以及时捕捉和传输各类
据《中国移动互联网发展报告(2021)》,截至
基础民生数据,应对城市突发状况挑战,各级政府机
2020年12月,中国手机网民规模已达9.86亿,较 构也在积极建立数据中控或城市大脑平台,但通过
2020年3月增长8 885万,占整体网民的99.7%。随
从该渠道获取的数据无法直接了解公众对城市的印
着社交媒体技术及平台的飞速发展和广泛应用,社 象。来自社交媒介的城市语料表征了公众对城市的
交平台已经成为网民发布、交流和获取信息的重要 看法、意见等认知,但社交媒介语料本身存在多源多
渠道,活跃用户数量增加、政务类社交媒介工具不断 模态、长短不一、用词不规范等诸多问题,对从公众
向县域下沉,社交平台积累了大量语料,为从公众视 角度计算城市画像带来了挑战。
角发掘城市画像提供了大数据入口。与此同时,各 在传统的分类问题中,每个样本通常只有一个
通讯作者(Corresponding author):叶光辉(YeGuanghui),ORCID:0000-0001—8111-5034,E.maih3879—4081@163.com。
+本文系国家自然科学基金项目(项目编号:71804055)的研究成果之一。
Theworkis supportedbytheNationalNatural ScienceFoundation ofChina(GrantNo.71804055).
_匝 数据分析与知识发现
万方数据
总第77期2023年第5期
类别标签,并且各个类别标签之间相互独立,分类粒 有监督学习方法在文本处理领域可以分为两
度较粗,但是在实际的相关问题中,很多情况下每个 类:单标签和多标签。单标签文本分类方法已经十
样本会与多个标签相关联,越来越多的研究考虑采 分成熟,而多标签文本分类方法则处于起步阶段,该
用相互关联的多标签来表征样本类别特征[1创。同 方法的研究和突破可以解决很多文本分类的问题。
样,在文本分类领域,随着文本主题细粒度计算方法 在一段文本中,尤其是社交媒介中的文本,往往并不
和技术的发展,多标签文本分类受到越来越多的关 只包含一个标签,此时使用单标签分类并不能准确
注,目前多标签文本分类已被广泛应用于标签推 地获得文本的主题。针对多标签文本分类方法,也
荐[3]、信息检索H’和情感分析B1等领域。 有不少学者做过研究。比如郝超等…,对多标签文本
结合团队成员以往研究哺41及观察数据可以发 分类的方法、步骤以及数据集等进行详细的分析和
现:在城市画像领域,公众在平台上发表对一座城市 整理,总结并展望未来的发展趋势。陈胜远[121从文
的印象时,更倾向于讨论一座城市的多个方面,此时 本数据处理的各个步骤,对基于深度学习的多标签
仍使用单标签分类方法进行主题提取显然不够合 文本分类方法进行测试和整理,该方法在百度文库
适。本文借助文本挖掘技术,从社交媒介平台获取 数据集和微博数据集中得到很好的应用。严玲等“3’
公众对城市的印象,提出基于ML.kNN多标注学习 基于江苏省中医院健康体检中心的中医体质数据
的城市画像社交文本分类模型。该模型在已有城市 集,利用ML.kNN算法建立了中医体质辨识模型,该
标注框架的基础之上,综合运用人工标注和机器学 模型能有效实现中医体质辨识智能化。
习相结合的手段,评估现有分类模型的效果,可有效 2.2城市画像
减少城市大数据发展过程中的噪声数据,快速提取 城市画像研究的重点在于从各类信息中刻画出
出社交语料长文本的主题,提升城市画像计算文本 一座城市的客观印象和公众对于城市的主观印象。
的运行效率,进而为城市数据治理手段的升级提供 通过文献调研发现,目前围绕城市画像所开展的研
基础支撑。 究中,主要包括无监督学习文本分类技术、图像识别
技术和社会网络分析技术等,较少有研究使用有监
2研究现状
督学习文本分类方法对城市画像开展研究,并且多
2.1文本分类 停留在提取城市标签和特征的维度。典型研究如
目前,已有的文本分类主要有无监督学习和有 Wong等n41基于TripAdvior旅游网站上2005年至
监督学习两种,有监督学习常应用于新闻分类和邮 2013年的在线评论数据,运用文本分析的方法提取
件分类等,使用该类方法的前提是有可供训练的数 澳门这一时期的城市画像,并运用可视化技术展示
据集。但是在面对全新领域的语料时,无监督学习 其演变过程。Liu等n51利用深度学习技术对城市画
方法往往是首选,隐含狄利克雷分布(Latent 像进行分类,通过印象特征和空间分布的统计分析,
DirichletAllocation,LDA)就是一种无监督学习的主 探索城市间的相关性和差异性,为城市间的相互学
题概率生成模型,常被用来进行文本的主题提取。 习提供参考。毕崇武等¨6 3借鉴潜在语义分析的思
例如,岳铁骐等随3使用LDA模型实现岗位需求的主 想,通过计算不同标签揭示城市画像语义特征的重
题挖掘与分类,并依据分析结果提出制定职业规划、 要程度,筛选出具有较高城市画像解释度的标签集
提高培养计划灵活性等建议。池毛毛等阳3使用LDA 合,生成具有层级结构的城市画像。梁晨晨等…J将
模型对两个酒店预订平台上的评论文本进行比较分 LDA模型用于旅游微博文本分析,在特征维度构建
析,从微观用户评论角度解释两大平台在产品和服 意象的基本框架,并对丽江古城的形象和精细特征
务上的替代性和互补性。叶光辉等[1们则借助LDA 进行刻画。Peng等¨引提出一种新的热门旅游景点发
模型对SciTS会议文本进行主题提取,而后采用BP 现方法,通过结合空间聚类和文本挖掘方法提取热
神经网络和SVR两种经典机器学习算法对新兴主 点,并为北京构建了一个空间嵌入的旅游热点网络。
题未来三年发展趋势进行预测分析。 此外,利用社会数据获取城市画像,并将分析结
_圈数据分析与知识发现
万方数据
总第77期2023年第5期
表1城市画像标注框架4 城市画像多标签文本分类方法实证分析
Table 1 City Portrait Annotation Frame
4.1数据获取
一级二级 三级
文化饮妻芟色特色美食、饮食习惯、食物/口味、特色餐厅、食物价格 众对不同城市的认知,且知乎作为问答社区,用户的
民风 / 回答更具针对性,文本形式也多为长文本,适用于本
特产 / 文所提模型。而其他平台上描述城市的社交文本,
教育 名校、教育水平、科研水平 比如微博等,则相对较少,且多为短评论。
娱乐 旅游资源、娱乐场所、娱乐态度、城市景点
(2)知乎是用户身份认证的公共平台。相比于
人71 人口特征、人口构成、人口素质、人口布局、人口数量
交通 交通设置、司机特点、交通状况
微博等平台,知乎用户发布的帖子更为专业,用户也
,..
经济水平 由此可见,以知乎平台作为文章模型构建的数
物价 据来源是具备可靠性和代表性的。以中国中部重要
城市“武汉”为例,本文以“武汉印象”作为检索词,检
经济
震笑 索出与武汉相关的提问及其回答。虽然知乎提供了
就业
访问接口,但通过直接访问或者爬虫得不到任何结
贫富差距
果,所以本文借助了谷歌浏览器中的开发者工具,其
型进行训练并选取综合准确率最高的方法完成剩余 中的Network板块可以得到网页主要内容数据的
所有短文本的自动标注。 JSON格式。只需要根据官方提供的接口文档寻找
借助之前保留的编号将短文本组合成切割前的 相似的头部,就可以在response中获取到对应的
长文本,同时对应短文本的标签也可以自动归为长 JSON格式数据。由于网页并不是一次性加载完全
文本的多标签,对数据进行编码后使用ML—kNN多 部问题和回答的,所以在开发者工具面板开启的状
标签文本分类模型进行训练得到关于“武汉印象”的 态下需要不断下翻浏览以获取全部的数据,之后再
长文本多标签分类模型。最后使用汉明损失指标对 将每个response中的内容复制到文本文件中方便后
ML.kNN多标签文本分类模型的效果进行评价。本 期进行处理,在这个过程中总计整理出9个文件。
文研究框架如图1所示。 由于JSON格式数据中一般只包含问题和部分
l蔷蒹蛩H器蓁嵩禽盍禳
网络爬虫 l’l印象的问题及答案
羼
蓖市画像单标§
标注模型构建
弋
\/
7 一 整合
『数撖睫
Python清洗数据一 一 去重
jieba/zJ-词
母燃篓
一 去停用词
使用Python将
弋
\/
7 刊长文本根据标点符写
切割为短文本
『文本分割及标注一 多标签标注
使用ML.kNN训练
叫爨摇勰整 城市画像社交媒介多
模型训练 标签语料数据集
图1研究框架
第一个回答,所以还需要编写爬虫程序对JSON格 表2分句后结果展示
Table 2 Result Display After Clause
式数据中每个问题所对应的网址进行模拟访问,进
一步获得所有回答以及回答下的评论,通过这种方
法,抓取检索结果的问题、回答、用户、时间、点赞、回
复等字段并存储下来,总计得到39 238条结果。
4.2数据预处理
由于采集到的数据属于社交媒介数据,所以存
在着长短不一、多模态和多主题的特征。在对这类
语料进行处理时,只匹配单个标签不能准确体现主
题,此时需要进行切割获取对应的短文本来匹配多 IDF值为词频一逆文档频率,词频(Term Frequency,
个标签,首先将数据按照“。”、“!”、“?”等中文分句标 TF)是词语在文本中出现的频率,逆文档频率
点符号对每条数据进行切割,得到切割后的语料数 (Inverse Frequency,IDF)是文档频率的倒
Document
IDF,2
l091玎"
(3)
特征提取的主要作用是使待处理的数据最少
化,同时又不损害其核心信息,从而减小向量空间的 其中,行“是词语r,衙类所有文本中出现的次数,
维数,简化运算,加快处理的速度。 ∑尼”k,/是,类所有文本词语出现的次数总和,Ⅳ是
本文使用经典的TF.IDF值作为文本特征。TF一 数据集中的文本总数,刀.为包含词语f,的文本数n 8I。
_匝数据分析与知识发现
万方数据
总第77期2023年第5期
4.4数据降噪 训练降噪模型对剩余数据进行降噪处理,进一步提
特征提取得到的文本数据并不是都具备描述城 升短文本分类模型的准确率。
市形象特征的功能,甚至由于网络文本多样性的问 在标记完成的数据中,有14 237条数据为噪声
题,许多文本不包含语义信息,这类数据属于噪声数 数据或虚假数据,比例为40.59%,所以对剩余数据
据或虚假数据,在进行模型训练之前需要将这些数 进行降噪处理十分有必要。对数据进行降噪处理可
据清除掉。 以理解为进行二分类操作,由于文本都较短,所以直
为更好地训练模型,由7个人负责标注数据,每 接使用机器学习方法进行该操作。使用前文提到的
人标注5 000条,如果有长句可以继续切割的话,则 三种模型分别对数据进行训练,由于数据降噪不是
需要人工进行分句和标注,最终得到35 077条已标 本文的重点,并且参数的调试对结果影响不大,所以
注的数据。其中有特征描述的数据标记为对应的标 未对调参过程进行阐述。三种模型数据降噪的效果
签,噪声数据或虚假数据则做特殊的标记,方便后期 如表3所示。
表3 三种模型数据降噪效果比较
Table 3 Comparison of Noise Reduction Effect of Three Models
支持向量机分类模型的Accuracy明显优于其余 4.5城市画像描述框架改进
两种模型,所以使用支持向量机分类模型进行数据 使用三种模型对标注好的非噪声数据进行训
表5标签内容转换关系
娱乐 娱乐
包容性 0.000 0 0.000 0 0.000 0 42
地理环境、人口、总体评价、感情、城市地位、居住感
医疗水平 0.000 0 0.000 0 0.000 0 4 整体
受、城市发展、占地面积、吸引力、包容性、城市规划
占地面积 0.000 0 0.000 0 0.000 0 26
文化 历史文化、名人、民风、特产
历史文化 0.523 6 0.547 7 0.535 4 283
服务 政府服务、利民服务、医疗水平、市容市貌、教育
名人 0.333 3 0.133 3 0.190 5 15
气候 气候状况
吸引力 0.230 8 0.375 0 0.285 7 80
污染 污染
地理环境 0.305 9 0.382 4 0.339 9 136
经济 经济水平、物价、房价、收人、就业、贫富差距
城市发展 0.405 9 0.462 2 0.432 2 238
语言 语言特色
城市地位 O.1304 0.133 3 0.131 9 45
饮食 饮食文化
城市规划 0.414 1 O.238 4 0.302 6 172
_圈数据分析与知识发现
万方数据
总第77期2023年第5期
表6卷积神经网络训练结果 表8支持向量机分类模型训练结果
Table 6 Training Results of Convolutional Neural Networks Table 8 Training Results of Support Vector
Classification Model
表7朴素贝叶斯训练结果
Table 7 Training Results ofNaive Bayes 标签对应的F1.Score为0。所以在综合对比后,剩余
数据的标签标注工作将使用支持向量机分类模型
完成。
交通 0.700 5 0.45l 0 O.548 7 302
型的结果中,只有Precision对应的值较高,其他值都 照写作分句标准来划分的,并不是按照逗号或者顿
比较低;卷积神经网络和支持向量机分类模型的 号进行划分,这样在一定程度上可以降低该问题带
Accuracy十分相近,都在0.69左右。但观察该结果 给分类的影响。
中每个小标签的F1.Score值可以发现,卷积神经网 4.7城市画像社交长文本多标签标注模型训练
络模型不如支持向量机分类模型稳定,甚至“污染” 为验证本文得到的长文本多标签语料集可以用
表9不同近邻数下评价指标值 社交文本的不确定性导致模型训练结果普遍不高,
T拍le 9 Evaluation with Different Nearest Neighbors 在标签合并时,大部分标签合并为“整体”,单个标签
样本量提升的同时提升了准确率,但也导致每个标
签的数据量不够均衡,结果存在偏差;本文生成社交
长文本多标签语料集的过程偏机械化,没有充分考
准确率0.810 3 0.803 6 O.796 0 0.792 8 0.791 7…O.779 8
虑文本前后文的关联,使用的是基础的机器学习模
汉明损失0.035 3 O.036 3 0.037 4 0.038 1 0.038 5…0.041 2
型,应用效果并不理想,因此数据处理方法和模型方
a1.Multilabel
签文本分类模型所生成的特征标识集还可为城市画 【3】 Fiirnkranz J,Hiillermeier E,Mencia E L,et
_圈数据分析与知识发现
万方数据
总第77期2023年第5期
Guanghui,Zeng Jieyan,Hu Jinglan,et a1.Analyzing Public Profile Based on Tag Semantic Mining[J].Data Analysis and
166.(Yue Tieqi,Fu Youfei,Xu Jian.An Analysis Framework for the Latent Dirichlet Allocation Model and Dominant Semantic
Job Demands from Job Postings[J].Data Analysis and Dimensions:A Case of the Old Town of Lijiang[J].Progress in
Combined with LDA-SNA and Sentiment Analysis[J].Library Jing,Cheng Mingjie,et a1.Study on the City Image Network
作新兴主题识别及预测[J】情报科学,2022,40(7):126.135.(re 【20】李尔尘.浅谈城市形象识别【J].广东轻工职业技术学院学报,
Guanghui,Wang Cancan,Li Songye.Recognition and Prediction 2007,6(1):77—80.(Li Erchen.Study on the Identity of City Image
of Emerging Topics in Interdisciplinary Scientific Research 【J】.Journal of Guangdong Industry Technical College,2007,6
Sun Yi,et a1.Research Progress of Multi—Label Text Support Vector Machine for Chinese Extremely Short Text[J].
57(10):48・56.) 【22]张航.基于朴素贝叶斯的中文文本分类及Python实现【D].济
on Text Classification Method for Multi.Label Data Based on Implementation【D】.Jinan:Shandong Normal University,2018.)
Deep Learning[D].Chengdu:University of Electronic Science 【23]Kim Y Convolutional Neural Networks for Sentence
on the Identification Model of Traditional Chinese [25]Dai L,zh绷g J,Li C D,et a1.Multi—Label Feature Selection with
Study
Medicine Constitutions Based on ML・kNN Multi-Label Learning Application to TCM State Identification[J].Concurrency and
Medica—World Science and Technology,2020,22(10):3558- [26】Lin W Z,Fang J N,Xiao X,et a1.ILoc—Animal:A Multi—Label
【14】Wong C U I,Qi S S.Tracking the Evolution of a Destination7s Animal Proteins[J].Molecular BioSystems,20 1 3,9(4):634—644.
Dialectics ofNature,2019,41(6):85—91.)
叶光辉:拟定题目及提出思路,提出论文修改意见
【28】李昌兵,赵玲,李晓光,等.基于TF.IDF JJI]权的卷积神经网络文
李松烨:论文框架设计,论文撰写与修改;
本情感分类模型【J】.重庆理工大学学报(自然科学),2021,35
宋孝英:数据处理。
(11):109—1 15.(Li Changbing,Zhao Ling,Li Xiaoguang,et a1.
[30]李济洪.汉语框架语义角色的自动标注技术研究[D】.太原:山
收稿日期:2022.06.30
西大学,20 1 0.(Li Jihong.Research on Techniques of Automatic
收修改稿日期:2022.08.29
Sematic Role Labeling of Chinese FrameNet[D].Taiyuan:Shanxi
Abstract:[Objective]The study uses machine learning technology to analyze and obtain multi—labels for long
social texts,aiming to provide new ideas for urban portrait text analysis and other related studies.It addresses the
problems facing urban data portrait analysis,such as unstructured,different lengths,and non-singular topics in
relevant analysis texts.[Methods】We retrieved social media texts on urban impressions from the Zhihu platfornl
and performed sentence segmentation and noise reduction processing on the texts.Then,we manually annotated
some texts using the existing urban portrait annotation framework.Next,we trained the support vector
performance.We used the optimal model to obtain alllabels for long texts.and utilized the ML—kNN multi.1abel
learning model for training a multi—label social text classification model.[Results]Regarding the single-label text
classification model,the support vector classification model had the best overall performance,with an
accuracy
rate of 0.690 0 for short text labeling.Using ML—kNN to build a multi.1abel text classification model.the highest
accuracy rate reached O.8 1 0 3,and the average Hamming loss was 0.035 3.[Limitations]The impact of textual
context on topic classification needed to be fully considered.[Conclusions]Based on the long social text data on
I函数据分析与知识发现
万方数据