You are on page 1of 11

基于多标签标注学习的城市画像文本分类方法

研究木
叶光辉李松烨宋孝英
(华中师范大学信息管理学院武汉430079)

摘要:【目的】针对当前城市画像领域数据计算面临的相关文本非结构化、长短不一、主题非单一化等问题,
研究利用机器学习技术,分析获取社交长文本的多标签,为城市画像文本分析和其他相关分析提供新的思
路。【方法】从知乎平台获取有关城市印象的社交文本,对文本进行分句和降噪处理,结合已有的城市画像标
注框架,对部分文本进行人工标注,采用支持向量机分类模型、卷积神经网络模型、朴素贝叶斯模型行训练,
并对三种模型的结果进行对比分析。通过效果最优模型得到所有长文本的全部标签,使用ML.kNN多标注
学习模型进行训练得到多标签社交文本分类模型。【结果】在单标签文本分类模型方面,支持向量机分类模
型整体效果最优,对于短文本标注准确率达0.690 0。使用ML.kNN构建多标签文本分类模型,准确率最高达
到o.810 3,平均汉明损失为0.035 3。【局限】没有充分考虑文本前后关联对主题分类的影响。【结论】基于社
交长文本数据,利用ML.kNN多标签学习算法,构建长文本多标签分类模型,能够有效实现城市画像社交长
文本的多标签识别。
关键词:多标签 城市画像社交文本文本分类ML.kNN
分类号:G350
DOI:1 0.1l 925/infotech.2096.3467.2022.0673

引用本文:叶光辉,李松烨,宋孝英.基于多标签标注学习的城市画像文本分类方法研究[J].数据分析与知
识发现,2023,7(5):60—70.(re Guanghui,Li Songye,Song Xiaoying.Text Classification Method for Urban
Portrait Based on Multi—Label Annotation Learning[J].Data Analysis and Knowledge Discovery,2023,7(5):
60.70.1

1 引 言 大城市都在大力推进城市智能基础设施建设,各类
终端传感设备、网络设备可以及时捕捉和传输各类
据《中国移动互联网发展报告(2021)》,截至
基础民生数据,应对城市突发状况挑战,各级政府机
2020年12月,中国手机网民规模已达9.86亿,较 构也在积极建立数据中控或城市大脑平台,但通过
2020年3月增长8 885万,占整体网民的99.7%。随
从该渠道获取的数据无法直接了解公众对城市的印
着社交媒体技术及平台的飞速发展和广泛应用,社 象。来自社交媒介的城市语料表征了公众对城市的
交平台已经成为网民发布、交流和获取信息的重要 看法、意见等认知,但社交媒介语料本身存在多源多
渠道,活跃用户数量增加、政务类社交媒介工具不断 模态、长短不一、用词不规范等诸多问题,对从公众
向县域下沉,社交平台积累了大量语料,为从公众视 角度计算城市画像带来了挑战。
角发掘城市画像提供了大数据入口。与此同时,各 在传统的分类问题中,每个样本通常只有一个

通讯作者(Corresponding author):叶光辉(YeGuanghui),ORCID:0000-0001—8111-5034,E.maih3879—4081@163.com。
+本文系国家自然科学基金项目(项目编号:71804055)的研究成果之一。
Theworkis supportedbytheNationalNatural ScienceFoundation ofChina(GrantNo.71804055).

_匝 数据分析与知识发现

万方数据
总第77期2023年第5期

类别标签,并且各个类别标签之间相互独立,分类粒 有监督学习方法在文本处理领域可以分为两
度较粗,但是在实际的相关问题中,很多情况下每个 类:单标签和多标签。单标签文本分类方法已经十
样本会与多个标签相关联,越来越多的研究考虑采 分成熟,而多标签文本分类方法则处于起步阶段,该
用相互关联的多标签来表征样本类别特征[1创。同 方法的研究和突破可以解决很多文本分类的问题。
样,在文本分类领域,随着文本主题细粒度计算方法 在一段文本中,尤其是社交媒介中的文本,往往并不
和技术的发展,多标签文本分类受到越来越多的关 只包含一个标签,此时使用单标签分类并不能准确
注,目前多标签文本分类已被广泛应用于标签推 地获得文本的主题。针对多标签文本分类方法,也
荐[3]、信息检索H’和情感分析B1等领域。 有不少学者做过研究。比如郝超等…,对多标签文本
结合团队成员以往研究哺41及观察数据可以发 分类的方法、步骤以及数据集等进行详细的分析和
现:在城市画像领域,公众在平台上发表对一座城市 整理,总结并展望未来的发展趋势。陈胜远[121从文
的印象时,更倾向于讨论一座城市的多个方面,此时 本数据处理的各个步骤,对基于深度学习的多标签
仍使用单标签分类方法进行主题提取显然不够合 文本分类方法进行测试和整理,该方法在百度文库
适。本文借助文本挖掘技术,从社交媒介平台获取 数据集和微博数据集中得到很好的应用。严玲等“3’
公众对城市的印象,提出基于ML.kNN多标注学习 基于江苏省中医院健康体检中心的中医体质数据
的城市画像社交文本分类模型。该模型在已有城市 集,利用ML.kNN算法建立了中医体质辨识模型,该
标注框架的基础之上,综合运用人工标注和机器学 模型能有效实现中医体质辨识智能化。
习相结合的手段,评估现有分类模型的效果,可有效 2.2城市画像
减少城市大数据发展过程中的噪声数据,快速提取 城市画像研究的重点在于从各类信息中刻画出
出社交语料长文本的主题,提升城市画像计算文本 一座城市的客观印象和公众对于城市的主观印象。
的运行效率,进而为城市数据治理手段的升级提供 通过文献调研发现,目前围绕城市画像所开展的研
基础支撑。 究中,主要包括无监督学习文本分类技术、图像识别
技术和社会网络分析技术等,较少有研究使用有监
2研究现状
督学习文本分类方法对城市画像开展研究,并且多
2.1文本分类 停留在提取城市标签和特征的维度。典型研究如
目前,已有的文本分类主要有无监督学习和有 Wong等n41基于TripAdvior旅游网站上2005年至
监督学习两种,有监督学习常应用于新闻分类和邮 2013年的在线评论数据,运用文本分析的方法提取
件分类等,使用该类方法的前提是有可供训练的数 澳门这一时期的城市画像,并运用可视化技术展示
据集。但是在面对全新领域的语料时,无监督学习 其演变过程。Liu等n51利用深度学习技术对城市画
方法往往是首选,隐含狄利克雷分布(Latent 像进行分类,通过印象特征和空间分布的统计分析,
DirichletAllocation,LDA)就是一种无监督学习的主 探索城市间的相关性和差异性,为城市间的相互学
题概率生成模型,常被用来进行文本的主题提取。 习提供参考。毕崇武等¨6 3借鉴潜在语义分析的思
例如,岳铁骐等随3使用LDA模型实现岗位需求的主 想,通过计算不同标签揭示城市画像语义特征的重
题挖掘与分类,并依据分析结果提出制定职业规划、 要程度,筛选出具有较高城市画像解释度的标签集
提高培养计划灵活性等建议。池毛毛等阳3使用LDA 合,生成具有层级结构的城市画像。梁晨晨等…J将
模型对两个酒店预订平台上的评论文本进行比较分 LDA模型用于旅游微博文本分析,在特征维度构建
析,从微观用户评论角度解释两大平台在产品和服 意象的基本框架,并对丽江古城的形象和精细特征
务上的替代性和互补性。叶光辉等[1们则借助LDA 进行刻画。Peng等¨引提出一种新的热门旅游景点发
模型对SciTS会议文本进行主题提取,而后采用BP 现方法,通过结合空间聚类和文本挖掘方法提取热
神经网络和SVR两种经典机器学习算法对新兴主 点,并为北京构建了一个空间嵌入的旅游热点网络。
题未来三年发展趋势进行预测分析。 此外,利用社会数据获取城市画像,并将分析结

Data Analysis and Kn。wledge DiscoVery皿


万方数据
果应用到城市规划和管理中也得到了一些学者的重 3.2城市文本信息分类标注框架
视。例如,李纲等¨刚利用意见挖掘和循序渐进的模 本文借鉴课题组成员毕崇武等n61提出的具有层
型设计开发了一个城市画像网络监测系统,通过评 级结构的城市画像描述框架,认为某座城市的城市
论挖掘和情感分析发现公众情绪的演变趋势。李尔 画像应该从多个维度(分面和亚面)揭示,某个具体
尘乜0]基于城市画像系统(CIS)和传播理论,对旅游城 维度(分面或亚面)应该由多个处于同级平行结构的
市画像进行识别和分析,通过对城市文化的探索,寻 社会化标签描述;同时,城市画像描述框架应该支持
找城市特有的品牌形象,对提升城市软实力具有重 将某个维度划分为多个更细粒度的维度,例如,将某
要意义。 个分面划分为多个亚面。该研究利用网络爬虫技术
综上,网络时代的城市画像研究与大数据分析、 获取知乎平台中描述中国中部6省省会城市(长沙、
信息组织与融合、交互设计等方法存在密切的联系, 合肥、南昌、太原、武汉、郑州)主要特征的用户问答
其目的是在公共认知角度下获取城市特征。但需要 内容,涉及经济、政治、环境、人文等多个维度。
注意的是,目前这些研究主要以时空数据或者在线 依据制订好的规则对原始数据进行清洗,通过
评论等短文本数据为主,对社交媒体中描述城市画 词汇标准化处理和过滤得到规范化标签,并以此作
像的长文本多标签分类研究还不够深入;而文本分 为实证部分的基础数据,利用空间向量之间的余弦
类技术也主要以单标签和无监督技术为主,关于多 相似度衡量社会化标签之间的相似度,使用SPSS和
标签分类的研究仍不成熟;城市画像的文本分类研 Ward算法、层次聚类标签(或标签集合),生成具有
究多停留在特征提取和意象刻画方面,不能借助文 “分面亚面”结构的城市画像标注框架,如表1所示。
本进行深入细致的分析。因此,充分发挥文本挖掘 通过该方法得到的城市画像标注框架可以涵盖
在网络资源组织中的优势,将单标签文本分类方法 一座城市的整体特征,并且可以深入到层级结构内
与多标签文本分类方法相结合,并将其融入城市画 部展开细粒度的城市画像描述。课题组成员n引也在
像文本分类研究中,不仅可以对现有研究形成有力 该标签框架的基础上提取出反映公众认知的城市
补充,也可以在城市画像文本分类领域实现突破,为 画像。
城市画像其他维度的研究提供理论和实践支持。 3.3城市画像多标签文本分类模型构建思路
使用网络爬虫技术获取知乎上“武汉印象”检索
3城市画像多标签文本分类体系构建
词下的所有答案作为实验数据,并对数据进行文本
在社交网络盛行的当下,每天都会产生数以亿 预处理操作,首先是长文本切割,然后通过人工对部
计的文本数据。这些文本数据是用户在特定情境、 分经过切割处理后的短文本完成标注,作为训练数
特定心情和特定背景下发表的对某件事物的认知和 据集,再对这些短文本进行分词和去除停用词处理。
态度。很明显,公众对某座城市的整体印象也可以 选择3.1节中三种分类模型对完成以上操作的
通过文本的社会化标签展现出来。而针对社交媒介 文本进行初步处理,主要是进行降噪和模型的初步
中的长文本,从中只提取出单一标签不能全面展现 训练;在降噪过程中,由于在标注时要求对噪声数据
公众对一座城市多方面的印象,因此如何提取出一 进行区分,所以直接使用三种模型进行降噪训练,找
段长文本的多个标签显得尤为重要。 到降噪效果最优的模型完成所有数据的降噪,方便
3.1相关方法及概念 后续使用短文本分类模型完成标签标注。
本文用到的短文本单标签分类模型有支持向量 同时,使用三种模型对非噪声数据进行短文本
机(Support Vector Machine,SVM)模型[2“、朴素贝叶 单标签分类模型的初步训练,根据首次训练的结果,
斯模型陉2]和卷积神经网络(Convolutional Neutral 对标签框架进行改进,使其更适用于本文所提方法,
Network,CNN)模型陉列;用到的多标签文本分类方法 提高标注的准确率,减少过细的标签精度对文本自
为ML.kNN,对应的评价指标为汉明损失(Hamming 动标注的影响。使用改进的标签借助Python完成之
Loss.HLoss)[24-26]。 前标注结果的更新,继续使用短文本单标签分类模

_圈数据分析与知识发现

万方数据
总第77期2023年第5期

表1城市画像标注框架4 城市画像多标签文本分类方法实证分析
Table 1 City Portrait Annotation Frame
4.1数据获取
一级二级 三级

气候状况 气候变化、季节时长、天气温度、天气湿度 在实证分析方面,本文利用知乎平台获取用户


生态污染状况 空气质量、水质 关于中国各大城市评价的文字描述。
地理环境 地理位置、自然风光、自然灾害、自然资源 选择知乎平台作为城市画像社交文本的数据来
历史文化 历史地位、文化底蕴、名胜古迹、文化产业
源,主要基于以下考虑:
语言特色 方言特色、普通话特色
(1)知乎上有各种各样的相关话题可以反映公

文化饮妻芟色特色美食、饮食习惯、食物/口味、特色餐厅、食物价格 众对不同城市的认知,且知乎作为问答社区,用户的
民风 / 回答更具针对性,文本形式也多为长文本,适用于本
特产 / 文所提模型。而其他平台上描述城市的社交文本,
教育 名校、教育水平、科研水平 比如微博等,则相对较少,且多为短评论。
娱乐 旅游资源、娱乐场所、娱乐态度、城市景点
(2)知乎是用户身份认证的公共平台。相比于
人71 人口特征、人口构成、人口素质、人口布局、人口数量
交通 交通设置、司机特点、交通状况
微博等平台,知乎用户发布的帖子更为专业,用户也
,..

…居住感受 生活节奏、宜居程度、生活气息、幸福指数 会不断更新问题的答案,这也可以为模型后续扩展


利民服务 / 用于其他研究如情感分析等提供及时数据。
医疗水平 /
(3)已有研究表明,相比于微博平台,知乎网友
市容市貌 /
采用引证(科学数据、材料、法律法规)、案例和讲故
城市发展 发展速度、发展状况、发展前景
事的比例高于微博网友,而微博网友夸张修辞、图片
城市规划 绿地规划、街道布局、景区规划、商圈规划
吸引力 /
修辞的比例更高陋川。所以知乎答复者更加理性,有
感情 助于更客观全面地了解事件产生和发展的过程。
整体总体评价 (4)本文所使用的标签框架来源的作者n61也是
政府服务 /
使用知乎平台作为数据来源,基于评论数据,提取出
城市地位
我国中部6省省会城市的结构化城市画像,获得多
占地面积
个维度下公众对各城市整体状况的共同感知。
包容性 /

经济水平 由此可见,以知乎平台作为文章模型构建的数
物价 据来源是具备可靠性和代表性的。以中国中部重要
城市“武汉”为例,本文以“武汉印象”作为检索词,检
经济
震笑 索出与武汉相关的提问及其回答。虽然知乎提供了
就业
访问接口,但通过直接访问或者爬虫得不到任何结
贫富差距
果,所以本文借助了谷歌浏览器中的开发者工具,其
型进行训练并选取综合准确率最高的方法完成剩余 中的Network板块可以得到网页主要内容数据的

所有短文本的自动标注。 JSON格式。只需要根据官方提供的接口文档寻找
借助之前保留的编号将短文本组合成切割前的 相似的头部,就可以在response中获取到对应的

长文本,同时对应短文本的标签也可以自动归为长 JSON格式数据。由于网页并不是一次性加载完全
文本的多标签,对数据进行编码后使用ML—kNN多 部问题和回答的,所以在开发者工具面板开启的状
标签文本分类模型进行训练得到关于“武汉印象”的 态下需要不断下翻浏览以获取全部的数据,之后再
长文本多标签分类模型。最后使用汉明损失指标对 将每个response中的内容复制到文本文件中方便后
ML.kNN多标签文本分类模型的效果进行评价。本 期进行处理,在这个过程中总计整理出9个文件。
文研究框架如图1所示。 由于JSON格式数据中一般只包含问题和部分

Data Analysisand Kn。wledge Disc。very皿


万方数据
数据处理 模型训练

l蔷蒹蛩H器蓁嵩禽盍禳
网络爬虫 l’l印象的问题及答案

蓖市画像单标§
标注模型构建

\/
7 一 整合
『数撖睫
Python清洗数据一 一 去重
jieba/zJ-词

母燃篓
一 去停用词

使用Python将

\/
7 刊长文本根据标点符写
切割为短文本

『文本分割及标注一 多标签标注
使用ML.kNN训练

叫爨摇勰整 城市画像社交媒介多
模型训练 标签语料数据集

图1研究框架

Fig.1 Research Framework

第一个回答,所以还需要编写爬虫程序对JSON格 表2分句后结果展示
Table 2 Result Display After Clause
式数据中每个问题所对应的网址进行模拟访问,进
一步获得所有回答以及回答下的评论,通过这种方
法,抓取检索结果的问题、回答、用户、时间、点赞、回
复等字段并存储下来,总计得到39 238条结果。
4.2数据预处理
由于采集到的数据属于社交媒介数据,所以存
在着长短不一、多模态和多主题的特征。在对这类
语料进行处理时,只匹配单个标签不能准确体现主
题,此时需要进行切割获取对应的短文本来匹配多 IDF值为词频一逆文档频率,词频(Term Frequency,
个标签,首先将数据按照“。”、“!”、“?”等中文分句标 TF)是词语在文本中出现的频率,逆文档频率
点符号对每条数据进行切割,得到切割后的语料数 (Inverse Frequency,IDF)是文档频率的倒
Document

据量为300 054条。 数。计算方法如公式(1)一公式(3)所示。


切割后语料的内容示例如表2所示,其中原索 TF—IDF¨2珥,,×IDF, (1)
引代表的是切割前文本的索引,方便后期将短文本
Q)
语料与标签整合到一起。 TFi√2页若
4.3特征提取 ^,

IDF,2
l091玎"
(3)
特征提取的主要作用是使待处理的数据最少
化,同时又不损害其核心信息,从而减小向量空间的 其中,行“是词语r,衙类所有文本中出现的次数,
维数,简化运算,加快处理的速度。 ∑尼”k,/是,类所有文本词语出现的次数总和,Ⅳ是
本文使用经典的TF.IDF值作为文本特征。TF一 数据集中的文本总数,刀.为包含词语f,的文本数n 8I。

_匝数据分析与知识发现

万方数据
总第77期2023年第5期

4.4数据降噪 训练降噪模型对剩余数据进行降噪处理,进一步提
特征提取得到的文本数据并不是都具备描述城 升短文本分类模型的准确率。
市形象特征的功能,甚至由于网络文本多样性的问 在标记完成的数据中,有14 237条数据为噪声
题,许多文本不包含语义信息,这类数据属于噪声数 数据或虚假数据,比例为40.59%,所以对剩余数据
据或虚假数据,在进行模型训练之前需要将这些数 进行降噪处理十分有必要。对数据进行降噪处理可
据清除掉。 以理解为进行二分类操作,由于文本都较短,所以直
为更好地训练模型,由7个人负责标注数据,每 接使用机器学习方法进行该操作。使用前文提到的
人标注5 000条,如果有长句可以继续切割的话,则 三种模型分别对数据进行训练,由于数据降噪不是
需要人工进行分句和标注,最终得到35 077条已标 本文的重点,并且参数的调试对结果影响不大,所以
注的数据。其中有特征描述的数据标记为对应的标 未对调参过程进行阐述。三种模型数据降噪的效果
签,噪声数据或虚假数据则做特殊的标记,方便后期 如表3所示。
表3 三种模型数据降噪效果比较
Table 3 Comparison of Noise Reduction Effect of Three Models

支持向量机分类模型的Accuracy明显优于其余 4.5城市画像描述框架改进
两种模型,所以使用支持向量机分类模型进行数据 使用三种模型对标注好的非噪声数据进行训

降噪。对所有数据完成降噪操作后,噪声数据或虚 练,最高的Accuracy仅有0.515 0,是支持向量机分

假数据的数据量为128 102,比例为42.69%,与人工 类模型的结果,而朴素贝叶斯和卷积神经网络模型

标注的结果基本一致,并且从降噪的结果中可以看 的Accuracy分别只有0.450 0和0.488 7,结果很不理


想,需要对标签体系进行调整并重新训练。
出,切割后的数据中噪声数据或虚假数据的占比较
以卷积神经网络模型的训练结果为例,通过具
大,对于数据质量和模型训练准确度的影响也十分
体查看每个标签对应的F1.Score和Support,可以发
大;所以本文使用非噪声数据训练短文本标签分类
现很多标签的F1.Score为0,对应的Support也较少,
模型,数据质量得到提升,模型的准确率也将得到提
如表4fiJi:示。
升,同时本文的主题是训练长文本的多标签文本分 在标注的二级标签中,做到了全部覆盖,只是有
类模型,短文本及对应标签合并后也会削弱噪声数 些标签的数据量过少,比如贫富差距、特产和名人
据或虚假数据的影响,因为文本数据在切割后难免 等,这类标签作为城市画像的社交话题也比较冷门。
会产生无用数据和不存在主题的数据,这一点在后 由此可见,本文从知乎平台上所获取的数据可以全
文数据合并后会有所体现。 方面地展现出一座城市的情况。

Data Analysisand Knowledge Disc。very固


万方数据
表4神经网络模型训练结果 转换完成后的标签体系及标签之间的转换关系如表
Table 4 Training Results ofNeural Network Model 5所示。

表5标签内容转换关系

Table 5 Transformation Relationship of Label Content


交通 0.638 0 0.647 3 0.642 6 275
转换盾 转换前
人口 0.438 6 0.625 0 0.515 5 400
交通 交通
利民服务 0.000 0 0.000 0 0.000 0 25

娱乐 娱乐
包容性 0.000 0 0.000 0 0.000 0 42
地理环境、人口、总体评价、感情、城市地位、居住感
医疗水平 0.000 0 0.000 0 0.000 0 4 整体
受、城市发展、占地面积、吸引力、包容性、城市规划
占地面积 0.000 0 0.000 0 0.000 0 26
文化 历史文化、名人、民风、特产
历史文化 0.523 6 0.547 7 0.535 4 283
服务 政府服务、利民服务、医疗水平、市容市貌、教育
名人 0.333 3 0.133 3 0.190 5 15
气候 气候状况
吸引力 0.230 8 0.375 0 0.285 7 80
污染 污染
地理环境 0.305 9 0.382 4 0.339 9 136
经济 经济水平、物价、房价、收人、就业、贫富差距
城市发展 0.405 9 0.462 2 0.432 2 238
语言 语言特色
城市地位 O.1304 0.133 3 0.131 9 45
饮食 饮食文化
城市规划 0.414 1 O.238 4 0.302 6 172

娱乐 0.572 8 0.570 0 0.57l 4 414


4.6单标签分类模型选择和文本数据处理
就业 0.419 4 0.382 4 0.400 0 102

居住感受 O.143 7 O.178 3 O.159 2 129 (1)模型训练


市容市貌 0.235 3 0.148 1 0.18l 8 81 使用字典将原来的标签更换为改进后的标签,
总体评价 0.276 7 0.239 1 0.256 6 184 继续使用上述三种模型进行训练。
感情 403
0.455 8 0.473 9 0.464 7
①卷积神经网络模型
房价 0.57l 4 0.655 7 O.610 7 61
由于CNN模型需要收集文本前后文的信息,不
收入 0.694 9 0.630 8 0.66l 3 130
能对TF.IDF特征进行处理,所以使用切割后的文本
政府服务 0.777 8 0.140 0 0.237 3 50

教育 O.571 4 O.591 5 O.581 3 142


作为特征训练CNN模型,其余模型均使用TF.IDF
民风 0,111 l O.013 7 0.024 4 73 特征。
气侯状况 0.705 4 0.705 4 0.705 4 129 使用Kashgari包中的神经网络进行此次训练,
污染状况 O.714 3 0.434 8 0.540 5 23
主要对epochs和batch sizes两个参数进行调试,经
物价 0.464 3 0.288 9 0.356 2 45
过多次测试,在epochs为5、batch sizes为256时准确
特产 0.000 0 0.000 0 0.000 0 5
率较高。由于卷积神经网络在训练阶段每个模拟都
经济水平 0.615 4 0.235 3 0.340 4 34
有不同的起点,导致最终的结果并不相同,但
语言特色 0.577 8 0.619 0 0.597 7 84

贫富差距 0.000 0 0.000 0 0.000 0 2 Accuracy基本都在68%左右,其中一次训练的结果


饮食特色 0.736 8 0.833 3 0.782 l 336 如表6所示。
②朴素贝叶斯模型
本文使用的朴素贝叶斯模型是多项式分布贝叶
斯(MultinomialNB),在调试过程中主要对alpha参
数进行了调整。但该模型的准确率相对另外两种模
观察F1-Score和对应的Support可以发现:标注
型始终较低,以alpha=0.04为例,训练结果如表7
体系的颗粒度与模型训练的Accuracy有直接关系, 所示。
所以本文以此次训练结果的数据作为参考,对标签 ③支持向量机分类模型
体系进行改善,对准确率低的标签和数据量少的标 对于支持向量机分类模型,有三个重要的参数
签均进行向上合并的操作,提升模型训练的准确率。 需要进行调整,使用网格搜索寻找最优参数,得到的

_圈数据分析与知识发现

万方数据
总第77期2023年第5期

表6卷积神经网络训练结果 表8支持向量机分类模型训练结果
Table 6 Training Results of Convolutional Neural Networks Table 8 Training Results of Support Vector

Classification Model

交通 O.635 8 0.658 9 O.647 2 302

娱乐 O.616 3 O.502 5 O.553 6 406 交通 0.66l 9 O.615 9 0.638 1 302

整体 0.720 9 0.791 5 0.754 6 1 880 娱乐 0.617 5 0.556 7 0.585 5 406

文化 0.45l 0 0.443 l 0.447 l 343 整体 0.670 7 0.847 3 0.748 8 1 880

服务 0.590 9 O.487 5 O.534 2 240 文化 0.607 6 0.419 8 0.496 6 343

气候 O.771 9 0.721 3 O.745 8 122 服务 0.71l 1 0.400 0 O.512 0 240

污染 0.000 0 O.000 0 0.000 0 19 气候 0.808 l 0.655 7 0.724 0 122

经济 0.760 1 0.688 5 0.722 5 382 污染 0.909 1 0.526 3 0.666 7 19

语言 0.644 1 O.387 8 0.484 1 98 经济 0.809 2 0.644 0 O.717 2 382

饮食 O.756 2 0.8】6 5 0.785 2 376 语言 0.756 8 0.285 7 0.414 8 98

饮食 0.826 6 0.710 1 0.763 9 376

表7朴素贝叶斯训练结果
Table 7 Training Results ofNaive Bayes 标签对应的F1.Score为0。所以在综合对比后,剩余
数据的标签标注工作将使用支持向量机分类模型
完成。
交通 0.700 5 0.45l 0 O.548 7 302

娱乐 0.602 8 O.626 2 O.614 3 406


对于该标注模型而言,其标注准确率也并不亚
整体 O.63l 4 0.854 7 0.726 3 1 880 于同类型标注模型的标注效果,例如刘炜等¨"设计
文化 O.684 6 0.409 4 O.512 4 343 的面向突发事件的文本语料自动标注框架,其在各
服务 O.324 2 240
0.7100 O.445 1 个主题下的准确率在57%~94%之间;李济洪73叫设计
气候 0.887 1 0.486 7 0.628 6 122
的汉语语义角色自动标注框架,其准确率、召回率、
污染 0.000 0 0.000 0 0.000 0 19
F1值分别为74.16%、52.70%和61.62%。
经济 0.715 3 O.54l 4 0.616 4 382

语言 0.650 0 0.152 9 0.247 6 98


(2)文本及标签合并
饮食 0.866 7 O.695 8 0.771 9 376 本文的目的是得到长文本的多标签标注模型,
想要实现该步骤,需要先获得长文本多标签分类模
型的语料数据集。前文已经得到了短文本标注模
型,使用该模型对所有非噪声数据完成标注,再按照
原索引将短文本数据和标签进行合并与去重即可得
结果为核函数kernel为RBF,惩罚系数C取值1 000,
到长文本数据和对应的多个标签。这样做的弊端在
核函数系数gamma取值0.001,此时模型的训练结果
如表8所示。 于忽略了文本前后的关联关系,在标签判别上会出
对比表6一表8的结果可以发现,朴素贝叶斯模 现误差。但本文在对长文本进行分句处理时,是按

型的结果中,只有Precision对应的值较高,其他值都 照写作分句标准来划分的,并不是按照逗号或者顿
比较低;卷积神经网络和支持向量机分类模型的 号进行划分,这样在一定程度上可以降低该问题带
Accuracy十分相近,都在0.69左右。但观察该结果 给分类的影响。

中每个小标签的F1.Score值可以发现,卷积神经网 4.7城市画像社交长文本多标签标注模型训练
络模型不如支持向量机分类模型稳定,甚至“污染” 为验证本文得到的长文本多标签语料集可以用

Data AnalysiS and Kn。wledge Discovcry囫


万方数据
于多标签标注模型的训练,选用ML.kNN模型对语 众的情感倾向,这些判定将为社会治理模式设计、城
料数据集进行训练。 市公共政策有效性评估等管理事务提供测量尺度。
将39 238条数据全部标注完毕,但其中依然有
5结语
不包含任何标签的语料,这类数据属于长文本数据
中的噪声数据或虚假数据,将其删除后,总共得到 本文以武汉的城市社交媒介数据为例,训练得
32 894条数据,占之前总数据量的83.83%,证实了前 到的模型不仅可以对描述武汉的短文本实现精确的
文所提到的在数据合并后会削弱切割后短文本中噪 标注,也可以完成长文本的多标签标注。实验结果
声数据或虚假数据的影响。由此可见,从知乎平台 表明,经过一系列文本数据处理后,本文模型对长文
上获取的长文本数据的质量是可靠的。为方便训 本多标签预测有较高的准确度,最高可以达到
练,数据的标签被修改为O.1编码格式,即在对应的 0.810 3。同时本文也对大数据时代下模型的应用进
标签下,如果该数据存在该标签,则标注为1,否则为 行了探讨。
0。完成该操作后,将数据输人ML.kNN多标签训练 本文研究对城市画像文本有监督学习进行了初
模型中进行训练,设定参数尼在1~20之间循环,结果 步的探索,但仍有许多不足之处,如:人工标注数据
如表9所示。 会存在误差,并且过高的颗粒度也给标注带来困难,

表9不同近邻数下评价指标值 社交文本的不确定性导致模型训练结果普遍不高,
T拍le 9 Evaluation with Different Nearest Neighbors 在标签合并时,大部分标签合并为“整体”,单个标签
样本量提升的同时提升了准确率,但也导致每个标
签的数据量不够均衡,结果存在偏差;本文生成社交
长文本多标签语料集的过程偏机械化,没有充分考
准确率0.810 3 0.803 6 O.796 0 0.792 8 0.791 7…O.779 8
虑文本前后文的关联,使用的是基础的机器学习模
汉明损失0.035 3 O.036 3 0.037 4 0.038 1 0.038 5…0.041 2

型,应用效果并不理想,因此数据处理方法和模型方

在k=1时,准确率最高,为O.810 3,汉明损失最 面还需要进一步探索,争取可以在城市画像文本分

低,为0.035 3。该结果可以证明本文得到的多标签 类领域实现新的突破。


语料集可以用于社交长文本的主题识别,并具有较
高准确率。
[1】 M R,Luo J B,Shen X P,et a1.Learning Multi—Label
4.8模型应用讨论 Boutell

Scene Classmcation[J】Pattern Recognition,2004,37(9):1 757-


本文得到的基于ML.kNN的多标签文本分类模
1771.
型准确率最高可达0.810 3,在一定程度上可以保证
[2】 Bogatinovski J,Todorovski L,D2eroski S,et a1.Comprehensive

文本分析结果的准确率和标注质量,在同等效用的 Comparative Study of Multi-Label Classification Methods[OL].

前提下可以降低人工标注所带来的人力成本。多标 arXiv Preprint,arXiv:2102.07113v2.

a1.Multilabel
签文本分类模型所生成的特征标识集还可为城市画 【3】 Fiirnkranz J,Hiillermeier E,Mencia E L,et

Classification via Calibrated Label Ranking[J].Machine


像后续的主题演化及情感分析提供结构化的数据
Learning,2008,73(2):1 33-1 53.
源。主题演化主要体现为社交媒介大规模在线数据
[4】4 Gopal S,Yang Y M.Multilabel Classification with Meta・Level
的更新必然会引发城市画像的演化迭代问题,识别 Features[C]//Proceedings of the 33rd International ACM SIGIR

城市画像每个特征标识的时间戳,通过城市画像时 Conference on Research and Development in Information

序分析,可动态展现不同分面公众认知的演进过程, Retrieval.New York:ACM.2010:315-322.

【5】 Cambria E,Olsher D,Rajagopal D.SenticNet 3:A Common and


评估公众认知的“稳定一变化”特征,减少因特定标签
Common・・Sense Knowledge Base for Cognition・・Driven
突增等偶发因素而造成的信息噪声和不确定性风 of the 28th AAAI
Sentiment Analysis[C]//Proceedings
险。情感分析主要体现为城市画像特征标识包含公 Conference onArtificial Intelligence.2014:1515一1521.

众的认知情感,借助情感词典和极性分析可获取公 [6】 毕崇武,叶光辉,胡婧岚,等.城市画像视角下的热点城市特征

_圈数据分析与知识发现

万方数据
总第77期2023年第5期

识别方法研究[J】现代情报,2020,40(4):13.22.(Bi Chongwu, 【15]Liu L,Zhou B L,Zhao J H,et a1.C-IMAGE:City Cognitive

Ye Guanghui,Hu Jinglan,et a1.Research on Discovery of the Mapping Through Geo・Tagged Photos[J].GeoJoumal,2016,81


Focus of City Identity from the Perspective of City Profile[J]. (6):817-861.
Journal of Modem Information,2020,40(4):1 3-22.) [16】毕崇武,叶光辉,李明倩,等.基于标签语义挖掘的城市画像感
【7】 叶光辉,曾杰妍,胡婧岚,等.城市画像视角下的社会公众情感 知研究【J].数据分析与知识发现,2019,3(12):41.51.(Bi
演化研究【J】.数据分析与知识发现,2020,4(4):15.26.(Ye Chongwu,Ye Guanghui,Li Mingqian,et a1.Discovering City

Guanghui,Zeng Jieyan,Hu Jinglan,et a1.Analyzing Public Profile Based on Tag Semantic Mining[J].Data Analysis and

Sentiments from the Perspective of City Profiles[J].Data Knowledge Discovery,2019,3(12):41-51.)

Analysis and Knowledge Discovery,2020,4(4):l 5—26.) 【17]梁晨晨,李仁杰.综合LDA与特征维度的丽江古城意象感知分


[8】 岳铁骐,傅友斐,徐健.基于招聘广告的岗位人才需求分析框 析【J】.地理科学进展,2020,39(4):614—626.(Liang Chenchen,Li

架构建与实证研究[J].数据分析与知识发现,2022,6(2/3):151. Renjie.Tourism Destination Image Perception Analysis Based on

166.(Yue Tieqi,Fu Youfei,Xu Jian.An Analysis Framework for the Latent Dirichlet Allocation Model and Dominant Semantic

Job Demands from Job Postings[J].Data Analysis and Dimensions:A Case of the Old Town of Lijiang[J].Progress in

Knowledge Discovery,2022,6(2/3):151-166.) Geography,2020,39(4):614・626.)

[9】 池毛毛,潘美钰,王伟军.共享住宿与酒店用户评论文本的跨 [1 8】Peng X,Bao Y,Huang z.Perceiving Beijing’s”City Image”

平台比较研究:基于LDA的主题社会网络和情感分析[J】.图书 Across Different Groups Based on Geotagged Social Media Data

情报工作,2021,65(2):107.116.(Chi Maomao,Pan Meiyu, 叭IEEE Access,2020,8:93868・9388 1.


Wang Weijun.A Cross—Platform Comparative Study of Reviews 【19】李纲,陈婧,程明结,等.基于意见挖掘的城市形象网络监测系
on Sharing Accommodation and Hotels Reservation Platform: 统初探【J】.现代图书情报技术,2010(2):56.62.(Li Gang,Chen

Combined with LDA-SNA and Sentiment Analysis[J].Library Jing,Cheng Mingjie,et a1.Study on the City Image Network

and Information Service,2021,65(2):107・116.) Monitoring System Based on Opinion-Mining[J].New


【10]叶光辉,王灿灿,李松烨.基于SciTS会议文本的跨学科科研协 Technology of Library and Information Service,2010(2):56-62.)

作新兴主题识别及预测[J】情报科学,2022,40(7):126.135.(re 【20】李尔尘.浅谈城市形象识别【J].广东轻工职业技术学院学报,
Guanghui,Wang Cancan,Li Songye.Recognition and Prediction 2007,6(1):77—80.(Li Erchen.Study on the Identity of City Image

of Emerging Topics in Interdisciplinary Scientific Research 【J】.Journal of Guangdong Industry Technical College,2007,6

Collaboration Based on SciTS Conference Text[J].Information (1):77_80.)

Science,2022,40(7):1 26・1 35.) [21】王杨,许闪闪,李昌,等.基于支持向量机的中文极短文本分类


【1l】郝超,裘杭萍,孙毅,等.多标签文本分类研究进展【J].计算机 模型【J].计算机应用研究,2020,37(2):347.350.(Wang Yang,

工程与应用,2021,57(10):48-56.(Hao Chao,Qiu Hangping, Xu Shanshan,Li Chang,et a1.Classification Model Based on

Sun Yi,et a1.Research Progress of Multi—Label Text Support Vector Machine for Chinese Extremely Short Text[J].

Classification[J].Computer Engineering and Applications,2021, Application Research ofComputers,2020,37(2):347-350.)

57(10):48・56.) 【22]张航.基于朴素贝叶斯的中文文本分类及Python实现【D].济

【12】陈胜远.基于深度学习的面向多标签数据的文本分类方法研 南:山东师范大学,2018.(Zhang Hang.Chinese Text

究【D】.成都:电子科技大学,2021.(Chen Shengyuan.Research Classification Based on Naive Bayes and Its Python

on Text Classification Method for Multi.Label Data Based on Implementation【D】.Jinan:Shandong Normal University,2018.)

Deep Learning[D].Chengdu:University of Electronic Science 【23]Kim Y Convolutional Neural Networks for Sentence

and Technology of China,202 1.) Classification【0L】.arXiv Preprint,arXiv:1408.5882.

【13】严玲,周作建,宋懿花,等.基于ML-kNN多标记学习的中医体 【24]Zhang M L,Zhou Z H.ML—KNN:A Lazy Learning Approach to

质辨识模型研究【J】.世界科学技术.中医药现代化,2020,22 Multi-Label Learning[J].Pattem Recognition,2007,40(7):2038-

(10):3558—3562,(Yan Ling,Zhou Zuojian,Song Yihua,et a1. 2048.

on the Identification Model of Traditional Chinese [25]Dai L,zh绷g J,Li C D,et a1.Multi—Label Feature Selection with
Study

Medicine Constitutions Based on ML・kNN Multi-Label Learning Application to TCM State Identification[J].Concurrency and

【J].Modernization of Traditional Chinese Medicine and Materia Computation:Practice and Experience,2019,31(23):e4634.

Medica—World Science and Technology,2020,22(10):3558- [26】Lin W Z,Fang J N,Xiao X,et a1.ILoc—Animal:A Multi—Label

3562.) Learning Classifier for Predicting Subcellular Localization of

【14】Wong C U I,Qi S S.Tracking the Evolution of a Destination7s Animal Proteins[J].Molecular BioSystems,20 1 3,9(4):634—644.

Image by Text・Mining Online Reviews—The Case of Macau[J]. [27】岳丽媛,张增一.“PX”风险何以持续争议——基于微博和知乎


Tourism Management Perspectives,2017,23:19—29. 文本的公众话语分析[J】.自然辩证法通讯,2019,41(6):85—91.

Data Analyslsai nd Kn。wledge Disc。very皿


万方数据
(Yue Liyuan,Zhang Zengyi.Why the“PX”Continues to Cause University,2010.)

Controversy:A Public Discourse Analysis of the Texts from Sina

Micro-Blogs and the Q&A Website Zhihu[J].Journal of

Dialectics ofNature,2019,41(6):85—91.)
叶光辉:拟定题目及提出思路,提出论文修改意见
【28】李昌兵,赵玲,李晓光,等.基于TF.IDF JJI]权的卷积神经网络文
李松烨:论文框架设计,论文撰写与修改;
本情感分类模型【J】.重庆理工大学学报(自然科学),2021,35
宋孝英:数据处理。
(11):109—1 15.(Li Changbing,Zhao Ling,Li Xiaoguang,et a1.

Text Sentiment Classification Model Based on TF—IDF Weighted

Convolutional Neural Network[J].Journal of Chongqing University

ofTechnology(Natural Science),2021,35(11):109-115.) 所有作者声明不存在利益冲突关系。


【29]刘炜,王旭,张雨嘉,等.一种面向突发事件的文本语料自动标
注方法[J]中文信息学报,2017,3l(2):76—85.(Liu Wei,Wang

Xu,Zhang Yujia,et a1.An Automatic-Annotation Method for

Emergency Text Corpus[J].Journal of Chinese Information [1]李松烨.知乎武汉印象文本数据集.zip.https://www.scidb.on/s/


6zylVv.
Processing,2017,3 l(2):76-85.)

[30]李济洪.汉语框架语义角色的自动标注技术研究[D】.太原:山
收稿日期:2022.06.30
西大学,20 1 0.(Li Jihong.Research on Techniques of Automatic
收修改稿日期:2022.08.29
Sematic Role Labeling of Chinese FrameNet[D].Taiyuan:Shanxi

Text Classification Method for Urban Portrait Based on Multi.Label


Annotation Learning

Ye Guanghui Li Songye Song Xiaoying

(School of Information Management,Central China Normal University,Wuhan 430079,China)

Abstract:[Objective]The study uses machine learning technology to analyze and obtain multi—labels for long

social texts,aiming to provide new ideas for urban portrait text analysis and other related studies.It addresses the

problems facing urban data portrait analysis,such as unstructured,different lengths,and non-singular topics in
relevant analysis texts.[Methods】We retrieved social media texts on urban impressions from the Zhihu platfornl

and performed sentence segmentation and noise reduction processing on the texts.Then,we manually annotated

some texts using the existing urban portrait annotation framework.Next,we trained the support vector

classification,convolutional neural networks,and Naive Bayesian and comprehensively evaluated their

performance.We used the optimal model to obtain alllabels for long texts.and utilized the ML—kNN multi.1abel

learning model for training a multi—label social text classification model.[Results]Regarding the single-label text

classification model,the support vector classification model had the best overall performance,with an
accuracy
rate of 0.690 0 for short text labeling.Using ML—kNN to build a multi.1abel text classification model.the highest

accuracy rate reached O.8 1 0 3,and the average Hamming loss was 0.035 3.[Limitations]The impact of textual
context on topic classification needed to be fully considered.[Conclusions]Based on the long social text data on

the Zhihu platform,the proposed multi-label classification model can


effectively identify multiple labels for social

long texts on the urban portrait.

Keywords:Multi-Label City Image Social Text Text Classification ML—kNN

I函数据分析与知识发现

万方数据

You might also like