基于多标签标注学习的城市画像文本分类方法研究

基于多标签标注学习的城市画像文本分类方法
研究木
叶光辉李松烨宋孝英
（华中师范大学信息管理学院武汉４３００７９）
摘要：【目的】针对当前城市画像领域数据计算面临的相关文本非结构化、长短不一、主题非单一化等问题，
研究利用机器学习技术，分析获取社交长文本的多标签，为城市画像文本分析和其他相关分析提供新的思
路。【方法】从知乎平台获取有关城市印象的社交文本，对文本进行分句和降噪处理，结合已有的城市画像标
注框架，对部分文本进行人工标注，采用支持向量机分类模型、卷积神经网络模型、朴素贝叶斯模型行训练，
并对三种模型的结果进行对比分析。通过效果最优模型得到所有长文本的全部标签，使用ＭＬ．ｋＮＮ多标注
学习模型进行训练得到多标签社交文本分类模型。【结果】在单标签文本分类模型方面，支持向量机分类模
型整体效果最优，对于短文本标注准确率达０．６９００。使用ＭＬ．ｋＮＮ构建多标签文本分类模型，准确率最高达
到ｏ．８１０３，平均汉明损失为０．０３５３。【局限】没有充分考虑文本前后关联对主题分类的影响。【结论】基于社
交长文本数据，利用ＭＬ．ｋＮＮ多标签学习算法，构建长文本多标签分类模型，能够有效实现城市画像社交长
文本的多标签识别。
关键词：多标签城市画像社交文本文本分类ＭＬ．ｋＮＮ
分类号：Ｇ３５０
ＤＯＩ：１０．１ｌ９２５／ｉｎｆｏｔｅｃｈ．２０９６．３４６７．２０２２．０６７３
引用本文：叶光辉，李松烨，宋孝英．基于多标签标注学习的城市画像文本分类方法研究［Ｊ］．数据分析与知
识发现，２０２３，７（５）：６０—７０．（ｒｅＧｕａｎｇｈｕｉ，ＬｉＳｏｎｇｙｅ，ＳｏｎｇＸｉａｏｙｉｎｇ．ＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎＭｅｔｈｏｄｆｏｒＵｒｂａｎ
ＰｏｒｔｒａｉｔＢａｓｅｄｏｎＭｕｌｔｉ—ＬａｂｅｌＡｎｎｏｔａｔｉｏｎＬｅａｒｎｉｎｇ［Ｊ］．ＤａｔａＡｎａｌｙｓｉｓａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，２０２３，７（５）：
６０．７０．１
１引言大城市都在大力推进城市智能基础设施建设，各类
终端传感设备、网络设备可以及时捕捉和传输各类
据《中国移动互联网发展报告（２０２１）》，截至
基础民生数据，应对城市突发状况挑战，各级政府机
２０２０年１２月，中国手机网民规模已达９．８６亿，较构也在积极建立数据中控或城市大脑平台，但通过
２０２０年３月增长８８８５万，占整体网民的９９．７％。随
从该渠道获取的数据无法直接了解公众对城市的印
着社交媒体技术及平台的飞速发展和广泛应用，社象。来自社交媒介的城市语料表征了公众对城市的
交平台已经成为网民发布、交流和获取信息的重要看法、意见等认知，但社交媒介语料本身存在多源多
渠道，活跃用户数量增加、政务类社交媒介工具不断模态、长短不一、用词不规范等诸多问题，对从公众
向县域下沉，社交平台积累了大量语料，为从公众视角度计算城市画像带来了挑战。
角发掘城市画像提供了大数据入口。与此同时，各在传统的分类问题中，每个样本通常只有一个
通讯作者（Ｃｏｒｒｅｓｐｏｎｄｉｎｇａｕｔｈｏｒ）：叶光辉（ＹｅＧｕａｎｇｈｕｉ），ＯＲＣＩＤ：００００－０００１—８１１１－５０３４，Ｅ．ｍａｉｈ３８７９—４０８１＠１６３．ｃｏｍ。
＋本文系国家自然科学基金项目（项目编号：７１８０４０５５）的研究成果之一。
ＴｈｅｗｏｒｋｉｓｓｕｐｐｏｒｔｅｄｂｙｔｈｅＮａｔｉｏｎａｌＮａｔｕｒａｌＳｃｉｅｎｃｅＦｏｕｎｄａｔｉｏｎｏｆＣｈｉｎａ（ＧｒａｎｔＮｏ．７１８０４０５５）．
＿匝数据分析与知识发现
万方数据
总第７７期２０２３年第５期
类别标签，并且各个类别标签之间相互独立，分类粒有监督学习方法在文本处理领域可以分为两
度较粗，但是在实际的相关问题中，很多情况下每个类：单标签和多标签。单标签文本分类方法已经十
样本会与多个标签相关联，越来越多的研究考虑采分成熟，而多标签文本分类方法则处于起步阶段，该
用相互关联的多标签来表征样本类别特征［１创。同方法的研究和突破可以解决很多文本分类的问题。
样，在文本分类领域，随着文本主题细粒度计算方法在一段文本中，尤其是社交媒介中的文本，往往并不
和技术的发展，多标签文本分类受到越来越多的关只包含一个标签，此时使用单标签分类并不能准确
注，目前多标签文本分类已被广泛应用于标签推地获得文本的主题。针对多标签文本分类方法，也
荐［３］、信息检索Ｈ’和情感分析Ｂ１等领域。有不少学者做过研究。比如郝超等…，对多标签文本
结合团队成员以往研究哺４１及观察数据可以发分类的方法、步骤以及数据集等进行详细的分析和
现：在城市画像领域，公众在平台上发表对一座城市整理，总结并展望未来的发展趋势。陈胜远［１２１从文
的印象时，更倾向于讨论一座城市的多个方面，此时本数据处理的各个步骤，对基于深度学习的多标签
仍使用单标签分类方法进行主题提取显然不够合文本分类方法进行测试和整理，该方法在百度文库
适。本文借助文本挖掘技术，从社交媒介平台获取数据集和微博数据集中得到很好的应用。严玲等“３’
公众对城市的印象，提出基于ＭＬ．ｋＮＮ多标注学习基于江苏省中医院健康体检中心的中医体质数据
的城市画像社交文本分类模型。该模型在已有城市集，利用ＭＬ．ｋＮＮ算法建立了中医体质辨识模型，该
标注框架的基础之上，综合运用人工标注和机器学模型能有效实现中医体质辨识智能化。
习相结合的手段，评估现有分类模型的效果，可有效２．２城市画像
减少城市大数据发展过程中的噪声数据，快速提取城市画像研究的重点在于从各类信息中刻画出
出社交语料长文本的主题，提升城市画像计算文本一座城市的客观印象和公众对于城市的主观印象。
的运行效率，进而为城市数据治理手段的升级提供通过文献调研发现，目前围绕城市画像所开展的研
基础支撑。究中，主要包括无监督学习文本分类技术、图像识别
技术和社会网络分析技术等，较少有研究使用有监
２研究现状
督学习文本分类方法对城市画像开展研究，并且多
２．１文本分类停留在提取城市标签和特征的维度。典型研究如
目前，已有的文本分类主要有无监督学习和有Ｗｏｎｇ等ｎ４１基于ＴｒｉｐＡｄｖｉｏｒ旅游网站上２００５年至
监督学习两种，有监督学习常应用于新闻分类和邮２０１３年的在线评论数据，运用文本分析的方法提取
件分类等，使用该类方法的前提是有可供训练的数澳门这一时期的城市画像，并运用可视化技术展示
据集。但是在面对全新领域的语料时，无监督学习其演变过程。Ｌｉｕ等ｎ５１利用深度学习技术对城市画
方法往往是首选，隐含狄利克雷分布（Ｌａｔｅｎｔ像进行分类，通过印象特征和空间分布的统计分析，
ＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ，ＬＤＡ）就是一种无监督学习的主探索城市间的相关性和差异性，为城市间的相互学
题概率生成模型，常被用来进行文本的主题提取。习提供参考。毕崇武等¨６３借鉴潜在语义分析的思
例如，岳铁骐等随３使用ＬＤＡ模型实现岗位需求的主想，通过计算不同标签揭示城市画像语义特征的重
题挖掘与分类，并依据分析结果提出制定职业规划、要程度，筛选出具有较高城市画像解释度的标签集
提高培养计划灵活性等建议。池毛毛等阳３使用ＬＤＡ合，生成具有层级结构的城市画像。梁晨晨等…Ｊ将
模型对两个酒店预订平台上的评论文本进行比较分ＬＤＡ模型用于旅游微博文本分析，在特征维度构建
析，从微观用户评论角度解释两大平台在产品和服意象的基本框架，并对丽江古城的形象和精细特征
务上的替代性和互补性。叶光辉等［１们则借助ＬＤＡ进行刻画。Ｐｅｎｇ等¨引提出一种新的热门旅游景点发
模型对ＳｃｉＴＳ会议文本进行主题提取，而后采用ＢＰ现方法，通过结合空间聚类和文本挖掘方法提取热
神经网络和ＳＶＲ两种经典机器学习算法对新兴主点，并为北京构建了一个空间嵌入的旅游热点网络。
题未来三年发展趋势进行预测分析。此外，利用社会数据获取城市画像，并将分析结
ＤａｔａＡｎａｌｙｓｉｓａｎｄＫｎ。ｗｌｅｄｇｅＤｉｓｃｏＶｅｒｙ皿

万方数据
果应用到城市规划和管理中也得到了一些学者的重３．２城市文本信息分类标注框架
视。例如，李纲等¨刚利用意见挖掘和循序渐进的模本文借鉴课题组成员毕崇武等ｎ６１提出的具有层
型设计开发了一个城市画像网络监测系统，通过评级结构的城市画像描述框架，认为某座城市的城市
论挖掘和情感分析发现公众情绪的演变趋势。李尔画像应该从多个维度（分面和亚面）揭示，某个具体
尘乜０］基于城市画像系统（ＣＩＳ）和传播理论，对旅游城维度（分面或亚面）应该由多个处于同级平行结构的
市画像进行识别和分析，通过对城市文化的探索，寻社会化标签描述；同时，城市画像描述框架应该支持
找城市特有的品牌形象，对提升城市软实力具有重将某个维度划分为多个更细粒度的维度，例如，将某
要意义。个分面划分为多个亚面。该研究利用网络爬虫技术
综上，网络时代的城市画像研究与大数据分析、获取知乎平台中描述中国中部６省省会城市（长沙、
信息组织与融合、交互设计等方法存在密切的联系，合肥、南昌、太原、武汉、郑州）主要特征的用户问答
其目的是在公共认知角度下获取城市特征。但需要内容，涉及经济、政治、环境、人文等多个维度。
注意的是，目前这些研究主要以时空数据或者在线依据制订好的规则对原始数据进行清洗，通过
评论等短文本数据为主，对社交媒体中描述城市画词汇标准化处理和过滤得到规范化标签，并以此作
像的长文本多标签分类研究还不够深入；而文本分为实证部分的基础数据，利用空间向量之间的余弦
类技术也主要以单标签和无监督技术为主，关于多相似度衡量社会化标签之间的相似度，使用ＳＰＳＳ和
标签分类的研究仍不成熟；城市画像的文本分类研Ｗａｒｄ算法、层次聚类标签（或标签集合），生成具有
究多停留在特征提取和意象刻画方面，不能借助文 “分面亚面”结构的城市画像标注框架，如表１所示。
本进行深入细致的分析。因此，充分发挥文本挖掘通过该方法得到的城市画像标注框架可以涵盖
在网络资源组织中的优势，将单标签文本分类方法一座城市的整体特征，并且可以深入到层级结构内
与多标签文本分类方法相结合，并将其融入城市画部展开细粒度的城市画像描述。课题组成员ｎ引也在
像文本分类研究中，不仅可以对现有研究形成有力该标签框架的基础上提取出反映公众认知的城市
补充，也可以在城市画像文本分类领域实现突破，为画像。
城市画像其他维度的研究提供理论和实践支持。３．３城市画像多标签文本分类模型构建思路
使用网络爬虫技术获取知乎上“武汉印象”检索
３城市画像多标签文本分类体系构建
词下的所有答案作为实验数据，并对数据进行文本
在社交网络盛行的当下，每天都会产生数以亿预处理操作，首先是长文本切割，然后通过人工对部
计的文本数据。这些文本数据是用户在特定情境、分经过切割处理后的短文本完成标注，作为训练数
特定心情和特定背景下发表的对某件事物的认知和据集，再对这些短文本进行分词和去除停用词处理。
态度。很明显，公众对某座城市的整体印象也可以选择３．１节中三种分类模型对完成以上操作的
通过文本的社会化标签展现出来。而针对社交媒介文本进行初步处理，主要是进行降噪和模型的初步
中的长文本，从中只提取出单一标签不能全面展现训练；在降噪过程中，由于在标注时要求对噪声数据
公众对一座城市多方面的印象，因此如何提取出一进行区分，所以直接使用三种模型进行降噪训练，找
段长文本的多个标签显得尤为重要。到降噪效果最优的模型完成所有数据的降噪，方便
３．１相关方法及概念后续使用短文本分类模型完成标签标注。
本文用到的短文本单标签分类模型有支持向量同时，使用三种模型对非噪声数据进行短文本
机（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ，ＳＶＭ）模型［２“、朴素贝叶单标签分类模型的初步训练，根据首次训练的结果，
斯模型陉２］和卷积神经网络（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｔｒａｌ对标签框架进行改进，使其更适用于本文所提方法，
Ｎｅｔｗｏｒｋ，ＣＮＮ）模型陉列；用到的多标签文本分类方法提高标注的准确率，减少过细的标签精度对文本自
为ＭＬ．ｋＮＮ，对应的评价指标为汉明损失（Ｈａｍｍｉｎｇ动标注的影响。使用改进的标签借助Ｐｙｔｈｏｎ完成之
Ｌｏｓｓ．ＨＬｏｓｓ）［２４－２６］。前标注结果的更新，继续使用短文本单标签分类模
＿圈数据分析与知识发现
万方数据
表１城市画像标注框架４城市画像多标签文本分类方法实证分析
Ｔａｂｌｅ１ＣｉｔｙＰｏｒｔｒａｉｔＡｎｎｏｔａｔｉｏｎＦｒａｍｅ
４．１数据获取
一级二级三级
气候状况气候变化、季节时长、天气温度、天气湿度在实证分析方面，本文利用知乎平台获取用户

生态污染状况空气质量、水质关于中国各大城市评价的文字描述。
地理环境地理位置、自然风光、自然灾害、自然资源选择知乎平台作为城市画像社交文本的数据来
历史文化历史地位、文化底蕴、名胜古迹、文化产业
源，主要基于以下考虑：
语言特色方言特色、普通话特色
（１）知乎上有各种各样的相关话题可以反映公
文化饮妻芟色特色美食、饮食习惯、食物／口味、特色餐厅、食物价格众对不同城市的认知，且知乎作为问答社区，用户的
民风／回答更具针对性，文本形式也多为长文本，适用于本
特产／文所提模型。而其他平台上描述城市的社交文本，
教育名校、教育水平、科研水平比如微博等，则相对较少，且多为短评论。
娱乐旅游资源、娱乐场所、娱乐态度、城市景点
（２）知乎是用户身份认证的公共平台。相比于
人７１人口特征、人口构成、人口素质、人口布局、人口数量
交通交通设置、司机特点、交通状况
微博等平台，知乎用户发布的帖子更为专业，用户也
，．．
…居住感受生活节奏、宜居程度、生活气息、幸福指数会不断更新问题的答案，这也可以为模型后续扩展

利民服务／用于其他研究如情感分析等提供及时数据。
医疗水平／
（３）已有研究表明，相比于微博平台，知乎网友
市容市貌／
采用引证（科学数据、材料、法律法规）、案例和讲故
城市发展发展速度、发展状况、发展前景
事的比例高于微博网友，而微博网友夸张修辞、图片
城市规划绿地规划、街道布局、景区规划、商圈规划
吸引力／
修辞的比例更高陋川。所以知乎答复者更加理性，有
感情助于更客观全面地了解事件产生和发展的过程。
整体总体评价（４）本文所使用的标签框架来源的作者ｎ６１也是
政府服务／
使用知乎平台作为数据来源，基于评论数据，提取出
城市地位
我国中部６省省会城市的结构化城市画像，获得多
占地面积
个维度下公众对各城市整体状况的共同感知。
包容性／
经济水平由此可见，以知乎平台作为文章模型构建的数
物价据来源是具备可靠性和代表性的。以中国中部重要
城市“武汉”为例，本文以“武汉印象”作为检索词，检
经济
震笑索出与武汉相关的提问及其回答。虽然知乎提供了
就业
访问接口，但通过直接访问或者爬虫得不到任何结
贫富差距
果，所以本文借助了谷歌浏览器中的开发者工具，其
型进行训练并选取综合准确率最高的方法完成剩余中的Ｎｅｔｗｏｒｋ板块可以得到网页主要内容数据的
所有短文本的自动标注。ＪＳＯＮ格式。只需要根据官方提供的接口文档寻找
借助之前保留的编号将短文本组合成切割前的相似的头部，就可以在ｒｅｓｐｏｎｓｅ中获取到对应的
长文本，同时对应短文本的标签也可以自动归为长ＪＳＯＮ格式数据。由于网页并不是一次性加载完全
文本的多标签，对数据进行编码后使用ＭＬ—ｋＮＮ多部问题和回答的，所以在开发者工具面板开启的状
标签文本分类模型进行训练得到关于“武汉印象”的态下需要不断下翻浏览以获取全部的数据，之后再
长文本多标签分类模型。最后使用汉明损失指标对将每个ｒｅｓｐｏｎｓｅ中的内容复制到文本文件中方便后
ＭＬ．ｋＮＮ多标签文本分类模型的效果进行评价。本期进行处理，在这个过程中总计整理出９个文件。
文研究框架如图１所示。由于ＪＳＯＮ格式数据中一般只包含问题和部分
ＤａｔａＡｎａｌｙｓｉｓａｎｄＫｎ。ｗｌｅｄｇｅＤｉｓｃ。ｖｅｒｙ皿

万方数据
数据处理模型训练
ｌ蔷蒹蛩Ｈ器蓁嵩禽盍禳
网络爬虫ｌ’ｌ印象的问题及答案
羼
蓖市画像单标§
标注模型构建
弋
＼／
７一整合
『数撖睫
Ｐｙｔｈｏｎ清洗数据一一去重
ｊｉｅｂａ／ｚＪ－词
母燃篓
一去停用词
使用Ｐｙｔｈｏｎ将
弋
＼／
７刊长文本根据标点符写
切割为短文本
『文本分割及标注一多标签标注
使用ＭＬ．ｋＮＮ训练
叫爨摇勰整城市画像社交媒介多
模型训练标签语料数据集
图１研究框架
Ｆｉｇ．１ＲｅｓｅａｒｃｈＦｒａｍｅｗｏｒｋ
第一个回答，所以还需要编写爬虫程序对ＪＳＯＮ格表２分句后结果展示
Ｔａｂｌｅ２ＲｅｓｕｌｔＤｉｓｐｌａｙＡｆｔｅｒＣｌａｕｓｅ
式数据中每个问题所对应的网址进行模拟访问，进
一步获得所有回答以及回答下的评论，通过这种方
法，抓取检索结果的问题、回答、用户、时间、点赞、回
复等字段并存储下来，总计得到３９２３８条结果。
４．２数据预处理
由于采集到的数据属于社交媒介数据，所以存
在着长短不一、多模态和多主题的特征。在对这类
语料进行处理时，只匹配单个标签不能准确体现主
题，此时需要进行切割获取对应的短文本来匹配多ＩＤＦ值为词频一逆文档频率，词频（ＴｅｒｍＦｒｅｑｕｅｎｃｙ，
个标签，首先将数据按照“。”、“！”、“？”等中文分句标ＴＦ）是词语在文本中出现的频率，逆文档频率
点符号对每条数据进行切割，得到切割后的语料数（ＩｎｖｅｒｓｅＦｒｅｑｕｅｎｃｙ，ＩＤＦ）是文档频率的倒
Ｄｏｃｕｍｅｎｔ
据量为３０００５４条。数。计算方法如公式（１）一公式（３）所示。

切割后语料的内容示例如表２所示，其中原索ＴＦ—ＩＤＦ¨２珥，，×ＩＤＦ，（１）
引代表的是切割前文本的索引，方便后期将短文本
Ｑ）
语料与标签整合到一起。ＴＦｉ√２页若
４．３特征提取＾，
ＩＤＦ，２
ｌ０９１玎＂
（３）
特征提取的主要作用是使待处理的数据最少
化，同时又不损害其核心信息，从而减小向量空间的其中，行“是词语ｒ，衙类所有文本中出现的次数，
维数，简化运算，加快处理的速度。 ∑尼”ｋ，／是，类所有文本词语出现的次数总和，Ⅳ是
本文使用经典的ＴＦ．ＩＤＦ值作为文本特征。ＴＦ一数据集中的文本总数，刀．为包含词语ｆ，的文本数ｎ８Ｉ。
＿匝数据分析与知识发现
万方数据
４．４数据降噪训练降噪模型对剩余数据进行降噪处理，进一步提
特征提取得到的文本数据并不是都具备描述城升短文本分类模型的准确率。
市形象特征的功能，甚至由于网络文本多样性的问在标记完成的数据中，有１４２３７条数据为噪声
题，许多文本不包含语义信息，这类数据属于噪声数数据或虚假数据，比例为４０．５９％，所以对剩余数据
据或虚假数据，在进行模型训练之前需要将这些数进行降噪处理十分有必要。对数据进行降噪处理可
据清除掉。以理解为进行二分类操作，由于文本都较短，所以直
为更好地训练模型，由７个人负责标注数据，每接使用机器学习方法进行该操作。使用前文提到的
人标注５０００条，如果有长句可以继续切割的话，则三种模型分别对数据进行训练，由于数据降噪不是
需要人工进行分句和标注，最终得到３５０７７条已标本文的重点，并且参数的调试对结果影响不大，所以
注的数据。其中有特征描述的数据标记为对应的标未对调参过程进行阐述。三种模型数据降噪的效果
签，噪声数据或虚假数据则做特殊的标记，方便后期如表３所示。
表３三种模型数据降噪效果比较
Ｔａｂｌｅ３ＣｏｍｐａｒｉｓｏｎｏｆＮｏｉｓｅＲｅｄｕｃｔｉｏｎＥｆｆｅｃｔｏｆＴｈｒｅｅＭｏｄｅｌｓ
支持向量机分类模型的Ａｃｃｕｒａｃｙ明显优于其余４．５城市画像描述框架改进
两种模型，所以使用支持向量机分类模型进行数据使用三种模型对标注好的非噪声数据进行训
降噪。对所有数据完成降噪操作后，噪声数据或虚练，最高的Ａｃｃｕｒａｃｙ仅有０．５１５０，是支持向量机分
假数据的数据量为１２８１０２，比例为４２．６９％，与人工类模型的结果，而朴素贝叶斯和卷积神经网络模型
标注的结果基本一致，并且从降噪的结果中可以看的Ａｃｃｕｒａｃｙ分别只有０．４５００和０．４８８７，结果很不理

想，需要对标签体系进行调整并重新训练。
出，切割后的数据中噪声数据或虚假数据的占比较
以卷积神经网络模型的训练结果为例，通过具
大，对于数据质量和模型训练准确度的影响也十分
体查看每个标签对应的Ｆ１．Ｓｃｏｒｅ和Ｓｕｐｐｏｒｔ，可以发
大；所以本文使用非噪声数据训练短文本标签分类
现很多标签的Ｆ１．Ｓｃｏｒｅ为０，对应的Ｓｕｐｐｏｒｔ也较少，
模型，数据质量得到提升，模型的准确率也将得到提
如表４ｆｉＪｉ：示。
升，同时本文的主题是训练长文本的多标签文本分在标注的二级标签中，做到了全部覆盖，只是有
类模型，短文本及对应标签合并后也会削弱噪声数些标签的数据量过少，比如贫富差距、特产和名人
据或虚假数据的影响，因为文本数据在切割后难免等，这类标签作为城市画像的社交话题也比较冷门。
会产生无用数据和不存在主题的数据，这一点在后由此可见，本文从知乎平台上所获取的数据可以全
文数据合并后会有所体现。方面地展现出一座城市的情况。
ＤａｔａＡｎａｌｙｓｉｓａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃ。ｖｅｒｙ固

万方数据
表４神经网络模型训练结果转换完成后的标签体系及标签之间的转换关系如表
Ｔａｂｌｅ４ＴｒａｉｎｉｎｇＲｅｓｕｌｔｓｏｆＮｅｕｒａｌＮｅｔｗｏｒｋＭｏｄｅｌ５所示。
表５标签内容转换关系
Ｔａｂｌｅ５ＴｒａｎｓｆｏｒｍａｔｉｏｎＲｅｌａｔｉｏｎｓｈｉｐｏｆＬａｂｅｌＣｏｎｔｅｎｔ

交通０．６３８００．６４７３０．６４２６２７５
转换盾转换前
人口０．４３８６０．６２５００．５１５５４００
交通交通
利民服务０．０００００．０００００．００００２５
娱乐娱乐
包容性０．０００００．０００００．００００４２
地理环境、人口、总体评价、感情、城市地位、居住感
医疗水平０．０００００．０００００．００００４整体
受、城市发展、占地面积、吸引力、包容性、城市规划
占地面积０．０００００．０００００．００００２６
文化历史文化、名人、民风、特产
历史文化０．５２３６０．５４７７０．５３５４２８３
服务政府服务、利民服务、医疗水平、市容市貌、教育
名人０．３３３３０．１３３３０．１９０５１５
气候气候状况
吸引力０．２３０８０．３７５００．２８５７８０
污染污染
地理环境０．３０５９０．３８２４０．３３９９１３６
经济经济水平、物价、房价、收人、就业、贫富差距
城市发展０．４０５９０．４６２２０．４３２２２３８
语言语言特色
城市地位Ｏ．１３０４０．１３３３０．１３１９４５
饮食饮食文化
城市规划０．４１４１Ｏ．２３８４０．３０２６１７２
娱乐０．５７２８０．５７０００．５７ｌ４４１４

４．６单标签分类模型选择和文本数据处理
就业０．４１９４０．３８２４０．４０００１０２
居住感受Ｏ．１４３７Ｏ．１７８３Ｏ．１５９２１２９（１）模型训练

市容市貌０．２３５３０．１４８１０．１８ｌ８８１使用字典将原来的标签更换为改进后的标签，
总体评价０．２７６７０．２３９１０．２５６６１８４继续使用上述三种模型进行训练。
感情４０３
０．４５５８０．４７３９０．４６４７
①卷积神经网络模型
房价０．５７ｌ４０．６５５７Ｏ．６１０７６１
由于ＣＮＮ模型需要收集文本前后文的信息，不
收入０．６９４９０．６３０８０．６６ｌ３１３０
能对ＴＦ．ＩＤＦ特征进行处理，所以使用切割后的文本
政府服务０．７７７８０．１４０００．２３７３５０
教育Ｏ．５７１４Ｏ．５９１５Ｏ．５８１３１４２

作为特征训练ＣＮＮ模型，其余模型均使用ＴＦ．ＩＤＦ
民风０，１１１ｌＯ．０１３７０．０２４４７３特征。
气侯状况０．７０５４０．７０５４０．７０５４１２９使用Ｋａｓｈｇａｒｉ包中的神经网络进行此次训练，
污染状况Ｏ．７１４３０．４３４８０．５４０５２３
主要对ｅｐｏｃｈｓ和ｂａｔｃｈｓｉｚｅｓ两个参数进行调试，经
物价０．４６４３０．２８８９０．３５６２４５
过多次测试，在ｅｐｏｃｈｓ为５、ｂａｔｃｈｓｉｚｅｓ为２５６时准确
特产０．０００００．０００００．００００５
率较高。由于卷积神经网络在训练阶段每个模拟都
经济水平０．６１５４０．２３５３０．３４０４３４
有不同的起点，导致最终的结果并不相同，但
语言特色０．５７７８０．６１９００．５９７７８４
贫富差距０．０００００．０００００．００００２Ａｃｃｕｒａｃｙ基本都在６８％左右，其中一次训练的结果

饮食特色０．７３６８０．８３３３０．７８２ｌ３３６如表６所示。
②朴素贝叶斯模型
本文使用的朴素贝叶斯模型是多项式分布贝叶
斯（ＭｕｌｔｉｎｏｍｉａｌＮＢ），在调试过程中主要对ａｌｐｈａ参
数进行了调整。但该模型的准确率相对另外两种模
观察Ｆ１－Ｓｃｏｒｅ和对应的Ｓｕｐｐｏｒｔ可以发现：标注
型始终较低，以ａｌｐｈａ＝０．０４为例，训练结果如表７
体系的颗粒度与模型训练的Ａｃｃｕｒａｃｙ有直接关系，所示。
所以本文以此次训练结果的数据作为参考，对标签 ③支持向量机分类模型
体系进行改善，对准确率低的标签和数据量少的标对于支持向量机分类模型，有三个重要的参数
签均进行向上合并的操作，提升模型训练的准确率。需要进行调整，使用网格搜索寻找最优参数，得到的
万方数据
表６卷积神经网络训练结果表８支持向量机分类模型训练结果
Ｔａｂｌｅ６ＴｒａｉｎｉｎｇＲｅｓｕｌｔｓｏｆＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓＴａｂｌｅ８ＴｒａｉｎｉｎｇＲｅｓｕｌｔｓｏｆＳｕｐｐｏｒｔＶｅｃｔｏｒ
ＣｌａｓｓｉｆｉｃａｔｉｏｎＭｏｄｅｌ
交通Ｏ．６３５８０．６５８９Ｏ．６４７２３０２
娱乐Ｏ．６１６３Ｏ．５０２５Ｏ．５５３６４０６交通０．６６ｌ９Ｏ．６１５９０．６３８１３０２
整体０．７２０９０．７９１５０．７５４６１８８０娱乐０．６１７５０．５５６７０．５８５５４０６
文化０．４５ｌ００．４４３ｌ０．４４７ｌ３４３整体０．６７０７０．８４７３０．７４８８１８８０
服务０．５９０９Ｏ．４８７５Ｏ．５３４２２４０文化０．６０７６０．４１９８０．４９６６３４３
气候Ｏ．７７１９０．７２１３Ｏ．７４５８１２２服务０．７１ｌ１０．４０００Ｏ．５１２０２４０
污染０．００００Ｏ．０００００．００００１９气候０．８０８ｌ０．６５５７０．７２４０１２２
经济０．７６０１０．６８８５０．７２２５３８２污染０．９０９１０．５２６３０．６６６７１９
语言０．６４４１Ｏ．３８７８０．４８４１９８经济０．８０９２０．６４４０Ｏ．７１７２３８２
饮食Ｏ．７５６２０．８】６５０．７８５２３７６语言０．７５６８０．２８５７０．４１４８９８
饮食０．８２６６０．７１０１０．７６３９３７６
表７朴素贝叶斯训练结果
Ｔａｂｌｅ７ＴｒａｉｎｉｎｇＲｅｓｕｌｔｓｏｆＮａｉｖｅＢａｙｅｓ标签对应的Ｆ１．Ｓｃｏｒｅ为０。所以在综合对比后，剩余
数据的标签标注工作将使用支持向量机分类模型
完成。
交通０．７００５０．４５ｌ０Ｏ．５４８７３０２
娱乐０．６０２８Ｏ．６２６２Ｏ．６１４３４０６

对于该标注模型而言，其标注准确率也并不亚
整体Ｏ．６３ｌ４０．８５４７０．７２６３１８８０于同类型标注模型的标注效果，例如刘炜等¨＂设计
文化Ｏ．６８４６０．４０９４Ｏ．５１２４３４３的面向突发事件的文本语料自动标注框架，其在各
服务Ｏ．３２４２２４０
０．７１００Ｏ．４４５１个主题下的准确率在５７％～９４％之间；李济洪７３叫设计
气候０．８８７１０．４８６７０．６２８６１２２
的汉语语义角色自动标注框架，其准确率、召回率、
污染０．０００００．０００００．００００１９
Ｆ１值分别为７４．１６％、５２．７０％和６１．６２％。
经济０．７１５３Ｏ．５４ｌ４０．６１６４３８２
语言０．６５０００．１５２９０．２４７６９８

（２）文本及标签合并
饮食０．８６６７Ｏ．６９５８０．７７１９３７６本文的目的是得到长文本的多标签标注模型，
想要实现该步骤，需要先获得长文本多标签分类模
型的语料数据集。前文已经得到了短文本标注模
型，使用该模型对所有非噪声数据完成标注，再按照
原索引将短文本数据和标签进行合并与去重即可得
结果为核函数ｋｅｒｎｅｌ为ＲＢＦ，惩罚系数Ｃ取值１０００，
到长文本数据和对应的多个标签。这样做的弊端在
核函数系数ｇａｍｍａ取值０．００１，此时模型的训练结果
如表８所示。于忽略了文本前后的关联关系，在标签判别上会出
对比表６一表８的结果可以发现，朴素贝叶斯模现误差。但本文在对长文本进行分句处理时，是按
型的结果中，只有Ｐｒｅｃｉｓｉｏｎ对应的值较高，其他值都照写作分句标准来划分的，并不是按照逗号或者顿
比较低；卷积神经网络和支持向量机分类模型的号进行划分，这样在一定程度上可以降低该问题带
Ａｃｃｕｒａｃｙ十分相近，都在０．６９左右。但观察该结果给分类的影响。
中每个小标签的Ｆ１．Ｓｃｏｒｅ值可以发现，卷积神经网４．７城市画像社交长文本多标签标注模型训练
络模型不如支持向量机分类模型稳定，甚至“污染” 为验证本文得到的长文本多标签语料集可以用
ＤａｔａＡｎａｌｙｓｉＳａｎｄＫｎ。ｗｌｅｄｇｅＤｉｓｃｏｖｃｒｙ囫

万方数据
于多标签标注模型的训练，选用ＭＬ．ｋＮＮ模型对语众的情感倾向，这些判定将为社会治理模式设计、城
料数据集进行训练。市公共政策有效性评估等管理事务提供测量尺度。
将３９２３８条数据全部标注完毕，但其中依然有
５结语
不包含任何标签的语料，这类数据属于长文本数据
中的噪声数据或虚假数据，将其删除后，总共得到本文以武汉的城市社交媒介数据为例，训练得
３２８９４条数据，占之前总数据量的８３．８３％，证实了前到的模型不仅可以对描述武汉的短文本实现精确的
文所提到的在数据合并后会削弱切割后短文本中噪标注，也可以完成长文本的多标签标注。实验结果
声数据或虚假数据的影响。由此可见，从知乎平台表明，经过一系列文本数据处理后，本文模型对长文
上获取的长文本数据的质量是可靠的。为方便训本多标签预测有较高的准确度，最高可以达到
练，数据的标签被修改为Ｏ．１编码格式，即在对应的０．８１０３。同时本文也对大数据时代下模型的应用进
标签下，如果该数据存在该标签，则标注为１，否则为行了探讨。
０。完成该操作后，将数据输人ＭＬ．ｋＮＮ多标签训练本文研究对城市画像文本有监督学习进行了初
模型中进行训练，设定参数尼在１～２０之间循环，结果步的探索，但仍有许多不足之处，如：人工标注数据
如表９所示。会存在误差，并且过高的颗粒度也给标注带来困难，
表９不同近邻数下评价指标值社交文本的不确定性导致模型训练结果普遍不高，
Ｔ拍ｌｅ９ＥｖａｌｕａｔｉｏｎｗｉｔｈＤｉｆｆｅｒｅｎｔＮｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ在标签合并时，大部分标签合并为“整体”，单个标签
样本量提升的同时提升了准确率，但也导致每个标
签的数据量不够均衡，结果存在偏差；本文生成社交
长文本多标签语料集的过程偏机械化，没有充分考
准确率０．８１０３０．８０３６Ｏ．７９６００．７９２８０．７９１７…Ｏ．７７９８
虑文本前后文的关联，使用的是基础的机器学习模
汉明损失０．０３５３Ｏ．０３６３０．０３７４０．０３８１０．０３８５…０．０４１２
型，应用效果并不理想，因此数据处理方法和模型方
在ｋ＝１时，准确率最高，为Ｏ．８１０３，汉明损失最面还需要进一步探索，争取可以在城市画像文本分
低，为０．０３５３。该结果可以证明本文得到的多标签类领域实现新的突破。

语料集可以用于社交长文本的主题识别，并具有较
高准确率。
［１】ＭＲ，ＬｕｏＪＢ，ＳｈｅｎＸＰ，ｅｔａ１．ＬｅａｒｎｉｎｇＭｕｌｔｉ—Ｌａｂｅｌ
４．８模型应用讨论Ｂｏｕｔｅｌｌ
ＳｃｅｎｅＣｌａｓｓｍｃａｔｉｏｎ［Ｊ】ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００４，３７（９）：１７５７－

本文得到的基于ＭＬ．ｋＮＮ的多标签文本分类模
１７７１．
型准确率最高可达０．８１０３，在一定程度上可以保证
［２】ＢｏｇａｔｉｎｏｖｓｋｉＪ，ＴｏｄｏｒｏｖｓｋｉＬ，Ｄ２ｅｒｏｓｋｉＳ，ｅｔａ１．Ｃｏｍｐｒｅｈｅｎｓｉｖｅ
文本分析结果的准确率和标注质量，在同等效用的ＣｏｍｐａｒａｔｉｖｅＳｔｕｄｙｏｆＭｕｌｔｉ－ＬａｂｅｌＣｌａｓｓｉｆｉｃａｔｉｏｎＭｅｔｈｏｄｓ［ＯＬ］．
前提下可以降低人工标注所带来的人力成本。多标ａｒＸｉｖＰｒｅｐｒｉｎｔ，ａｒＸｉｖ：２１０２．０７１１３ｖ２．
ａ１．Ｍｕｌｔｉｌａｂｅｌ
签文本分类模型所生成的特征标识集还可为城市画【３】ＦｉｉｒｎｋｒａｎｚＪ，ＨｉｉｌｌｅｒｍｅｉｅｒＥ，ＭｅｎｃｉａＥＬ，ｅｔ
ＣｌａｓｓｉｆｉｃａｔｉｏｎｖｉａＣａｌｉｂｒａｔｅｄＬａｂｅｌＲａｎｋｉｎｇ［Ｊ］．Ｍａｃｈｉｎｅ

像后续的主题演化及情感分析提供结构化的数据
Ｌｅａｒｎｉｎｇ，２００８，７３（２）：１３３－１５３．
源。主题演化主要体现为社交媒介大规模在线数据
［４】４ＧｏｐａｌＳ，ＹａｎｇＹＭ．ＭｕｌｔｉｌａｂｅｌＣｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈＭｅｔａ・Ｌｅｖｅｌ
的更新必然会引发城市画像的演化迭代问题，识别Ｆｅａｔｕｒｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲ
城市画像每个特征标识的时间戳，通过城市画像时ＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎ
序分析，可动态展现不同分面公众认知的演进过程，Ｒｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ：ＡＣＭ．２０１０：３１５－３２２．
【５】ＣａｍｂｒｉａＥ，ＯｌｓｈｅｒＤ，ＲａｊａｇｏｐａｌＤ．ＳｅｎｔｉｃＮｅｔ３：ＡＣｏｍｍｏｎａｎｄ

评估公众认知的“稳定一变化”特征，减少因特定标签
Ｃｏｍｍｏｎ・・ＳｅｎｓｅＫｎｏｗｌｅｄｇｅＢａｓｅｆｏｒＣｏｇｎｉｔｉｏｎ・・Ｄｒｉｖｅｎ
突增等偶发因素而造成的信息噪声和不确定性风ｏｆｔｈｅ２８ｔｈＡＡＡＩ
ＳｅｎｔｉｍｅｎｔＡｎａｌｙｓｉｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ
险。情感分析主要体现为城市画像特征标识包含公ＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．２０１４：１５１５一１５２１．
众的认知情感，借助情感词典和极性分析可获取公［６】毕崇武，叶光辉，胡婧岚，等．城市画像视角下的热点城市特征
万方数据
识别方法研究［Ｊ】现代情报，２０２０，４０（４）：１３．２２．（ＢｉＣｈｏｎｇｗｕ，【１５］ＬｉｕＬ，ＺｈｏｕＢＬ，ＺｈａｏＪＨ，ｅｔａ１．Ｃ－ＩＭＡＧＥ：ＣｉｔｙＣｏｇｎｉｔｉｖｅ
ＹｅＧｕａｎｇｈｕｉ，ＨｕＪｉｎｇｌａｎ，ｅｔａ１．ＲｅｓｅａｒｃｈｏｎＤｉｓｃｏｖｅｒｙｏｆｔｈｅＭａｐｐｉｎｇＴｈｒｏｕｇｈＧｅｏ・ＴａｇｇｅｄＰｈｏｔｏｓ［Ｊ］．ＧｅｏＪｏｕｍａｌ，２０１６，８１

ＦｏｃｕｓｏｆＣｉｔｙＩｄｅｎｔｉｔｙｆｒｏｍｔｈｅＰｅｒｓｐｅｃｔｉｖｅｏｆＣｉｔｙＰｒｏｆｉｌｅ［Ｊ］．（６）：８１７－８６１．
ＪｏｕｒｎａｌｏｆＭｏｄｅｍＩｎｆｏｒｍａｔｉｏｎ，２０２０，４０（４）：１３－２２．）［１６】毕崇武，叶光辉，李明倩，等．基于标签语义挖掘的城市画像感
【７】叶光辉，曾杰妍，胡婧岚，等．城市画像视角下的社会公众情感知研究【Ｊ］．数据分析与知识发现，２０１９，３（１２）：４１．５１．（Ｂｉ
演化研究【Ｊ】．数据分析与知识发现，２０２０，４（４）：１５．２６．（ＹｅＣｈｏｎｇｗｕ，ＹｅＧｕａｎｇｈｕｉ，ＬｉＭｉｎｇｑｉａｎ，ｅｔａ１．ＤｉｓｃｏｖｅｒｉｎｇＣｉｔｙ
Ｇｕａｎｇｈｕｉ，ＺｅｎｇＪｉｅｙａｎ，ＨｕＪｉｎｇｌａｎ，ｅｔａ１．ＡｎａｌｙｚｉｎｇＰｕｂｌｉｃＰｒｏｆｉｌｅＢａｓｅｄｏｎＴａｇＳｅｍａｎｔｉｃＭｉｎｉｎｇ［Ｊ］．ＤａｔａＡｎａｌｙｓｉｓａｎｄ
ＳｅｎｔｉｍｅｎｔｓｆｒｏｍｔｈｅＰｅｒｓｐｅｃｔｉｖｅｏｆＣｉｔｙＰｒｏｆｉｌｅｓ［Ｊ］．ＤａｔａＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，２０１９，３（１２）：４１－５１．）
ＡｎａｌｙｓｉｓａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，２０２０，４（４）：ｌ５—２６．）【１７］梁晨晨，李仁杰．综合ＬＤＡ与特征维度的丽江古城意象感知分

［８】岳铁骐，傅友斐，徐健．基于招聘广告的岗位人才需求分析框析【Ｊ】．地理科学进展，２０２０，３９（４）：６１４—６２６．（ＬｉａｎｇＣｈｅｎｃｈｅｎ，Ｌｉ
架构建与实证研究［Ｊ］．数据分析与知识发现，２０２２，６（２／３）：１５１．Ｒｅｎｊｉｅ．ＴｏｕｒｉｓｍＤｅｓｔｉｎａｔｉｏｎＩｍａｇｅＰｅｒｃｅｐｔｉｏｎＡｎａｌｙｓｉｓＢａｓｅｄｏｎ
１６６．（ＹｕｅＴｉｅｑｉ，ＦｕＹｏｕｆｅｉ，ＸｕＪｉａｎ．ＡｎＡｎａｌｙｓｉｓＦｒａｍｅｗｏｒｋｆｏｒｔｈｅＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎＭｏｄｅｌａｎｄＤｏｍｉｎａｎｔＳｅｍａｎｔｉｃ
ＪｏｂＤｅｍａｎｄｓｆｒｏｍＪｏｂＰｏｓｔｉｎｇｓ［Ｊ］．ＤａｔａＡｎａｌｙｓｉｓａｎｄＤｉｍｅｎｓｉｏｎｓ：ＡＣａｓｅｏｆｔｈｅＯｌｄＴｏｗｎｏｆＬｉｊｉａｎｇ［Ｊ］．Ｐｒｏｇｒｅｓｓｉｎ
ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，２０２２，６（２／３）：１５１－１６６．）Ｇｅｏｇｒａｐｈｙ，２０２０，３９（４）：６１４・６２６．）
［９】池毛毛，潘美钰，王伟军．共享住宿与酒店用户评论文本的跨［１８】ＰｅｎｇＸ，ＢａｏＹ，Ｈｕａｎｇｚ．ＰｅｒｃｅｉｖｉｎｇＢｅｉｊｉｎｇ’ｓ”ＣｉｔｙＩｍａｇｅ”
平台比较研究：基于ＬＤＡ的主题社会网络和情感分析［Ｊ】．图书ＡｃｒｏｓｓＤｉｆｆｅｒｅｎｔＧｒｏｕｐｓＢａｓｅｄｏｎＧｅｏｔａｇｇｅｄＳｏｃｉａｌＭｅｄｉａＤａｔａ
情报工作，２０２１，６５（２）：１０７．１１６．（ＣｈｉＭａｏｍａｏ，ＰａｎＭｅｉｙｕ，叭ＩＥＥＥＡｃｃｅｓｓ，２０２０，８：９３８６８・９３８８１．

ＷａｎｇＷｅｉｊｕｎ．ＡＣｒｏｓｓ—ＰｌａｔｆｏｒｍＣｏｍｐａｒａｔｉｖｅＳｔｕｄｙｏｆＲｅｖｉｅｗｓ【１９】李纲，陈婧，程明结，等．基于意见挖掘的城市形象网络监测系
ｏｎＳｈａｒｉｎｇＡｃｃｏｍｍｏｄａｔｉｏｎａｎｄＨｏｔｅｌｓＲｅｓｅｒｖａｔｉｏｎＰｌａｔｆｏｒｍ：统初探【Ｊ】．现代图书情报技术，２０１０（２）：５６．６２．（ＬｉＧａｎｇ，Ｃｈｅｎ
ＣｏｍｂｉｎｅｄｗｉｔｈＬＤＡ－ＳＮＡａｎｄＳｅｎｔｉｍｅｎｔＡｎａｌｙｓｉｓ［Ｊ］．ＬｉｂｒａｒｙＪｉｎｇ，ＣｈｅｎｇＭｉｎｇｊｉｅ，ｅｔａ１．ＳｔｕｄｙｏｎｔｈｅＣｉｔｙＩｍａｇｅＮｅｔｗｏｒｋ
ａｎｄＩｎｆｏｒｍａｔｉｏｎＳｅｒｖｉｃｅ，２０２１，６５（２）：１０７・１１６．）ＭｏｎｉｔｏｒｉｎｇＳｙｓｔｅｍＢａｓｅｄｏｎＯｐｉｎｉｏｎ－Ｍｉｎｉｎｇ［Ｊ］．Ｎｅｗ

【１０］叶光辉，王灿灿，李松烨．基于ＳｃｉＴＳ会议文本的跨学科科研协ＴｅｃｈｎｏｌｏｇｙｏｆＬｉｂｒａｒｙａｎｄＩｎｆｏｒｍａｔｉｏｎＳｅｒｖｉｃｅ，２０１０（２）：５６－６２．）
作新兴主题识别及预测［Ｊ】情报科学，２０２２，４０（７）：１２６．１３５．（ｒｅ【２０】李尔尘．浅谈城市形象识别【Ｊ］．广东轻工职业技术学院学报，
Ｇｕａｎｇｈｕｉ，ＷａｎｇＣａｎｃａｎ，ＬｉＳｏｎｇｙｅ．ＲｅｃｏｇｎｉｔｉｏｎａｎｄＰｒｅｄｉｃｔｉｏｎ２００７，６（１）：７７—８０．（ＬｉＥｒｃｈｅｎ．ＳｔｕｄｙｏｎｔｈｅＩｄｅｎｔｉｔｙｏｆＣｉｔｙＩｍａｇｅ
ｏｆＥｍｅｒｇｉｎｇＴｏｐｉｃｓｉｎＩｎｔｅｒｄｉｓｃｉｐｌｉｎａｒｙＳｃｉｅｎｔｉｆｉｃＲｅｓｅａｒｃｈ【Ｊ】．ＪｏｕｒｎａｌｏｆＧｕａｎｇｄｏｎｇＩｎｄｕｓｔｒｙＴｅｃｈｎｉｃａｌＣｏｌｌｅｇｅ，２００７，６
ＣｏｌｌａｂｏｒａｔｉｏｎＢａｓｅｄｏｎＳｃｉＴＳＣｏｎｆｅｒｅｎｃｅＴｅｘｔ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎ（１）：７７＿８０．）
Ｓｃｉｅｎｃｅ，２０２２，４０（７）：１２６・１３５．）［２１】王杨，许闪闪，李昌，等．基于支持向量机的中文极短文本分类

【１ｌ】郝超，裘杭萍，孙毅，等．多标签文本分类研究进展【Ｊ］．计算机模型【Ｊ］．计算机应用研究，２０２０，３７（２）：３４７．３５０．（ＷａｎｇＹａｎｇ，
工程与应用，２０２１，５７（１０）：４８－５６．（ＨａｏＣｈａｏ，ＱｉｕＨａｎｇｐｉｎｇ，ＸｕＳｈａｎｓｈａｎ，ＬｉＣｈａｎｇ，ｅｔａ１．ＣｌａｓｓｉｆｉｃａｔｉｏｎＭｏｄｅｌＢａｓｅｄｏｎ
ＳｕｎＹｉ，ｅｔａ１．ＲｅｓｅａｒｃｈＰｒｏｇｒｅｓｓｏｆＭｕｌｔｉ—ＬａｂｅｌＴｅｘｔＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｆｏｒＣｈｉｎｅｓｅＥｘｔｒｅｍｅｌｙＳｈｏｒｔＴｅｘｔ［Ｊ］．
Ｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎｓ，２０２１，ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ，２０２０，３７（２）：３４７－３５０．）
５７（１０）：４８・５６．）【２２］张航．基于朴素贝叶斯的中文文本分类及Ｐｙｔｈｏｎ实现【Ｄ］．济
【１２】陈胜远．基于深度学习的面向多标签数据的文本分类方法研南：山东师范大学，２０１８．（ＺｈａｎｇＨａｎｇ．ＣｈｉｎｅｓｅＴｅｘｔ
究【Ｄ】．成都：电子科技大学，２０２１．（ＣｈｅｎＳｈｅｎｇｙｕａｎ．ＲｅｓｅａｒｃｈＣｌａｓｓｉｆｉｃａｔｉｏｎＢａｓｅｄｏｎＮａｉｖｅＢａｙｅｓａｎｄＩｔｓＰｙｔｈｏｎ
ｏｎＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎＭｅｔｈｏｄｆｏｒＭｕｌｔｉ．ＬａｂｅｌＤａｔａＢａｓｅｄｏｎＩｍｐｌｅｍｅｎｔａｔｉｏｎ【Ｄ】．Ｊｉｎａｎ：ＳｈａｎｄｏｎｇＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，２０１８．）
ＤｅｅｐＬｅａｒｎｉｎｇ［Ｄ］．Ｃｈｅｎｇｄｕ：ＵｎｉｖｅｒｓｉｔｙｏｆＥｌｅｃｔｒｏｎｉｃＳｃｉｅｎｃｅ【２３］ＫｉｍＹＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓｆｏｒＳｅｎｔｅｎｃｅ
ａｎｄＴｅｃｈｎｏｌｏｇｙｏｆＣｈｉｎａ，２０２１．）Ｃｌａｓｓｉｆｉｃａｔｉｏｎ【０Ｌ】．ａｒＸｉｖＰｒｅｐｒｉｎｔ，ａｒＸｉｖ：１４０８．５８８２．
【１３】严玲，周作建，宋懿花，等．基于ＭＬ－ｋＮＮ多标记学习的中医体【２４］ＺｈａｎｇＭＬ，ＺｈｏｕＺＨ．ＭＬ—ＫＮＮ：ＡＬａｚｙＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈｔｏ
质辨识模型研究【Ｊ】．世界科学技术．中医药现代化，２０２０，２２Ｍｕｌｔｉ－ＬａｂｅｌＬｅａｒｎｉｎｇ［Ｊ］．ＰａｔｔｅｍＲｅｃｏｇｎｉｔｉｏｎ，２００７，４０（７）：２０３８－
（１０）：３５５８—３５６２，（ＹａｎＬｉｎｇ，ＺｈｏｕＺｕｏｊｉａｎ，ＳｏｎｇＹｉｈｕａ，ｅｔａ１．２０４８．
ｏｎｔｈｅＩｄｅｎｔｉｆｉｃａｔｉｏｎＭｏｄｅｌｏｆＴｒａｄｉｔｉｏｎａｌＣｈｉｎｅｓｅ［２５］ＤａｉＬ，ｚｈ绷ｇＪ，ＬｉＣＤ，ｅｔａ１．Ｍｕｌｔｉ—ＬａｂｅｌＦｅａｔｕｒｅＳｅｌｅｃｔｉｏｎｗｉｔｈ
Ｓｔｕｄｙ
ＭｅｄｉｃｉｎｅＣｏｎｓｔｉｔｕｔｉｏｎｓＢａｓｅｄｏｎＭＬ・ｋＮＮＭｕｌｔｉ－ＬａｂｅｌＬｅａｒｎｉｎｇＡｐｐｌｉｃａｔｉｏｎｔｏＴＣＭＳｔａｔｅＩｄｅｎｔｉｆｉｃａｔｉｏｎ［Ｊ］．Ｃｏｎｃｕｒｒｅｎｃｙａｎｄ
【Ｊ］．ＭｏｄｅｒｎｉｚａｔｉｏｎｏｆＴｒａｄｉｔｉｏｎａｌＣｈｉｎｅｓｅＭｅｄｉｃｉｎｅａｎｄＭａｔｅｒｉａＣｏｍｐｕｔａｔｉｏｎ：ＰｒａｃｔｉｃｅａｎｄＥｘｐｅｒｉｅｎｃｅ，２０１９，３１（２３）：ｅ４６３４．
Ｍｅｄｉｃａ—ＷｏｒｌｄＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，２０２０，２２（１０）：３５５８－［２６】ＬｉｎＷＺ，ＦａｎｇＪＮ，ＸｉａｏＸ，ｅｔａ１．ＩＬｏｃ—Ａｎｉｍａｌ：ＡＭｕｌｔｉ—Ｌａｂｅｌ
３５６２．）ＬｅａｒｎｉｎｇＣｌａｓｓｉｆｉｅｒｆｏｒＰｒｅｄｉｃｔｉｎｇＳｕｂｃｅｌｌｕｌａｒＬｏｃａｌｉｚａｔｉｏｎｏｆ
【１４】ＷｏｎｇＣＵＩ，ＱｉＳＳ．ＴｒａｃｋｉｎｇｔｈｅＥｖｏｌｕｔｉｏｎｏｆａＤｅｓｔｉｎａｔｉｏｎ７ｓＡｎｉｍａｌＰｒｏｔｅｉｎｓ［Ｊ］．ＭｏｌｅｃｕｌａｒＢｉｏＳｙｓｔｅｍｓ，２０１３，９（４）：６３４—６４４．
ＩｍａｇｅｂｙＴｅｘｔ・ＭｉｎｉｎｇＯｎｌｉｎｅＲｅｖｉｅｗｓ—ＴｈｅＣａｓｅｏｆＭａｃａｕ［Ｊ］．［２７】岳丽媛，张增一．“ＰＸ”风险何以持续争议——基于微博和知乎

ＴｏｕｒｉｓｍＭａｎａｇｅｍｅｎｔＰｅｒｓｐｅｃｔｉｖｅｓ，２０１７，２３：１９—２９．文本的公众话语分析［Ｊ】．自然辩证法通讯，２０１９，４１（６）：８５—９１．
ＤａｔａＡｎａｌｙｓｌｓａｉｎｄＫｎ。ｗｌｅｄｇｅＤｉｓｃ。ｖｅｒｙ皿

万方数据
（ＹｕｅＬｉｙｕａｎ，ＺｈａｎｇＺｅｎｇｙｉ．Ｗｈｙｔｈｅ“ＰＸ”ＣｏｎｔｉｎｕｅｓｔｏＣａｕｓｅＵｎｉｖｅｒｓｉｔｙ，２０１０．）
Ｃｏｎｔｒｏｖｅｒｓｙ：ＡＰｕｂｌｉｃＤｉｓｃｏｕｒｓｅＡｎａｌｙｓｉｓｏｆｔｈｅＴｅｘｔｓｆｒｏｍＳｉｎａ
Ｍｉｃｒｏ－ＢｌｏｇｓａｎｄｔｈｅＱ＆ＡＷｅｂｓｉｔｅＺｈｉｈｕ［Ｊ］．Ｊｏｕｒｎａｌｏｆ
ＤｉａｌｅｃｔｉｃｓｏｆＮａｔｕｒｅ，２０１９，４１（６）：８５—９１．）
叶光辉：拟定题目及提出思路，提出论文修改意见
【２８】李昌兵，赵玲，李晓光，等．基于ＴＦ．ＩＤＦＪＪＩ］权的卷积神经网络文
李松烨：论文框架设计，论文撰写与修改；
本情感分类模型【Ｊ】．重庆理工大学学报（自然科学），２０２１，３５
宋孝英：数据处理。
（１１）：１０９—１１５．（ＬｉＣｈａｎｇｂｉｎｇ，ＺｈａｏＬｉｎｇ，ＬｉＸｉａｏｇｕａｎｇ，ｅｔａ１．
ＴｅｘｔＳｅｎｔｉｍｅｎｔＣｌａｓｓｉｆｉｃａｔｉｏｎＭｏｄｅｌＢａｓｅｄｏｎＴＦ—ＩＤＦＷｅｉｇｈｔｅｄ
ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｏｎｇｑｉｎｇＵｎｉｖｅｒｓｉｔｙ
ｏｆＴｅｃｈｎｏｌｏｇｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅ），２０２１，３５（１１）：１０９－１１５．）所有作者声明不存在利益冲突关系。

【２９］刘炜，王旭，张雨嘉，等．一种面向突发事件的文本语料自动标
注方法［Ｊ］中文信息学报，２０１７，３ｌ（２）：７６—８５．（ＬｉｕＷｅｉ，Ｗａｎｇ
Ｘｕ，ＺｈａｎｇＹｕｊｉａ，ｅｔａ１．ＡｎＡｕｔｏｍａｔｉｃ－ＡｎｎｏｔａｔｉｏｎＭｅｔｈｏｄｆｏｒ
ＥｍｅｒｇｅｎｃｙＴｅｘｔＣｏｒｐｕｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎ［１］李松烨．知乎武汉印象文本数据集．ｚｉｐ．ｈｔｔｐｓ：／／ｗｗｗ．ｓｃｉｄｂ．ｏｎ／ｓ／

６ｚｙｌＶｖ．
Ｐｒｏｃｅｓｓｉｎｇ，２０１７，３ｌ（２）：７６－８５．）
［３０］李济洪．汉语框架语义角色的自动标注技术研究［Ｄ】．太原：山
收稿日期：２０２２．０６．３０
西大学，２０１０．（ＬｉＪｉｈｏｎｇ．ＲｅｓｅａｒｃｈｏｎＴｅｃｈｎｉｑｕｅｓｏｆＡｕｔｏｍａｔｉｃ
收修改稿日期：２０２２．０８．２９
ＳｅｍａｔｉｃＲｏｌｅＬａｂｅｌｉｎｇｏｆＣｈｉｎｅｓｅＦｒａｍｅＮｅｔ［Ｄ］．Ｔａｉｙｕａｎ：Ｓｈａｎｘｉ
ＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎＭｅｔｈｏｄｆｏｒＵｒｂａｎＰｏｒｔｒａｉｔＢａｓｅｄｏｎＭｕｌｔｉ．Ｌａｂｅｌ

ＡｎｎｏｔａｔｉｏｎＬｅａｒｎｉｎｇ
ＹｅＧｕａｎｇｈｕｉＬｉＳｏｎｇｙｅＳｏｎｇＸｉａｏｙｉｎｇ
（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＭａｎａｇｅｍｅｎｔ，ＣｅｎｔｒａｌＣｈｉｎａＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｗｕｈａｎ４３００７９，Ｃｈｉｎａ）
Ａｂｓｔｒａｃｔ：［Ｏｂｊｅｃｔｉｖｅ］Ｔｈｅｓｔｕｄｙｕｓｅｓｍａｃｈｉｎｅｌｅａｒｎｉｎｇｔｅｃｈｎｏｌｏｇｙｔｏａｎａｌｙｚｅａｎｄｏｂｔａｉｎｍｕｌｔｉ—ｌａｂｅｌｓｆｏｒｌｏｎｇ
ｓｏｃｉａｌｔｅｘｔｓ，ａｉｍｉｎｇｔｏｐｒｏｖｉｄｅｎｅｗｉｄｅａｓｆｏｒｕｒｂａｎｐｏｒｔｒａｉｔｔｅｘｔａｎａｌｙｓｉｓａｎｄｏｔｈｅｒｒｅｌａｔｅｄｓｔｕｄｉｅｓ．Ｉｔａｄｄｒｅｓｓｅｓｔｈｅ
ｐｒｏｂｌｅｍｓｆａｃｉｎｇｕｒｂａｎｄａｔａｐｏｒｔｒａｉｔａｎａｌｙｓｉｓ，ｓｕｃｈａｓｕｎｓｔｒｕｃｔｕｒｅｄ，ｄｉｆｆｅｒｅｎｔｌｅｎｇｔｈｓ，ａｎｄｎｏｎ－ｓｉｎｇｕｌａｒｔｏｐｉｃｓｉｎ
ｒｅｌｅｖａｎｔａｎａｌｙｓｉｓｔｅｘｔｓ．［Ｍｅｔｈｏｄｓ】ＷｅｒｅｔｒｉｅｖｅｄｓｏｃｉａｌｍｅｄｉａｔｅｘｔｓｏｎｕｒｂａｎｉｍｐｒｅｓｓｉｏｎｓｆｒｏｍｔｈｅＺｈｉｈｕｐｌａｔｆｏｒｎｌ
ａｎｄｐｅｒｆｏｒｍｅｄｓｅｎｔｅｎｃｅｓｅｇｍｅｎｔａｔｉｏｎａｎｄｎｏｉｓｅｒｅｄｕｃｔｉｏｎｐｒｏｃｅｓｓｉｎｇｏｎｔｈｅｔｅｘｔｓ．Ｔｈｅｎ，ｗｅｍａｎｕａｌｌｙａｎｎｏｔａｔｅｄ
ｓｏｍｅｔｅｘｔｓｕｓｉｎｇｔｈｅｅｘｉｓｔｉｎｇｕｒｂａｎｐｏｒｔｒａｉｔａｎｎｏｔａｔｉｏｎｆｒａｍｅｗｏｒｋ．Ｎｅｘｔ，ｗｅｔｒａｉｎｅｄｔｈｅｓｕｐｐｏｒｔｖｅｃｔｏｒ
ｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ａｎｄＮａｉｖｅＢａｙｅｓｉａｎａｎｄｃｏｍｐｒｅｈｅｎｓｉｖｅｌｙｅｖａｌｕａｔｅｄｔｈｅｉｒ
ｐｅｒｆｏｒｍａｎｃｅ．Ｗｅｕｓｅｄｔｈｅｏｐｔｉｍａｌｍｏｄｅｌｔｏｏｂｔａｉｎａｌｌｌａｂｅｌｓｆｏｒｌｏｎｇｔｅｘｔｓ．ａｎｄｕｔｉｌｉｚｅｄｔｈｅＭＬ—ｋＮＮｍｕｌｔｉ．１ａｂｅｌ
ｌｅａｒｎｉｎｇｍｏｄｅｌｆｏｒｔｒａｉｎｉｎｇａｍｕｌｔｉ—ｌａｂｅｌｓｏｃｉａｌｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌ．［Ｒｅｓｕｌｔｓ］Ｒｅｇａｒｄｉｎｇｔｈｅｓｉｎｇｌｅ－ｌａｂｅｌｔｅｘｔ
ｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌ，ｔｈｅｓｕｐｐｏｒｔｖｅｃｔｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌｈａｄｔｈｅｂｅｓｔｏｖｅｒａｌｌｐｅｒｆｏｒｍａｎｃｅ，ｗｉｔｈａｎ
ａｃｃｕｒａｃｙ
ｒａｔｅｏｆ０．６９００ｆｏｒｓｈｏｒｔｔｅｘｔｌａｂｅｌｉｎｇ．ＵｓｉｎｇＭＬ—ｋＮＮｔｏｂｕｉｌｄａｍｕｌｔｉ．１ａｂｅｌｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌ．ｔｈｅｈｉｇｈｅｓｔ
ａｃｃｕｒａｃｙｒａｔｅｒｅａｃｈｅｄＯ．８１０３，ａｎｄｔｈｅａｖｅｒａｇｅＨａｍｍｉｎｇｌｏｓｓｗａｓ０．０３５３．［Ｌｉｍｉｔａｔｉｏｎｓ］Ｔｈｅｉｍｐａｃｔｏｆｔｅｘｔｕａｌ
ｃｏｎｔｅｘｔｏｎｔｏｐｉｃｃｌａｓｓｉｆｉｃａｔｉｏｎｎｅｅｄｅｄｔｏｂｅｆｕｌｌｙｃｏｎｓｉｄｅｒｅｄ．［Ｃｏｎｃｌｕｓｉｏｎｓ］Ｂａｓｅｄｏｎｔｈｅｌｏｎｇｓｏｃｉａｌｔｅｘｔｄａｔａｏｎ
ｔｈｅＺｈｉｈｕｐｌａｔｆｏｒｍ，ｔｈｅｐｒｏｐｏｓｅｄｍｕｌｔｉ－ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌｃａｎ

ｅｆｆｅｃｔｉｖｅｌｙｉｄｅｎｔｉｆｙｍｕｌｔｉｐｌｅｌａｂｅｌｓｆｏｒｓｏｃｉａｌ
ｌｏｎｇｔｅｘｔｓｏｎｔｈｅｕｒｂａｎｐｏｒｔｒａｉｔ．
Ｋｅｙｗｏｒｄｓ：Ｍｕｌｔｉ－ＬａｂｅｌＣｉｔｙＩｍａｇｅＳｏｃｉａｌＴｅｘｔＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎＭＬ—ｋＮＮ
Ｉ函数据分析与知识发现
万方数据

基于多标签标注学习的城市画像文本分类方法研究

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于多标签标注学习的城市画像文本分类方法研究

Uploaded by

Copyright:

Available Formats

基于多标签标注学习的城市画像文本分类方法

Ｄａｔａ Ａｎａｌｙｓｉｓ ａｎｄ Ｋｎ。ｗｌｅｄｇｅ ＤｉｓｃｏＶｅｒｙ皿

气候状况 气候变化、季节时长、天气温度、天气湿度 在实证分析方面，本文利用知乎平台获取用户

…居住感受 生活节奏、宜居程度、生活气息、幸福指数 会不断更新问题的答案，这也可以为模型后续扩展

Ｄａｔａ Ａｎａｌｙｓｉｓａｎｄ Ｋｎ。ｗｌｅｄｇｅ Ｄｉｓｃ。ｖｅｒｙ皿

Ｆｉｇ．１ Ｒｅｓｅａｒｃｈ Ｆｒａｍｅｗｏｒｋ

据量为３００ ０５４条。 数。计算方法如公式（１）一公式（３）所示。

降噪。对所有数据完成降噪操作后，噪声数据或虚 练，最高的Ａｃｃｕｒａｃｙ仅有０．５１５ ０，是支持向量机分

假数据的数据量为１２８ １０２，比例为４２．６９％，与人工 类模型的结果，而朴素贝叶斯和卷积神经网络模型

标注的结果基本一致，并且从降噪的结果中可以看 的Ａｃｃｕｒａｃｙ分别只有０．４５０ ０和０．４８８ ７，结果很不理

Ｄａｔａ Ａｎａｌｙｓｉｓａｎｄ Ｋｎｏｗｌｅｄｇｅ Ｄｉｓｃ。ｖｅｒｙ固

Ｔａｂｌｅ ５ Ｔｒａｎｓｆｏｒｍａｔｉｏｎ Ｒｅｌａｔｉｏｎｓｈｉｐ ｏｆ Ｌａｂｅｌ Ｃｏｎｔｅｎｔ

娱乐 ０．５７２ ８ ０．５７０ ０ ０．５７ｌ ４ ４１４

居住感受 Ｏ．１４３ ７ Ｏ．１７８ ３ Ｏ．１５９ ２ １２９ （１）模型训练

教育 Ｏ．５７１ ４ Ｏ．５９１ ５ Ｏ．５８１ ３ １４２

贫富差距 ０．０００ ０ ０．０００ ０ ０．０００ ０ ２ Ａｃｃｕｒａｃｙ基本都在６８％左右，其中一次训练的结果

交通 Ｏ．６３５ ８ ０．６５８ ９ Ｏ．６４７ ２ ３０２

娱乐 Ｏ．６１６ ３ Ｏ．５０２ ５ Ｏ．５５３ ６ ４０６ 交通 ０．６６ｌ ９ Ｏ．６１５ ９ ０．６３８ １ ３０２

整体 ０．７２０ ９ ０．７９１ ５ ０．７５４ ６ １ ８８０ 娱乐 ０．６１７ ５ ０．５５６ ７ ０．５８５ ５ ４０６

文化 ０．４５ｌ ０ ０．４４３ ｌ ０．４４７ ｌ ３４３ 整体 ０．６７０ ７ ０．８４７ ３ ０．７４８ ８ １ ８８０

服务 ０．５９０ ９ Ｏ．４８７ ５ Ｏ．５３４ ２ ２４０ 文化 ０．６０７ ６ ０．４１９ ８ ０．４９６ ６ ３４３

气候 Ｏ．７７１ ９ ０．７２１ ３ Ｏ．７４５ ８ １２２ 服务 ０．７１ｌ １ ０．４００ ０ Ｏ．５１２ ０ ２４０

污染 ０．０００ ０ Ｏ．０００ ０ ０．０００ ０ １９ 气候 ０．８０８ ｌ ０．６５５ ７ ０．７２４ ０ １２２

经济 ０．７６０ １ ０．６８８ ５ ０．７２２ ５ ３８２ 污染 ０．９０９ １ ０．５２６ ３ ０．６６６ ７ １９

语言 ０．６４４ １ Ｏ．３８７ ８ ０．４８４ １ ９８ 经济 ０．８０９ ２ ０．６４４ ０ Ｏ．７１７ ２ ３８２

饮食 Ｏ．７５６ ２ ０．８】６ ５ ０．７８５ ２ ３７６ 语言 ０．７５６ ８ ０．２８５ ７ ０．４１４ ８ ９８

饮食 ０．８２６ ６ ０．７１０ １ ０．７６３ ９ ３７６

娱乐 ０．６０２ ８ Ｏ．６２６ ２ Ｏ．６１４ ３ ４０６

语言 ０．６５０ ０ ０．１５２ ９ ０．２４７ ６ ９８

Ｄａｔａ ＡｎａｌｙｓｉＳ ａｎｄ Ｋｎ。ｗｌｅｄｇｅ Ｄｉｓｃｏｖｃｒｙ囫

在ｋ＝１时，准确率最高，为Ｏ．８１０ ３，汉明损失最 面还需要进一步探索，争取可以在城市画像文本分

低，为０．０３５ ３。该结果可以证明本文得到的多标签 类领域实现新的突破。

Ｓｃｅｎｅ Ｃｌａｓｓｍｃａｔｉｏｎ［Ｊ】Ｐａｔｔｅｒｎ Ｒｅｃｏｇｎｉｔｉｏｎ，２００４，３７（９）：１ ７５７－

文本分析结果的准确率和标注质量，在同等效用的 Ｃｏｍｐａｒａｔｉｖｅ Ｓｔｕｄｙ ｏｆ Ｍｕｌｔｉ－Ｌａｂｅｌ Ｃｌａｓｓｉｆｉｃａｔｉｏｎ Ｍｅｔｈｏｄｓ［ＯＬ］．

前提下可以降低人工标注所带来的人力成本。多标 ａｒＸｉｖ Ｐｒｅｐｒｉｎｔ，ａｒＸｉｖ：２１０２．０７１１３ｖ２．

Ｃｌａｓｓｉｆｉｃａｔｉｏｎ ｖｉａ Ｃａｌｉｂｒａｔｅｄ Ｌａｂｅｌ Ｒａｎｋｉｎｇ［Ｊ］．Ｍａｃｈｉｎｅ

城市画像每个特征标识的时间戳，通过城市画像时 Ｃｏｎｆｅｒｅｎｃｅ ｏｎ Ｒｅｓｅａｒｃｈ ａｎｄ Ｄｅｖｅｌｏｐｍｅｎｔ ｉｎ Ｉｎｆｏｒｍａｔｉｏｎ

序分析，可动态展现不同分面公众认知的演进过程， Ｒｅｔｒｉｅｖａｌ．Ｎｅｗ Ｙｏｒｋ：ＡＣＭ．２０１０：３１５－３２２．

【５】 Ｃａｍｂｒｉａ Ｅ，Ｏｌｓｈｅｒ Ｄ，Ｒａｊａｇｏｐａｌ Ｄ．ＳｅｎｔｉｃＮｅｔ ３：Ａ Ｃｏｍｍｏｎ ａｎｄ

众的认知情感，借助情感词典和极性分析可获取公 ［６】 毕崇武，叶光辉，胡婧岚，等．城市画像视角下的热点城市特征

识别方法研究［Ｊ】现代情报，２０２０，４０（４）：１３．２２．（Ｂｉ Ｃｈｏｎｇｗｕ， 【１５］Ｌｉｕ Ｌ，Ｚｈｏｕ Ｂ Ｌ，Ｚｈａｏ Ｊ Ｈ，ｅｔ ａ１．Ｃ－ＩＭＡＧＥ：Ｃｉｔｙ Ｃｏｇｎｉｔｉｖｅ

Ｓｅｎｔｉｍｅｎｔｓ ｆｒｏｍ ｔｈｅ Ｐｅｒｓｐｅｃｔｉｖｅ ｏｆ Ｃｉｔｙ Ｐｒｏｆｉｌｅｓ［Ｊ］．Ｄａｔａ Ｋｎｏｗｌｅｄｇｅ Ｄｉｓｃｏｖｅｒｙ，２０１９，３（１２）：４１－５１．）

Ａｎａｌｙｓｉｓ ａｎｄ Ｋｎｏｗｌｅｄｇｅ Ｄｉｓｃｏｖｅｒｙ，２０２０，４（４）：ｌ ５—２６．） 【１７］梁晨晨，李仁杰．综合ＬＤＡ与特征维度的丽江古城意象感知分

架构建与实证研究［Ｊ］．数据分析与知识发现，２０２２，６（２／３）：１５１． Ｒｅｎｊｉｅ．Ｔｏｕｒｉｓｍ Ｄｅｓｔｉｎａｔｉｏｎ Ｉｍａｇｅ Ｐｅｒｃｅｐｔｉｏｎ Ａｎａｌｙｓｉｓ Ｂａｓｅｄ ｏｎ

Ｋｎｏｗｌｅｄｇｅ Ｄｉｓｃｏｖｅｒｙ，２０２２，６（２／３）：１５１－１６６．） Ｇｅｏｇｒａｐｈｙ，２０２０，３９（４）：６１４・６２６．）

［９】 池毛毛，潘美钰，王伟军．共享住宿与酒店用户评论文本的跨 ［１ ８】Ｐｅｎｇ Ｘ，Ｂａｏ Ｙ，Ｈｕａｎｇ ｚ．Ｐｅｒｃｅｉｖｉｎｇ Ｂｅｉｊｉｎｇ’ｓ”Ｃｉｔｙ Ｉｍａｇｅ”

平台比较研究：基于ＬＤＡ的主题社会网络和情感分析［Ｊ】．图书 Ａｃｒｏｓｓ Ｄｉｆｆｅｒｅｎｔ Ｇｒｏｕｐｓ Ｂａｓｅｄ ｏｎ Ｇｅｏｔａｇｇｅｄ Ｓｏｃｉａｌ Ｍｅｄｉａ Ｄａｔａ

情报工作，２０２１，６５（２）：１０７．１１６．（Ｃｈｉ Ｍａｏｍａｏ，Ｐａｎ Ｍｅｉｙｕ， 叭ＩＥＥＥ Ａｃｃｅｓｓ，２０２０，８：９３８６８・９３８８ １．

ａｎｄ Ｉｎｆｏｒｍａｔｉｏｎ Ｓｅｒｖｉｃｅ，２０２１，６５（２）：１０７・１１６．） Ｍｏｎｉｔｏｒｉｎｇ Ｓｙｓｔｅｍ Ｂａｓｅｄ ｏｎ Ｏｐｉｎｉｏｎ－Ｍｉｎｉｎｇ［Ｊ］．Ｎｅｗ

Ｃｏｌｌａｂｏｒａｔｉｏｎ Ｂａｓｅｄ ｏｎ ＳｃｉＴＳ Ｃｏｎｆｅｒｅｎｃｅ Ｔｅｘｔ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎ （１）：７７＿８０．）

Ｓｃｉｅｎｃｅ，２０２２，４０（７）：１ ２６・１ ３５．） ［２１】王杨，许闪闪，李昌，等．基于支持向量机的中文极短文本分类

工程与应用，２０２１，５７（１０）：４８－５６．（Ｈａｏ Ｃｈａｏ，Ｑｉｕ Ｈａｎｇｐｉｎｇ， Ｘｕ Ｓｈａｎｓｈａｎ，Ｌｉ Ｃｈａｎｇ，ｅｔ ａ１．Ｃｌａｓｓｉｆｉｃａｔｉｏｎ Ｍｏｄｅｌ Ｂａｓｅｄ ｏｎ

【１２】陈胜远．基于深度学习的面向多标签数据的文本分类方法研 南：山东师范大学，２０１８．（Ｚｈａｎｇ Ｈａｎｇ．Ｃｈｉｎｅｓｅ Ｔｅｘｔ

究【Ｄ】．成都：电子科技大学，２０２１．（Ｃｈｅｎ Ｓｈｅｎｇｙｕａｎ．Ｒｅｓｅａｒｃｈ Ｃｌａｓｓｉｆｉｃａｔｉｏｎ Ｂａｓｅｄ ｏｎ Ｎａｉｖｅ Ｂａｙｅｓ ａｎｄ Ｉｔｓ Ｐｙｔｈｏｎ

ａｎｄ Ｔｅｃｈｎｏｌｏｇｙ ｏｆ Ｃｈｉｎａ，２０２ １．） Ｃｌａｓｓｉｆｉｃａｔｉｏｎ【０Ｌ】．ａｒＸｉｖ Ｐｒｅｐｒｉｎｔ，ａｒＸｉｖ：１４０８．５８８２．

【１３】严玲，周作建，宋懿花，等．基于ＭＬ－ｋＮＮ多标记学习的中医体 【２４］Ｚｈａｎｇ Ｍ Ｌ，Ｚｈｏｕ Ｚ Ｈ．ＭＬ—ＫＮＮ：Ａ Ｌａｚｙ Ｌｅａｒｎｉｎｇ Ａｐｐｒｏａｃｈ ｔｏ

质辨识模型研究【Ｊ】．世界科学技术．中医药现代化，２０２０，２２ Ｍｕｌｔｉ－Ｌａｂｅｌ Ｌｅａｒｎｉｎｇ［Ｊ］．Ｐａｔｔｅｍ Ｒｅｃｏｇｎｉｔｉｏｎ，２００７，４０（７）：２０３８－

（１０）：３５５８—３５６２，（Ｙａｎ Ｌｉｎｇ，Ｚｈｏｕ Ｚｕｏｊｉａｎ，Ｓｏｎｇ Ｙｉｈｕａ，ｅｔ ａ１． ２０４８．

３５６２．） Ｌｅａｒｎｉｎｇ Ｃｌａｓｓｉｆｉｅｒ ｆｏｒ Ｐｒｅｄｉｃｔｉｎｇ Ｓｕｂｃｅｌｌｕｌａｒ Ｌｏｃａｌｉｚａｔｉｏｎ ｏｆ

Ｉｍａｇｅ ｂｙ Ｔｅｘｔ・Ｍｉｎｉｎｇ Ｏｎｌｉｎｅ Ｒｅｖｉｅｗｓ—Ｔｈｅ Ｃａｓｅ ｏｆ Ｍａｃａｕ［Ｊ］． ［２７】岳丽媛，张增一．“ＰＸ”风险何以持续争议——基于微博和知乎

Ｄａｔａ Ａｎａｌｙｓｌｓａｉ ｎｄ Ｋｎ。ｗｌｅｄｇｅ Ｄｉｓｃ。ｖｅｒｙ皿

Ｃｏｎｔｒｏｖｅｒｓｙ：Ａ Ｐｕｂｌｉｃ Ｄｉｓｃｏｕｒｓｅ Ａｎａｌｙｓｉｓ ｏｆ ｔｈｅ Ｔｅｘｔｓ ｆｒｏｍ Ｓｉｎａ

Ｍｉｃｒｏ－Ｂｌｏｇｓ ａｎｄ ｔｈｅ Ｑ＆Ａ Ｗｅｂｓｉｔｅ Ｚｈｉｈｕ［Ｊ］．Ｊｏｕｒｎａｌ ｏｆ

Ｔｅｘｔ Ｓｅｎｔｉｍｅｎｔ Ｃｌａｓｓｉｆｉｃａｔｉｏｎ Ｍｏｄｅｌ Ｂａｓｅｄ ｏｎ ＴＦ—ＩＤＦ Ｗｅｉｇｈｔｅｄ

ＤａｔａＡｎａｌｙｓｉｓａｎｄＫｎ。ｗｌｅｄｇｅＤｉｓｃｏＶｅｒｙ皿

气候状况气候变化、季节时长、天气温度、天气湿度在实证分析方面，本文利用知乎平台获取用户

…居住感受生活节奏、宜居程度、生活气息、幸福指数会不断更新问题的答案，这也可以为模型后续扩展

ＤａｔａＡｎａｌｙｓｉｓａｎｄＫｎ。ｗｌｅｄｇｅＤｉｓｃ。ｖｅｒｙ皿

Ｆｉｇ．１ＲｅｓｅａｒｃｈＦｒａｍｅｗｏｒｋ

据量为３０００５４条。数。计算方法如公式（１）一公式（３）所示。

降噪。对所有数据完成降噪操作后，噪声数据或虚练，最高的Ａｃｃｕｒａｃｙ仅有０．５１５０，是支持向量机分

假数据的数据量为１２８１０２，比例为４２．６９％，与人工类模型的结果，而朴素贝叶斯和卷积神经网络模型

标注的结果基本一致，并且从降噪的结果中可以看的Ａｃｃｕｒａｃｙ分别只有０．４５００和０．４８８７，结果很不理

ＤａｔａＡｎａｌｙｓｉｓａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃ。ｖｅｒｙ固

Ｔａｂｌｅ５ＴｒａｎｓｆｏｒｍａｔｉｏｎＲｅｌａｔｉｏｎｓｈｉｐｏｆＬａｂｅｌＣｏｎｔｅｎｔ

娱乐０．５７２８０．５７０００．５７ｌ４４１４

居住感受Ｏ．１４３７Ｏ．１７８３Ｏ．１５９２１２９（１）模型训练

教育Ｏ．５７１４Ｏ．５９１５Ｏ．５８１３１４２

贫富差距０．０００００．０００００．００００２Ａｃｃｕｒａｃｙ基本都在６８％左右，其中一次训练的结果

交通Ｏ．６３５８０．６５８９Ｏ．６４７２３０２

娱乐Ｏ．６１６３Ｏ．５０２５Ｏ．５５３６４０６交通０．６６ｌ９Ｏ．６１５９０．６３８１３０２

整体０．７２０９０．７９１５０．７５４６１８８０娱乐０．６１７５０．５５６７０．５８５５４０６

文化０．４５ｌ００．４４３ｌ０．４４７ｌ３４３整体０．６７０７０．８４７３０．７４８８１８８０

服务０．５９０９Ｏ．４８７５Ｏ．５３４２２４０文化０．６０７６０．４１９８０．４９６６３４３

气候Ｏ．７７１９０．７２１３Ｏ．７４５８１２２服务０．７１ｌ１０．４０００Ｏ．５１２０２４０

污染０．００００Ｏ．０００００．００００１９气候０．８０８ｌ０．６５５７０．７２４０１２２

经济０．７６０１０．６８８５０．７２２５３８２污染０．９０９１０．５２６３０．６６６７１９

语言０．６４４１Ｏ．３８７８０．４８４１９８经济０．８０９２０．６４４０Ｏ．７１７２３８２

饮食Ｏ．７５６２０．８】６５０．７８５２３７６语言０．７５６８０．２８５７０．４１４８９８

饮食０．８２６６０．７１０１０．７６３９３７６

娱乐０．６０２８Ｏ．６２６２Ｏ．６１４３４０６

语言０．６５０００．１５２９０．２４７６９８

ＤａｔａＡｎａｌｙｓｉＳａｎｄＫｎ。ｗｌｅｄｇｅＤｉｓｃｏｖｃｒｙ囫

在ｋ＝１时，准确率最高，为Ｏ．８１０３，汉明损失最面还需要进一步探索，争取可以在城市画像文本分

低，为０．０３５３。该结果可以证明本文得到的多标签类领域实现新的突破。

ＳｃｅｎｅＣｌａｓｓｍｃａｔｉｏｎ［Ｊ】ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００４，３７（９）：１７５７－

文本分析结果的准确率和标注质量，在同等效用的ＣｏｍｐａｒａｔｉｖｅＳｔｕｄｙｏｆＭｕｌｔｉ－ＬａｂｅｌＣｌａｓｓｉｆｉｃａｔｉｏｎＭｅｔｈｏｄｓ［ＯＬ］．

前提下可以降低人工标注所带来的人力成本。多标ａｒＸｉｖＰｒｅｐｒｉｎｔ，ａｒＸｉｖ：２１０２．０７１１３ｖ２．

ＣｌａｓｓｉｆｉｃａｔｉｏｎｖｉａＣａｌｉｂｒａｔｅｄＬａｂｅｌＲａｎｋｉｎｇ［Ｊ］．Ｍａｃｈｉｎｅ

城市画像每个特征标识的时间戳，通过城市画像时ＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎ

序分析，可动态展现不同分面公众认知的演进过程，Ｒｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ：ＡＣＭ．２０１０：３１５－３２２．

【５】ＣａｍｂｒｉａＥ，ＯｌｓｈｅｒＤ，ＲａｊａｇｏｐａｌＤ．ＳｅｎｔｉｃＮｅｔ３：ＡＣｏｍｍｏｎａｎｄ

众的认知情感，借助情感词典和极性分析可获取公［６】毕崇武，叶光辉，胡婧岚，等．城市画像视角下的热点城市特征

识别方法研究［Ｊ】现代情报，２０２０，４０（４）：１３．２２．（ＢｉＣｈｏｎｇｗｕ，【１５］ＬｉｕＬ，ＺｈｏｕＢＬ，ＺｈａｏＪＨ，ｅｔａ１．Ｃ－ＩＭＡＧＥ：ＣｉｔｙＣｏｇｎｉｔｉｖｅ

ＳｅｎｔｉｍｅｎｔｓｆｒｏｍｔｈｅＰｅｒｓｐｅｃｔｉｖｅｏｆＣｉｔｙＰｒｏｆｉｌｅｓ［Ｊ］．ＤａｔａＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，２０１９，３（１２）：４１－５１．）

ＡｎａｌｙｓｉｓａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，２０２０，４（４）：ｌ５—２６．）【１７］梁晨晨，李仁杰．综合ＬＤＡ与特征维度的丽江古城意象感知分

架构建与实证研究［Ｊ］．数据分析与知识发现，２０２２，６（２／３）：１５１．Ｒｅｎｊｉｅ．ＴｏｕｒｉｓｍＤｅｓｔｉｎａｔｉｏｎＩｍａｇｅＰｅｒｃｅｐｔｉｏｎＡｎａｌｙｓｉｓＢａｓｅｄｏｎ

ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙ，２０２２，６（２／３）：１５１－１６６．）Ｇｅｏｇｒａｐｈｙ，２０２０，３９（４）：６１４・６２６．）

［９】池毛毛，潘美钰，王伟军．共享住宿与酒店用户评论文本的跨［１８】ＰｅｎｇＸ，ＢａｏＹ，Ｈｕａｎｇｚ．ＰｅｒｃｅｉｖｉｎｇＢｅｉｊｉｎｇ’ｓ”ＣｉｔｙＩｍａｇｅ”

平台比较研究：基于ＬＤＡ的主题社会网络和情感分析［Ｊ】．图书ＡｃｒｏｓｓＤｉｆｆｅｒｅｎｔＧｒｏｕｐｓＢａｓｅｄｏｎＧｅｏｔａｇｇｅｄＳｏｃｉａｌＭｅｄｉａＤａｔａ

情报工作，２０２１，６５（２）：１０７．１１６．（ＣｈｉＭａｏｍａｏ，ＰａｎＭｅｉｙｕ，叭ＩＥＥＥＡｃｃｅｓｓ，２０２０，８：９３８６８・９３８８１．

ａｎｄＩｎｆｏｒｍａｔｉｏｎＳｅｒｖｉｃｅ，２０２１，６５（２）：１０７・１１６．）ＭｏｎｉｔｏｒｉｎｇＳｙｓｔｅｍＢａｓｅｄｏｎＯｐｉｎｉｏｎ－Ｍｉｎｉｎｇ［Ｊ］．Ｎｅｗ

ＣｏｌｌａｂｏｒａｔｉｏｎＢａｓｅｄｏｎＳｃｉＴＳＣｏｎｆｅｒｅｎｃｅＴｅｘｔ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎ（１）：７７＿８０．）

Ｓｃｉｅｎｃｅ，２０２２，４０（７）：１２６・１３５．）［２１】王杨，许闪闪，李昌，等．基于支持向量机的中文极短文本分类

工程与应用，２０２１，５７（１０）：４８－５６．（ＨａｏＣｈａｏ，ＱｉｕＨａｎｇｐｉｎｇ，ＸｕＳｈａｎｓｈａｎ，ＬｉＣｈａｎｇ，ｅｔａ１．ＣｌａｓｓｉｆｉｃａｔｉｏｎＭｏｄｅｌＢａｓｅｄｏｎ

【１２】陈胜远．基于深度学习的面向多标签数据的文本分类方法研南：山东师范大学，２０１８．（ＺｈａｎｇＨａｎｇ．ＣｈｉｎｅｓｅＴｅｘｔ

究【Ｄ】．成都：电子科技大学，２０２１．（ＣｈｅｎＳｈｅｎｇｙｕａｎ．ＲｅｓｅａｒｃｈＣｌａｓｓｉｆｉｃａｔｉｏｎＢａｓｅｄｏｎＮａｉｖｅＢａｙｅｓａｎｄＩｔｓＰｙｔｈｏｎ

ａｎｄＴｅｃｈｎｏｌｏｇｙｏｆＣｈｉｎａ，２０２１．）Ｃｌａｓｓｉｆｉｃａｔｉｏｎ【０Ｌ】．ａｒＸｉｖＰｒｅｐｒｉｎｔ，ａｒＸｉｖ：１４０８．５８８２．

【１３】严玲，周作建，宋懿花，等．基于ＭＬ－ｋＮＮ多标记学习的中医体【２４］ＺｈａｎｇＭＬ，ＺｈｏｕＺＨ．ＭＬ—ＫＮＮ：ＡＬａｚｙＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈｔｏ

质辨识模型研究【Ｊ】．世界科学技术．中医药现代化，２０２０，２２Ｍｕｌｔｉ－ＬａｂｅｌＬｅａｒｎｉｎｇ［Ｊ］．ＰａｔｔｅｍＲｅｃｏｇｎｉｔｉｏｎ，２００７，４０（７）：２０３８－

（１０）：３５５８—３５６２，（ＹａｎＬｉｎｇ，ＺｈｏｕＺｕｏｊｉａｎ，ＳｏｎｇＹｉｈｕａ，ｅｔａ１．２０４８．

３５６２．）ＬｅａｒｎｉｎｇＣｌａｓｓｉｆｉｅｒｆｏｒＰｒｅｄｉｃｔｉｎｇＳｕｂｃｅｌｌｕｌａｒＬｏｃａｌｉｚａｔｉｏｎｏｆ

ＩｍａｇｅｂｙＴｅｘｔ・ＭｉｎｉｎｇＯｎｌｉｎｅＲｅｖｉｅｗｓ—ＴｈｅＣａｓｅｏｆＭａｃａｕ［Ｊ］．［２７】岳丽媛，张增一．“ＰＸ”风险何以持续争议——基于微博和知乎

ＤａｔａＡｎａｌｙｓｌｓａｉｎｄＫｎ。ｗｌｅｄｇｅＤｉｓｃ。ｖｅｒｙ皿

Ｃｏｎｔｒｏｖｅｒｓｙ：ＡＰｕｂｌｉｃＤｉｓｃｏｕｒｓｅＡｎａｌｙｓｉｓｏｆｔｈｅＴｅｘｔｓｆｒｏｍＳｉｎａ

Ｍｉｃｒｏ－ＢｌｏｇｓａｎｄｔｈｅＱ＆ＡＷｅｂｓｉｔｅＺｈｉｈｕ［Ｊ］．Ｊｏｕｒｎａｌｏｆ

ＴｅｘｔＳｅｎｔｉｍｅｎｔＣｌａｓｓｉｆｉｃａｔｉｏｎＭｏｄｅｌＢａｓｅｄｏｎＴＦ—ＩＤＦＷｅｉｇｈｔｅｄ

ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｏｎｇｑｉｎｇＵｎｉｖｅｒｓｉｔｙ

ｏｆＴｅｃｈｎｏｌｏｇｙ（ＮａｔｕｒａｌＳｃｉｅｎｃｅ），２０２１，３５（１１）：１０９－１１５．）所有作者声明不存在利益冲突关系。

Ｘｕ，ＺｈａｎｇＹｕｊｉａ，ｅｔａ１．ＡｎＡｕｔｏｍａｔｉｃ－ＡｎｎｏｔａｔｉｏｎＭｅｔｈｏｄｆｏｒ

ＥｍｅｒｇｅｎｃｙＴｅｘｔＣｏｒｐｕｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎ［１］李松烨．知乎武汉印象文本数据集．ｚｉｐ．ｈｔｔｐｓ：／／ｗｗｗ．ｓｃｉｄｂ．ｏｎ／ｓ／

ＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎＭｅｔｈｏｄｆｏｒＵｒｂａｎＰｏｒｔｒａｉｔＢａｓｅｄｏｎＭｕｌｔｉ．Ｌａｂｅｌ

ＹｅＧｕａｎｇｈｕｉＬｉＳｏｎｇｙｅＳｏｎｇＸｉａｏｙｉｎｇ

（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＭａｎａｇｅｍｅｎｔ，ＣｅｎｔｒａｌＣｈｉｎａＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｗｕｈａｎ４３００７９，Ｃｈｉｎａ）

ｃｌａｓｓｉｆｉｃａｔｉｏｎ，ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ａｎｄＮａｉｖｅＢａｙｅｓｉａｎａｎｄｃｏｍｐｒｅｈｅｎｓｉｖｅｌｙｅｖａｌｕａｔｅｄｔｈｅｉｒ

ｔｈｅＺｈｉｈｕｐｌａｔｆｏｒｍ，ｔｈｅｐｒｏｐｏｓｅｄｍｕｌｔｉ－ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌｃａｎ

ｌｏｎｇｔｅｘｔｓｏｎｔｈｅｕｒｂａｎｐｏｒｔｒａｉｔ．

Ｋｅｙｗｏｒｄｓ：Ｍｕｌｔｉ－ＬａｂｅｌＣｉｔｙＩｍａｇｅＳｏｃｉａｌＴｅｘｔＴｅｘｔＣｌａｓｓｉｆｉｃａｔｉｏｎＭＬ—ｋＮＮ