基于深度学习的花卉识别分类研究吴媛媛

＾
Ｖ
ｚ＇
＼Ｓｖ／
：
＇－－
Ｗ
＇
Ｍ
：
ｖ
 Ａ，
－
５Ｓ
Ｋ＇
Ｗ
 ．
ｒ 
＇
Ｖ＇
ｄ－
ｏｌ
＾
．
 ？
Ｔ
．
 ＾
．
＾＾ｆ＾－
，
．


Ａ
．
ｉ
．－
ｖ
惠
Ｔ
，
Ｖ
Ｍ

＾
？
－
「
＾

ｖ
－
ｂ ”
＊
＾
Ｓ
：
．
５
＇
：
３
＃、
＾
；
，

 ？
？

ｉ
ｖ 
－
  ＇
＾
类
？
ｒ
ｉ一



＇
．
：
？
ｒ
．
＇
晉
？？
：
．
二
 
  －

ｖ
＿
，
％
备
．
．
ｋ
）
７／
－
＃
＃
ｃｆ
．
 ％＞

ｒ
，


＼
，
ｒ＾ 
ｗ
：
．
－
＾
ｒ：昏  ．－
／

．
、
Ｋ－


ｒ
議Ｖ
－
－
券
：



■
．

■ 
．
々
Ｖ
？

．
錢
－
［ｒｖ．



＃
ｕ
；

－
：： 
：
：：ｉ
．


？ 

－


：
＾


場 

．
．
．
分类号：密级：
U D C：学号： 6 7 2 0 1 9 0 5 2 9
硕士学位论文
基于深度学习的花卉识别分类研究
Research on Flower Recognition and Classification based on
Deep Learning
学位类别：工程硕士
作者姓名：吴媛媛
学科、专业：工学控制工程
研究方向：图像分类
指导教师：梁礼明教授
年月日
江西理工大学硕士学位论文摘要
摘要
我国幅员辽阔，纬度跨度大，花卉种类繁多，同时我国花卉种植历史悠久。在现代
社会，人们对生活质量有更高要求，追求更高品质的花卉产品，因此需要进一步加强花
卉栽培技术研究，提高产品质量。其中花卉分类是花卉栽培环节中一项重要的基础性工
作，传统方法依靠专业人员通过观察花卉外表以及不断对比实现分类，分类过程复杂、
繁琐、成本高且准确率较低。
花卉图像分类一直是深度学习的热点，它不仅可以满足日常花卉鉴定的需求，还可
以帮助专业人员减少花卉识别的工作量，为实现花田自动化管理奠定基础。本文探讨深
度学习中的卷积神经网络及其在花卉分类任务中的应用，设计了两种花卉识别模型，并
在公开数据集上进行相应实验，仿真实验结果表明本文提出的模型可以提高花卉识别的
准确率。本文主要工作如下：
（1）为克服花卉图像同一花卉子类特征差距较大、不同花卉子类特征差距较小以
及花卉主体在图像中位置随机、大小和数量不确定等问题，构建了一种充分利用特征的
改进型 ResNeXt-50 花卉分类模型。提取在 ImageNet 数据集中预训练得到的 ResNeXt-50
参数权重代入改进 ResNeXt-50，然后将提取的特征送入密集连接模块，实现高效的特征
复用和灵活的特征探索，同时为缓解类内差异性较大的影响，采用 Mixup 数据增强方法
扩充数据集，重置样本的像素分布，提高模型泛化能力。最后通过消融实验证明密集连
接模块有助于提高模型分类性能。
（2）针对花卉图像大小不一，同类别花卉大小、姿态各异，不同类别存在形状、
颜色等特征相似以及背景复杂多变等问题，提出具有强大特征提取能力和自主学习特征
能力的花卉分类模型。通过结合不同部分的显著特征，设计特征增强与抑制模块以及特
征多样化模块并加强对花卉边缘信息的提取。为提取更丰富的特征，使用 EfficientNet-B2
对细节特征和深度特征进行提取，为了利用不显著但具有可分性的特征，在提取最显著
特征的同时提取潜在特征，同时充分利用特征之间的互补关系增强特征，然后结合通道
注意力模块加强花卉区域的特征，有效提高模型的分类精度。
本文在公开花卉数据集上对以上两个模型进行仿真实验，结果表明，两种分类模型
鲁棒性更强、泛化性更好，具有较高的准确率，整体性能优于其他深度学习模型。
关键词：花卉识别；深度学习；卷积神经网络；ResNeXt-50；EfficientNet
I
Abstract
Abstract
China is a vast country with a large latitudinal span and a wide variety of flowers, while
China has a long history of flower cultivation. In modern society, people are demanding a
higher quality of life and are seeking higher-quality flower products, so there is a need to
further strengthen floriculture research and improve product quality. Flower classification is a
fundamental part of floriculture. Traditional methods rely on professionals to classify flowers
by observing their appearance and constantly comparing them, which is a complex, tedious,
costly, less accurate process.
Flower image classification has been a hot topic in deep learning, which can not only
meet the needs of daily flower identification but also help professionals to reduce the
workload of flower identification and lay the foundation for automated flower field
management. This paper explores convolutional neural networks in deep learning and their
application to flower classification tasks designs two flower recognition models and conducts
corresponding experiments on publicly available datasets, and the simulation experimental
results show that the models proposed in this paper can improve the accuracy of flower
recognition. The main work of this paper is as follows.
(1) An improved ResNeXt-50 flower classification model that makes full use of the
features is constructed to overcome the problems of large feature disparity between the same
flower subclasses of flower images, small feature disparity between different flower
subclasses, uncertainty in the location, size, number of flower subjects in the image. The
weights of the ResNeXt-50 parameters obtained from pre-training in the ImageNet dataset are
extracted and substituted into the improved ResNeXt-50, and then the extracted features are
fed into the dense connectivity module to achieve efficient feature reuse and flexible feature
exploration. Meanwhile, to alleviate the effect of large intra-class variability, the Mixup data
enhancement method is used to expand the dataset and reset the pixel distribution of the
samples to improve the generalization capability of the model. Finally, the ablation
experiments demonstrate that the dense connectivity module helps to improve the
classification performance of the model.
(2) A flower classification model with powerful feature extraction and autonomous
feature learning capabilities is proposed to address the problems of varying sizes of flower
II
Abstract
images, different sizes and postures of flowers in the same category, the similarity of features
in shape and color in different categories, and complex and variable backgrounds. By
combining the distinctive features of different parts, the feature enhancement and suppression
module and the feature diversification module are designed and the extraction of flower edge
information is enhanced. To extract richer features, detail features and depth features are
extracted using EfficientNet-B2. To exploit insignificant but differentiable features, potential
features are extracted along with the most significant features, while the complementary
relationship between features is fully utilized to enhance features, and then the features of
floral regions are enhanced in combination with the channel attention module to effectively
improve the classification accuracy of the model.
This paper conducts simulation experiments on the above two models on a publicly
available flower dataset, and the results show that the two classification models are more
robust, generalize better, have higher accuracy, outperform other deep learning models in
overall performance.
Key Words: Flower identification; Deep learning; Convolutional neural network;
ResNeXt-50; EfficientNet
III
江西理工大学硕士学位论文目录
目录
摘要......................................................................................................................................I
Abstract.......................................................................................................................................II
目录......................................................................................................................................... I
第一章绪论............................................................................................................................. 1
1.1 研究目的及意义 .......................................................................................................... 1
1.2 花卉图像识别的国内外研究现状 .............................................................................. 2
1.2.1 基于传统机器学习的方法 ................................................................................ 3
1.2.2 基于深度学习的方法 ........................................................................................ 4
1.3 本文主要研究内容 ...................................................................................................... 6
1.4 论文结构安排 .............................................................................................................. 7
1.5 本章小结 ...................................................................................................................... 8
第二章花卉识别相关理论基础................................................................................................ 9
2.1 数据集与评价指标 ...................................................................................................... 9
2.1.1 数据集 ................................................................................................................ 9
2.1.2 评价指标 .......................................................................................................... 10
2.2 数据增强 .................................................................................................................... 12
2.3 卷积神经网络模型 .................................................................................................... 13
2.3.1 ResNet .............................................................................................................. 14
2.3.2 ResNeXt ........................................................................................................... 16
2.3.3 DenseNet .......................................................................................................... 18
2.3.4 EfficientNet ...................................................................................................... 19
2.4 迁移学习 .................................................................................................................... 21
2.5 本章小结 .................................................................................................................... 23
第三章基于 ResNeXt 和迁移学习的花卉种类识别............................................................... 24
3.1 引言 ............................................................................................................................ 24
3.2 基于 ResNeXt 和迁移学习的花卉种类识别模型 ................................................... 24
3.2.1 迁移学习 .......................................................................................................... 24
I
3.2.2 分组卷积与 ResNeXt 卷积模块 ..................................................................... 25

3.2.3 密集连接模块 .................................................................................................. 27
3.2.4 深度网络总体框架 .......................................................................................... 28
3.3 实验结果及分析 ......................................................................................................... 29
3.3.1 实验数据集和预处理 ...................................................................................... 29
3.3.2 实验环境及实验设置 ...................................................................................... 30
3.3.3 迁移学习与训练 .............................................................................................. 30
3.3.4 密集连接模块层数的选择 .............................................................................. 30
3.3.5 消融实验与分析 .............................................................................................. 31
3.3.6 与其他算法的对比结果 .................................................................................. 33
3.4 本章小结 .................................................................................................................... 35
第四章基于 EfficientNet 和迁移学习的花卉种类识别.......................................................... 36
4.1 引言 ............................................................................................................................ 36
4.2 基于 EfficientNet 和迁移学习的花卉种类识别模型 .............................................. 36
4.2.1 EfficientNet 模块 ............................................................................................. 36
4.2.2 SE 模块 ............................................................................................................ 38
4.2.3 FBSM 特征增强和抑制模块 .......................................................................... 39
4.2.4 FDM 特征多样化模块 .................................................................................... 40
4.2.5 深度网络总体框架 .......................................................................................... 42
4.3 实验结果及分析 ........................................................................................................ 42
4.3.1 实验数据集 ...................................................................................................... 43
4.3.2 实验环境以及参数设置 .................................................................................. 43
4.3.3 ResNet-50、DenseNet-161 与 EfficientNet 系列网络实验对比 ................... 43
4.3.4 改进 EfficientNet 与原始 EfficientNet 实验对比 ...........................................48
4.3.5 改进 EfficientNet 与其他深度网络实验对比 ................................................ 49
4.4 本章小结 .................................................................................................................... 51
第五章结论与展望..................................................................................................................52
5.1 结论 ............................................................................................................................ 52
5.2 展望 ............................................................................................................................ 52
参考文献...................................................................................................................................54
致谢.......................................................................................................................................59
II
攻读学位期间的研究成果........................................................................................................ 60
III
第一章绪论
第一章绪论
1.1 研究目的及意义
近年来，互联网技术快速发展，微博、小红书和微信等社交网络平台的兴起，使网
络上充斥着各种人们用于记录生活的图片和视频。其中，图片作为重要的信息载体，成
为人们沟通外界的主要方式。网络中的图片数量繁多、信息丰富，如何从海量图片中筛
选需要的内容并运用于现实世界是人们关注的热点。随着计算机技术的进步，基于计算
机视觉技术的图像分类技术已经在各个领域得到广泛的应用，如：智能交通领域使用图
像分类技术对车牌[1]、车辆[2]、交通标志[3]进行分类；医学图像识别领域利用图像分类技
术将宫颈检查图像分类[4]、乳腺癌病理图像分类[5]以及视网膜病理图像分类[6]；地理检测
领域使用图像分类技术提高遥感图像的分类精度[7,8]；智能农业领域利用图像分类技术对
农作物病虫害进行检测与诊断[9,10]、农产品成熟度判定[11]和农产品品质检测[12]。
我国是花卉生产大国，截至 2020 年，中国鲜花栽培面积已达一百五十万公顷，且
由于中国农业的蓬勃发展，花卉产业呈现高速发展的态势，预测未来中国花卉栽培面积
将进一步扩大。在市场消费升级的带动以及新冠肺炎疫情的影响下，花卉产品营销模式
由线下转变为线上线下同步营销，花卉在电商交易平台的规模近年来快速增加，我国花
卉产业进入高速发展阶段，拥有巨大的市场潜力。2020 年，花卉零售市场规模达 1876.6
亿元[13]，花卉销售额达 2500 多亿元。
中国庞大的花卉市场表明，花卉种植培育领域庞大，人们日常生活中对花卉识别的
需求与日俱增，这意味着识别花卉变得越发重要。首先，在花卉培养行业方面，工作人
员需要根据不同种类的花卉采取不同的培育方式，但目前分类的工作由专业人员负责，
存在分配不均、耗时耗力和主观影响过大等问题，不仅浪费宝贵的人工资源，而且识别
效率不高，严重制约了花卉产业的发展。其次，人们在购买花卉时需要了解花卉的养护
知识。目前我国约有 35000 种维管植物，其中约有 30000 种是开花植物。通常，专业人
员在鉴定花卉种类时，首先观察花卉的整体特征，如形状、纹理或颜色，然后对照检索
表确定其大类，再根据局部特征如花蕊、叶片和花瓣等，沿着检索表各级逐级推敲，最
终确定花卉的具体类别。这种分类方法需要仔细观察特征，需要大量的对比和比较，还
需要人们对花卉比较熟悉才能完成。专业人士可以通过阅读大量文献、实地观察和利用
自身的经验分辨不同的花卉，但这种方法很难应用到普通人的日常生活中，单纯依靠人
的记忆和经验难以有效地识别花卉，对普通人以及农业工作者而言，独立识别常见的花
1
第一章绪论
卉仍旧是一项较为困难的工作。
随着网络技术的飞速发展，人们可以通过手机等设备方便地拍摄各类花卉图片，图
片的采集成本日益下降，海量的图像数据为融合了统计学、数据科学和计算机科学的机
器学习技术在花卉识别领域成为主流方法提供了支持。传统的机器学习方法获取花朵的
颜色、纹理和形状等整体特征，然后通过计算花卉图像之间的相似度来判断花卉的类别。
虽然这种方法可以实现花卉自动分类，但由于缺乏花卉局部特征信息，使得其对花卉的
识别不够准确。此外，花卉的全局特征仅是图像的表层信息，同一种花卉因为光照、拍
摄角度、尺度等因素的不同，常常造成识别效果不理想。
近年来，深度学习发展得如火如荼，许多研究人员提出基于深度学习的图像识别方
法，在众多图像分类数据集上取得很好的分类效果。然而，目前大部分基于深度学习的
图像分类主要关注于猫、狗、鸟和自行车等不相关类别的分类。不同于非相关类别数据
集，花卉数据集不同类别相似度较高，同一类别差异较大。在训练不相关类别数据集时，
图像特征未得到充分利用，深度学习算法中的低层次的图像特征被丢弃，被丢弃的信息
正好是不同花卉之间的细微差别。如何利用深度学习算法实现对图像特征的充分识别，
提高算法的识别准确率，是花卉分类研究的首要问题。
本文旨在针对现有花卉分类方法识别率低等问题，提出能提取更丰富花卉特征的算
法，实现准确率高、鲁棒性好、泛化性强，做到自动识别，能满足花卉培育工作人员和
人们日常识别花卉的需求。
1.2 花卉图像识别的国内外研究现状
随着计算机视觉技术的发展，花卉的识别技术得到快速的提升。在国外，像 CVPR、
ICCV 等著名国际会议每年都会出现很多关于图像分类的优秀方法。在国内，花卉的分
类研究虽然起步比国外晚，但是近年也获得了很大的发展，例如研究人员利用现有技术
开发了在手机上识别花卉种类的应用软件，不仅识别的花卉类别多，还会提供花卉的基
本信息和养护注意事项，极大扩充了人们在花卉方面的知识面。
现如今，针对花卉分类识别的方法大致分为两种：传统机器学习方法与深度学习方
法。用于花卉分类的传统机器学习方法主要分为三个步骤：图像分割、特征提取和分类，
其中图像分割是将花卉区域与背景分割开，常用的方法有基于直方图[14]分割、基于图像
边缘[15]分割和基于区域[16]分割；特征提取是对花卉图片的颜色、形状、纹理和方向梯度
直方图等特征进行提取，以人工设计特征或特征融合为主，特征的选择是否准确会影响
最终分类效果；分类是将提取的特征放入分类器中进行分类训练，分类器包括支持向量
机 SVM[17]、K 最近邻(KNN)[18]。在花卉图像采集期间，由于花卉背景的多样性、光照
2
第一章绪论
的多变性、摄像标准的不可估量性、拍摄角度和参数的多变性等因素，都会影响图像的
质量，使得在图片上执行分割、特征提取、整合特征等处理达到的精度不高，难以达到
日常生活所需。虽然有些方法整合了全局特征和局部特征，提高了准确率，但仍缺乏稳
定性，尚且需要一个鲁棒且高效的系统，能在复杂环境下更加精确地识别花卉。以往的
研究方法具体如下。
1.2.1 基于传统机器学习的方法
1999 年，Das 等[19]利用花卉图片的颜色和空间领域知识，使用迭代分割算法自动分

割花朵和背景，只保留花朵部分。他们的方法虽然只需要颜色信息就能分割花卉，但是
对花朵的位置要求较高且提取的特征单一，效果不理想。
2004 年，Saitoh 等[20]提出一种自动识别盛开花朵的方法。该方法称为归一化成本（NC）
方法[21]，是基于“智能剪刀（IS）”算法[22]提出的一种新路线搜索方法，实现以最小的
归一化成本搜索边界。为了更好地将花和叶从背景中分离出来，他们使用 k-means 聚类
算法[23]对背景区域进行建模。利用神经网络提取了 17 个描述花和叶图像颜色和形状特
性的特征用于花的识别。对 16 种植物的 20 组花叶图像进行识别，识别率达 95%。但是
这个算法对花卉所在位置要求较高，需要花卉位于画面的正中间，否则会影响实验结果。
实际中，采集到的花卉图片难以满足这个条件，这个方法在应用方面存在困难。
2006 年，Nilsback 和 Zisserman[24]创建一套花卉分类系统，该系统通过提取代表花
卉图像颜色、形状和纹理特征的视觉词汇进行分类。为了从背景中分割花朵，将花朵图
像的像素标记为前景和背景以确定 RGB 颜色分布，随后使用交互式图切割的概念自动
分割花朵，以获得最佳边界和区域分割。为了提取颜色词汇，将每幅花卉图像映射到
HSV 颜色空间，对训练图像每个像素的 HSV 值进行聚类，并将其作为颜色词汇处理。
使用平移不变特征变换（SIFT）描述符[25]表示形状特征，并使用 MR8 滤波器组[26]在不
同方向上的响应作为纹理特征。此外，研究人员还将三种不同权重的视觉词汇组合起来，
以研究不同特征的影响。Nilsback 和 Zisserman 创建一个包含 17 个种类花卉的 Oxford-17
flowers 数据集，每个种类包含 80 张图片。包含三个特征组合的系统在该数据集上准确
度达到 71.76%。后来，为了研究特征融合在大型数据集的分类精度，Nilsback 和 Zisserman
在其工作[27]中建立了一个包含 102 种类型花卉的 Oxford-102 flowers 数据集，每个类别
包含 40 到 250 个样本。他们将颜色、方向梯度直方图 HOG[28]与尺度不变性 SIFT 特征
融合，使用支持向量机分类器对花朵进行分类，该方法在 Oxford-102 flowers 数据集上
取得 72.8%的准确率。实验结果表明，融合多种特征的方法可以极大地提高分类性能。
2008 年，Fukuda 等[29]通过使用模糊 c-means 聚类算法[30]结合多个分类器开发了一
个花卉图像检索系统。在他们的系统中，花被分为三类不同的结构：无瓣花、多瓣花和
3
第一章绪论
单瓣花。对每一种结构都构建一个具有特定特征集的分类器。然后用模糊的 c-means 聚
类算法确定每个图像对每个结构的隶属度。然后将每个分类器计算的每个单独相似度的
线性组合作为总体相似度，其权重是隶属度。测试数据库由包含 112 个物种的 448 张图
片组成，每个种类有 4 张图像。实验结果表明，多分类器方法优于任何单分类器方法。
然而，根据花瓣的数量将花分成三个不同的类别，这种分类机制过于粗糙。
2013 年，Angelova 和 Zhu[31]总结前人的方法，首先分割图像的主体和背景，之后
提取原图像的 HOG 特征，再提取主体的 HOG 特征，最后把提取的所有 HOG 特征送入
分类器。该方法不仅可以实现分割功能，还可以将物体的移动和缩放归一化，在多个数
据集中都得到了不错的效果。
2014 年，谢晓东[32]针对花卉图像背景繁杂以及花卉数据集类间相似、类内差异大
等问题，提出基于显著性检测 GrabCut 前景分割[33]和多特征融合的层次化分类方法。他
的研究得出，分割的效果严重影响分类的结果，而使用 GrabCut 前景分割方法分割图像
时，可以有效地消除背景的干扰因素，同时可以有效地去除花卉的叶片部分，有利于后
续分类。然后使用多特征融合方法融合颜色特征和形状特征，最后采用 SVM 分类器进
行分类。该方法在 Oxford-17 flowers 数据集和 Oxford-102 flowers 数据集上的准确率分
别为 93.14%和 79.1%。
在此期间，研究者更关注图像分割和人工提取、选择特征，而传统机器学习方法不
仅特征提取不充分、特征选择受主观因素影响大，导致最终分类准确率不高，还不能实
现全自动分类。
1.2.2 基于深度学习的方法
深度学习的概念由 Hinton 等在 2006 年《Science》期刊上首次提出[34]，指的是基于

样本训练的多层级深度网络的机器学习过程。Hinton 等通过逐层训练网络解决深度网络
难以训练的问题。在此之前，研究者因为硬件以及理论水平等原因，训练神经网络都以
失败告终，直到这篇文章的出现，让人们看到了训练深度神经网络的希望。近年来，深
度学习发展迅猛，大量的新算法涌现，其中，卷积神经网络以其权值共享、稀疏连接和
池化降维等优势成为其中最受关注的方法。
在过去的数十年里，卷积神经网络经历了许多重大变化。1998 年，Yann 提出 LeNet-5
网络[35]，该网络是卷积神经网络的起点，拥有卷积层（Convolutional layer, Conv）、池化
层（Pooling layer）和全连接层（Fully Connected Layer, FC）等卷积神经网络的基本结构，
在 MNIST 数据集上达到 99.2%的准确率[36]。2012 年，具有 8 层网络结构的 AlexNet[37]
在 ImageNet[38]大规模视觉识别竞赛（ImageNet Large Scale Visual Recognition Challenge,
LSVRC）中以比第二名参赛网络低了将近 10%的错误率以及超过第二名 11%的准确率
4
第一章绪论
的绝对优势成为冠军。该网络包含 5 个“卷积层+最大池化层”结构以及 3 个全连接层，

使用 Softmax 分类。AlexNet 首次证明机器学习自动提取的特征优于人工手动提取的特
征，给计算机视觉领域带来了全新的变化[39]。2014 年，VGGNet[40]面世，它延续 AlexNet
的网络结构，通过堆叠多个 3×3 卷积层和 2×2 最大池化层增加网络深度，构建 11-19 层
卷积神经网络，通常用于提取图片特征。在 LSVRC 比赛中 Top-5 错误率仅为 7.3%。同
年，GoogLetNet[41]在 ILSVRC-2014 比赛中以 6.7%的 Top-5 错误率夺冠。它引入 Inception
结构，大量使用 1×1 卷积和非序列并行化方式，虽然拥有 22 层结构，但是参数计算量
较少。2015 年，微软设计了卷积残差网络 ResNet[42]，它在每层网络之间另外开辟了一
个独立的通道，单独连接输入与输出，从而大大降低了网络的复杂度，在 LSVRC 比赛
中 Top-5 错误率仅为 3.57% 。同年，谷歌团队公布了 GoogLetNet 的升级版本：
Inception-v2[43]、Inception-v3[44]，这些网络不仅采用堆叠小卷积代替大卷积，减少网络
参数和计算量，还使用平滑标签和批量归一化等优化方法。2016 年，谷歌提出
Inception-v4 和 Inception-ResNet[45]，它们在 Inception-v3 的基础上加以改进，通过引入
残差结构，不仅加快了网络训练速度，也提升了网络的效能，在 LSVRC 比赛中 Top-5
错误率为 3.08%。同年，Xie 等[46]推出了 ResNeXt，该网络通过堆叠相同的拓扑结构提
高分类精度，以 80.90%的 Top-1 准确率获得 ILSVRC-2016 比赛亚军。2017 年，Momenta
自动驾驶公司的 WMW 团队提出 SENet（Squeeze-and-Excitation Networks）[47]，其核心
思想是将 Squeeze 和 Excitation 结构加入 VGG、ResNet 等原有网络中，该结构学习各个
通道的重要程度，增强大权重通道并抑制小权重通道。SENet 结构以增加少量的运算量
和参数量的代价获得更好的识别效果[48-50]，可以灵活地插入现有网络。建立在 ResNeXt[46]
基础上的 SENet 以 2.25%的 Top-5 错误率获得 ILSVRC-17 冠军。2020 年，Tan 等[51]发布
了基于有效缩放的 EfficientNet，该网络在 ImageNet 数据集中获得 84.4%的 Top-1 准确
率。
卷积神经网络在图像分类领域的表现不断精进，而花卉分类研究是图像分类领域的
一部分，可以推断卷积神经网络运用到花卉分类研究中将获得更好的准确率，进一步促
进花卉分类技术的日常化。
2018 年，王爽[52]使用在 ImageNet 上训练得到的 AlexNet 网络参数模型，微调网络
后在花卉数据集上继续训练，最后使用支持向量机分类，在 Oxford-17 flowers 数据集和
Oxford-102 flowers 数据集中分别获得 94.37%和 90.25%的正确率。尹红[53]提出一种无监
督花卉图像分类方法，该方法适用于大样本花卉数据集，首先将图片保持纵横比归一化，
然后利用基于迁移学习的 VGG-16 模型学习花卉图像特征，融合图像显著区域特征和深
度卷积特征得到低维特征，最后使用 Softmax 层对图像进行分类。
2019 年，Musa 等[54]使用预训练的 AlexNet 和 VGG16 网络分别提取花卉图像特征，
5
第一章绪论
之后将提取的特征连接成单个深度特征表示，使用特征选择算法从级联的深度特征中选
择最具代表性的特征再利用 SVM 分类器进行分类。该方法在 Oxford-17 flowers 数据集
和 Oxford-102 flowers 数据集中准确率分别达到了 96.39%和 95.70%。吴迪等[55]提出使用
迁移学习的 InceptionV3 网络，将 ReLU 激活函数改进为 Tanh-ReLU 激活函数，然后进
行微调，在 Oxford-102 flowers 数据集上的准确率为 92.85%。牛源[56]利用引入特征金字
塔融合模块和残差注意力机制模块的改进版 VGG-16 网络提取特征，使用 PCA 和局部
敏感哈希相结合的算法进行索引，在 Oxford-102 flowers 数据集上查全率和查准率较高。
2020 年，秦敏[57]提出融入注意力机制的花卉分类模型 A-LDCNN，该模型引入线性
判别分析思想 LDA 构造损失函数，在 Oxford-102 flowers 数据集中获得 87.60%的准确
率。裴晓芳等[58]将卷积层取代 ResNet18 的全连接层，然后在网络中加入混合域注意力
机制，最后使用 Softmax 层进行分类，在 Oxford-17 flowers 数据集和 Oxford-102 flowers
数据集中分别获得 99.26%和 99.02%的准确率。该方法能有效地提取图像的特征信息、
抑制干扰信息，对花卉图像分类效果显著。
由于卷积神经网络具有良好的特征提取能力、非线性拟合能力等优点，已被广泛应
用于深度学习领域。利用卷积神经网络可简便高效地研究图像分类。尽管该方法存在计
算量较大、训练时间较长和可能出现过拟合等缺点，但随着不断完善现有技术，其识别
精度将逐渐提升。
1.3 本文主要研究内容
结合当前花卉分类的国内外研究现状，总结现有研究成果及改进方向，并结合实际
的实际情况，运用深度学习的思想，从不同角度进行分析，分别提出两种改进卷积神经
网络的分类算法提升对花卉的分类性能。本文的研究内容如下所示：
（1）针对花卉相同类别差异较大、不同类别相似度较高以及成像条件（光照、透
视参数等）差异大的问题，提出一种基于密集连接的花卉分类模型 DB_ResNeXt50。
DB_ResNeXt50 以 ResNeXt-50 为基础，为更快获取浅层特征，使用迁移学习将在
ImageNet 数据集中预训练得到的 ResNeXt-50 参数权重代入 DB_ResNeXt50，然后使用
密集连接模块加强特征传递、充分利用深层特征，同时为解决数据集不足的问题，选用
Mixup 数据增强方法扩充数据集。本文在三个公开花卉数据集（五类花卉数据集、
Oxford-17 flowers 数据集和 Oxford-102 flowers 数据集）上进行仿真实验，准确率分别达
到 97.99%、100.00%和 99.66%。最后通过消融实验证明稠密块有助于提高模型分类性能。
（2）提出一种基于特征增强与抑制和通道注意力的花卉分类模型，该模型主体为
EfficientNet-B2，在 EfficientNet-B2 的 Stage4、Stage6 和 Stage8 中分别插入特征增强和
6
第一章绪论
抑制模块，提取最显著特征，强迫非显著领域特征表达，再将输出的显著特征分别输入
特征多样化模块获取互补信息，融合显著特征与互补信息得到增强特征，然后分别将其
送入通道注意力模块，使模型聚焦于花卉部分，忽略花卉图像的复杂背景区域，将注意
力特征作为最后的分类特征，使用由两个全连接层组成的分类器进行分类识别。本文提
出模型在上文提到的三个公开花卉数据集上的准确率分别为 97.81%、100.00%和 99.58%。
仿真实验结果表明，本章提出的模型比现有方法具有更强的鲁棒性和泛化性。
1.4 论文结构安排
本文主要对花卉分类任务进行阐述和剖析，针对花卉图像中花卉形态多样、背景复
杂、主体所占比例不一等现象，本文提出了两种改进的花卉分类模型，然后归纳本文研
究内容，并展望未来的工作。
全文由五个章节组成，每个章节的简要总结如下：
第一章：绪论。简要阐述了花卉分类的背景和意义，接着对国内外的研究现状进行
了梳理，分析了花卉识别的重要性以及研究难点，围绕这些问题和挑战提出了本文的主
要研究内容和方法，最后简述论文结构安排。
第二章：花卉识别相关理论基础。首先简要介绍了本文所用数据集的基本信息，然
后对采用的评价指标进行了简要介绍，接着分析了 Mixup 数据增强方法原理，其次阐述
本文使用的网络 ResNet、ResNeXt、DenseNet 和 EfficientNet 的网络架构和工作原理，
最后概述迁移学习原理和作用。本章内容为后续研究提供理论依据。
第三章：基于 ResNeXt 和迁移学习的花卉种类识别。首先介绍 ResNeXt 原理和结
构特点，其次详细阐述密集连接模块内容，然后对模型整体构成进行描述。将改进后的
ResNeXt 在五类花卉数据集、Oxford-17 flowers 数据集和 Oxford-102 flowers 数据集进行
验证，与不同分类方法进行对比，最后通过实验结果对所提分类方法的分类性能进行分
析讨论。
第四章：基于改进的 EfficientNet 的花卉种类识别。首先介绍 EfficientNetB2 的网络
结构和优点，然后对特征增强和抑制模块 FBSM、特征多样化模块 FDM 和通道注意力
模块的机制原理进行详细叙述，其次探讨了如何在原有的 EfficientNet-B2 基础上融入这
三个模块，将改进后的 EfficientNet 应用于第三章使用的三个公开花卉数据集并得到仿
真结果，与其他花卉识别方法识别精度进行对比，验证了本章模型的有效性。
第五章：总结与展望。总结全文主要内容和改进效果，讨论课题的不足并展望改进
方向。
7
第一章绪论
1.5 本章小结
本章针对花卉图像分类识别问题，首先叙述花卉分类研究背景与意义，之后阐述国
内外在花卉识别问题上的技术发展，在此基础上提出了本文的研究方向和主要思路，最
后简述本文的研究内容和结构安排。
8
第二章花卉识别相关理论基础
2.1 数据集与评价指标
本章主要介绍花卉分类的基础理论，包括本文采用的数据集、评价指标、数据增强
方法、使用的卷积神经网络结构与作用以及迁移学习思想概念，为后续的进一步研究奠
定基础。
2.1.1 数据集
本文使用三个数据集，分别是来自中国植物主题数据库的五类花卉数据集、由牛津
大学视觉几何组提出的 Oxford-17 flowers 数据集和 Oxford-102 flowers 数据集。其中五
类花卉数据集总计 3670 张花卉图片，共分为五类，分别是雏菊、蒲公英、玫瑰、向日
葵和郁金香，每类包含 600-800 张图片，如表 2.1 所示。
表 2.1 五类花卉数据集
图像类别雏菊蒲公英玫瑰向日葵郁金香

数量 633 898 641 699 799
该数据集中的花卉图片尺寸不一致，背景多样，包含花卉的各个阶段、多个品种，
示例图见图 2.1。
图 2.1 五类花卉数据集示例图
9
Oxford-17 flowers 数据集和 Oxford-102 flowers 数据集于 2006 年提出，被广泛地应

用于花卉分类研究中。Oxford-17 flowers 数据集包含 17 种英国常见花卉，每种花卉包含
80 张图像，Oxford-102 flowers 数据集包含 102 种花卉，每种花卉包含 40-258 张图像。
这两个数据集中的图像尺度、角度和光线等方面存在较大差异，同一种花卉图像的视觉
差异较大，示例图分别如图 2.2、图 2.3。
图 2.2 Oxford-17 flowers 数据集示例图
图 2.3 Oxford-102 flowers 数据集示例图
2.1.2 评价指标
在分类问题中，准确率（Accuracy, Acc）、精确率（Precision, Pre）、召回率（Recall,

Rec）和 F1 值是常用的评价指标，但其侧重点各有差异。对于分类模型而言，这些指标
10
之间既有关联，又有各自的独立性，因此需要综合考虑各种影响因素，建立合理的评价
指标体系。本文采用混淆矩阵、准确率、宏平均精确率（PreMacro）、宏平均召回率（RecMacro）、
宏平均 F1 值（F1Macro）对分类模型进行评价。混淆矩阵是一种可视化工具，其每一列
对应属于该类的所有验证样本，每一行对应预测属于该类的所有样本，多分类混淆矩阵
表现形式如表 2.2 所示。其中，Cij 表示真实类别为 j 被预测为 i 类的数目，当 i=j 时表示
分类正确。准确率是正确分类的样本与所有样本的比率，宏平均是每一类评价指标的算
术平均值，考察分类模型处理不同类别的能力。
表 2.2 多分类混淆矩阵
真实类别
类别 1 类别 2 … 类别 i … 类别 n
类别 1 C11 C12 … C1i … C1n
类别 2 C21 C22 … C2i … C2n
预测类别类别 3 … … … … … …
… … … … Cii … …
… … … … … … …
类别 n Cn1 Cn2 … Cni … Cnn
对于多分类问题，有四种分类结果：（1）真实标签为 i 类的样本被分类为 i 类，将

这部分样本称为 TPi （True Positive）；（2）真实标签为 i 类的样本被分类为非 i 类，将这
部分样本称为 FNi （False Negative）
；（3）真实标签为非 i 类的样本被分类为 i 类，将这
部分样本记作 FPi （False Positive）；
（4）真实标签为非 i 类的样本被分类为非 i 类的其他
类，将这部分样本记作 TNi （True Negative）。利用这四种分类结果可得到 i 类的精确率、
召回率和 F1 值，具体计算如式（2.1）、式（2.2）和式（2.3）所示。
TPi
Prei  （2.1）
TPi  FPi
TPi
Reci  （2.2）
TPi  FNi
2  Prei  Reci
F1i  （2.3）
Prei  Reci
精确率（ Prei   0,1 ）表示被正确分类的 i 类样本数与分类为 i 类样本数的比率，数

值越大，神经网络性能越好。召回率（ Reci  0,1 ）表示被正确分类的 i 类样本数与真
实标签为 i 类的样本数的比率，数值越大，网络性能越好。在分类任务中，查准率与查
全率通常成反比关系，因此选用 F1 值（ F1i   0,1 ）对两者进行衡量，F1 值越高说明模
型越鲁棒。
假设共有 n 类数据，通过每个类别的精确率、召回率和 F1 值可计算得到准确率、
11
宏平均精确率、宏平均召回率和宏平均 F1 值，计算过程分别如式（2.4）、式（2.5）、式
（2.6）和式（2.7）所示。准确率（ Acc  0,1 ）表示识别正确样本数占总样本数的比率，
数值越高，神经网络性能越好。对于平衡类的数据集是一个良好的度量。
n
 TP i
Acc  i 1
（2.4）
总样本数
 Pre i
PreMacro  i 1
（2.5）
n
 Rec i
RecMacro  i 1
（2.6）
n
 F1 i
F1Macro  i 1
（2.7）
n
2.2 数据增强
数据集的数据量是制约深度学习网络性能的重要因素之一，大量数据有助于网络提
取更全面的特征，而较少的数据可能让网络产生过拟合风险。为此，研究人员提出数据
增强技术，通过变换原始数据样本，创造类似于训练样本但不同于训练样本的新样本[59]
扩充数据库。模型通过随机变换的训练样本，降低对某些特征的依赖。
本文使用 Mixup 数据增强方法[60]对原始数据集进行扩充，其核心思想是随机抽取训
练样本中的两个样本，将样本及其对应标签按一定比例混合，生成虚拟样本，改变原训
练样本的分布与原样本个体属性统计特征。模型同时训练原样本和虚拟样本，可以有效
改善模型的拟合程度。Mixup 的原理公式为：
    ,   （2.8）
x   xi  1    x j （2.9）
y   yi  1    y j （2.10）
其中，  是超参数，  为贝塔分布，   0,1 是由参数  的贝塔分布计算得到的混合系

数，控制两个样本及其对应标签之间结合的强度。 xi , yi  和  x j , y j  是训练数据集中任意
12
抽取的 2 组不同样本，  x, y  为使用 Mixup 方法后创建的虚拟样本。

图片经 Mixup 数据增强方法处理前后的效果如图 2.4 所示。
图 2.4 当  =0.5 时，Mixup 处理后的图片
2.3 卷积神经网络模型
深度学习在计算机视觉中占有重要地位，将其运用到花卉图像识别中将大大提高识
别准确率。深度学习中的卷积神经网络是图像分类领域的重要组成部分。卷积神经网络
是一种以神经元为基础的多维数据处理网络。多个独立的神经元组成层，同层或相隔层
的神经元互不连接，相邻层的神经元相互连接。图 2.5 展示了一个简单的卷积神经网络
模型，它包括输入层、隐藏层和输出层，隐藏层通常包含卷积层和池化层。通常情况下，
输入图像经过卷积层的卷积运算生成相应的特征图，然后对每个特征图的局部响应区域
进行加权求和，再加入偏置函数，由非线性激活函数生成特征图，从而得到最终的输出
结果。相比于传统机器学习，卷积神经网络避免了人工设计特征和提取特征等复杂过程。
且随着网络层数增加，卷积神经网络的准确率逐步提高。
13
图 2.5 简单的卷积神经网络模型
2.3.1 ResNet
随着网络深度增加，网络特征提取能力增强，提取的特征越发抽象、所含语义信息
越发丰富，但网络误差在反向传播过程中不断累积，导致网络前几层梯度几乎等于 0，
不能收敛，具体表现为网络的精度逐渐饱和并迅速下降，这就是网络“退化”问题。虽
然许多网络使用归一化 BN(Batch Normalization)和 ReLU（Rectified Linear Unit）激活函
数等方法缓解梯度消失现象，但这些方法并不能解决网络退化问题。对此，He 等[42]提
出了著名的残差网络 ResNet，该网络获得 ILSVRC-2015 比赛中的分类、检测和定位冠
军。与普通网络相比，残差网络添加残差块，残差块包括直接映射和残差部分，直接映
射也称为跳跃连接,残差块结构如图 2.6 所示。
图 2.6 ResNet 构建单元
深度网络无法实现直接让某些层拟合恒等映射函数 H  x   x ，这是深度网络难以训
练的主要原因。如果在已有浅层网络后面加上若干恒等映射层，既能加深网络深度，又
不会导致精度下降，这便是残差块的灵感来源。假设某段神经网络的输入为 x ，期望输
出为 H  x  ，如果网络结构如图 2.6 所示，一边网络输入 x 通过跳跃连接直接传到输出，
一边使用堆叠非线性层去拟合映射 F  x  H  x  x ，则原映射可重写为
H  x   F  x   x 。网络学习 H  x  比学习 F  x  简单，当残差映射 F  x   0 时，H  x   x ，
构成恒等映射，保证网络的错误率不会随着层数的增加而升高。因此，残差结构有效解
14
决了网络退化问题，不仅将网络深度增加到前所未有的高度，还提高了精度。
卷积神经网络中的残差结构表达式为：
xl 1  h  xl   F  xl , wl  （2.11）
其中， h  xl  表示直接映射， F  xl , wl  表示残差部分。网络经过递归可得到任意深层单

元 L 特征的表示，如公式（2.12）说明在残差结构中，深层单元 L 的特征 xL 可通过浅层
单元 l 特征 xl 和残差函数求得，i 1 F 表示任何单元 L 和 l 之间都具备残差特性。残差网
L
络通过跳跃连接增加梯度信息的传递，运用残差函数逼近恒等映射，从而训练更深的网
络，提升网络模型性能。
xL  h  xl    i 1 F  xi , wi 
L
（2.12）
He 等提出两种残差模块，如图 2.7 所示，图（a）用于 ResNet-18 和 ResNet-34 浅层

次网络，但是深层次网络使用该结构，将增加许多计算量。ResNet-50 和 ResNet-152 等
深层次网络使用图（b）所示结构，先使用 1×1 卷积对输入进行降维，再经过 3×3 卷积，
最后将输入维度还原成原维度。
（a）（b）
图 2.7 残差模块图
残差网络使用直接映射达到跳过某些层的目的，既保证网络之间数据传递畅通，又
使得网络梯度的传播更加顺畅，同时避免了因为梯度损失导致的拟合不足问题，不仅加
深了网络层数，还改善了模型表达性。ResNet 由一系列残差块构成，常见的有 18 层、
34 层和 50 层残差网络，50 层残差网络结构图如图 2.8 所示。
ResNet 提出了残差块结构，并利用 BN 算法解决了内部协变量转移问题，缩短了网
络训练时间[61]。此外，采用全局平均池化层（Global Average Pooling, GAP）取代之前网
络最后的全连接层，减少了参数量、加快了训练速度。
15
图 2.8 ResNet-50 结构图
2.3.2 ResNeXt
ResNet 通过堆叠相同拓扑结构的模块，减少超参数的过度使用及其对不同数据集适
应能力差的影响，再结合 Inception 的“分裂-变换-融合”结构能在计算复杂度更低的情
况下，达到接近大型密集层的表示能力。基于上述分析，2017 年，Xie 等提出了一种
ResNet 和 Inception 的结合体网络——ResNeXt，其核心是分组卷积，设计变量基数控制
组的数量、定义分组卷积的通道数。该模型无须人工设计卷积核大小、步长大小和卷积
核数量等复杂的 Inception 结构细节，选用一致的拓扑结构实现超参数共享，并使用基数
控制组卷积分支数量，从而大大增强了模型的可扩展能力。
ResNeXt 利用 1×1 卷积、3×3 卷积和残差块构建网络主干，使用分组卷积实现平行
堆叠拓扑结构来提取特征，然后使用 1×1 卷积融合分组的多个特征，使得每个通道卷积
核学到的特征比 ResNet 更稀疏，在一定程度上降低了过拟合的风险。ResNeXt 需要手
动调节的参数很少，而且网络结构相对简单，可在不增加参数复杂度的前提下提高准确
率，同时减少超参数数量。在计算量一致的情况下，ResNeXt 在 ImageNet 上的表现优
于 ResNet。ResNeXt 与 ResNet 整体结构相似，不同的地方在于残差部分，ResNeXt 的
残差部分由分组卷积构成，如图 2.9 所示。ResNeXt 残差块计算公式为：
C
F  x    Ti  x   x （2.13）
i 1
16
其中， C 是基数， Ti 具有相同的拓扑结构，即几个卷积层的堆叠。
图 2.9 基数为 32 时 ResNeXt 的残差块结构
ResNeXt 在保留 ResNet 直接映射的基础上，将残差块的残差部分由单路径卷积扩

展至多路径分组卷积，后者遵循分裂、变换和融合模式。输入数据经过数量为基数的路
径，由各路径分别执行卷积操作，最后在通道维度连接所有路径的结果。具体过程如图
2.9 所示，输入经过一个卷积核大小为 1×1 的卷积，将输入分割为 32 个低维嵌入，此卷
积改变了输入特征的通道数，降低了参数量和计算量。然后使用卷积核大小为 3×3 的卷
积对 32 个低维嵌入进行变换，最后使用卷积核大小为 1×1 的卷积将 32 个低维嵌入聚合，
使输出特征提高至初始维度。经过卷积操作得到的输出由直接映射与输入相加，再经过
ReLU 激活函数处理后得到整个块的输出。
残差块主线经过卷积后的输出必须与输入维度一致才能相加，因此遵循两个规则：
（1）如果输入与主线输出维度一致，则直接映射直接将输入和主线输出相连接；（2）
如果输出通道数改变，则需要对直接映射进行卷积操作，直接映射带卷积的残差块如图
2.10 所示。
17
图 2.10 ResNeXt 的直接映射带卷积残差块结构
2.3.3 DenseNet
在前文介绍 ResNet 时曾提到网络退化问题，DenseNet[62]和 ResNet 拥有处理退化问
题一致的思想：在层与层之间创建直接映射，DenseNet 将这一思想发挥到极致——连接
一个块中的所有层，即每一层输入与前面所有层的输出在通道维度上连接，而该层的输
出也将作为输入传递给后续所有层，整个过程实现了特征的复用，加强了特征的传播，
提升了效率。对于一个 l 层网络，ResNet 共有 2l 个连接，而 DenseNet 总共有 l (l  1) / 2 个
连接，比 ResNet 连接更为密集。虽然 DenseNet 中存在大量连接，但由于特征复用，每
层输出的特征图数量不多，这一特性减少模型的参数量，提高参数效率。DenseNet 中第
l 层接收来自先前所有层的特征输入，之后通过卷积操作得到输出，即：
xl  H l ([ x0 , x1 ,..., xl 1 ]) （2.14）
其中， [ x0 , x1 ,..., xl 1 ] 是由前面各层输出特征图连接而成的张量， H l () 表示非线性变换

函数，该函数由三个操作组成，即批次归一化（BN）、激活函数（ReLU）和卷积（Conv）。
DenseNet 的密集连接方式要求每个层输入特征图和输出特征图大小一致，为了解决
这个问题，DenseNet 采用 DenseBlock+Transition 结构，其中 DenseBlock 由若干 bottleneck
层组成，每个 bottleneck 层由归一化、激活层和卷积层组成，输入特征图与输出特征图
大小相同，层间使用密集连接方式；Transition 连接两个相邻的 DenseBlock，使用池化
操作降低特征图尺寸。图 2.11 显示了 DenseNet 网络的总体结构。
18
图 2.11 DenseNet 网络结构图
DenseNet 有三大优势：第一，因为直接映射的存在，每一层网络都能从损失函数中
获取监督信息，因此在某种意义上，DenseNet 可以理解为隐式的深监督；第二，密集的
直接映射使特征得以重用，减少不必要的计算量；第三，密集的连接有一定的正则化作
用，有助于减轻因训练量小造成的过拟合现象，更易于训练。
2.3.4 EfficientNet
扩展卷积神经网络可以获得更高的精度，目前常用的扩展方法包括：增加网络深度、
扩大网络宽度和放大分辨率。以前的许多网络只对三个维度之一进行放大，虽然之前的
工作[63,64]尝试扩展网络的深度和宽度，但实际操作需要人工调整，而且通常无法实现最
优的准确率。为了避免在深度、宽度和分辨率之间重复手动缩放操作，Tan 等提出一种
新复合缩放方式——仅使用一组常量比率统一缩放各个维度。
假定整个卷积网络为 N，卷积层 i 描述为 Yi  Fi  X i  ，其中， Fi 为卷积操作， Yi 为
输出特征， X i 为第 i 层的输入特征，尺寸为 H i  Wi  Ci ， H i 为高度、 Wi 为宽度、 Ci 为
通道数。那么，含有 k 层卷积层的卷积网络 N 可以表示为：
N  Fk  ...  F2  F1  X1    j 1...k Fj  X1  （2.15）
在实际运用中，卷积神经网络中普遍存在重复堆叠的卷积层，为表述方便，将多个
结构一致的卷积层称为一个 Stage，如 ResNet-50 有 5 个 Stage。则公式（2.15）可以改
写为：
N   Fi Li X
i 1... s
 H i ,Wi ,Ci  （2.16）
其中， Fi Li 表示在 Stage i 中卷积层 Fi 重复了 Li 次。

传统模型设计主要关注的是如何找到最佳的层结构 Fi ，而模型的缩放是在不改变 Fi
的基础上，尝试扩展网络深度（ Li ）、网络宽度（ Ci ）和分辨率（  H i ,Wi  ）。虽然固定 Fi
简化了设计问题，但确定每层的 Li 、 Ci 、 H i 和 Wi 仍然是一个大工程。此外，网络的深
度、宽度和分辨率三者相互依存，在不同资源约束条件下数值可能发生改变，因此之前
的很多模型扩展研究侧重于单方面的改进或两方面的结合改进。为使设计空间更小，要
19
求所有层按恒定的常量比例统一缩放。问题变为在指定资源限制的情况下，最大化网络
精度，即：
max Accuracy  N  d , w, r  
d , w,r
s.t N  d , w, r    Fî d Li X

i 1... s
ˆ
 r  Hˆ i ,r Wî , wCî  （2.17）
Memory  N   target_memory
FLOPs  target_flops
其中， d 、 w 和 r 分别是缩放网络的深度（ Lî ）、宽度( Cˆ i )与分辨率( Hˆ i 和 Wî )的系数，

target_memory 是内存限制， target_flops 是 FLOPs 限制。
为了简化模型扩展的参数调整步骤，Tan 提出了一种新混合缩放方法——使用混合
系数  统一缩放网络的深度、宽度和分辨率参数：
depth : d   
width : w   
resolution : r    （2.18）
s.t.      2 2 2
  1,   1,   1
其中， 、 、 是常量，分别表示将多少资源分配给网络的深度、宽度和分辨率， 是
一个特定的系数，控制模型缩放所能使用的资源量。
卷积神经网络的卷积运算中，理论计算量（ FLOPs ）和 d 、 w2 、 r 2 成正比，即深
度加倍， FLOPs 加倍；宽度或分辨率加倍， FLOPs 变为原来的 4 倍：
FLOPs增加的倍数  d  w 2  r 2 （2.19）
因为卷积神经网络的大部分计算由卷积运算占据，所以运用式 2.17 对卷积神经网络

进行缩放将使整体运算量近似增加    2   2  倍。EfficientNet 限制    2   2  2 ，因此

对于任意  ，整体运算量大约增加 2 倍。
因为模型的扩展不会改变基准网络中的卷积操作 Fi ，所以有一个良好的基准网络十
分重要。Tan 等采用多目标神经网络构架(Neural Architecture Search, NAS)[65]搜索出一种
新的基准网络——EfficientNet-B0，它可以同时优化精度和计算量。EfficientNet-B0 主体
部分包括 MnasNet[66] 中的移动翻转瓶颈卷积（Mobile inverted Bottleneck Convolution,
MBConv）模块，该模块引入了压缩与激发网络的注意力思想。
从 EfficientNet-B0 开始，对其应用复合缩放方法放大，主要有两步：
（1）固定   1 ，基于式（2.17）和式（2.18）对  、  、  进行搜索，发现对于
EfficientNet-B0 而言，在    2   2  2 约束下，最优参数值为   1.2 ，  1.1 ，  1.15 。
20
（2）固定   1.2 ，  1.1 ，  1.15 ，运用式（2.18）利用不同  值放大 EfficientNet-B0，

得到 EfficientNet-B1 至 B7。EfficientNet-B0 至 B7 的参数量、运算量及其在 ImgeNet 上
的 Top-1 准确率和 Top-5 准确率如表 2.3 所示。由表 2.3 可以看出，EfficientNet 表现优
秀。
表 2.3 EfficientNet 参数表
Model Top-1 Acc. Top-5 Acc. #Params Ratio-to-EfficientNet #FLOPs Ratio-to-EfficientNet

EfficientNet-B0 77.3% 93.5% 5.3M 1x 0.39B 1x
ResNet-50 76.0% 93.0% 26M 4.9x 4.1B 11x
DenseNet-169 76.2% 93.2% 14M 2.6x 3.5B 8.9x
ResNet-152 77.8% 93.8% 60M 7.6x 11B 16x
DenseNet-264 77.9% 93.9% 34M 4.3x 6.0B 8.6x
Inception-v3 78.8% 94.4% 24M 3.0x 5.7B 8.1x
Xception 79.0% 94.5% 23M 3.0x 8.4B 12x
Inception-v4 80.0% 95.0% 48M 5.2x 13B 13x
Inception-resnet-v2 80.1% 95.1% 56M 6.1x 13B 13x
EfficientNet-B3 81.7% 95.6% 12M 1x 1.8B 1x
ResNet-101 80.9% 95.6% 84M 7.0x 32B 18x
PolyNet 81.3% 95.8% 92M 7.7x 35B 19x
SENet 82.7% 96.2% 146M 7.7x 42B 10x
NASNet-A 82.7% 96.2% 89M 4.7x 24B 5.7x
AmoebaNet-A 82.8% 96.1% 87M 4.6x 23B 5.5x
PNASNet 82.9% 96.2% 86M 4.5x 23B 6.0x
AmoebaNet-C 83.5% 96.5% 155M 5.2x 41B 4.1x
EfficientNet-B6 84.2% 96.8% 43M 1x 19B 1x
EfficientNet-B7 84.4% 97.1% 66M 1x 37B 1x
GPipe 84.3% 97.0% 557M 8.4x - -
2.4 迁移学习
由于传统的机器学习假定了训练样本和测试样本服从相同分布，如果测试样本发生
改变，则需要对其重新标记，费时费力，而且在实际应用中样本通常难以满足同分布假
设，无法保证模型的精度，因此如何在训练样本较少的情况下使模型拥有更好的性能成
为一个新的研究问题。迁移学习（Transfer Learning, TL）是将从源域（Source Data）学
习到的知识（Tranfer Learned Knowledge）应用到目的域（Target Data）的一种方法[67]，
21
这种方法在目的域数据不多的情况下效果良好。迁移学习的目的是在相似域内进行知识
的迁移，类似于成语“举一反三”。当样本缺乏时，迁移学习可以提高模型的泛化性。
迁移学习示意图如图 2.12 所示。
同样，深度学习方法需要大量数据支撑，深度卷积神经网络需要大量数据才能取得
较理想的结果，训练集中图片少于 5000 张时，在较深的卷积神经网络（例如 VGGNet、
ResNet）中容易出现过拟合现象。但收集和处理大量数据难度较大。实验证明，深度神
经网络不同层提取的特征包含不同的信息，网络浅层更多学习图片的底层特征，如边缘
信息，该类特征具有一般共性，网络深层更多学习图片的抽象特征，其中包含更多语义
信息，通常而言，此类特征在不同数据集上差异较大。在不同数据集中，卷积神经网络
得到的结论一致，由此推出，在一个域中表现良好的特征提取网络也可用于其他域。
迁移学习通过充分使用其他域更完备的数据，为目的域提供有价值的特征信息的方
式解决数据量少的问题。卷积神经网络中的迁移学习通常用于以下两种情况：
（1）将预
训练的迁移模型视作特征提取器，删除经 ImageNet 之类的数据集预训练得到的卷积神
经网络最后一个全连接层，将剩余部分视为一个特征提取器；
（2）微调网络，将预训练
模型的权重参数作为特征提取器的初始值，微调网络后应用于新的数据集，通过训练新
的数据样本反复更新特征提取器的权重参数，从而加快训练速度、优化学习效率并取得
更好的精度。使用迁移学习，可以降低设备硬件和数据集样本数量需求，节约训练时间，
提高模型泛化能力。
图 2.12 迁移学习示意图
2.5 本章小结
本章介绍本文使用的数据集、评价指标、数据增强方法、本文使用的卷积神经网络
22
结构和作用以及迁移学习思想，重点阐述了 ResNeXt、DenseNet 和 EfficientNet 的背景

等基础知识，并详细描述了识别网络的基本构成与作用。
23
第三章基于 ResNeXt 和迁移学习的花卉种类识别
3.1 引言
花卉识别研究在植物学领域具有重要意义。传统的花卉识别通常是由专业人士依据
花卉的颜色、纹理和结构等整体特征以及花蕊的形态等细节信息，再将其与现有的花卉
种类进行对比完成，但花卉种类繁多，这种方法不仅耗时耗力，还容易出错。此外，目
前已有一些传统机器学习算法能够识别花卉。Tanakorn 等[68]使用 Hu 七矩算法获取图像
边缘特征以及直方图获取图像颜色特征，之后使用 KNN 算法进行分类，精度达到 80%；
Avishikta 等[69]先将颜色和 GIST 特征编码成数学特征向量，然后使用支持向量机进行分
类，识别率达到 85.93%。花卉分类中传统机器学习方法存在两大缺点：一是花卉特征
依靠人工提取，受人为干扰影响大；二是传统机器学习方法适用于小型数据集，在大数
据集上效果不明显。
随着计算机技术的飞速发展，越来越多的深度学习方法崭露头角。郑玉龙等[70]构建
由 3 个残差块组成的 20 层深度学习模型 ResNet-20 网络，在 26 种观赏花朵的识别率达
到 96.29%，但该模型会因花朵图片背景复杂或者花朵所占面积小产生识别出错的情况。
Shantala 等[71]使用改进的 VGG-16 网络，对 5 类常见花卉进行识别，识别率高达 97.67%，
但由于使用图片大小均为 320×240 像素，无法确定背景是否会对网络产生影响。以上方
法在浅层网络的基础上进行了一定程度的改进，但是浅层神经网络提取的特征较少，泛
化能力较差，而大型深层网络又存在网络梯度爆炸的缺点。
针对上述问题，本章提出一种泛化能力强的深层花卉分类模型，该模型以
ResNeXt-50 为基础，结合迁移学习思想改进模型的浅层特征提取能力，然后加入
DenseNet 中的密集连接模块加深网络，提升图像特征提取的有效性，同时使用 Mixup
数据增强方法扩充数据集，增强泛化性。经过仿真实验验证，改进后网络的分类准确率
有明显提升。
3.2 基于 ResNeXt 和迁移学习的花卉种类识别模型
3.2.1 迁移学习
五类花卉数据集仅有三千多张带标注的图片，Oxford-17 flowers 数据集仅提供一千
24
个左右带标签样本，Oxford-102 flowers 数据集虽然有约八千个带标注样本，但每类仅有

40-258 张图像，难以支撑有效的模型训练，直接使用这些图片训练网络可能出现过拟合
现象。这时借鉴其他数据集补充训练样本——迁移学习即可发挥作用。如果原始数据集
与任务数据集相似，则预训练的模型参数与待训练模型的理想参数也类似，故迁移后只
需微调待训练模型再训练即可加快训练速度。
针对以上三个样本数量不足的数据集，本文选择对在 ImageNet 数据集训练完成的
参数权重进行迁移学习，以减轻问题。ImageNet 数据集包括一千种物体，其中有三种花
卉，与花卉数据集有一定重合性，重新训练时模型可能只需调整部分参数即可收敛，而
且保留了 ImageNet 数据集模型的鲁棒性。因此，使用迁移学习相比从头训练不仅训练
速度更快，识别准确率也可得到较大提升。目前，迁移学习已在花卉识别[72-74]问题上取
得成功应用。本文使用在 ImageNet 上训练好参数权重的 ResNeXt-50 作为预训练模型进
行花卉识别，采用 2.4 小节提到的微调网络方法训练数据集，即将预训练模型中的参数
加载入本章模型中与预训练模型结构一致的部分，在此过程中继续对本章模型的参数进
行微调并训练，使该模型参数更适用于本章使用的数据集，迁移学习流程示意图如图 3.1
所示。
图 3.1 网络模型训练流程
3.2.2 分组卷积与 ResNeXt 卷积模块
（1）分组卷积
2012 年，获得 ILSVRC 分类项目冠军的 AlexNet 首次提出了分组卷积，所谓分组卷
积即对输入的特征按通道维度分组，并对每组特征分别进行卷积，最后将卷积后的特征
在通道维度进行拼接。以输入为 N×N×W 大小的特征图、输出为 M×M×H 大小的特征图
和 K×K 大小的卷积核为例。其中，N 和 M 表示特征图大小，W 和 H 表示特征图通道数，
K 表示卷积核大小。假设分为 G 组，则每组输入的特征通道数为 W/G，每组输出特征
通道数为 N/G。普通卷积和分组卷积具体操作如图 3.2 所示。
25
(a)普通卷积(Convolution) (b)分组卷积(Group Convolution)
图 3.2 不同卷积方式
普通卷积的计算量 F 如公式（3.1）所示，参数量 C 如公式（3.2）所示。

F  K  K W  M  M  H （3.1）
C  K  K W  H （3.2）
分组卷积的计算量 F ' 如公式（3.3）所示，参数量 C ' 如公式（3.4）所示。
F '  (K  K W  M  M  H ) / G （3.3）
C ' （K  K  W  H ) / G （3.4）
从上述公式对比可知，在输入输出相同的前提下，分组卷积的计算量和参数量都比
普通卷积低，而且分组卷积有时能获得更好的效果，ResNeXt 卷积模块的核心部分就是
分组卷积。
（2）ResNeXt 卷积模块
ResNeXt 结合 Inception 网络“分裂-变换-融合”思想和 ResNet 残差模块思想，实
现了高度模块化。网络由一系列具有相同拓扑结构的残差块组成，残差块遵循两条规则：
当生成大小一致的空间映射时，残差块中的拓扑结构共享超参数（如宽度和卷积核大小）；
当空间映射基于因子 2 下采样时，残差块中的拓扑结构宽度加倍。
ResNeXt 卷积模块主要是 ResNeXt 残差块的堆积，用于提取花卉图像的特征，并将
提取的特征送入密集连接模块。本章去除原 ResNeXt 最后的平均池化层和全连接层，表
3.1 展示了 ResNeXt 卷积模块具体结构框架，其中 32×4d 表示 ResNeXt 残差块分组数量
为 32，即基数为 32，每个分组有 4 个通道。
26
表 3.1 ResNeXt 卷积模块结构表
卷积层名称输出格式 ResNeXt

conv1 112×112 7×7，64，2 步长
3×3 最大池化，2 步长
1×1,128
s1_conv2 56×56
3×3,128,C=32 ×3
1×1,256
1×1,256
s2_conv3 28×28 3×3,256,C=32 ×4
1×1,512
1×1,512
s3_conv4 14×14 3×3,512,C=32 ×6
1×1,1024
1×1,1024
s4_conv5 7×7 3×3,1024,C=32 ×3
1×1,2048
本章使用的 ResNeXt 卷积模块主要分两部分：

第一部分：卷积层和最大池化层。卷积层中的卷积核大小为 7×7，平移步长为 2，
填充为 3，输出通道数为 64。最大池化层窗口为 3，步长为 2，填充大小为 1。
第二部分：ResNeXt 残差块的堆叠。该部分由 4 个 ResNeXt 残差块组成，本章采用
的 ResNeXt 残差块有 32 个分组，每个分组由 1×1、3×3 和 1×1 卷积组成，每个 ResNeXt
残差块引入残差结构，具体原理见第二章。第一个 ResNeXt 残差块命名为 s1_conv2，输
入特征通道数为 112，输出特征通道数为 56；第二个 ResNeXt 残差块命名为 s2_conv3，
输入特征通道数为 56，输出特征通道数为 28；第三个 ResNeXt 残差块命名为 s3_conv4，
输入特征通道数为 28，输出特征通道数为 14；第四个 ResNeXt 残差块命名为 s4_conv5，
输入特征通道数为 14，输出特征通道数为 7。最后将结果送入密集连接模块。
3.2.3 密集连接模块
密集连接模块主要用于整合 ResNeXt 卷积模块提取到的特征，并将输出特征送入全

连接网络，该模块本质是一个包含若干层 bottleneck 的 DenseBlock，图 3.3 展示了含有
n 层 bottleneck 的 DenseBlock 具体形式，图中 x0 是输入， hi  i [1, n] 是卷积操作，
xi  i [1, n] 是各层的输出。其中，卷积操作包括一个卷积核大小为 1×1、输出通道数为
128 的卷积层以及一个卷积核大小为 3×3、输出通道数为 128 的卷积层，这样的结构大
大减少了参数量、提高了计算效率。从图 3.3 中可以看出 bottleneck 每一层卷积都接收
前面每一层的输出作为输入，并向网络后面传递数据。
27
图 3.3 n 层 bottleneck 示意图
3.2.4 深度网络总体框架
本章提出的花卉分类模型主要致力于对花卉图形进行更鲁棒、更具泛化性的分类。
构建的分类模型结构如图 3.4 所示。该模型由 ResNeXt-50 卷积模块和密集连接模块组成，
预训练的 ResNeXt-50 卷积模块可更快地提取浅层特征，密集连接模块充分利用深层特
征，通过特征复用提高对花卉的特征表达能力，最后将特征输入到全连接层，再使用
Softmax 完成分类，输出准确率和损失函数值，随后更新权值参数值。
28
图 3.4 深度网络总体框架图
3.3 实验结果及分析
本节对提出的 DB_ResNeXt50 模型进行实验选择最优的 bottleneck 层数，之后进行

消融实验验证迁移学习方法、密集连接模块以及 Mixup 数据增强方法的效果，最后将
DB_ResNeXt50 与其他现阶段分类水平较高的深度网络模型进行对比。
3.3.1 实验数据集和预处理
本章使用 2.1 节介绍的三个数据集，采用 2.2 节图像增强方法对其进行处理，将数

据集每类花卉中的 85%随机分为训练集，其余 15%作为测试集。然后对图像进行预处理，
考虑到三个花卉数据集分辨率不相同，为完成对网络输入的统一性要求，将所有图片缩
放为 224×224 大小。考虑到图片像素值为[0, 255]，输入计算较复杂，因此将图片像素值
缩放至[0, 1]以简化网络输入。
根据文献[60]使用不同数据增强方法对实验结果有不同增益效果，其中 Mixup 在多
个数据增强方法中取得更好效果。因此本章实验皆采用了 Mixup 数据增强方法以提高分
类精度。
29
3.3.2 实验环境及实验设置
本章实验环境为 Win10 操作系统，处理器为 Inter(R) Core(TM) i5-10300H CPU @

2.50GHz，Pytorch1.9.0，运行内存为 8.00GB，显卡为 NVIDIA GeForce GTX1660 Ti。本
章所有代码均在 Pycharm 平台上运行，使用 Pytorch1.9.0 开源框架、Python3.6 语言。优
化算法为随机梯度下降算法，超参数设置为： lr=0.001 ， momentum=0.9 ，
weight_decay=0.00001，batchsize=8，epoch=200。损失函数为交叉熵损失函数。
3.3.3 迁移学习与训练
本章模型训练过程如下：
（1）将训练集按 17：3 的比例随机划分出训练集和测试集；
（2）对训练集使用 Mixup 数据增强方法；
（3）搭建改进的 ResNeXt-50 模型，将在 ImageNet 数据集上训练得到的 ResNeXt-50
参数（除全连接层）复制到上述网络对应层，以较小的学习率微调迁移参数，训练五类
花卉数据集中的训练集；
（4）一轮训练完成之后，利用训练好的网络进行测试集分类；
（5）重复（4）200 次，保存测试集准确率最高的网络参数，利用此参数计算测试
集分类的混淆矩阵、准确率、宏评价精确率、宏平均召回率和宏平均 F1 值。
3.3.4 密集连接模块层数的选择
为检验多少数量的 bottleneck 层能获得最好的结果，研究在使用迁移学习的
ResNeXt-50 基础上，分别训练不同数量的 bottleneck 层，并得到仿真对比实验，对比结
果如表 3.2 所示，其中加粗字体表示数值最大，模型的评价指标最好。
表 3.2 不同数量 bottleneck 层在五类花卉数据集上的比较结果
层数 PreMacro(%) RecMacro(%) F1Macro(%) Acc (%)

5 97.06 97.01 97.03 97.26
10 97.40 97.35 97.37 97.44
15 97.63 97.58 97.60 97.62
20 97.27 97.20 97.23 97.26
25 97.03 96.99 97.00 97.07
由表 3.2 可以看出，当层数低于或者等于 15 时，准确率、宏精确率、宏召回率和宏

F1 值随 bottleneck 层数增加而增大，证明添加 bottleneck 层确实改善了网络性能，但当
层数等于或高于 20 时，准确率等评价指标反而变小，说明过多的层数阻碍了特征表达。
30
根据以上分析，为得到参数最少、性能最好的密集连接模块，细化[10, 20]区间，分别取
层数为 12、13、14、16、17，实验结果如表 3.3 所示。表 3.3 显示，选择的五个层数中，
16 层表现最优。结合表 3.2 和表 3.3 内容可以得出，层数为 15 时，网络的宏精确率、宏
F1 值和准确率最高，且参数最少，故选择含有 15 个 bottleneck 层的密集连接模块。
表 3.3 不同数量 bottleneck 层在五类花卉数据集上的比较结果（细分）
层数 PreMacro(%) RecMacro(%) F1Macro(%) Acc (%)

12 96.78 96.84 96.79 96.89
13 97.18 97.17 97.17 97.26
14 96.79 96.90 96.82 96.89
16 97.55 97.64 97.58 97.62
17 97.21 97.20 97.20 97.26
3.3.5 消融实验与分析
为了进一步验证本文模型的有效性，在五类花卉数据集上进行消融实验，将
DB_ResNeXt50 模型分成四个部分，分别为原始 ResNeXt-50 、加入迁移学习的
ResNeXt-50 、加入 Mixup 数据增强方法的 ResNeXt-50 以及加入密集连接模块的
ResNeXt-50，依次考虑加入的算法对网络性能的影响，实验结果如表 3.4 所示。各个网
络的准确率变化曲线如图 3.5 所示。
由表 3.4 可以看出，使用迁移学习的 ResNeXt-50 性能比原始 ResNeXt-50 准确率提
升了 9.51%，在迁移学习基础上分别加入 Mixup 数据增强方法或者使用密集连接模块都
使得模型准确率略有提升，说明 Mixup 数据增强方法和密集连接模块的特征可重复利用
特性对花卉的特征提取有一定的促进作用，最后将两种方法结合到模型中得到最佳结果。
表 3.4 不同模块对网络性能的影响
ResNeXt-5 迁移学习密集连接模块

Mixup PreMacro(%) RecMacro(%) F1Macro(%) Acc(%)
0 卷积模块（TL） (DenseBlock)
√ 87.58 87.59 87.55 87.75
√ √ 97.21 97.20 97.20 97.26
√ √ √ 97.63 97.58 97.60 97.62
√ √ √ 97.59 97.55 97.57 97.62
√ √ √ √ 97.88 97.92 97.89 97.99
31
图 3.5 消融实验图
由图 3.5 所示，原始 ResNeXt-50 初始准确率低，拟合速度慢，最终准确率不高，使

用迁移学习后，模型的初始准确率达到 90%，高于原始 ResNeXt-50 的最高准确率，验
证了迁移学习的有效性。但仅使用迁移学习，准确率曲线震荡较大，表现并不稳定。在
使用迁移学习的基础上加入 Mixup 数据增强方法使准确率曲线更加平滑，说明添加
Mixup 使模型收敛得更快、效果更好；添加密集连接模块使准确率更高，表明加入密集
连接模块可以有效地整合特征。使用两种方法之后的模型准确率曲线不仅稳定且最大值
在 5 条曲线中最大，验证了本章提出的模型收敛速度更快，准确率更高。
为了更明显地观察密集连接模块的作用，使用 Grad-CAM（Gradient-weighted Class
Activation Mapping）算法[75]分别对 ResNeXt-50 和 DB_ResNeXt50 的最后一个卷积层学
习到的图像特征进行可视化，如图 3.6 所示，图中红色区域表示突出的显著性区域，蓝
色表示稍弱的区域。图中一、二列的热力图分别对应 ResNeXt-50 与 DB_ResNeXt50 模
型。第一行是从五类花卉数据集中的每一类随机抽取的一张原始图片；第二行是模型所
提取特征的热力图，可以看出 DB_ResNeXt50 提取到的特征比 ResNeXt-50 更多、更准
确。
图 3.6 ResNeXt-50 与 DB_ResNeXt50 热力图
32
3.3.6 与其他算法的对比结果
通过之前的消融实验得出迁移学习方法、密集连接模块以及 Mixup 数据增强方法对

网络的分类性能都有所提升，将完整的 DB_ResNeXt50 模型与现有的先进深度网络架构
在三个公开的花卉图像数据集上进行对比实验，实验结果如表 3.5 所示。表中加粗字体
表示在该数据集下模型的准确率最高。
表 3.5 中 S-VGGNet 为将最后一个最大池化层改进为 Sahil[79] 提出的新型池化层
sort_pool2d 的 VGGNet，刘嘉政等[77]提出的模型为使用迁移学习的 Inception_v3，张梦
雨 [78] 设计的模型为使用迁移学习以及加入通道注意力机制和空间注意力机制的
ResNet-34 ；任意平等 [80] 构建的模型为使用深度可分离卷积（ Depthwise Separable
Convolution）和特征融合技术的 AlexNet，曹晓杰等 [73]提出的模型为利用迁移学习的
Inception_v3，吴丽娜等[81]设计的模型为改变池化层的 LeNet-5。尹红等[82]构建的模型为
融合多层深度卷积特征的 VGG-16，曾凡婧等[83]提出的模型为使用梯度下降和 BP 算法
作为分类器的 LeNet-5，吴迪等[84]设计的模型为使用显著性检测方法的 Inception_v3。
如表 3.5 所示，本章提出的花卉分类模型在三个公开花卉数据集中的准确率评价指
标均获得了较好的结果，其中在五类花卉数据集中比次优模型高了 0.69 个百分点，在
Oxford-17 flowers 数据集中比次优模型提高 3.5 个百分点，在 Oxford-102 flowers 数据集
中比次优模型高出 3.96 个百分点。由此得出，本文构建的 DB_ResNeXt50 模型在同一
花卉数据集分类任务上分类效果均优于其他模型，说明本章模型能有效地应对花卉数据
集类间差距较大、类内差距较小以及花卉主体位置随机等问题。
33
表 3.5 与其他算法在三个花卉数据集上的比较结果
数据集模型 Accuracy(%)
S-VGGNet[76] 84.11
Ref[77] 93.73
五类花卉数据集
Ref[78] 97.30
DB_ResNeXt50(本章算法) 97.99
Ref[80] 73.82
Ref[52] 94.37
Oxford-17 flowers
Ref[54] 96.39
数据集
Ref[81] 96.50
Ref[82] 85.55
Ref[57] 87.60
Ref[52] 90.25
Oxford-102 flowers Ref[83] 91.18
数据集 Ref[55] 92.85
Ref[84] 93.38
Ref[54] 95.70
DB_ResNeXt50 模型在五类花卉数据集的测试集和 Oxford-17 flowers 数据集的测试

集中进行实验后得到了两个混淆矩阵，如图 3.7、图 3.8 所示，图中对角线位置表示分类
正确的样本数。从图 3.7 中可以看出，五类花卉数据集的测试集中大部分样本被正确分
类，被错分的样本数量很少而且被错分到较少的类别中，证明 DB_ResNeXt50 对五类花
卉数据集起到很好的分类作用。从图 3.8 可看出，Oxford-17 flowers 数据集的测试集中
全部样本都被正确分类，说明 DB_ResNeXt50 不仅在五类花卉数据集上表现良好，还在
Oxford-17 flowers 数据集上表现优秀。
图 3.7 五类花卉数据集混淆矩阵图
34
图 3.8 Oxford-17 flowers 数据集混淆矩阵图
3.4 本章小结
针对花卉数据集不同类别之间的相似性、花卉形变方式多样造成类间差异大等问题，
提出了强化特征传递的花卉分类模型。该模型以 ResNeXt-50 为基础，使用迁移学习方
法更快获得浅层特征，然后利用密集连接模块实现特征复用以及加强特征传递，同时采
用 Mixup 数据增强方法扩充数据集，提高泛化性。本章虽然得到了一个较好的花卉分类
模型，但是并没有解决花卉图像存在的复杂背景干扰分类准确率问题，如何解决该问题
是本文接下来的重点。
35
第四章基于 EfficientNet 和迁移学习的花卉种类识别
4.1 引言
在花卉图像采集过程中，光照的强度、摄像标准的不可估量、相机角度的不确定性
以及参数的变化都会影响图像的质量。为克服上述困难，并针对前一章模型尚未解决的
花卉图像背景复杂问题，本章提出了一种具有强大特征提取能力与特征选择能力的花卉
分类模型。本章在 EfficientNet-B2 基础上引入特征增强与抑制模块（Feature Boosting and
Suppression Module, FBSM）[85]以获得最显著特征以及不那么显著但有利于分类的特征，
此外，为了充分利用这些特征，使用特征多样化模块（Feature Diversification Module, FDM）
融合原特征与它们之间的互补信息，最后加入通道注意力（Squeeze-and-Excitation, SE）
模块，加强对花卉主体区域的特征提取。
4.2 基于 EfficientNet 和迁移学习的花卉种类识别模型
4.2.1 EfficientNet 模块
卷积神经网络的构建受资源限制，在资源增加的情况下，提高卷积神经网络精度的
常用方法是扩大网络规模，主要包括三个方面：网络的深度、宽度和输入图像的分辨率。
过去的工作基于实验和经验探索新网络结构，人为地调整三者。但是如何平衡这三者十
分困难，直至 Tan 等在 ICMI 2019 上提出 EfficientNet。Tan 等指出网络深度、宽度和输
入图像分辨率三个因素并非相互独立的。基于这一假设，Tan 等提出一种全新模型缩放
算法——复合模型缩放算法。通过复合系数选择这三个因素的尺度，对模型进行综合优
化。使用这个方法构建的模型不仅比现有模型精度更高，而且模型更加精简。Tan 等使
用该方法构建了编号为 B0 至 B7 的一系列网络。EfficientNet 的参数量和计算量在同等
精度的前提下比其他网络更少，例如 EffcientNet-B0 的参数量约为 ResNet-50 的 1/5，计
算量约占 ResNet-50 的 1/7。在 ImageNet 数据集上，EfficientNet-B0 至 EfficientNet-B7
在运行速度和识别精度上均具有明显的优势。
（1）移动翻转瓶颈卷积 MBConv
移动翻转瓶颈卷积由一个 1×1 普通升维卷积、一个 k×k 深度可分离卷积、一个 SE
模块、一个 1×1 普通降维卷积和一个 Dropout 层组成，结构如图 4.1 所示，其中仅在输
36
入特征与输出特征尺寸大小一致时存在直接映射。1×1 升维卷积根据扩展比例改变输出
特征通道数（如果扩展比例等于 3，通道数将扩展三倍；但如果扩展比例等于 1，则直
接忽略 1×1 升维卷积），目的是增加通道数，获取更多的特征；深度可分离卷积的作用
为减少参数量和运算量；SE 模块的功能是去除冗余信息和优化特征；1×1 降维卷积的目
的将输出特征恢复到原特征通道数。移动翻转瓶颈卷积结构使模型具有随机深度，缩短
模型训练时间，提升模型的性能。
图 4.1 移动翻转瓶颈卷积结构图
（2）EfficientNet 卷积模块
EfficientNet 卷积模块主要用于提取花卉图像特征，该模块主要是移动翻转瓶颈卷积
的堆叠。本章在原 EfficientNet 基础上，去除最后的平均池化层和全连接层。表 4.1 显示
了 EfficientNet-B2 卷积模块结构框架。
表 4.1 EfficientNet-B2 卷积模块结构框架
Stage Operator Resolution Channels Layers

i     
Fi H i W i Ci Li
1 Conv3×3 260×260 32 1
2 MBConv1，k3×3 130×130 16 2
3 MBConv6，k3×3 130×130 24 3
4 MBConv6，k5×5 65×65 48 3
5 MBConv6，k3×3 33×33 88 4
6 MBConv6，k5×5 17×17 120 4
7 MBConv6，k5×5 17×17 208 5
8 MBConv6，k3×3 9×9 352 2
Conv1×1 & Pooling & FC 9×9 1408 1
由表 4.1 可以看出，EfficientNet-B2 总共分成 8 个 Stage。Stage1 包含一个卷积核大

小为 3×3、步长为 2 的卷积层，Stage2-Stage8 重复堆叠移动翻转瓶颈卷积。表格中 Layers
列的参数表明该 Stage 重复 MBConv 的次数，MBConv 后面的数字代表倍率因子，即
MBConv 中第一个 1×1 卷积的输出通道数与输入特征通道数的比值，k3×3 和 k5×5 表示
深度可分离卷积使用的卷积核大小，Channels 表示经过该 Stage 的输出特征通道数。
EfficientNet 虽然可以提取细致的特征，但是难以提取不明显但可识别部分的特征，
37
并且没有考虑将提取的特征之间的联系。
4.2.2 SE 模块
卷积神经网络的卷积操作融合局部区域的空间特征和通道特征，其工作重点是增大
感受野，即在空间上融合更多特征。缺省情况下，对输入特征的所有通道特征进行统一
处理，较少关注通道之间特征的关系。2017 年，来自 Momenta 的 Hu 等提出了 SE 模块，
该模块通过学习获取每个通道特征的贡献程度，按照贡献程度提升对当前任务有用的特
征并且抑制用处不大的特征，从而提高模型性能。模型通过 SE 模块可以自动学习不同
通道特征对目前任务的重要程度。SE 模块分为压缩（Squeeze）、激励（Excitation）和
标准化权（Scale）三部分，模块使用全局信息对不同维度的特征进行差异化加权学习，
建立表达能力更强的特征，激励对任务更重要的特征，抑制对任务不那么重要的特征[86]。
图 4.2 Squeeze-and-Excitation 模块结构图
SE 模块结构见图 4.2[87-89]，尺度为 H×W×C 的输入特征经过 SE 模块流程如下：

（1）压缩操作：利用全局平均池化将输入特征作为一个全局特征进行编码，得到
11 C 大小的全局特征，其计算过程为：
1 H W
zc  Fsq  uc  
H W
 u  i, j  , z  R
i 1 j 1
c
C
（4.1）
其中， H 代表高度，W 代表宽度， Fsq 代表全局平均池化层， uc 代表输入特征通道的第

C 个特征图。
（2）激励操作：从全局特征中提取通道间的关系。如公式（4.2）所示，经过两个
全连接层和 Sigmoid 激活函数的门机制提取各通道之间的依赖关系，得到 1×1×C 大小的
权重。
s  Fex  z,W     g  z,W     W2 W1 z   （4.2）
38
C C
C
其中， W1  R r ， W2  R r ， r 是缩放因子，  表示 ReLU 激活函数，  表示 Sigmoid
函数。 z 的维度为 1×1×C，通过第一个全连接层之后，维度变为 1×1×(C/r)，通过减少通
道数减少计算量，再经过 ReLU 函数，然后经过第二个全连接层，输出特征维度恢复成
1×1×C，最后由 Sigmoid 函数求得 s 。采用两个全连接层的原因是为了增加更多非线性
处理过程，以便更好地拟合通道间复杂的相关性、减少模型参数以及提高模型鲁棒性。
（3）标准化操作：将学习到的各个通道特征的贡献因子和原输入特征对应相乘，
在通道维度重新标定原特征，生成新特征，过程如公式（4.3）所示：
~
X c  Fscale  uc , sc   uc  sc （4.3）
~ ~ ~ ~
其中， X c  [ x1 ,x 2 ,..., x c ] ， Fscale  uc , sc  表示特征映射和标量 s 之间对应通道的乘积，实
现激励重要程度高特征、抑制重要程度低特征的目的。
4.2.3 FBSM 特征增强和抑制模块
基于注意力机制的提取特征方法往往只关注最显著部分的特征，而忽略其他不明显
但可识别部分的特征。然而，当屏蔽或抑制最显著部分特征表达时，模型将被迫挖掘其
他潜在特征。基于这个简单有效的思路，Song 等提出了 FBSM 模块。该模块从当前阶
段提取最显著部分的特征，然后抑制其表达，迫使后续阶段挖掘其他潜在部分的特征。
在卷积神经网络中间层插入 FBSM 模块，可以获得集中于不同部分的特征表达。FBSM
模块原理如下：
1. 获得最显著特征图
（1）假设网络某一层的输出特征图为 X  R H W C ，其中 H 、W 和 C 分别代表高度、
宽度和通道数。在宽度维度上将 X 分为 k 份，得到条纹特征图（Striped Feature Maps），
H (W / k )C
每份表示为 X (i )  R ， i  [1, k ] 。
（2）使用卷积核大小为 1×1 的卷积将每份特征图的通道数变为 1，接着用 BN 方法
和 ReLU 函数对数据进行归一化：
A(i )  ReLU ( ( X (i ) ))  R H (W / k )C （4.4）
ReLU 代表非线性函数，用于消除负数，  代表卷积。

（3）使用全局平均池化层压缩空间维度信息，将每份特征图的高和宽大小均变为 1，
得到每一部分的重要因子 bi' ：
bi'  GAP( A(i ) )  R （4.5）
GAP 表示全局平均池化。
39
（4）在宽度维度将 k 个特征图拼接起来得到 B ' 。

（5）使用 Softmax 归一化 B'  (b1' ,..., bk' )T ，得到每一部分对应归一化后的分数
B  (b1 ,..., bk )T ，即重要因子：
exp(bi' )
bi  （4.6）
 j[1,k ] exp(b'j )
（6）在宽度维度上将 B ' 恢复到输入 FBSM 模块的原特征图宽度大小。
（7）通过重要因子判断最显著区域，得到最显著区域的特征图 X b ：
X b  X    (B  X ) （4.7）
其中，  是一个超参数，控制提升的程度，  表示元素乘法。

（8）将最显著特征图水平地送入下一阶段。
2. 获取被抑制的潜在特征图
（1）根据式（4.8）求得抑制特征图中每一部分的重要性因子 S 。
1   , if bi  max  B 
si   （4.8）
1, otherwise
S  ( s1 ,...sk )T ，  是一个超参数，控制抑制的程度。
（2）通过抑制最显著的部分，得到抑制特征图 X s ：
Xs  S  X （4.9）
（3）将抑制特征图 X s 垂直送入下一个 FBSM 模块。

简而言之，FBSM 模块的功能可以表示为： FBSM ( X )  ( X p , X s ) 。给定特征图 X ，
FBSM 模块输出显著特征图 X p 和潜在特征图 X s 。因为 X s 抑制了现阶段最显著部分特征
的表达，所以当 X s 被输入到下一阶段时，其他潜在部分特征将得以表达。FBSM 模型
示意图如图 4.3 所示。
4.2.4 FDM 特征多样化模块
直观地说，只关注单独的局部特征而忽略其相互关系不利于最后的分类效果。针对
这一问题，引入 FDM 模块实现每个局部特征的多样化表达。具体实施方式为融合从其
他局部特征中挖掘的互补信息来增强每个局部特征。FDM 模块原理如下：
（1）FDM 输入为 FDSM 模块的输出，即最显著特征图 X b1 、 X b 2 和 X b 3 ，对三个
特征图进行卷积操作，使得它们的通道数先为 512，后为 1024，得到通道注意力特征图
X p1 、 X p2 和 X p3 。
（2）将通道注意力特征图两两结合，得到两者之间的互补信息。其中， X p1 和 X p2
40
p
融合得到 Ypp1 2 和 Ypp21 ， X p1 和 X p3 融合得到 Ypp1 3 和 Ypp31 ， X p2 和 X p3 融合得到 Ypp32 和 Ypp23 。Y pi j
代表 X pi 相对于 X p j 的互补信息。
（3）将得到的互补信息与对应的通道注意力特征图进行融合，得到增强后的特征
图：
Z pi  X pi    Ypi （4.10）
其中， Z pi 为融合后的特征图， X pi 为通道注意力特征图， Ypi 为其他两个通道注意力特

征图相对于 X pi 的互补信息相加的结果， 是超参数，控制多元化程度。例如，X p1 与 Yp1 2
p

和 Ypp1 3 融合，结果为： Z pi  X p1   Ypp1 2  Ypp1 3 。 
FDM 模块整体图如图 4.4 所示。
图 4.3 FBSM 模型示意图
图 4.4 FDM 具体示意图
FBSM 模块和 FDM 模块可很好地解决 EfficientNet 难以提取不明显但可识别特征以

41
及没有顾及特征之间联系的缺点。
4.2.5 深度网络总体框架
EfficientNet 共有 8 个 Stage，仅 Stage1、Stage3、Stage4、Stage6 和 Stage8 缩减了输

入特征图一半的空间，考虑到网络深层有更多的语义信息，将 FBSM 分别插入 Stage4、
Stage5 和 Stage8 末尾。经过 FBSM 模块得到的三个显著特征图输入 FDM 模块，获得三
个与输入特征图互补的输出特征图，将三个输出特征图分别送至 SE 模块，结果分为两
路，一路经过全局平均池化层，送入三个分类器，另一路经过平均池化层将结果变为大
小一致的张量，再相加送入分类器。总体框架图如图 4.5 所示。
图 4.5 总体框架图
4.3 实验结果及分析
本节首先选出最优的基础网络，然后对 SE 模块的功能进行了验证，最后得到性能
最佳的 EfficientNetB2_FFS 模型。此外，为对 EfficientNetB2_FFS 进行有效评估，将
EfficientNetB2_FFS 模型与近年来高水平的分类模型进行对比。
本节所有模型均使用迁移学习方法，因为迁移学习需要保证网络结构一致，所以有
关结构的修改只能放在网络之后。而网络深层空间及纹理信息较少、语义信息较多，空
间注意力[90]并不会增强过多的像素依赖，反而可能造成训练优化难度加大、精度降低，
通常，网络深层结构通道规模更大，且对通道域的敏感度更高，因此本节模型更多地构
建起通道间的依赖关系。
42
4.3.1 实验数据集
本章实验使用第三章介绍的三个数据集，将数据集每类花卉中的 80%随机分为训练
集，其余 20%作为测试集。输入图像大小统一设置为 256×256，其他图片预处理操作与
3.3.1 节保持一致。因为 FDM 模块的输入特征尺寸要求为偶数，如果图片选用 224×224
大小，模型最后一个 Stage 输出特征尺寸为奇数，不符合条件。由于硬件限制，本章没
有使用 Mixup 数据增强方法。
4.3.2 实验环境以及参数设置
本章实验环境、超参数设置和损失函数皆与第三章一致。
4.3.3 ResNet-50、DenseNet-161 与 EfficientNet 系列网络实验对比
FBSM 模块和 FDM 模块可以灵活地应用于各种卷积神经网络，本节将其使用在

ResNet-50、DenseNet-161 以及 EfficientNet 各系列网络上。这些网络的特征提取部分由
若干 Stage 组成，因为 FBSM 需要插入到使特征空间大小减半的 Stage 之后，并且网络
深层有更多语义信息，因此将 FBSM 插入至倒数三个使特征空间大小减半的 Stage 末尾，
例如，ResNet-50 的特征提取部分有 5 个 Stage，每个 Stage 都使得特征空间大小减半，
于是将 FBSM 插入 Stage3、Stage4、Stage5 的末尾。下文将插入 FBSM 模块和 FDM 模
块的 ResNet-50 简称为 ResNet50_FF，将同时插入 FBSM 模块、FDM 模块和 SE 模块的
ResNet-50 简称为 ResNet50_FFS，其他网络同理。由于硬件设施限制，本文没有对
EfficientNet-B5 至 EfficientNet-B7 作对比试验。
（1）各模型只添加 FBSM 模块和 FDM 模块
各模型在花卉数据集上的分类性能如表 4.2 所示，针对 7 个模型预测的结果，绘制
混淆矩阵，如图 4.6 所示，对角线上是预测正确的样本数，对角线之外的数值表示预测
错误的标签数量，颜色的深浅对应数量的范围区间。
43
表 4.2 各模型在五类花卉数据集上的分类性能
模型 PreMacro(%) RecMacro(%) F1Macro(%) Acc（%）

ResNet50_FF 97.07 97.07 97.06 97.13
DenseNet161_FF 97.51 97.54 97.50 97.54
EfficientNetB0_FF 97.48 97.50 97.47 97.54
由表 4.2 中看出，在五类花卉数据集分类问题上，EfficientNet 总体表现较为优秀，

其中 EfficientNetB2_FF 的宏精确率、宏召回率、宏 F1 值和准确率最优。
从图 4.6 可以看出：（1）雏菊易被误判为蒲公英，玫瑰易被误判为郁金香，向日葵
易被误判为雏菊，郁金香易被误判为雏菊和玫瑰，出现上述问题的原因可能是这些花卉
比较相似，或者模型提取的特征不够全面、缺乏对花卉更深层次特征的提取。（2）
EfficientNetB2_FF 模型在雏菊、蒲公英和郁金香三种类别上正确分类的样本数最多，而
且混淆矩阵中没有其他颜色明显的色块，从侧面也反映出被误分的样本数量少。
44
图 4.6 各模型在花卉数据集上的混淆矩阵
45
（2）各模型添加 FBSM 模块、FDM 模块和 SE 模块

各模型在五类花卉数据集上的分类性能如表 4.3 所示，针对 7 个模型预测的结果，
绘制混淆矩阵，如图 4.7 所示。
表 4.3 各模型在五类花卉数据集上的分类性能
模型 PreMacro(%) RecMacro(%) F1Macro(%) Acc（%）

ResNet50_FFS 97.20 97.28 97.23 97.26
DenseNet161_FFS 97.63 97.68 97.63 97.67
EfficientNetB0_FFS 97.17 97.28 97.21 97.26
由表 4.3 可以得出，加入 SE 模块，提高了 ResNet50_FF 、 DenseNet161_FF 、

EfficientNetB1_FF 和 EfficientNetB2_FF 的宏精确率、宏召回率、宏 F1 值以及准确率，
提升了 EfficientNetB3_FF 的宏精确率、宏召回率、宏 F1 值，证明 SE 模块有助于部分
网络提高分类性能。
从图 4.6 和图 4.7 可分析得出，
（1）加入 SE 模块改善了蒲公英被误分类为郁金香的
现象、向日葵被误分类为雏菊的现象以及郁金香被误分为雏菊和玫瑰的现象，证明 SE
模块减轻了误分类问题；（2）对五类花卉数据集，EfficientNetB2_FFS 分类效果最佳，
准确率达 97.81% ，且在玫瑰类别上表现比 EfficientNetB2_FF 好。因此，选择
EfficientNet-B2 为基础网络，本章完整的模型为 EfficientNet-B2 加上 FBSM 模块、FDM
模块以及 SE 模块的结合体。
46
图 4.7 各模型在花卉数据集上的混淆矩阵
47
4.3.4 改进 EfficientNet 与原始 EfficientNet 实验对比
为验证添加 FBSM 模块、FDM 模块和 SE 模块的有效性，将 EfficientNet_FFS 系列

模型与原始 EfficientNet 在五类花卉数据集上进行对比实验，结果如表 4.4 所示。
表 4.4 EfficientNet_FFS 系列模型与原始 EfficientNet 在五类花卉数据集上的对比结果
模型 PrecisionMacro(%) RecallMacro(%) F1Macro(%) Accuracy（%）

EfficientNetB0 96.69 96.68 96.68 96.72
EfficientNetB1 96.84 96.99 96.90 96.99
EfficientNetB2 96.40 96.72 96.56 96.58
EfficientNetB3 97.11 97.02 97.06 97.13
EfficientNetB4 97.21 97.16 97.19 97.26
由表 4.4 可得，加入 FBSM 模块、FDM 模块和 SE 模块的 EfficientNet 的宏精确率、

宏召回率、宏 F1 值和准确率均高于对应的原始 EfficientNet，证明 FBSM 模块、FDM 模
块和 SE 模块确实可以增强网络的性能。
为了更显著地观察 FBSM 模块、FDM 模块和 SE 模块的作用，使用 Grad-CAM 算
法分别对原始 EfficientNet-B2、加入 FBSM 模块的 EfficientNet-B2、加入 FDM 模块的
EfficientNet-B2、EfficientNetB2_FF 以及 EfficientNetB2_FFS 的 Stage4、Stage6、Stage8
学习到的图像特征进行可视化，如图 4.8 所示，图中亮色区域表示突出的显著性区域，
暗色表示稍弱的区域。图中一到三列的热力图分别对应模型的 Stage4、Stage6、Stage8。
第一行是从五类花卉数据集中的每一类随机抽取的一张原始图片；第二行是原始
EfficientNet-B2 所提取特征的热力图，说明原始模型倾向于关注最显著部分；第三行是
加入 FBSM 模块的 EfficientNet-B2 所提取特征的热力图，说明 FBSM 模块迫使模型挖掘
不同部分的特征，没有 FBSM 模块时，不同阶段的特征都集中于亮度高的区域，加入
FBSM 模块后，Stage4 阶段的特征聚焦于亮度较高区域，阶段 6 的特征集中于边缘，阶
段 8 的特征聚焦于花瓣与花蕊；第四行是加入 FDM 模块的 EfficientNet-B2 所提取特征
的热力图，说明 FDM 模块将所有 Stage 的特征都集中在不同 Stage 挖掘的整体部分；第
五行表示 EfficientNetB2_FF 所提取特征的热力图，证明了 FBSM 挖掘多个不同部分特
征的能力，FDM 多样化特征的能力；第六行表示 EfficientNetB2_FFS 所提取特征的热力
图，说明 SE 模块更关注花卉主体区域。
48
图 4.8 各模型不同阶段热力图
4.3.5 改进 EfficientNet 与其他深度网络实验对比
各模型在五类花卉数据集、Oxford-17 flowers 数据集和 Oxford-102 flowers 数据集上

的分类性能对比如表 4.5 所示。表中 MSDRNet 模型为将单路卷积换成多路卷积组的残
差网络， Sadati 等 [92] 设计的模型为连接 ResNet101 、Inception_V3 、DenseNet121 和
MobileNet 特征的深度卷积神经网络，其他模型的分类结果来自本文的 3.3.5。
表 4.5 中“DB_ResNeXt50”模型准确率并未加上 Mixup 数据增强增益。从表 4.5
可知，本章模型在五类花卉数据集上准确率为 97.81%，在 Oxford-17 flowers 数据集上
准确率为 100.00%，在 Oxford-102 flowers 数据集上准确率为 99.58%，相较于其他模型
均为最优，说明本章模型在花卉分类任务中具有一定优势。本章模型优秀的根本原因在
于它使用 EfficientNet-B2 直接对花卉图像进行特征提取，利用特征增强和特征抑制模块
不仅提取最显著的特征，还提取可区分但不明显的特征，采用特征多样化模块使特征之
间联系更紧密，并在此基础上添加通道注意力模块，减轻了复杂背景干扰的问题，将分
类的注意点放在花卉部分。
EfficientNetB2_FFS 模型在 Oxford-17 flowers 数据集的测试集中进行实验可得如图
4.9 所示混淆矩阵。从图 4.9 中可以看出，Oxford-17 flowers 数据集的测试集中全部样本
都被正确分类，说明 EfficientNetB2_FFS 在 Oxford-17 flowers 数据集上表现优秀。
49
表 4.5 与其他算法在三个花卉数据集上的比较结果
数据集模型 Accuracy(%)
S-VGGNet[76] 84.11
Ref[77] 93.73
Ref[78] 97.30
五类花卉数据集
MSDRNet[91] 87.91
DB_ResNeXt50(第三章模型) 97.62
EfficientNetB2_FFS(本章模型) 97.81
Ref[80] 73.82
Ref[52] 94.37
Ref[73] 94.71
Ref[54] 96.39
Oxford-17 flowers
Ref[81] 96.50
数据集
Ref[92] 97.64
Ref[58] 99.26
Ref[82] 85.55
Ref[57] 87.60
Ref[52] 90.25
Ref[83] 91.18
Ref[55] 92.85
Oxford-102 flowers
Ref[84] 93.38
数据集
Ref[54] 95.70
Ref[92] 96.47
Ref[58] 99.02
图 4.9 Oxford-17 flowers 数据集混淆矩阵图

50
4.4 本章小结
本章提出了一个高效的花卉分类模型 EfficientNetB2_FFS 。该模型利用
EfficientNet-B2 提取丰富的特征，然后利用特征增强与抑制模块获得不同部分的最显著
特征，其次融合最显著特征与它们之间的互补信息，得到加强版特征，此时的模型缺乏
特征选择能力，引入通道注意力模块对花卉主体区域特征进行加强。在三个公开花卉数
据集上对 EfficientNetB2_FFS 进行了仿真实验，证明了本章提出的模型比现有的花卉分
类模型具有更优的分类性能。
51
第五章结论与展望
5.1 结论
针对花卉图像中主体位置不定、类间差异较小、类内差异较大、背景复杂多变等问
题，本文分析了传统机器学习方法的弊端以及深度学习的优势，并对花卉分类进行了深
入研究，具体工作如下：
（1）扼要介绍了目前花卉图像分类的目的与意义，总结了国内外传统机器学习和
深度学习方法并指出这些方法的优缺点，得出深度学习方法更有利于花卉分类的结论，
然后简述本文使用的数据集以及评价指标，其次阐述本文所用深度学习网络模型，描述
它们的结构和优点，随后介绍迁移学习的意义与应用场景。
（2）为了解决花卉数据集尺寸多变、姿态各异等问题，提出了一种基于密集连接
的花卉分类模型 DB_ResNeXt50。DB_ResNeXt50 以 ResNeXt-50 为基础，使用迁移学习
方法获得网络通用浅层特征，利用密集连接模块提高对花卉的特征表达能力，同时选用
Mixup 数据增强方法扩充数据集，解决数据不足问题。本文在三个公开花卉数据集（五
类花卉数据集、Oxford-17 flowers 数据集和 Oxford-102 flowers 数据集）上进行了仿真实
验，准确率分别为 97.99%、100.00%和 99.66%，并通过消融实验验证了密集连接模块有
助于模型分类性能的提升。
（3）针对花卉图片的高复杂度造成识别率不高问题，设计了充分利用丰富特征的
花卉分类模型，该模型使用 EfficientNet 扩展模型充分提取花卉特征，为了利用不显著
但可区分的特征，加入特征增强和特征抑制模块，再使用特征多样化模块使特征联系紧
密。由于花卉图像存在花卉主体位置不定、光照多样、背景复杂等问题，在上述模型的
基础上添加通道注意力模块，对高层特征通道进行权重分配，实现优化特征作用，使其
辨识性更强。
5.2 展望
针对花卉图像分类识别存在的泛化性较弱、鲁棒性较差问题，本文虽然结合深度学
习知识提出了两个泛化性较强、鲁棒性较好的网络模型，但是仍然存在一些问题，在以
后的研究中，可着重改善以下几个方面：
（1）运用更大的数据集
52
本文虽然使用了三个花卉数据集，但是其中两个数据集包含的花卉为英国常见花卉，
与我国花卉种类有一定区别，如果能使用囊括更多我国本土花卉种类的数据集，可训练
更适用于我国人们使用的花卉分类模型。
（2）减少深度卷积网络的参数
本文提出的两个花卉分类模型虽然在花卉数据集上准确率较高，但存在参数太多问
题，而参数太多的模型不适用于手机等移动设备，因此如何在保证网络精度的前提下删
除一些不必要的结构可成为日后研究的方向。
（3）使用更优的注意力机制
本文提出的基于 EfficientNet 和迁移学习的花卉分类模型仅使用了通道注意力模块，
忽略了空间注意力模块，如果能在模型的适当位置加入该模块，或许可以改善模型性能。
（4）运用其他数据集
本文使用的都是花卉数据集，但还有其他数据集（例如鸟类数据集）符合类间差异
小类内差异大的特点，本文提出的模型并没有验证在其他此类数据集效果。
53
参考文献
参考文献
[1] 闫鹏, 牛常勇, 范明. 基于级联卷积网络的自然场景下的车牌检测[J]. 计算机工程与设计, 2014,

35(12): 4296-4301.
[2] Zhao D, Chen Y, Lv L. Deep reinforcement learning with visual attention for vehicle classification[J].
IEEE Transactions on Cognitive and Developmental Systems, 2016, 9(4): 356-367.
[3] 张佳达, 许学斌, 路龙宾, 等. 基于深度残差网络的交通标志识别方法研究[J]. 计算机仿真,
2022, 39(01): 143-147.
[4] 刘吉, 孙仁诚, 乔松林. 深度学习在医学图像识别中的应用研究[J]. 青岛大学学报(自然科学版),
2018, 31(01): 69-74+80.
[5] 何雪英, 韩忠义, 魏本征. 基于深度学习的乳腺癌病理图像自动分类[J]. 计算机工程与应用,
2018, 54(12): 121-125.
[6] 李琼, 柏正尧, 刘莹芳. 糖尿病性视网膜图像的深度学习分类方法[J]. 中国图象图形学报, 2018,
23(10): 1594-1603.
[7] 王鑫, 李可, 徐明君, 等. 改进的基于深度学习的遥感图像分类算法[J]. 计算机应用, 2019,
39(02): 382-387.
[8] 张浩, 赵云胜, 陈冠宇, 等. 基于支持向量机的遥感图像建筑物识别与分类方法研究[J]. 地质科
技情报, 2016, 35(06): 194-199.
[9] 屈赟, 吴玉洁, 刘盼. 计算机视觉技术在农作物病虫草害防治中的研究进展[J]. 安徽农业科学,
2011, 39(09): 5570-5571.
[10] 王艳玲. 基于卷积神经网络的农作物病害分类研究[D]. 乌鲁木齐: 新疆大学,2020.
[11] 鲍官军, 荀一, 戚利勇, 等. 机器视觉在黄瓜采摘机器人中的应用研究[J]. 浙江工业大学学报,
2010, 38(01): 114-118.
[12] 田有文, 吴伟, 卢时铅, 等. 深度学习在水果品质检测与分级分类中的应用[J]. 食品科学, 2021,
42(19): 260-270.
[13] 张岳明. 进入跨越式发展快车道——全国花卉零售产销形势分析[J]. 中国花卉园艺, 2021(04):
21-24.
[14] Farzinfar M, Xue Z, Teoh E K. A novel approach for curve evolution in segmentation of medical
images[J]. Computerized Medical Imaging and Graphics, 2010, 34(5): 354-361.
[15] Al-Amri S S, Kalyankar N V, Khamitkar S D. Image segmentation by using edge detection[J].
International journal on computer science and engineering, 2010, 2(3): 804-807.
[16] 陈方昕. 基于区域生长法的图像分割技术[J]. 科技信息, 2008(15): 58-59.
[17] Bell A J, Sejnowski T J. An information-maximization approach to blind separation and blind
deconvolution[J]. Neural computation, 1995, 7(6): 1129-1159.
[18] Altman N S. An introduction to kernel and nearest-neighbor nonparametric regression[J]. The
American Statistician, 1992, 46(3): 175-185.
[19] Das M, Manmatha R, Riseman, E M. Indexing flower patent images using domain knowledge[J].
IEEE Intelligent Systems and their Applications, 1999, 14(5): 24-33.
[20] Saitoh T, Aoki K, Kaneko T. Automatic recognition of blooming flowers[C]//Proceedings of the 17th
54
参考文献
International Conference on Pattern Recognition, 2004. ICPR 2004. IEEE, 2004, 1: 27-30.
[21] Saitoh T, Aoki K, Kaneko T. Automatic extraction of object region from
photographs[C]//Scandinavian Conference on Image Analysis. Springer, Berlin, Heidelberg, 2003:
1130-1137.
[22] Mortensen E N, Barrett W A. Intelligent scissors for image composition[C]//Proceedings of the 22nd
annual conference on Computer graphics and interactive techniques. 1995: 191-198.
[23] Hartigan J A, Wong M A. Algorithm AS 136: A k-means clustering algorithm[J]. Journal of the royal
statistical society. series c (applied statistics), 1979, 28(1): 100-108.
[24] Nilsback M E, Zisserman A. A visual vocabulary for flower classification[C]//2006 IEEE Computer
Society Conference on Computer Vision and Pattern Recognition (CVPR'06). IEEE, 2006, 2:
1447-1454.
[25] Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International journal of
computer vision, 2004, 60(2): 91-110.
[26] Varma M, Zisserman A. Classifying images of materials: Achieving viewpoint and illumination
independence[C]//European Conference on Computer Vision. Springer, Berlin, Heidelberg, 2002:
255-271.
[27] Nilsback M E, Zisserman A. Automated flower classification over a large number of classes[C]//2008
Sixth Indian Conference on Computer Vision, Graphics & Image Processing. IEEE, 2008: 722-729.
[28] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//2005 IEEE computer
society conference on computer vision and pattern recognition (CVPR'05). IEEE, 2005, 1: 886-893.
[29] Fukuda K, Takiguchi T, Ariki Y. Multiple classifier based on fuzzy c-means for a flower image
retrieval[C]//Proc. Int. Workshop on Nonlinear Circuits and Signal Processing (NCSP’2008). 2008:
76-79.
[30] Bezdek J C, Ehrlich R, Full W. FCM: The fuzzy c-means clustering algorithm[J]. Computers &
geosciences, 1984, 10(2-3): 191-203.
[31] Angelova A, Zhu S, Lin Y. Image segmentation for large-scale subcategory flower
recognition[C]//2013 IEEE Workshop on Applications of Computer Vision (WACV). IEEE, 201
3:39-45.
[32] 谢晓东. 面向花卉图像的精细图像分类研究[D]. 厦门: 厦门大学, 2014.
[33] Rother C, Kolmogorov V, Blake A. " GrabCut " interactive foreground extraction using iterated graph
cuts[J]. ACM transactions on graphics (TOG), 2004, 23(3): 309-314.
[34] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science.
2006, 313(5786): 504-507.
[35] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J].
Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[36] 汪雅琴, 夏春蕾, 戴曙光. 基于 LeNet-5 模型的手写数字识别优化方法[J]. 计算机与数字工程,
2019, 47(12): 3177-3181.
[37] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural
networks[C]. Advances in neural information processing systems, 2012:1097-1105.
[38] Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database[C]//2009 IEEE
conference on computer vision and pattern recognition. IEEE, 2009: 248-255.
55
参考文献
[39] 周德良. 基于 AlexNet 网络的动物图片分类[J]. 贵州大学学报(自然科学版), 2019, 36(06): 73-77.

[40] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J].
arXiv preprint arXiv:1409.1556, 2014.
[41] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//Proceedings of the IEEE
conference on computer vision and pattern recognition. 2015: 1-9.
[42] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the
IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[43] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal
covariate shift[C]//International conference on machine learning. PMLR, 2015: 448-456.
[44] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer
vision[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016:
2818-2826.
[45] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-resnet and the impact of residual
connections on learning[J]// arXiv preprint arXiv:1602.07261, 2016.
[46] Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural
networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017:
1492-1500.
[47] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on
computer vision and pattern recognition. 2018: 7132-7141.
[48] Zhong X, Gong O, Huang W, et al. Squeeze-and-excitation wide residual networks in image
classification[C]//2019 IEEE International Conference on Image Processing (ICIP). IEEE, 2019:
395-399.
[49] Li Y, Fan Y. DeepSEED: 3D squeeze-and-excitation encoder-decoder convolutional neural networks
for pulmonary nodule detection[C]//2020 IEEE 17th International Symposium on Biomedical Imaging
(ISBI). IEEE, 2020: 1866-1869.
[50] 李明悦, 何乐生, 雷晨, 等. 基于注意力特征融合的 SqueezeNet 细粒度图像分类模型[J]. 云南大
学学报(自然科学版), 2021, 43(05): 868-876.
[51] Tan M, Le Q. Efficientnet: Rethinking model scaling for convolutional neural networks[C]//
International conference on machine learning. PMLR, 2019: 6105-6114.
[52] 王爽. 基于机器学习的花卉识别算法的研究与实现[D]. 成都: 电子科技大学, 2018.
[53] 尹红. 基于深度学习的花卉分类算法研究[D]. 南昌: 南昌航空大学, 2018.
[54] Cıbuk M, Budak U, Guo Y, et al. Efficient deep features selections and classification for flower
species recognition[J]. Measurement, 2019, 137: 7-13.
[55] 吴迪, 侯凌燕, 刘秀磊, 等. 一种改进的深度神经网络的花卉图像分类[J]. 河南大学学报(自然科
学版), 2019, 49(02): 192-203.
[56] 牛源. 基于深度学习的花卉图像检索系统的研究与实现[D]. 扬州: 扬州大学,2019.
[57] 秦敏. 基于深度学习的花卉分类识别模型研究[D]. 桂林: 广西师范大学, 2020.
[58] 裴晓芳, 张扬. 基于改进残差网络的花卉图像分类算法[J]. 电子器件, 2020, 43(03): 698-704.
[59] Simard P Y, LeCun Y A, Denker J S, et al. Transformation invariance in pattern recognition—tangent
distance and tangent propagation[M]//Neural networks: tricks of the trade. Springer, Berlin,
Heidelberg, 1998: 239-274.
56
参考文献
[60] Zhang H, Cisse M, Dauphin Y N, et al. mixup: Beyond empirical risk minimization[J]. arXiv preprint
arXiv:1710.09412, 2017.
[61] 白雪. 基于双流网络的人体动作识别[D]. 郑州: 郑州大学,2019.
[62] Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings
of the IEEE conference on computer vision and pattern recognition. 2017: 4700-4708.
[63] Zoph B, Vasudevan V, Shlens J, et al. Learning transferable architectures for scalable image
recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018:
8697-8710.
[64] Real E, Aggarwal A, Huang Y, et al. Regularized evolution for image classifier architecture
search[C]//Proceedings of the aaai conference on artificial intelligence. 2019, 33(01): 4780-4789.
[65] Zoph B, Le Q V. Neural architecture search with reinforcement learning[J]. arXiv preprint
arXiv:1611.01578, 2016.
[66] Tan M, Chen B, Pang R, et al. Mnasnet: Platform-aware neural architecture search for
mobile[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
2019: 2820-2828.
[67] 庄福振, 罗平, 何清等. 迁移学习研究进展[J]. 软件学报, 2015, 26(01): 26-39.
[68] Tiay T, Benyaphaichit P, Riyamongkol P. Flower recognition system based on image
processing[C]//2014 Third ICT International Student Project Conference (ICT-ISPC). IEEE, 2014:
99-102.
[69] Lodh A, Parekh R. Flower recognition system based on color and GIST features[C]//2017 Devices for
Integrated Circuit (DevIC). IEEE, 2017: 790-794.
[70] 郑玉龙, 赵明. 基于深度学习的自然环境下花朵识别 [J]. 计算技术与自动化, 2019, 38(02):
114-118.
[71] Giraddi S, Seeri S, Hiremath P S, et al. Flower Classification using Deep Learning models[C]//2020
International Conference on Smart Technologies in Computing, Electrical and Electronics (ICSTCEE).
IEEE, 2020: 130-133.
[72] 徐光柱, 朱泽群, 尹思璐, 等. 基于轻量级深层卷积神经网络的花卉图像分类系统[J]. 数据采集
与处理, 2021, 36(4): 756-768.
[73] 曹晓杰, 么娆, 严雨灵. 应用迁移学习的卷积神经网络花卉图像识别[J]. 计算机应用与软件,
2020, 37(8): 142-148.
[74] 林君宇, 李奕萱, 郑聪尉. 应用卷积神经网络识别花卉及其病症[J]. 小型微型计算机系统, 2019,
40(6): 1330-1335.
[75] Selvaraju R R, Cogswell M, Das A, et al. Grad-cam: Visual explanations from deep networks via
gradient-based localization[C]//Proceedings of the IEEE international conference on computer vision.
2017: 618-626.
[76] 伍思雨, 冯骥. 基于改进 VGGNet 卷积神经网络的鲜花识别[J]. 重庆师范大学学报(自然科学版),
2020, 37(4): 124-131.
[77] 刘嘉政. 基于深度迁移学习模型的花卉种类识别[J]. 江苏农业科学, 2019, 47(20): 231-236.
[78] 张梦雨. 基于 ResNet 和注意力机制的花卉识别[J]. 计算机与现代化, 2021(4): 61-67.
[79] Sahil S. A new kind of pooling layer for faster and sharper convergence9EB/OL0. https:
//github.com/singlasahill4/sortpool2d/blob/master/sortpool 2d_test.py.
57
参考文献
[80] 任意平, 夏国强, 李俊丽. 基于优化 AlexNet 的花卉识别[J]. 电子测量技术, 2020, 43(19): 94-98.
[81] 吴丽娜, 王林山. 改进的 LeNet-5 模型在花卉识别中的应用[J]. 计算机工程与设计, 2020, 41(03):
850-855.
[82] 尹红, 符祥, 曾接贤, 等. 选择性卷积特征融合的花卉图像分类[J]. 中国图象图形学报, 2019,
24(05): 762-772.
[83] 曾凡婧, 雷鸣. 基于卷积神经网络的花卉识别研究[J]. 电脑知识与技术, 2019, 15(11): 185-188.
[84] 吴迪, 刘秀磊, 侯凌燕等. 基于显著性检测和迁移学习的花卉图像分类[J]. 北京信息科技大学学
报(自然科学版), 2019, 34(01): 55-63.
[85] Song J W, Yang R Y. Feature Boosting, Suppression, and Diversificationfor Fine-Grained Visual
Classification[J]. arXiv preprint, 2021: arXiv:2103.02782v2.
[86] 刘学平, 李玙乾, 刘励, 等.嵌入 SENet 结构的改进 YOLOV3 目标识别算法[J]. 计算机工程, 2019,
45(11): 243-248.
[87] 田佳鹭, 邓立国. 结合嵌入模块的细粒度图像分类方法[J]. 现代计算机, 2021(11): 106-110.
[88] 许学斌, 张佳达, 刘伟, 等. 融合空间和通道特征的高精度乳腺癌分类方法[J]. 计算机应用,
2021, 41(10): 3025-3032.
[89] 鲁梦瑶, 周强, 姜舒文, 等. 基于深度学习与多尺度特征融合的烤烟烟叶分级方法[J]. 中国农机
化学报, 2022, 43(01): 158-166.
[90] Woo S, Park J, Lee J Y, et al. CBAM: Convolutional Block Attention Module[C]∥European
Conference on Computer Vision, 2018: 3-19.
[91] He M, Zhu H, Li Y, et al. Flower Image Classification Based on Multi-scale Dense Residual
Network[C]//2021 6th International Conference on Image, Vision and Computing (ICIVC). IEEE,
2021: 144-148.
[92] Sadati F, Rezaie B. An Improved Image Classification Based In Feature Extraction From
Convolutional Neural Network: Application To Flower Classification[C]//2021 12th International
Conference on Information and Knowledge Technology (IKT). IEEE, 2021: 35-40.
58
致谢
致谢
回首过往，不知不觉已经过去了三年，静静回想，还能忆起当初在考场上的紧张忐
忑、在研一时的茫然无措、还有在研二时的挣扎突破，意识到这一切已经过去、不可挽
回，不免无限感慨。虽然研究生生活有深深的痛苦，但我的三年大学时光过得还算满意，
这大部分是我周围善良可爱的人的功劳。在毕业论文完成之际，我要向所有关心我的人
致以最大的关怀和最诚挚的祝愿。
首先，我要感谢导师梁礼明，这三年来，导师时时的点拨让我受益匪浅。从课题选
择到实验，再到整理相关成果，梁礼明老师都给予了我极大的支持和鼓舞，哪怕我的想
法不切实际，导师也给我试错的机会。本论文从开题到完成，几度易稿，每一步都在导
师的指导下完成，倾注了导师大量的心血，在此向我的导师梁礼明表示深切的谢意与祝
福。
其次，我还要感谢在一起愉快地度过研究生生涯的电气楼 306 各位同学——彭仁杰、
尹江、冯骏、邹俊峰、习浩、李世聪、龚家仁和杜增正，正是你们创造了实验室良好的
学习氛围，也是你们帮助我解决一个个科研难题，直至本文顺利完成，是你们让我知道
团队合作的乐趣、一起努力的快乐，我会永远记得我们一起奋斗的样子。祝愿你们前程
似锦，一帆风顺。
然后，我要感谢室友熊莹燕、郭春燕和陈苗对我的包容。我们一起维护寝室卫生，
一起聚餐、夜晚长聊，当我遇到困难时，你们会温柔地安慰我，这一幕幕会铭刻在我心
中，愿未来多聚。
最后，我想在这里感谢双亲的养育之恩，感谢你们无条件支持我在学业上的追求，
让我明白无论身处何处，总有一个可以让我停靠的温暖港湾，给我无尽的力量。
59
攻读学位期间的研究成果
攻读学位期间的研究成果
已发表论文：
1.吴媛媛, 梁礼明, 彭仁杰, 尹江.基于 ResNeXt 和迁移学习的花卉种类识别研究[J]. 种业导刊,
2022(01): 42-48.
2.梁礼明, 钱艳群, 吴媛媛. 融合跨阶段局部网络和空间金字塔池化的 Yolov3 目标检测算法[J]. 重庆
理工大学学报(自然科学), 2021, 35(10): 136-143.
3.梁礼明, 尹江, 彭仁杰, 吴媛媛. 基于多尺度注意力的皮肤镜图像自动分割算法[J]. 科学技术与工
程, 2021, 21(34): 14644-14650.
60
－
＾ 為？
■ ＾ ＾ｆ “
ｊ
ｖ．
－＞
＾ ；
－
？
．
＾＾－
？
＜？
？＾ｒ 
－
＾．
 ：
＾＾ｒ  、Ｘ．，Ｍ 

二
＾
Ｗ ＾ ＾   ＊＾ＺＺ 
－＇
，
￡ｆｔ
 Ｄ 八＾ｖｊ 
１
Ａ４ｒ＾ｍＫ＾
？？
〇ｉ－ ？  ，
＿
．
Ｊ？ｒ：
Ｖ
？
 －＊
．
＞．
－
ｒ
＞
＞
 Ｊｔ． 
■ ５
 

＊


＂
＜ｔ ＾
＇
－／
＊＂
＾


＂
＊ ’
＾ ？
■
ｖ４
＊
ｖ＾
－＇
 ＾
ｈ
＇
 ？
  —  ．
２？
？， ’
１，

？ 
？
？＊，
 
？
Ｖ厂乂
＾
，



？
．
？＊
一 ＼＾＊
％？． 
？？＊
■
、
、－
．  ，？
■
＾
广－
＜５
．． ，、？
ｒ＜，

’
卜＾
、－
 Ｃ＾ｙ  Ａ＾ ‘ 表，龙宄
＇
 ｆ

■
１？
， ＊Ｔｉ＞＾
．？ … 

－
， 
．
＜
．
．．
：
？
ＶＶ
／  １  Ａ ｆ   ｉ Ｕ？１＊ ＊ 
—
＊？ ＊
 ＶＣ
广
＞Ｈ｜  ？
Ｃ  


？４＾
：－

ｉＶ
 ＾
ｒ
Ｃ
．  ．－
／
？
＾ｗｒ
一
ｉ＼＼
？
．？  ．


＼
、
，

？
：
 ＾ｒ １ 」
＇？，
？？
＜、
－ ？－
＿
－
！；  ｔ
ｓ．
－
 － ”
： 
Ｘ ”  ｒ 
＊．
＊？
’
％  ｉ：二
、
’，
、 ＇？

二
＇？ ‘
／
 “
．
＇
．
：
：
＇
－
．／：．＿
？－
＇ 
？
－－
、
？
．广：ｋ
【
、
，：＇．、？
、．
？
：１
！、：


？

＊
■ ＇

■

＇＊＾ｒ３ｙ＊ 

一
？－

ｖ
．  －．
ｖ
 ，．
ｆｉｔ硕士学ａ
位论文


ｅＴｈｅｓｉｓ ｆｏｒ Ｍｓｔｅｒｓ  Ｄｅｇｒ 

ｅ

基于深度学习的花卉识别分类研究 吴媛媛

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于深度学习的花卉识别分类研究 吴媛媛

Uploaded by

Copyright:

Available Formats

＾

3.2.2 分组卷积与 ResNeXt 卷积模块 ..................................................................... 25

1999 年，Das 等[19]利用花卉图片的颜色和空间领域知识，使用迭代分割算法自动分

深度学习的概念由 Hinton 等在 2006 年《Science》期刊上首次提出[34]，指的是基于

的绝对优势成为冠军。该网络包含 5 个“卷积层+最大池化层”结构以及 3 个全连接层，

图像类别 雏菊 蒲公英 玫瑰 向日葵 郁金香

Oxford-17 flowers 数据集和 Oxford-102 flowers 数据集于 2006 年提出，被广泛地应

图 2.2 Oxford-17 flowers 数据集示例图

图 2.3 Oxford-102 flowers 数据集示例图

在分类问题中，准确率（Accuracy, Acc）、精确率（Precision, Pre）、召回率（Recall,

对于多分类问题，有四种分类结果：（1）真实标签为 i 类的样本被分类为 i 类，将

精确率（ Prei   0,1 ）表示被正确分类的 i 类样本数与分类为 i 类样本数的比率，数

其中，  是超参数，  为贝塔分布，   0,1 是由参数  的贝塔分布计算得到的混合系

抽取的 2 组不同样本，  x, y  为使用 Mixup 方法后创建的虚拟样本。

图 2.4 当  =0.5 时，Mixup 处理后的图片

图 2.6 ResNet 构建单元

其中， h  xl  表示直接映射， F  xl , wl  表示残差部分。网络经过递归可得到任意深层单

He 等提出两种残差模块，如图 2.7 所示，图（a）用于 ResNet-18 和 ResNet-34 浅层

图 2.8 ResNet-50 结构图

其中， C 是基数， Ti 具有相同的拓扑结构，即几个卷积层的堆叠。

图 2.9 基数为 32 时 ResNeXt 的残差块结构

ResNeXt 在保留 ResNet 直接映射的基础上，将残差块的残差部分由单路径卷积扩

图 2.10 ResNeXt 的直接映射带卷积残差块结构

其中， [ x0 , x1 ,..., xl 1 ] 是由前面各层输出特征图连接而成的张量， H l () 表示非线性变换

图 2.11 DenseNet 网络结构图

其中， Fi Li 表示在 Stage i 中卷积层 Fi 重复了 Li 次。

s.t N  d , w, r    Fˆi d Li X

其中， d 、 w 和 r 分别是缩放网络的深度（ Lˆi ）、宽度( Cˆ i )与分辨率( Hˆ i 和 Wˆi )的系数，

因为卷积神经网络的大部分计算由卷积运算占据，所以运用式 2.17 对卷积神经网络

（2）固定   1.2 ，  1.1 ，  1.15 ，运用式（2.18）利用不同  值放大 EfficientNet-B0，

Model Top-1 Acc. Top-5 Acc. #Params Ratio-to-EfficientNet #FLOPs Ratio-to-EfficientNet

结构和作用以及迁移学习思想，重点阐述了 ResNeXt、DenseNet 和 EfficientNet 的背景

第三章 基于 ResNeXt 和迁移学习的花卉种类识别

3.2 基于 ResNeXt 和迁移学习的花卉种类识别模型

五类花卉数据集仅有三千多张带标注的图片，Oxford-17 flowers 数据集仅提供一千

个左右带标签样本，Oxford-102 flowers 数据集虽然有约八千个带标注样本，但每类仅有

3.2.2 分组卷积与 ResNeXt 卷积模块

(a)普通卷积(Convolution) (b)分组卷积(Group Convolution)

普通卷积的计算量 F 如公式（3.1）所示，参数量 C 如公式（3.2）所示。

表 3.1 ResNeXt 卷积模块结构表

卷积层名称 输出格式 ResNeXt

本章使用的 ResNeXt 卷积模块主要分两部分：

密集连接模块主要用于整合 ResNeXt 卷积模块提取到的特征，并将输出特征送入全

图 3.3 n 层 bottleneck 示意图

本节对提出的 DB_ResNeXt50 模型进行实验选择最优的 bottleneck 层数，之后进行

本章使用 2.1 节介绍的三个数据集，采用 2.2 节图像增强方法对其进行处理，将数

本章实验环境为 Win10 操作系统，处理器为 Inter(R) Core(TM) i5-10300H CPU @

层数 PreMacro(%) RecMacro(%) F1Macro(%) Acc (%)

由表 3.2 可以看出，当层数低于或者等于 15 时，准确率、宏精确率、宏召回率和宏

层数 PreMacro(%) RecMacro(%) F1Macro(%) Acc (%)

ResNeXt-5 迁移学习 密集连接模块

由图 3.5 所示，原始 ResNeXt-50 初始准确率低，拟合速度慢，最终准确率不高，使

图 3.6 ResNeXt-50 与 DB_ResNeXt50 热力图

通过之前的消融实验得出迁移学习方法、密集连接模块以及 Mixup 数据增强方法对

DB_ResNeXt50 模型在五类花卉数据集的测试集和 Oxford-17 flowers 数据集的测试

图 3.8 Oxford-17 flowers 数据集混淆矩阵图

第四章 基于 EfficientNet 和迁移学习的花卉种类识别

4.2 基于 EfficientNet 和迁移学习的花卉种类识别模型

表 4.1 EfficientNet-B2 卷积模块结构框架

Stage Operator Resolution Channels Layers

由表 4.1 可以看出，EfficientNet-B2 总共分成 8 个 Stage。Stage1 包含一个卷积核大

图 4.2 Squeeze-and-Excitation 模块结构图

SE 模块结构见图 4.2[87-89]，尺度为 H×W×C 的输入特征经过 SE 模块流程如下：

基于深度学习的花卉识别分类研究吴媛媛

基于深度学习的花卉识别分类研究吴媛媛

图像类别雏菊蒲公英玫瑰向日葵郁金香

第三章基于 ResNeXt 和迁移学习的花卉种类识别

卷积层名称输出格式 ResNeXt

ResNeXt-5 迁移学习密集连接模块

第四章基于 EfficientNet 和迁移学习的花卉种类识别

由表 4.3 可以得出，加入 SE 模块，提高了 ResNet50_FF 、 DenseNet161_FF 、