融合注意力机制和残差网络的细粒度菌菇图像分类王新鹏

分类号：S126/TP399 单位代码：10193
密级：公开学号：20211469
专业硕士学位论文
融合注意力机制和残差网络的细粒度菌菇图像分类
Fine-grained Mushroom Image Classification by Resnet Combined with

Attention Mechanism
作者姓名：王新鹏
学位类别：农业硕士
专业名称：农业工程与信息技术
研究方向：农业信息化
指导教师：朱丽副教授
所在学院：智慧农业研究院
2023 年 5 月
摘要
菌菇产业是我国的第五大类产业，菌菇作为重要的真菌之一，其种类繁多，许多菌菇
在形态学上非常相近，人们往往难以辩识，采用传统方法过程耗时长，耗费人力财力而且
制约着菌菇产业发展，菌菇图像快速高精度的分类具有重要的意义。采用深度学习技术可
以有效地对数据进行分类，应用到菌菇图像分类领域实现菌菇图像的准确分类。
本文基于注意力机制和残差网络，设计两种分类模型 BAM-Net（Base on Attention
Mechanism-Net）和 IAMR-Net（Integrating Attention Mechanism and ResNet-Net）均
能较好的求解细粒度菌菇图像分类问题。此外筛选并整理了一个来自世界各地实地拍摄的
96 种细粒度菌菇数据集，两个模型在 4 个公共细粒度数据集和构建 96 种菌菇数据集上均
表现出良好的分类准确率，有效的解决细粒度菌菇图像分类的问题。具体研究工作如下：
（1）针对当前菌菇分类领域的数据集部分空白，构建了一个来自世界各地自然环境
下实地拍摄的菌菇数据集，将数据集命名为 Mushroom-96。数据集中共有 96 种 8178 张菌
菇图片。每种类别菌菇均隶属于担子菌门，菌菇子实体部分均有菌盖，菌褶或菌孔，菌柄
三部分组成，每种类别的菌菇包含 72 至 103 幅图像数据，每张图像均提供了标签类别标
记信息，拉丁文名称及中文名称，统一数据集图片分辨率为 7272。
（2）针对细粒度菌菇图像分类中数据分布具有小型、非均匀和不易察觉类间差异的
问题，设计了一种基于 Multi-Head-Self Attention 和嵌入 SENet 通道注意力的残差网络
模型 BAM-Net 用于细粒度图像的分类。模型对输入图像经过 ResNet50 之后提取到的特征
图采用双路 SENet 通道注意力和 Embedded 实现特征权重校准和特征初步嵌入后，应用
Multi-Head-Self Attention 学习梯度网络中的空间特征关系。在损失函数方面，结合
Cross Entropy Loss 和 Center Loss 两种损失函数进行组合来是实现对模型的训练。模
型在 Oxford 102 Flowers、CUB-200-2011 和 Mushroom-96 三个数据集上的准确率分别达
到 94.42%、89.43%和 90.09%。
（3）为进一步求解细粒度菌菇图像分类的问题，设计结合双线性卷积网络融合注意
力机制的分类模型 IAMR-Net。模型结合优化改进后的 ResNet50 双线性汇合操作作为特征
提取网络，将提取到的双线性特征嵌入到 Multi-Head-Self Attention 对特征进行空间维
度全局建模达到提取深度特征数据之间细粒度关系的目的后，通过混合损失函数，在
Oxford 102 Flowers 、CUB-200-2011、Stanford Cars、Stanford Dogs 和 Mushroom-96
五个数据集上进行对比实验和消融分析，结果表明模型在不使用细粒度特征标注的情况下
达到分别 96.05%、92.33%、94.14%、91.22%和 91.17%的准确率。
关键词：注意力机制，残差网络，细粒度分类，菌菇图像，损失函数
I
Abstract
The mushroom industry is the fifth largest category of industry in China. As one of the
important fungi, mushroom has a wide variety of species. Many mushrooms are very similar in
morphology, which is often difficult to identify. Using traditional methods takes a long time,
consumes manpower and financial resources, and restricts the development of the mushroom
industry. Rapid and high-precision classification of mushroom images is of great significance.
Using deep learning technology can effectively classify data and apply it to the field of
mushroom image classification to achieve accurate classification of mushroom images.
This paper designs two classification models based on attention mechanism and residual
network,BAM-Net (Base on Attention Mechanism-Net) and IAMR-Net (Integrating Attention
Mechanism and ResNet-Net), which can better solve the classification problem of fine-grained
mushroom images and improve the accuracy of image classification. In addition, a dataset of 96
species of mushrooms from field photography around the world was screened and collated. The
two models showed good classification accuracy on 4 public fine-grained datasets and 96
self-built mushroom datasets, effectively solving the problem of fine-grained mushroom image
classification. The specific research work is as follows:
（1）In response to the lack of data sets in the field of mushroom classification at present,
we have created a mushroom data set from field photography in natural environments around
the world, naming it Mushroom-96. There are a total of 8178 mushroom images of 96 species in
the data set. Each type of mushroom belongs to the Basidiomycetes. The fruiting body of the
mushroom is composed of three parts: a cap, a fold, or a pore, and a stipe. Each type of
mushroom contains 72 to 103 image data. Each image provides label category label information,
Latin name, and Chinese name. The unified dataset image resolution is 72 × 72.
（2）Aiming at the problems of small, non-uniform, and imperceptible differences in data
distribution in fine grained mushroom image classification, a residual network model BAM-Net
based on multi head self-attention mechanism and embedded SENet channel attention was
designed for fine grained image classification. The model uses dual SENet channel attention and
Embedded to achieve feature weight calibration and preliminary feature embedding for the
feature map extracted from the input image after passing through ResNet50. After that, the
model applies Multi Head Self Attention to learn the spatial feature relationships in the gradient
network. In terms of loss functions, a combination of Cross Entropy Loss and Center Loss
II
functions is used to train the model. The accuracy of the model on Oxford 102 Flowers ,、
CUB-200-2011and Mushroom-96 datasets reached 94.42%、89.43%and 90.09%.
（3）In order to further solve the problem of fine grained mushroom image classification, a
classification model IAMR-Net based on bilinear convolutional network and attention
mechanism was designed. The model combines the optimized and improved ResNet50 bilinear
convergence operation as a feature extraction network, embeds the extracted bilinear features
into the multi header self-attention mechanism, and performs spatial dimensional global
modeling of the features to achieve the purpose of extracting fine grained relationships between
deep feature data. After that, a mixed loss function is used to extract the fine-grained
relationships between Oxford 102 Flowers 、CUB-200-2011、Stanford Cars Comparative
experiments and ablation analysis were conducted on five datasets, Stanford Dogs and
Mushroom-96, and the results showed that the model achieved 96.05%、92.33%、94.14%、
91.22% and 91.17% accuracy without using fine-grained feature labeling.
Keywords: Attention Mechanism, Residual Network, Fine-grained Classification, Mushroom

Image, Loss Function
III
目录
第一章绪论............................................................................................... 1
1.1 研究背景和意义............................................................................... 1
1.2 研究现状 ........................................................................................... 1
1.2.1 细粒度图像的研究现状 ............................................................. 1
1.2.2 菌菇图像的研究现状 ................................................................. 3
1.3 主要研究内容................................................................................... 4
1.4 论文章节安排................................................................................... 5
第二章相关工作介绍 .............................................................................. 7
2.1 卷积神经网络................................................................................... 7
2.1.1 卷积层 ......................................................................................... 8
2.1.2 池化层 ......................................................................................... 8
2.1.3 全连接层 ..................................................................................... 9
2.2 注意力机制 ..................................................................................... 10
2.3 评测标准 ......................................................................................... 11
2.4 菌菇数据集的构建......................................................................... 12
2.5 本章小结 ......................................................................................... 14
第三章基于注意机制的细粒度菌菇图像分类模型 ............................ 15
3.1 模型意义 ......................................................................................... 15
3.2 准备知识 ......................................................................................... 15
3.2.1 残差块 ....................................................................................... 15
3.2.2 SE 注意力机制 .......................................................................... 16
3.2.3 Multi-Head-Self 注意力机制 ................................................... 17
3.3 分类模型 BAM-Net 结构设计 .................................................... 19
3.4 实验 ................................................................................................. 19
3.4.1 实验环境和参数 ....................................................................... 19
3.4.2 实验数据集 ............................................................................... 20
3.4.3 实验损失函数 ........................................................................... 20
3.5 实验结果分析................................................................................. 21
3.6 本章小结 ......................................................................................... 22
第四章融合注意力机制和残差网络的细粒度菌菇图像分类模型 .... 24
4.1 模型意义 ......................................................................................... 24
4.2 准备知识 ......................................................................................... 24
4.2.1 改进的残差块 ........................................................................... 24
4.2.2 CA 注意力机制 ......................................................................... 25
4.2.3 改进的 Bilinear CNNs ............................................................. 26
4.3 分类模型 IAMR-Net 结构设计 ................................................... 27
4.4 实验 ................................................................................................. 29
4.4.1 实验环境和参数 ....................................................................... 29
4.4.2 实验数据集 ............................................................................... 29
4.4.3 实验损失函数 ........................................................................... 30
4.5 实验结果分析................................................................................. 32
4.6 本章小结 ......................................................................................... 35
第五章总结和展望 ................................................................................ 36
5.1 总结 ................................................................................................. 36
5.2 展望 ................................................................................................. 37
参考文献................................................................................................... 38
吉林农业大学硕士学位论文第一章绪论
第一章绪论
1.1 研究背景和意义
中国是农业大国，农业的发展对于人们的日常生活，国家的经济安全和社会稳定都有
重要意义。我国的工业和服务业发展迅速，农业的进展却较为缓慢，但农业在我国仍需占
[1]
据重要地位，菌菇是我国仅次于粮、油、果、菜的第五大类产业，具有重要的产业价值，
菌菇是常见农产品中的一种，最初以其口味独特，营养价值高受到民众的喜爱，随着科学
技术的发展，菌菇制品也被广泛应于日化[2]，医药用品[3]，生物制品等领域。但菌菇作为
[4]
一个大类，其子类繁多，全世界大约有 150 万种真菌，许多菌菇在形态学上非常相近，
人们在鉴别菌菇种类时存在辩识困难，这也使得菌菇种类识别问题成为很多研究学者关注
的焦点。
菌菇种类的鉴别方法主要方法有传统方式的外形辨别法，基于生化检测方法和基于深
度学习的方法。外形辨别方法是菌类学者根据菌菇的形态进行主观辨别，依赖于个人对菌
菇的了解程度以及辨别经验，传统外形辨别方法耗时费力，经济性不够优良，且往往伴随
着极强的主观性，容易受各种因素影响，效率低，人工辨别方法难以满足菌菇种类的鉴别。
基于生化检测方法分析菌菇的成分最为准确，最为权威，但此方法依赖于专业的检测分析
设备，操作难度较大，很难被普通群众广泛使用，推广力存在一定瓶颈。随着近年来人工
智能的浪潮袭来，计算机视觉在农业图像处理领域快速发展取得了一定成就，基于深度学
习的方法利用多层卷积神经网络挖掘菌菇图像底层像素到高层语义的综合特征实现对菌
菇种类的辨别。机器视觉技术省时、省力，而且速度和准确率比人工高，为菌菇图像分类
带来曙光，同时也为菌菇种类识别准确率和效率奠定了技术基础，但是基于深度学习的菌
菇种类鉴别方法鲁棒性不高。
本文利用深度学习和图像处理技术，以细粒度菌菇图像为基础进行分类研究，搜集整
理菌菇图片，构建本文所用的菌菇数据集，融合注意力机制和残差网络设计了优良具有创
新性菌菇图像分类模型，并优化改进提升细粒度菌菇图像的分类准确率，训练出准确率更
高，鲁棒性更强的模型。
1.2 研究现状
1.2.1 细粒度图像的研究现状
1
图像分类任务是计算机视觉研究中最核心也是最基础的任务之一，其目标是根据图
像中的特征对其进行类别划分，基于机器学习的图像分类方法是学习并抽取图像的特征然
后按照特征为图像分类。机器学习可以通过构建较深的网络，来学习高维信息特征，在对
图像进行特征学习的研究中发展出针对不同粒度学习的方法，如图像分类、细粒度图像分
类、对象重识别这三类问题就是特征粒度逐渐变小的过程。基于图像的细粒度分类
（Fine-grained classification）[5]较之于通常的图像分类问题存在小类间差异和大类
内差异的难点，不同于粗粒度图像各类别之间的差异，细粒度图像分类是进行更精细的分
类，涉及到了更高层语义特征的学习和比较，比如座头鲸或者行人的重识别都是属于在多
变场景下通过细粒度特征判别对象是否具有同一性的应用。
细粒度图像分类相对于传统的分类任务涉及到了更高层语义特征的学习和比较。某些
细粒度样本集合中还存在类别间差异细微但是类别内差异显著的情况。比如属于同一个子
类的鸟类图像可能有差异较大的背景或者姿态，而两个子类别之间的鸟类图像如果在同一
背景同一姿态下几乎就没什么差异，这个特点使得细粒度分类问题变得更难。部分前沿水
平的细粒度分类方法依靠手工标注图像的特征，通过特征描述子来表示图像的特征[6]，例
如在 CUB-200-2011 数据集中就提供对于图像细粒度特征的标注，针对这种精细标注的数
据集做端到端的特征嵌入学习可以在特定问题领域上显著提高分类效果，显然这种方法更
昂贵。在求解细粒度图像分类问题的研究中，有结合了注意力机制抽取特征间的关系的尝
试[7]，为了降低计算复杂度使用了固定尺寸的注意力区域方法来学习定位物体的多个局部
区域，提取局部区域的细粒度特征用于分类，但是这种方法无法有效避免背景的干扰，泛
化性不强。
有研究者利用人工标注关键区，通过分区域块来进行监督学习取得了不错的精度[8]，
但人工标注费时费力，普适性差。基于多尺度特征融合细粒度分类网络的扎把烟叶分级方
法还有在卷积神经网上递归进行注意力学习的方法[9]，该方法以循环的方式从粗到细迭代
地生成区域注意力，将先前相关区域放大处理，可以得到更好的结果，这种方法的弊端在
于如果前一阶段不能很好的检测，那么进入的噪声将在后面的阶段不断被放大，还有在卷
积神经网上执行通道注意力机制求解小样本分类问题的方法[10]，利用特征图不同通道关注
的视觉部位不同，但是分类网络只能把目标的每个部位单独处理而忽略了局部特征和细粒
度特征之间的相互关联。通过标注框裁剪出前景区域后使用卷积网络提取图像特征进行训
练分类解决了背景干扰的问题[11]，但需要人工补充标注大量信息，在现实应用中受到一定
限制。利用自动检测来获取图像中的重要区域，计算确定对象区域后经特征提取进行分类
的方法进一步提高准确率[12]，但该方法会产生大量无关冗余信息，且属于检测和分类两阶
段方法，无法保证实时性。生成对抗网络（GAN）生成新的图片以扩展数据量进行训练[13]，
在分类模型的网络架构上未有改进，仍受制于网络模型的性能。
2
细粒度视觉分类的问题可以大致被分为两类：局部定位方法[14-16]和特征编码方法[17]。
前者侧重于对检测网络的训练来定位鉴别部分区域，并重新使用它们来进行分类。后者的
目标是通过计算高阶特征或寻找差别对之间的关系来学习更多的信息。在局部定位方法中
有利用Mask R-CNN和基于CRF的分割来提取对象实例和鉴别区域的尝试[14]。还有基于区域
特征构建的数据库对全局分类结果进行重新排序的策略[16]。然而两种方法需要一个特殊设
计的模块来提取出潜在的区域，这些选定的区域需要再次进行分类，不能保证传输途径简
单的特性。围绕双线性池化的跨层双线性池化的分层框架的一个分支侧重于丰富特征表
示，以获得更好的分类结果[18]。采用群卷积根据其语义将通道分割成不同的组，然后在不
[19]
同组内进行双线性池化的方法能区分具有细微差异的子类别且可以直接集成到任何现
有的骨干结构中却不能合理解释是什么使模型区分了具有细微差异的子类别。
1.2.2 菌菇图像的研究现状
近年来，菌菇图像分类的研究得到很多学者的关注。菌菇作为一个大类，其子类繁多，
许多菌菇在形态学上非常相近，类间差异相对较小，人们在进行分类时存在辩识和记忆
的困难，传统菌菇分类建立在手动提取图像特征基础上，泛化能力有限且准确率存在一定
瓶颈，采用传统方法检测过程耗时长，耗费人力财力且主观性较强。将图像处理技术应用
于菌菇图像的快速分类，取得了显著的成绩。有利用二维机器视觉算法实现菌菇种类识别
的初步尝试[20]，算法从菌菇的 44 个性状中挑选 4 个性状，可以对稳定环境中 80%的菌菇
种类进行区分。还有采用相机目标定法重建三维空间信息，优化 SURF 算法能实现对鸡腿
菇图像的三维空间信息分割[21]。随着深度学习任务的深入，菌菇图像分类的研究得到广
泛关注。降梯度卷积训练模型针对卷积神经网络中存在空间的冗余问题来提高菌菇图像分
类性能。深度学习和词袋的机器学习方法对真菌的显微图像进行分类[22]，也逐渐在领域
内被提上日程，该方法通过缩短分类过程的时间来降低分类的成本，但过于依赖于显微
镜检查，不适用对菌菇图像视觉层面的分类。在对花菇的等级甄别方面[23]，根据分析花菇
菌盖本身弯曲的表型性状实现花菇分选并取得了 92.2%的准确率。在根据香菇的菌盖纹理
[24]
特性与品质设计对香菇进行类别区分也获得 93.57%的准确率，然而两种方法仅能满足
对四种香菇的分选。
卷积神经网络由于其较优的性能逐渐成为菌菇图像研究领域中的主力军，有改进后的
LeNet-5 模型实现 1000 个平菇样本的识别[25]，也有设计具有 13 层卷积神经网络对 8
类菌菇图片进行分类的研究 [26] ，还有以卷积神经网络建立识别模型，对 5 种常见食用
菌为对象进行建模和验证[27]，准确率达到 96.17%。降梯度卷积训练模型针对卷积神经网
络中存在空间的冗余问题来提高蘑菇图像分类性能[28]，但模型需要数据量较大。卷积神经
网络与迁移学习结合的尝试，基于深度残差网络与迁移学习的方法尝试对毒蕈图像进行识
别[29]，但模型参数量较大，并不适合推广应用。针对卷积网络参数量较大的问题，
3
轻量卷积神经网络菌菇图像分类逐渐成为研究领域的又一个热点。轻量卷积神经网
络在几乎不增加网络复杂度的情况下提升模型性能。以 Xception 与 ResNet50 网络结
合的对野生菌分类的研究打破了传统蘑菇识别泛化能力有限的瓶颈同时缓解了网络的参
数大的问题 [30]，基于 ShuffleNetV2 菌菇图像分类的轻量级模型，也在一定程度上解决可
食用野生菌种类分类困难的问题[31]，然其数据集类别较少，数据集不具备普遍适应性，不
符合应用实际。CA-EfficientNet V2 轻量型模型对 9 类菌菇图像分类 [32]，取得了 96.8%
的分类准确率，说明所提方法有效缓解了传统菌菇分类效率低和参数过大的问题。
以 Xception 和迁移学习为基础的轻量化识别模型在野生菌种类图片虽取得了良好的效
果，但其数据集为国内的野生菌，普适性并不强[33]。有研究设计一种基于集成学习方法来
训练多个场景下的野生菌菇数据[34]，取得的了较好的性能。在对有毒和可食用菌菇图像
分类的研究中，采用多层神经网络模型对有毒无毒菌菇进行分类模型[35]，取了得 99.25%
的准确率。细粒度图像分类是进行更精细的分类，不同于粗粒度图像各类别之间的差异，
[36]
有 Inception-ResNetV2 模型从细粒度图像分类角度出发对野生菌进行识别，也有改进
ResNeXt50 的网络针对野生菌图像的类间差异较小，图像背景复杂的问题的研究[37]，但没
有考虑到图片复杂背景的影响，在开源数据集识别精度相对较低，表现并不好。
综上可知，目前将机器视觉应用与细粒度菌菇图像分类领域的相关研究仍需进一步深
入，数据集也比较匮乏。本文研究工作基于作者团队所承担的吉林省教育厅科学技术相关
基础研究课题。基于残差网络、注意力机制以及混合损失来解决细粒度菌菇图像分类，并
构建一个规模相对较大的细粒度菌菇数据集，主要针对细粒度图像各类别图像易混淆，易
受背景干扰，数据分布具有小型、非均匀和不易察觉类间差异的问题，进行网络的建模实
现菌菇的准确分类，具有重要的实际应用价值并可为后来研究学者提供一定的借鉴。
1.3 主要研究内容
本文针对细粒度菌菇数据具有的特征分布分散、类别差异不明显等难题。设计了两种
以注意力机制和残差网络为基础的细粒度菌菇图像分类模型 BAM-Net 和 IAMR-Net 在构建
96 种 8187 张菌菇图像数据集，均取得了良好的分类准确率。具体研究内容如下：
（1）当前菌菇分类领域的数据集制作的困难，构建 Mushroom-96 数据集填补了菌菇
图像分类上的部分空白，数据集包含 96 种 8178 张世界各地拍摄的菌菇图片，统一图片分
辨率为 7272，每种类别菌菇均隶属于担子菌门下，菌菇子实体部分均由菌盖，菌褶或菌
孔，菌柄组成，每种类别包含 72 到 103 幅图像数据，每张图像均提供了标签类别标记信
息，类别名由拉丁文名及对应的中文名构成。
（2）针对细粒度图像分类中数据分布具有小型、非均匀和不易察觉类间差异，设计
了一种结合 Multi-Head-Self Attention（多头自注意力机制） [38] 和嵌入双路 SENet
（Squeeze-and-Excitation Networks）[39]的残差网络用于细粒度图像分类模型 BAM-Net。
4
模型采用 ResNet50[40]作为基础网络，用于输入图像特征的初步特征提取，将提取到的特
征图采用双路 SE Net 做通道注意力特征权重校准后[41]，采用多头自注意力机制对特征图
做空间注意力，在梯度网络的学习中加入空间特征关系的学习。在损失函数方面，结合
Cross Entropy Loss[42]和 Center Loss[43]两种损失函数进行组合来是实现对模型的训练。
实验结果表明模型在 Oxford 102 Flowers 、CUB-200-2011 和构建 Mushroom-96 菌菇三个
数据集上的准确率分别达到 94.42%、89.43%和 90.09%，与其它分类模型相比具有更好的
分类效果。
（3）为了进一步求解细粒度图像菌菇分类的问题，设计了结合双线性卷积网络和融
合注意力机制的分类模型 IAMR-Net。模型结合优化改进后的 ResNet50 双线性汇合操作作
为特征提取网络，将提取到的双线性特征嵌入到多头自注意力机制对特征进行空间维度全
局建模达到提取深度特征数据之间细粒度关系的目的后，通过混合损失函数在 Oxford 102
Flowers 、CUB-200-2011、Stanford Cars、Stanford Dogs 和构建 Mushroom-96 数据集
上进行实验，结果表明模型在不使用细粒度特征标注的情况下分别取得 96.05%、92.33%、
94.14%、91.22%和 91.17%的准确率，表明模型能够较好地对细粒度图像进行分类。
1.4 论文章节安排
本论文的章节安排如下：
第一章：阐述本文的研究背景和意义，细粒度图像分类的研究现状和菌菇图像分类的
研究情况，指出主要的研究创新点、研究的课题及论文的章节安排。
第二章：首先讲述了卷积神经网络的一些必要背景知识，介绍了卷积神经网络中卷积
层和池化层的概念。其次介绍了基于通道、基于空间、和混合注意力三种注意力机制的区
别，涉及到注意力机制在细粒度图像分类上的研究情况。给出分类模型的评测标准。最后
描述本文构建的菌菇数据集，并展示了数据集部分数据图像的中英文类别标签。
第三章：基于注意力机制的细粒度菌菇图像分类模型 BAM-Net 结构的设计。本章具体
描述了分类模型的总体设计，详细介绍残差块，SENet 通道注意力和 Multi-Head-Self 注
意力机制的实现，结构以及求解流程。具体实验环境、参数设置、实验数据集以及实验损
失函数的设计。对我们设计的模型分别在 Oxford 102 Flowers 、CUB-200-2011 和
Mushroom-96 菌菇三个数据集与经典网络的对比实验结果进行分析，进一步说明模型的真
实有效性。
第四章：融合注意力机制和残差网络的菌菇细粒度图像分类模型 IAMR-Net 结构的设
计。本章具体描述了分类模型的总体设计，介绍改进后的残差块，改进的 Bilinear CNNs
和 CA 通道注意力的具体实现，结构以及求解流程。在实验中的具体实验环境、参数设置、
实验数据集以及实验混合损失函数的设计。最后对模型在 5 个细粒度数据集上的消融分析
与对比实验结果进行分析。
5
第五章：总结和展望。对本文的总体内容进行总结，说明了本文设计网络的创新点，
并对细粒度菌菇图像分类未来研究方向进行合理展望。
6
吉林农业大学硕士学位论文第二章相关工作介绍
第二章相关工作介绍
2.1 卷积神经网络
在人工智能领域中，无论简单或者复杂网络的构建都需要基于一类特殊的人工神经网
络——卷积神经网络（Convolutional Neural Network， CNN）[44]，卷积神经网络在图像
[45]
分类、目标检测[46]、图像描述[47]、3D 分析[48]、图像语义分割[49]、图像检索[50]、文本分
类[51]、机器翻译[52]、生成模型[53]、多智能体强化学习[54]等领域均表现出更优的预测效果。
卷积神经网络对于输入数据通过卷积层（Convolution layer）、激活层（Activation
layer，通常使用 ReLU 函数也就是 ReLU layer）、池化层（Pooling layer）和全连接
层（Fully connected layer）的堆叠，将高层语义信息逐层抽取出来，逐层抽象，在最
后一层将其目标任务形式化，通过目标函数计箅预测值与真实值之间的误差或损失，凭借
反向传播算法（back-propagation algorithm）[55]将误差或损失由最后一层逐层向前反馈
（back-forward），更新每层参数，并在更新参数后再次进行前馈数据、反馈误差的循环，
如此循环训练模型，直到网络模型收敛，达到特征提取的目的。卷积神经网络结构见图
2.1。
图 2.1 卷积神经网络结构图
Fig.2.1 Convolution neural network structure diagram
7
2.1.1 卷积层
卷积神经网络是以卷积层为主的神经网络，使用卷积层的局部连接（ Local
Connectivity）和权值共享（Parameter Sharing）的思想来控制网络连接和参数量，卷
积是整个网络中最重要的一部分[56]。卷积层是通过在特征图上滑动尺寸远小于图片尺寸的
卷积核将感受野内的信息投影到特征图中的一个元素，卷积核可以感知图片的局部信息，
并将局部信息归纳每滑动一个位置，卷积核与输入图像之间会执行一个元素对应乘积并求
和。特征图中的所有元素都是通过卷积运算得到。卷积运算有一维卷积，二维卷积和三维
卷积。一维卷积主要处理时间序列数据，二维卷积用于对图像的空间卷积，处理图像矩阵
（二维像素），三维卷积主要用于对立体空间卷积。传统的神经网络层与层之间使用全连
接进行交互，卷积神经网络使用卷积交互更具备稀疏性，每一个输入单元与输出单元都产
生了影响，卷积神经网络稀疏交互的性质大大降低网络的所需参数、复杂度降低，网络计
算速度加快在机器学习任务中取得较好的表现。卷积过程见图 2.2。
图 2.2 卷积过程图
Fig.2.2 Convolution process diagram
2.1.2 池化层
池化层是指下采样层，也称为抽样层，是一种在图像的特定范围内聚合不同位置特征
的操作，池化层一般与卷积层结合使用，通常在非线性激活之后执行池化层，在卷积层的
后面放置一层池化层能够压缩数据，减少数据量并避免神经网络发生过拟合。因此，这个
过程也可以看作对经过卷积层运算之后的结果进行进一步的特征提取与压缩的过程。池化
操作也可作为一种平滑手段消除噪音。
池化操作是一种在卷积神经网络中普遍使用的降维方法，其使用特征图中某一相邻位
置的总体特征来代替网络在该位置的特征。目前常见的池化操作有四种：average-pooling
8
（平均池化）、max-pooling（最大池化）、stochastic-pooling（随机池化）和 global
average pooling（全局平均池化），其中平均池化和最大池化是神经网络中普遍使用的
池化操作。
average -pooling（平均池化）：将邻域内特征所有像素点只求平均，选择特定区域
中所有值的均值，平均池化能很好的保留背景，但容易使得图片变模糊，平均池化过程见
图 2.3。
图 2.3 平均池化过程
Figure.2.3 Average pooling process
max-pooling（最大池化）：即对邻域内特征点取最大，选择局部接受域中的所有值
的最大值，舍弃其它像素值。最大池化能很好的保留纹理特征，这也是最常用的一种池化
方式。最大池化过程见图 2.4。
图 2.4 最大池化过程
Figure.2.4 Maximum pooling process
2.1.3 全连接层
全连接层（fully connected layers，FC）一般位于神经网络的末尾，全连接层的每

一个节点都与上一层的所有节点相连，从而把前边提取到的特征综合起来，用于将卷积层、
池化层和激活函数层学到的分布式特征归一化，即对不同维度的特征值 reshape 成向量加
权融合得到事物的全部特征后进行分类，在整个卷积神经网络中起到分类器的作用。
9
在卷积神经网络的池化层之后，需要将三维矩阵或二位矩阵展平为单个的向量，接着
对这些向量化和级联化的数据馈送进全连接层对特征加权偏置后输入到 SoftMax 层中得
到对应的分类结果。
2.2 注意力机制
在经典的 LeNet-5[57] 卷积神经网络中网络是平移不变的，对特征图中的每个像素点
都是等价处理的，将注意力机制引入深度神经网络中可以令网络更多地关注对结果有用的
区域，定位到感兴趣的信息，抑制背景或无用信息的影响。
注意力机制的提出是受到了认知神经科学领域的启发，其可以根据上下文选择性的关
注序列中关键的局部特征信息。Bahdanau 等首次将注意力机制引入 NLP 领域取得了令人
信服的效果后[58]，注意力机制成为对网络模型性能提升的重要手段，注意力计算量和耗时
的代价相对较小，容易被模块化地并入大型网络中。此外，多个互补注意力机制可以整合
到一个网络中。注意力机制通过级别的运算学习ｎ个输入项之间的关联关系，在误差逆传
播过程学习到对项之间关注值的权重。近期的领域前沿工作表明注意力机制应用在语言模
型中可以高效提取上下文关系成为了自然语言处理和部分机器视觉任务的前沿方法。注意
力从目标上可以分为基于通道的注意力，基于空间的注意力和混合注意力。
基于通道的注意力以特征图的通道位置关系为出发点，将注意力的寻址目标放在对单
一个体的部分特征的寻址上，建模各个特征通道的重要程度，对不同通道的加权，增强或
者抑制该个体不同的通道不同位置的特征信息，给出合理的预测结果，具有代表性的工作
就是 Jie Hu 等人提出的 SENet[39]，SENet 通过全局平均池化将特征图空间维度的信息压缩
成像素级的信息，采用全连接层对输入通道特征图实现降维在升维，学习每一个特征通道
的权重，通过对每个通道加权的方式得到信息更丰富，更需要关注的通道来提升网络的性
能；ECANet（Efficient Channel Attention）[59]在 SENet 的基础上，使用 11 卷积捕获不
同通道之间的信息，11 卷积相较于 FC 层降低参数量，在学习通道注意力信息时避免通道
降维的同时高效获取所有通道的依赖关系，降低对通道注意力预测产生的负面影响。通道
注意力只对通道加权不考虑通道中每个像素点的位置差异而忽略了特征的空间信息。
基于空间的注意力与通道注意力相对，从特征图的空间位置关系出发，将视觉信息视
作一个大的区域，长度为 n 的注意力计算相当于一个面积为 n 的卷积核。通过空间注意力
模型的寻址目标放在寻找区域中可以筛选出重要的特征并降低无关背景信息的影响[60]。其
中具有代表性的模型是 Jaderberg 等人提出的 STN（Spatial Transformer Network）[61]
一种基于空间注意力的网络模型，在卷积神经网络中采用最大池化或者平均池化会丢失得
多信息通过对图像做空间变换，将关键信息提取出来，从而完成主体区域的预处理。
Dynamic Capacity DCN Networks 采用低性能的子网络（coarse model）和高性能的子网
10
络（fine model）[62]，两个子网络获得更低的计算代价和更高的精度，低性能的子网络用
于对全图进行处理，定位感兴趣区域，高性能的子网络则对感兴趣区域进行精细化处理。
混合注意力融合空间注意力和通道注意力机制分别学习空间的重要性和通道的重要
性，其中代表性网络 CBAM（Convolutional Block Attention Module）[63]。对于输入的
特征图，CBAM 会沿着（通道和空间）两个独立的维度依次建模特征注意力图，然后将注
意力图与输入的特征图相乘以进行自适应特征优化，优化后的特征图将更加关注特定通道
和区域的特征，抑制不重要的信息，且 CBAM 具有通用性和轻量化的优点，所以可以不考
虑模块的计算成本，并且将其很容易地嵌入已知的卷积神经网络中一起进行训练，在网络
的前向传播和后向传播当中发挥优化特征图的作用。
注意力机制应用在图像处理中可以提取到丰富的特征间相互关系，与多种机器学习下
游任务的结合都取得了非常好的效果，在神经网络中，注意力机制的作用是给网络提供可
训练的权重参数，通过学习权重值，网络能够学习到目标特征之间的关系，采用注意力机
制对特征图进行按像素的加权权重训练，可以学习到特征之间的关系。近年来随着机器学
习的不断发展，注意力机制逐渐被应用到数字图像处理任务当中。在 RA-CNNＡ网络中加
入注意力，通过注意力和区域检测的相互强化锁定差异度最大的区域来实现对图像的不断
精细聚焦[64]，代替人工标注差异区域。通过在残差学习的方式在网络宽度方向加入注意力
模块避免注意力模块堆叠而出现的梯度消失问题[65]，在 Inisgelfet 数据集上降低了错误
率。但方法忽略了特征空间维度的重要性。在空间聚焦的角度将 Non-Localblock 与 ResNet
网络结合在视频分类和图像识别问题上均有良好表现[66]。自注意力机制与卷积网络一起使
用构成注意增强卷积在多种图像分类问题上，也达到预期效果[67]，但方法只针对主干网络
池化特征的计算效果还需验证，同时该方法需要逐像素特征向量的相互点积运算，计算量
和参数量较大。
2.3 评测标准
细粒度级别图像分类一般选用多类分类准确率（Classification Accuracy）作为评
价指标，其基于模型在每个类别上的表现计算分类的性能指标，然后综合所有类别上的指
标作为最终结果，计算每个指标准确率的均值。有如下公式表述。
(2.1)
(2.2)
其中表示类别真正例的个数，将正类预测为正类数，表示标记真负例个数，将负类预测为
负类数，表示类别伪正例的个数，将负类预测为正类数，表示类别伪负例的个数，将正类
预测为负类数，表示总样本数量。、、、的关系见图 2.5。
11
图 2.5 TP、TN、FP、FN 关系图

Figure.2.5 TP、TN、FP、FN diagram
2.4 菌菇数据集的构建
Mushroom-96 菌菇数据集的构建，数据集图像来自对世界各地拍摄的菌菇数据进行筛
选和整理，数据集有 96 种菌菇，共 8178 张图片，图片分辨率均为 7272，每种类别包含
72 到 103 幅菌菇图像数据，96 种菌菇均隶属于担子菌门下，菌菇子实体部分均有菌盖、
菌褶（孔）、菌柄组成。数据集中 96 类样本具体分布见图 2.6。数据集的部分图片示例
见图 2.7。
图 2.6 96 类样本具体分布
Figure.2.6 Specific distribution of 96 types of samples
12
加州蘑菇黄盖粪伞裂丝盖伞鳞柄白鹅膏
Agaricus Bolbitius Inocybe rimosa Amanita virosa

californicus titubans
灰鹅膏菌香杏丽蘑红鳞粘盖牛肝菌赤褐鹅膏菌

Amanita Calocybe Suillus spraguei Amanita fulva
vaginata gambosa
褐环乳牛肝菌粘盖牛肝菌红褐乳菇亮栗色乳菇
Suillus luteus Suillus bovinus Lactarius Lactarius helvus

rufus
13
图 2.7 数据集部分图片示例
Figure.2.7 Partial Examples of data set
2.5 本章小结
本章介绍本文所需要的相关基础知识，包括卷积神经网络、注意力机制、细粒度级别
图像分类的评价指标。首先介绍了卷积神经网络的应用领域，卷积神经网络的概念和结构，
其次介绍了注意力机制提出以及概念，介绍基于通道注意力，空间注意力和混合注意力机
制。还介绍模型的测评标准，最后介绍了构建的 Mushroom-96 菌菇数据集，并对数据集的
部分数据进行展示。
14
吉林农业大学硕士学位论文第三章基于注意力机制的细粒度菌菇分类模型
第三章基于注意机制的细粒度菌菇图像分类模型
3.1 模型意义
深度学习可以有效地对图像进行分类，将其应用到菌菇图像分类领域，针对不易察觉
类间差异的细粒度菌菇图像，设计结合残差网络、通道的注意力和空间的多头自注意力的
网络模型 BAM-Net。模型通过引入双路通道注意力与残差网络融合对图像进行初步特征提
取，再应用多头自注意力机制，达到提取深度特征数据之间细粒度关系的目的，最后通过
结合 Center Loss 和 Cross Entropy Loss 两种损失函数度量网络，在 Oxford 102 Flowers、
CUB-200-2011 两个公开的细粒度数据集和 Mushroom-96 构建菌菇数据集上进行实验，结
果表明模型与其它分类模型相比表现出更好的分类效果。
3.2 准备知识
3.2.1 残差块
多层感知机网络容易过拟合训练也难于收敛，直到 Krizhevsky 和 Hinton 提出

AlexNet[68]，结合了卷积、池化、线性修正单元和 Dropout 正则化方法提高网络的泛化能
力且防止过拟合，使用双 GPU 训练也提高网络训练速度。2014 年，牛津大学和 DeepMind
共同研发出 VGGNet 可以看作加深版的 AlexNet 体现出深度网络的特征提取能力。加深卷
积神经网络的深度在一定的限度内，可以提高网络的性能，然而随着网络层数的加深，模
型的训练呈现退化的现象。
何凯明团队结合了 VGGNet[69]的模块化层次设计残差结构，提出 ResNet 网络结构，残
差块由模块化的网络和跳转构成，使得模块可以学习到残差，残差块作为 ResNet 的基本
单元见图 3.1。
残差块的设计可以用于防止深度网络的梯度消失，能够训练更深的网络并且获得更强
的特征提取能力。在 ResNet 中通过跳跃连接方式使网络训练的输入可以从低层传到高层，
这种结构使得卷积模块可以在反向传播过程中学习到残差。通过这种简单的设计，残差网
络不仅很好地解决了深层 CNN 退化的问题，而且和深度相同的卷积网络相比具有更快的
收敛速度。残差网络最早应用于图像分类任务上，后来的工作表明将残差网络用在其它计
算机视觉的下游任务中也能取得很好的效果。
15
图 3.1 残差块
Figure.3.1 Residual module
3.2.2 SE 注意力机制
SENet 对每个输出通道赋予权重参数，再通过梯度更新使用数据驱动参数更新，从而
对每个通道进行加权参数的学习，本质上，SENet 是在通道维度上做注意力，这种注意力
机制让模型可以更加关注信息量最大的通道特征，而抑制那些不重要或者无效的通道特征
来训练模型达到更好的效果。并且 SENet 的网络结构相对简单，可以方便地集成到各种神
经网结构中，提升网络性能。SENet 结构见图 3.2。
图 3.2 SENet 结构图

Fig.3.2 Structure diagram of SENet
SENet 包含 Squeeze（压缩操作）、Excitation（激励操作）和 Scale（权重计算）。

对于给定的输入图片通过卷积神经网络完成对特征的初步提取，这部分采用预训练的
ResNet50 作为基础网络做初步的特征提取。在实现中给 ResNet50 加载预训练参数后将其
截断，将特征图传递给双路 SENet。
16
特征图利用 Squeeze 操作，通过全局平均池化（global average pooling ，GAP）[70]

的方法得到代表全局特征。有如下公式表述。
=(，) (3.1)
其中表示特征图的宽，表示特征图的高，（,)表示第个通道在第行和第列的特征值。
全局特征利用 Excitation 操作，通过两层 FC 层构成的门机制的简单形式，产生每个
通道调制权重的集合，作用于筛选聚合后的全局特征，利用 FC 层对先乘以（表示缩放参
数）得到经过 ReLU 激活后，在利用 FC 层对与相乘恢复原始特征图，经过 Sigmoid 函数
生成通道注意力权重。有如下公式表述。
=ReLU（)) (3.2)
其中表示通道注意力权重，表示 Sigmoid 函数，和表示为每个特征通道生成的权重矩阵。
通过利用 Scale 操作完成权重在通道维度上的对原始特征图的校准，得到双路 SENet
新的特征图。有如下公式表述。
= (3.3)
其中表示权重与特征图之间的通道乘法关系。
3.2.3 Multi-Head-Self 注意力机制
Google 团队在 2017 年提出一种包含自注意力以及多头自注意力机制的神经网络架

构，并在机器翻译任务中表现出较为出色的效果。自注意力机制是注意力机制的变体，减
少了对外部信息的依赖，更擅长捕捉特征的内部相关性，主要是通过计算特征的关联关系，
获得向量间的交互表示，以此解决长距离依赖捕捉问题。其目的是从输入特征向量中筛选
出少量重要的信息，使用权重代表信息的重要性，让模型聚焦于特征的重要信息，但是单
一的注意力机制只能在一个表现空间中学习到相关信息，为了综合输入信息的重要性，将
多个自注意力机制拼接即多头自注意力机制，多头自注意力从各个子空间分别推断像素间
相关性，学习不同表现子空间的信息进行拼接与线性变换，得到最终的注意力值，使语义
信息表示更为丰富。多头自注意力机制能从多层面捕获到更全面的特征。实现对不同约束
条件的建模表达，并行执行能力更强，具有更快的训练速度。因此，将成为进一步提升分
类能力的有效手段。
由于细粒度分类对细节特征提取要求较高，考虑到当前常见图像格式的分辨率，直接
按像素做注意力是不够经济的，为了进一步提高提取细节重要特征分辨的能力，在 SENet
模块提取出来的特征图上应用 Multi-Head-Self Attention 注意力机制进一步的特征提
取。Multi-Head-Self Attention 的结构图见图 3.3。
17
图 3.3 Multi-Head-Self Attention 结构图

Fig.3.3 Structurediagram of Multi-Head-Self Attention
在改进残差块的提取出来的特征图应用 Multi-Head-Self Attention 空间注意力机制

从多层面捕获到更全面的特征。自注意力机制采用缩放点积注意力来计算特征矩阵的注意
力值，先对查询矩阵和键矩阵进行点积与 SoftMax 归一化来计算权重系数，再根据权重系
数对值矩阵进行加权求和 Multi-Head-Self Attention 中使用的是 Scaled Dot-Product
Attention。有如下公式表述。
F(Q,K,V )=[] (3.4)
Q= (3.5)
K= (3.6)
V= (3.7)
其中 F 为单头注意力的输出，Q,K,V 这三个矩阵由输入的特征矩阵（分别与对应的权重矩
阵、、相乘得到），d 为 Q,K,V 的维数。
为了让模型学习到更多的特征，对 Scaled Dot-Product Attention 线性映射并进行
h 次注意力函数学习。有如下公式表述。
=F(,,) i=1,....,h (3.8)
其中是每个单头注意力的输出,为第 i 个注意力头 Q,K,V 的权重矩阵。

对映射后得到的每一次注意力函数的输出进行 Concat 操作后，线性映射回来生成最
终值。有如下公式表述。
M(Q,K,V )=Concat(,...,) (3.9)
其中 M 是多头自注意力的输出，Concat 为合并操作，h 是注意力头的个数，是多头自注
意力权重矩阵。
18
3.3 分类模型 BAM-Net 结构设计

设计一种新的细粒度图像的分类模型 BAM-Net，将集成双路 SENet 后的 ResNet50 网
络和多头自注意力结合起来用于细粒度图像分类。BAM-Net 模型结构见图 3.4。
首先我们采用预训练的 ResNet50 作为特征提取网络，这部分网络是加载了预训练参
数的 ResNet50 的全连接层（FC 层）之前部分，用以提取到多个通道的特征图。
其次，将提取到的特征图采用双路 SENet 显式地构建特征通道之间的相互依赖关系
后，学习到不同通道之间的依赖关系，进一步利用多头自注意力机制（Multi-Head-Self
Attention）对学习到的不同表现子空间的图像特征进行拼接与线性变换，得到语义信息
表示更为丰富的最终注意力值。
最后用擅长学习特征的类间信息的 CE-Loss 与能够使类内的深层特性更紧凑的
C-Loss 两种损失函数实现对模型的训练。
图 3.4 BAM-Net 模型结构图

Fig.3.4 BAM-Net Model Structure Chart
3.4 实验
3.4.1 实验环境和参数
实验的训练环境：实验在 Ubuntu 系统中进行，使用国产深度学习框架 Paddle Paddle

2.3.0 版，语言为 python 3.8，4 核 CPU，内存 32GB，采用 Tesla V100 GPU 显存 32GB。
相关实验的主要超参数见表 3-1。
19
表 3-1 相关实验的主要超参数
Table.3-1 Main parameters of relevant experiment
参数数值
训练轮数(training epochs) 200
学习率（learning strategy） 0.0001
样本批次（batch size） 16
SE 注意力缩放参数 t 16
Multi-Head 注意力多头个数 h 64
损失函数平衡因子 0.1
网络最大 FC 层通道数 4096
3.4.2 实验数据集
细粒度分类的数据集中数据分布具有小型、非均匀和不易察觉的类间差异等特点。在
[71]
Oxford 102 Flowers 数据集和 CUB-200-2011[72]数据集上进行交叉对比试验。两个数据
集都属于经典的细粒度标准数据集，都有图像背景复杂，在同一类别内目标的姿态多样，
光照变化大;不同类别图像之间存在差异细微的样本，目标的形状，颜色非常相似。
Oxford 102 Flowers 数据集包含 102 种类别英国的常见花卉，每个类包含 40 到 258
幅图像数据，且不包含额外标注信息，总共有 8189 张图像，数据集图像具有较大的规模，
姿态和光线变化，数据集的可视化使用具有形状和颜色特征等距特征映射。
CUB-200-2011 数据集由加州理工学院的团队开发，是细粒度图像分类领域一个基准
图像数据集，该数据集包含 200 类鸟类子类，数据集还提供了边界框信息和部分的精细特
征标注（本文的方法并未采用精细标注的特征进行分类），每个类别包含 41 到 60 张图像
不等，其中训练数据集有 5994 张图像，测试集有 5794 张图像，共有 11788 张图像和类别
标记信息。
Mushroom-96 为构建数据集，数据图像来自世界各地拍摄的菌菇图像，包含 96 种 8178
张菌菇图片，图像分辨率统一为 7272。每种类别菌菇均隶属于担子菌门下，菌菇子实体
部分均有菌盖，菌褶（菌孔），菌柄组成，每种类别包含 72 到 103 幅图像数据，数据集
每张图像除提供了标签类别标记信息及名称之外。还提供每种菌菇有毒无毒可食用标记信
息。
3.4.3 实验损失函数
对于细粒度图像分类而言，损失函数在网络训练过程中用于衡量预测值与真实值之间
的距离。损失函数的作用是修正卷积神经网络中的权重，从而调整网络使其能够对图像中
20
进行正确分类，选择恰当的损失函数可以显著提高网络表现。在目前的细粒度图像分类领
域中对损失函数的相关研究较少，在图像分类任务中多半采用 CE-Loss（Cross Entropy
Loss）度量损失。有如下公式表述。
= (3.10)
其中表示每批次训练数据的数量，表示类别数目。
CE-Loss 可以在最后一个全连接层归一化输出。但其比较擅长学习特征的类间信息，
损失学习到的特征比较离散可分离且深度特征的区分度不够，不适合直接使用这些特征进
行识别。引用 C-Loss（Center Loss）约束类内紧凑的条件，损失能够使类内的深层特性
更紧凑更靠近其类别中心特征。有如下公式表述。
(3.11)
其中表示待分类的特征。
由于细粒度分类的数据有时会存在类间距离小，类内距离大的特性。对于细粒度图像
分类而言，损失函数对图像类间差异与类内差异的关注程度具有关键作用，考虑保持
CE-Loss 的类间判别力，使用平衡因子用于调整两个损失函数之间的比例，以=+的形式搭
配使用作为模型的损失函数。有如下公式表述。
= (3.12)
其中表示平衡因子，表示待分类的特征，表示第个类别的特征中心。
3.5 实验结果分析
本章模型分别在 Oxford 102 Flowers 和 CUB-200-2011 两个公开细粒度数据集和构
建数据集上通过对比试验对改进模型进行多方面的评估。对比试验模型设定 AlexNet、
VGG16、ResNet50 和 Xception 较为经典的深度学习模型以及模型的单路方法，对比模型
均参考原文模型框架以及参数设置进行。对比模型均加载预训练参数，优化器为 Adam[73]，
样本批次（batch size）为 16，学习率（learning strategy）为 0.0001。评价指标选择
细粒度图像分类的多类分类准确率（classification Accuracy）对模型进行评价。
实验模型在 Oxford 102 Flowers ，CUB-200-2011 和构建 Mushroom-96 数据集与其他
模型的分类准确率对比结果见表 3-2。
表 3-2 本文模型与其他模型准确率对比结果
Table.3-2 Comparison results of accuracy between this model and other models
Method Flowers CUB Mushroom
AlexNet 80.39% 72.50% 56.67%
VGGNet(16) 29.39% 59.83% 32.79%
ResNet50 78.22% 74.43% 57.45%
21
Xception 89.90% 71.00% 68.89%
BAM-Net(单路) 83.40% 82.17% 82.49%
BAM-Net 94.42% 89.43% 90.09%
由上述对比实验结果可见：
（1）BAM-Net 在 Oxford 102 Flowers 数据集上进行实验取得了 94.42%的准确率，
比 AlexNet、VGGNet、ResNet50 和 Xception 分别提高了 14.03％、65.03％、16.22％和
4.52％。
（2）BAM-Net 在 CUB-200-2011 数据集上进行实验取得了 89.43%的准确率，
比 AlexNet、
VGGNet、ResNet50 和 Xception 分别提高了 16.93%、29.60%、15.00%和 18.34%。
（3）BAM-Net 在构建 Mushroom-96 数据集进行实验取得了 90.09%的准确率，比
AlexNet、VGGNet、ResNet50 和 Xception 分别提高了 33.42％、57.30％、33.64％和 21.20％。
总体分类准确率对比趋势见图 3.5。
图 3.5 总体分类准确率对比趋势图
Fig.3.5 Trend chart of overall classification accuracy comparison
综上可知，模型在三个细粒度图像分类数据集上的与传统深度学习以及细粒度分类方
法相比较都取得较优的效果，说明模型在细粒度图像分类上具有很好细微特征学习能力，
实验结果验证了设计的模型提高了分类准确率表现出良好的分类效果。
3.6 本章小结
为了验证本章设计基于注意力机制求解细粒度菌菇图像分类模型(BAM-Net)的有效
性。选择 Oxford 102 Flowers （102 种 8189 张英国花卉图像）和 CUB-200-2011（200 种
11788 张鸟类图像）两个细粒度分类图像数据集和构建 Mushroom-96（96 种 8179 张菌菇
图像）上进行了实验，准确率分别达到 94.42%、89.43%和 90.09%，可见模型达到提取深
度特征数据之间细粒度关系的目的。此外，为了进一步证明模型的有效性以及可行性。分
别设定 AlexNet、VGG16、ResNet50、Xception 经典的深度学习模型作为对比试验模型对
22
模型进行多方面的比较，模型在构建 Mushroom-96 菌菇数据集上分别提升了 33.42％、

57.30％、33.64％和 21.20％的准确率，模型可以实现细粒度菌菇图像的快速、高精度分
类。
23
吉林农业大学硕士学位论文第四章融合注意力机制和残差网络的的细粒度菌菇图像分类模型
第四章融合注意力机制和残差网络的细粒度菌菇图像分类模型
4.1 模型意义
为进一步求解细粒度菌菇图像分类的问题，设计结合双线性卷积网络融合注意力机制
的分类模型 IAMR-Net。模型将改进残差块后的 ResNet50 实现对图像特征的初步提取，在
原残差块中增加两个 3×3 分支的卷积特征融合结构后嵌入 CA 注意力机制，再结合双线
性汇合模块通过外积操作将得到双线性特征通过 Embedded 将特征嵌入到多头自注意力机
制对特征进行空间维度全局建模，达到提取深度特征空间维度数据之间细粒度关系的目
的。设计模型的混合损失函数，在 Oxford 102 Flowers 、CUB-200-2011、Stanford Cars、
Stanford Dogs 和构建 Mushroom-96 数据集上进行实验，结果表明模型在不使用细粒度特
征标注的情况下均取得良好的的准确率，也表明模型较好地达到对细粒度菌菇图像进行分
类的目的。
4.2 准备知识
4.2.1 改进的残差块
ResNet50 的核心残差模块的设计，残差结构由模块化的网络和跳转构成，将浅层输
出特征越过中间层级直接与深层输出特征相加使得该模块可以学习到残差，防止深度网络
的梯度消失，能够训练更深的网络并且获得更强的特征提取能力。很好地解决了深层 CNN
退化的问题，而且和深度相同的卷积网络相比具有更快的收敛速度。同时借鉴 GoogLeNet
[74]
提出了 Inception，其通过加宽网络的深度提取不同尺度上的特征信息，从而提升网
络的性能。但原始 Inception 包含较多分支，会引入较多的参数，计算复杂度较大。对
残差块做如下改进：
设计双分支特征融合模块，在残差块原有 3×3 卷积的基础上，增加两个分支 3×3 的
卷积，获取更大感受野的信息，从而增强对不同尺寸特征图的适应性。对特征通过拼接操
作进行特征融合后，在双分支特征进行融合后嵌入开销较小的 CA 坐标注意力机制，注意
力通过嵌入位置信息形成一对方向感知和位置敏感的特征图，有助于网络更准确地定位目
标区域，对特征进行自适应细化，捕捉待识别特征图中细微差异，提高模型的特征提取能
力。改进后的残差块见图 4.1。
24
图 4.1 改进的残差块
Figure.4.1 Improved residual module
4.2.2 CA 注意力机制
为了使注意力捕捉位置信息，HOU Q 等提出了坐标注意力机制（Coordinate Attention，

CA）[75]，通过嵌入位置信息到通道注意力中，在避免引入大的开销同时使网络获取更大区
域的信息。CA 注意力沿两个空间方向聚合特征，其好处是可以沿着一个空间方向捕获长
程依赖，沿着另一个空间方向保留精确的位置信息后，将生成的特征图分别进行编码，形
成一对方向感知和位置敏感的特征图互补地应用于输入特征图中有助于网络更准确地定
位目标区域。CA 注意力结构图见图 4.2。
图 4.2 CA 注意力结构图
Fig.4.2 Structurediagram of CA Attention
25
CA 坐标注意力机制中的 Coordinate Information Embedding 对于给定输入的特征，

首先使用尺寸为（H，1）或（1，W）的池化核分别沿着水平方向和垂直方向对每个通道池
化操作。因此高度为和宽度为的第 c 通道的输出。有如下公式表述。
(4.1)
(4.2)
其中表示第 c 通道在具体高度方向上的输出，表示第 c 个通道在具体宽度方向上的输出，
为特征高度，为特征宽度。
Coordinate Attention Generation 将和进行拼接操作之后将它们传到共享的卷积核
为 11 卷积模块，变换函数实现降维得到。有如下公式表述。
=, (4.3)
其中 Concat 表示沿空间维度的拼接操作，是一个非线性激活函数，是降维函数，特征为
拼接横向和纵向空间信息后的中间特征，r 是缩减率用来减少通道数。
随后将中间特征按照原来的高度和宽度拆分为和，另外两个卷积核为 11 的卷积变
换和分别得到通道数与输入一致的特征图，经过 Sigmoid 函数分别得到在高度和宽度上的
注意力权重和。有如下公式表述。
(4.4)
(4.5)
其中是 Sigmoid 函数，和是升维函数，r 是缩减率。
利用乘法运算将和分别展开并作为注意力权重对输入的加权，校准特征权重，得到
输出。有如下公式表述。
(4.6)
其中表示注意力权重和与输入特征之间的乘法关系。
4.2.3 改进的 Bilinear CNNs
细粒度图像分类在同一大类图像的确切子类。由于类内差距大、类间差距小，而且容
易受姿势、拍摄位置视角、图像中目标位置等影响，使其成为一个很有挑战性的任务。双
线性卷积神经网络（Bilinear CNNs， B-CNNs）是细粒度图像识别中的新技术，传统组合
两个网络特征的方式主要是对特征求均值或进行拼接，需要大量的参数，且只能得到样本
特征的一阶粗略信息。双线性卷积神经网络模型[76]，模型包含两个 CNN 网络，对样本图片
的不同空间位置外积计算并进行平均池化以得到双线性特征。通过求外积得到深层次的二
阶统计信息，当一阶信息相同的时候利用二阶信息的不同来做分类。B-CNNs 也可以看作
是一个内隐的空间注意力模型，外积在一个特征的基础上调节另一个特征，获得通道特征
之间的相关性，对局部特征交互进行建模，类似于注意机制中的乘法特征相互作用。B-CNNs
具有更强的特征表示，并可以端到端地进行优化，具有有较高的分类性能。
26
由于原始的 B-CNNs 模型采取 VGGNet 或/和 AlexNet 作为特征提取子网络，而 VGGNet

和 AlexNet 网络多尺度特征提取能力较弱，无法完成细粒度的差异性局部关键信息的捕
捉，不利于提高网络的表征能力，因此采用改进残差块后的 ResNet50 作为特征提取子网
络，通过跳跃连接方式使网络训练的输入可以从低层传到高层，提升提取特征的能力。残
差网络也具有更快的收敛速度。残差网络在图像分类任务中也能取得很好的效果。改进的
B-CNNs 结构图见图 4.3。
图 4.3 改进后的 B-CNNs 结构图

Figure.4.3 Structure diagram of improved B-CNNs
B-CNNs 中和，是指去除 SoftMax 层和 FC 层的 ResNet50 网络。对于图像在位置上的

两个特征和双线性融合进行外积相乘。有如下公式表述。
(4.7)
其中是位置，是图像数据。
对所有位置的进行 sum pooling 得到全局图像特征矩阵。有如下公式表述。
(4.8)
把矩阵展平成一维向量，得到双线性特征向量。有如下公式表述。
(4.9)
对向量加上符号平方根变换和 normalization 得到。有如下公式表述。
(4.10)
(4.11)
4.3 分类模型 IAMR-Net 结构设计

为了进一步求解在细粒度菌菇图像分类中类别易混淆，复杂背景干扰，整体识别难度
较大的问题，本研究设计双线性卷积网络和融合注意力机制的网络模型。IAMR-Net 模型
结构见图 4.4。
27
图 4.4 IAMR-Net 模型结构图

Figure.4.4 structure diagram of the IAMR-Net model
整体模型由五元组(,,P,M,L)组成。是指预训练且去除 SoftMax 层和 FC 层的 ResNet50，

P 是指 Bilinear pooling， M 是多头自注意力机制，L 是整体损失函数。设计思想如下：
首先，运用改进残差块后的 ResNet50 作为预训练模型特征提取网络，实现对图像特征
的初步提取，残差块将浅层输出特征与深层输出特征相加，在原残差块中增加两个分支的
卷积特征融合结构，获取更大感受野的信息，提取不同尺度上的特征信息，增强对不同尺
寸特征图的适应性，在两个分支特征进行融合后嵌入计算开销小的 CA 注意力机制，增加
特征图中待识别特征权值，提升模型的信息表征能力。
其次，结合双线性汇合模块通过外积操作将得到双线性特征通过 Embedded 作维度的
转换，实现特征嵌入后。利用多头自注意力机制对特征进行空间维度全局建模，抑制易造
成混淆和背景干扰的特征，加强模型生成更充分的特征表示。
最后，在训练时重新设计模型的损失，提高分类准确率和网络的泛化能力，从而实现
快速、高精度细粒度菌菇图像分类。
28
4.4 实验
4.4.1 实验环境和参数
实验的训练环境是在百度 AI Studio 平台上使用 Tesla V100 GPU 显存 32GB，

内存 32GB。
编程环境为 python 3.8，框架使用国产深度学习框架 Paddle Paddle 2.3.0 版。相关实
验的主要超参数见表 4-1。
表 4-1 相关实验的主要超参数
Table 4-1 Main Hyperparameters of Relevant Experiments
参数数值
训练轮次 100
学习率 0.0001
batch size 16
CA 注意力缩放参数 t 16
Multi-Head 注意力多头个数 h 32
混合损失函数平衡因子 0.1
网络最大 FC 层通道数 4096
4.4.2 实验数据集
实验数据集为 Oxford 102 Flowers 、CUB-200-2011、Stanford Cars、Stanford Dogs

四个公开细粒度数据集和构建 Mushroom-96 数据集。
Oxford 102 Flowers 由牛津大学发布的针对细粒度花类的数据集，包含 102 种类产
自英国常见的花卉，每个类包含 40 到 258 幅图像数据，共 8189 张图像和标签，数据集图
像具有较大的规模、姿态和光线变化，数据集的可视化使用具有形状和颜色特征等距特征
映射。
CUB-200-2011 是由加州理工学院团队开发的针对鸟类的细粒度标准数据集，包含 200
类鸟类，每个类别包含 41 到 60 张图像不等，其中训练数据集有 5994 张图像，测试集有
5794 张图像，共 11788 张图像和标签。数据集还提供了边界框注释，关键部分锚点注释
和属性注释，是细粒度图像分类领域广泛使用的基准数据集之一。
Stanford Cars[77]是由斯坦福大学发布的针对细粒度汽车类的数据集，包含 196 种汽
车类，其中训练数据集 8144 张，测试集 8041 张图像，共 16185 张不同型号的汽车图片
图像。除了提供类别标签外，还提供车辆品牌，车辆型号型和车辆生产日期等关键信息。
Stanford Dogs[78]是由斯坦福大学发布的针对细粒度狗类的数据集。是由从 ImageNet
数据集中分离出的子集组成的，包含 120 种世界各地的犬类狗类，其中训练数据集 10222
张，测试集 10357 张图像，共 20580 张图像和标签。
29
针对目前缺乏细粒度菌菇图像数据集，通过对菌菇种类进行相关信息查询并筛选，构
建 Mushroom-96 数据集。数据集包含 96 种菌菇 8178 张图片，图片分辨率统一为 7272。
每种类别菌菇均隶属于担子菌门下，菌菇子实体部分均有菌盖，菌褶或菌孔，菌柄组成，
每种类别包含 72 到 103 幅图像数据，数据集每张图像提供了标签类别标记信息及名称。
4.4.3 实验损失函数
要想顺利对类间存在较小差异的细粒度任务进行分类，监督特征学习的损失函数的设
计和选择在模型的训练阶段也是决定卷积神经网络性能的关键，本章模型在细粒度图像分
类训练策略方面的总体损失结构见图 4.5。
图 4.5 总体损失结构图
Figure 4.5 Overall loss structure chart
模型总体损失为 CE-Loss，C-Loss，AM-Softmax 和 MC-Loss 的加权。有如下公式表述。

(4.12)
其中为交叉熵损失（CE-Loss），为中心损失（C-Loss），（additive margin softmax Loss，
AM-Softmax），为互通道损失（Mutual Channel Loss，MC-loss），为整体损失函数的平
衡因子。
在目前的细粒度图像分类任务中多半采用 CE-Loss 度量损失，CE-Loss 是目前最常用
的分类损失，其通常擅长能够较好优化类间的间距，可以简单的确定两个类别的决策边界，
收敛快，但不擅长处理类内的间距，甚至会出现类内间距大于类间间距，即出现两个类边
界的交叉，深度特征的区分度不够不适合直接使用这些特征进行分类。
C-Loss 能更好的处理类内间距，引用 C-Loss 约束类内紧凑的条件，损失能够使类内
的深层特性更紧凑更靠近其类别中心特征，损失对于每个类都学习一个类中心，拉近样本
与类中心的距离，实现类内间距更紧凑。
[79]
AM-Softmax（additive margin softmax Loss），在 CE-Loss 基础上进行改进，通
过添加两个类别边缘的差值，将类的区间缩小到目标区域范围内，同时又会产生差值大小
的类间距离，AM-Softmax 相比（large-margin softmax Loss，L-Softmax）[80]和（angular
[81]
softmax Loss，A-Softmax）两种损失缩小类内距增大类间距的同时还解决了损失超参
30
数过多，训练时很难收敛的问题，AM-Softmax 能使类内间距更加紧凑的同时能进一步增
大类间间距，且损失优化起来比较简单，性能更好。有如下公式表述。
(4.13)
其中为每批次训练数据的数量，为类别的数量，为第个类别的特征中心,超参数增加类间
间距，超参数同时增大类间距离并缩小类内距离。
互通道损失 MC-Loss[82]在进行细粒度图像分类中能够关注且较好的表示区分不同类别
的区分性区域块，并能够对这些有区分性的区域块进行较好表示。（MC-Loss）由判别性
组件 dis 和差异性组件 div 组成。在 MC-Loss 中，通过卷积网络后提取的特征特征送入判
别性组件 dis 和差异性组件 div 分别计算两项损失。MC-Loss 结构图见图 4.6。
图 4.6 MC-loss 损失结构图

Figure.4.6 MC-loss structure diagram
（一）表示判别性组件，通过一种新颖的通道注意力机制，强制属于同一类别的所有
特征频道具有鉴别性。总体训练目标是使得各类别的不同通道学习得到的特征足够有能力
进行类别判断。具体的实现流程如下：1.CWA（channel-wise-attention）[83]:一个随机的
通道丢弃操作。每次训练迭代中有一部分的通道不参与，迫使每一个通道都去学习足够有
[84]
判别力的特征。相当于通道维度的 Dropout 操作，CWA 仅在训练过程中使用。2.CCMP
（Cross-channel max pooling）[85]：表示跨通道的最大池化操作，选取各通道的最大响
应。即在每一个空间位置上选取各通道的最大激活值。3.GAP：全局平均池化，在空间维
度进行平均池化。4.SoftMax：得到各类的预测结果。
（二）表示差异性组件，相当于空间注意力机制，组件通过约束通道在空间上相互排
斥，相当于计算各通道特征间的距离，得到所有通道的总体相似度。总体训练目标是对于
数据集的所有类别的不同通道应该关注图像的不同区域，而不是同一类别的所有通道都关
31
注最有判别力的区域（相同的区域），使得各个通道都关注图像的不同空间位置。具体的
实现流程如下：1.SoftMax：通过对特征的每一位置做 SoftMax 操作，变为预测的类别。
2.CCMP：在每一个空间位置上选取一个类别的各通道的最大响应值。3.Sum：求和，得到
各类别的预测概率在所有通道内的和。4.Average：对得到各类别的预测概率在所有通道
内的和求平均值。
4.5 实验结果分析
IAMR-Net 模型的关键组件在 Oxford 102 Flowers 、CUB-200-2011、Stanford Cars、
Stanford Dogs 和构建 Mushroom-96 五个数据集上展开消融实验来验证模型以及各个模块
的有效性。消融分析见表 4-2。
表 4-2 IAMR-Net 在 5 个数据集上的消融分析

Table 4-2 Ablation analysis of this model on five datasets
Method Attention(M) Loss Flowers CUB Cars Dogs Mushroom
ResNet50 × × 65.30% 66.20% 70.50% 66.67% 54.48%
ResNet50  × 79.40% 74.17% 80.22% 79.89% 77.65%
ResNet50+CA  × 81.30% 77.36% 82.98% 81.19% 80.99%
ResNet50   90.98% 86.44% 90.03% 88.93% 88.64%
ResNet50+SE   94.11% 89.59% 92.16% 90.33% 89.08%

[59]
ResNet50+ECA   95.66% 90.10% 92.13% 90.67% 90.96%
IAMR-Net   96.05% 92.33% 94.14% 91.22% 91.17%
表 2 中 Attention(M）表示模型中的多头自注意力机制，Loss 表示模型的混合损失。

CA、SE、ECA 分别为 3 种常见的通道注意力机制。
在 Oxford 102 Flowers 中使用 Attention(M）对于没有加入 Attention(M）的 ResNet50
可以提供 14.1%的性能提升(79.40%vs65.30%）。在此基础上加入 CA 注意力机制模型性能
进一步提升了 1.9%（81.30%vs79.40%）；在 CUB-200-2011、Stanford Cars 和 Stanford Dogs
数据集上加入 Attention（M）后，模型准确率由 66.20%、70.50%和 66.67%分别提升至
74.17%、80.22%和 79.89%，在此基础上加入 CA 注意力机制，模型性能再次提升至 77.36%、
82.98%、和 81.19%，实验结果表明加入的两个注意力机制在五个数据集上均能够提高
模型整体的分类性能，有效捕获有利于细粒度图像分类的视觉特征。
为了进一步验证 CA 通道注意力对模型性能的提升，在加入 Attention（M）和混合损
失 Loss 的 ResNet50 上分别设置不加入任何通道注意力和 CA、SE、ECA 3 种常见的通道注
32
意力机制进行消融分析，不加入任何通道注意力（表 2 第 4 行）在五个数据集上的准确率
分别达到 90.98%、86.44%、90.03%、88.93%和 88.64%，加入 SE、ECA 和 CA 不同的注意力
机制，网络在不同的数据集上准确率都有不同程度的提高。在 Oxford 102 Flowers 数据
集上加入三种注意力机制比未加入通道注意力机制准确率分别提高了 3.13%
（94.11%vs90.98%）、4.68%（95.66%vs90.98%）和 5.07%（96.05%vs90.98%）。在 Mushroom-96
数据集上加入三种通道注意力后比未加入任何通道注意力的准确率（表 2 最后一列）也得
到了 0.44%（89.08%vs88.64%）、2.32%（90.96%vs88.64%）和 2.53%（91.17%vs88.64%）
的提升。其中 CA 对模型准确率的提升效果最佳，这也证明了 CA 通道注意力机制的引入对
模型准确率提升的有效性。
在 ResNet50 的基础网络中加入 Attention（M），模型性能在 Oxford 102 Flowers 由
65.30%提升至 79.40%，在 ResNet50 的基础网络中同时加入 Attention（M）和混合损失
Loss，模型性能则由 79.40%提升至 90.98%；在 CUB-200-2011 中准确率的提升为 74.17%
至 86.44%。在 Stanford Cars 和 Stanford Dogs 同时加入 Attention（M）和混合损失 Loss
模型性能也由 70.50%和 66.67%提升至 90.03%和 88.93%。实验结果表明加入的 Attention
（M）注意力机制和混合损失 Loss 两个模块在 Oxford 102 Flowers 、CUB-200-2011、
Stanford Cars 和 Stanford Dogs 数据集对模型性能提升的有效性。
在 Oxford 102 Flowers 、CUB-200-2011、Stanford Cars 和 Stanford Dogs 数据集
上同时加入 CA 通道注意力和混合损失 Loss 后准确率由 79.40%、74.17%、80.22%和 79.89%
（表 2 第二行）分别提升至 96.05%、92.33%、94.14%和 91.22%（表二最后一行），验证
CA 通道注意力机制和 Loss 混合损失两个模块共同对模型性能的提升。
IAMR-Net 模型在 Oxford 102 Flowers 、CUB-200-2011、Stanford Cars、Stanford Dogs
四个数据集上的六组对比结果见表 4-3。在构建 Mushroom-96 数据集上的九组对比结果见
表 4-4。
33
表 4-4 Mushroom 数据集上的对
比结果
Table.4-4 Comparison results
on the Mushroom dataset
表 4-3 四个公开数据集的对比结果
Method Mushroom
Table.4-3 Comparative results of four open datasets
VGG16 40.35%
Method Flowers CUB Cars Dogs ResNet50 54.48%
VGG16 41.94% 50.27% 42.81% 52.18% ResNet101 55.88%
ResNet50 65.50% 66.20% 70.50% 66.67% ResNeXt50 61.45%
ResNet101 72.84% 65.03% 68.88% 66.86% ResNeXt101 64.10%
InceptionV3 77.37% 70.41% 73.47% 66.41% InceptionV3 61.13%
MobileNetV2 64.63% 70.09% 70.10% 66.98% MobileNetV2 57.58%
DenseNet121 82.74% 71.36% 77.43% 74.51% MobileNetV3 57.77%
IAMR-Net 96.05% 92.33% 94.14% 91.22% DenseNet121 62.22%
IAMR-Net 91.17%
在 Oxford 102 Flowers 、CUB-200-2011、Stanford Cars、Stanford Dogs 四个公开

细粒度数据集分别设置 VGG16、ResNet50、ResNet101、Inception V3[86]、MobileNet V2[87]
和 DenseNet121[88] 六个经典的深度学习模型。在构建 Mushroom-96 数据集增设
ResNeXt50[89]、ResNeXt101 和 MobileNetV3[90]三个对比实验模型，与调优后的模型进行进
一步的比较以和评估。用同样的设置运行了计算资源允许的著名模型和领域相关模型且所
有的对比模型均参考原文模型框架以及参数设置进行且对比模型均加载预训练参数。选择
细粒度图像分类的准确率作为评价指标。实验随机被划分为训练集和验证集，在每同一训
练批次中对每 8 张训练数据随机抽取一张作为验证，更加突出我们模型的可行性以及优
点。
由对比实验结果分析可见：经典通用模型在数据集上表现并不佳，但 IAMR-Net 模型
在 Oxford 102 Flowers 、 CUB-200-2011 、 Stanford Cars 、 Stanford Dogs 和构建
Mushroom-96 数据集上分别取得了 96.05%、92.33%、94.14%、91.22%和 91.17%的分类准
确率，相较于 ResNet50 分别提升了 30.67%、26.12%、23.64%、24.55%和 36.69%的准确率，
与经典的深度学习模型相比都取得较优的效果，说明模型在细粒度图像分类上具有很好细
微特征学习的能力。实验结果也验证了设计的模型提高分类准确率且收敛速度更快，表现
出良好的分类效果。总体准确率对比趋势图见图 4.7。
34
图 4.7 总体准确率对比趋势图
Figure.4.7 Overall accuracy comparison trend chart
4.6 本章小结
为了验证本章设计的融合残差网络和注意力机制的细粒度菌菇图像分类模型
IAMR-Net的有效性。模型利用加入CA 注意力机制的残差块后的ResNet50 作为基础网络实
现对图像特征的初步提取，多头自注意力加强模型的特征提取能力。重新设计模型的混合
损失训练模型选择构建Mushroom-96（96 种 8179 张菌菇图像）上进行了实验达到 91.17%
的准确率。在Oxford 102 Flowers 、CUB-200-2011、Stanford Cars和Stanford Dogs公
开数据集上进行实验分别取得了 96.05%、92.33%、94.14%和 91.22%的准确率。IAMR-Net
提高细粒度菌菇图像分类准确率体现了模型总体较优的性能，也表明模型具有可行性和有
效性。
35
吉林农业大学硕士学位论文第五章总结和展望
第五章总结和展望
5.1 总结
本文以菌菇为研究对象，采用深度学习技术可以有效地对菌菇图像数据进行分类，为
解决细粒度菌菇数据具有的特征分布分散、类别差异不明显等难题，研究以注意力机制和
残差网络为基础，设计了 BAM-Net 和 IAMR-Net 两种分类模型，均能更好的求解细粒度菌
菇图像分类问题，提升图像分类的准确率。此外，筛选并整理了一个来自网站世界各地拍
摄的包含 96 种 8187 张细粒度菌菇图像数据集。具体研究工作总结如下：
（1）Mushroom-96 菌菇数据集。构建了一个来自世界各地拍摄的菌菇数据集，数据
集中共有 96 种 8178 张菌菇图片，图片分辨率统一为 7272。每种类别菌菇均隶属于担子
菌门下，菌菇子实体部分均有菌盖，菌褶或菌孔，菌柄组成，每种类别包含 72 到 103 幅
图像数据，每张图像除提供了标签类别标记信息、类别拉丁文名称和中文名称，还额提供
各类菌菇有毒无毒标签信息。
（2）基于注意力机制的细粒度菌菇图像分类模型 BAM-Net，针对细粒度图像分类中
数据复杂，类间差异不易察觉的问题，设计了一种基于多头自注意力机制
（Multi-Head-Self Attention）和嵌入 SENet 的残差网络的分类模型。模型以 ResNet50
作为特征提取网络，将提取到的特征图采用双路 SENet 做通道注意力特征权重校准后，采
用 Embedded 实现 SENet 模块输出的特征嵌入在多头自注意力机制中学习空间特征关系。
在度量模型损失方面，结合 Cross Entropy Loss 和 Center Loss 损失函数进行组合来是
实现对模型的训练。在 Oxford 102 Flowers 、CUB-200-2011 和构建 Mushroom-96 菌菇三
个数据集经训练后的准确率分别达到 94.42%、89.43%和 90.09%，相比以往细粒度分类模
型取得了更好的分类性能。
（3）融合注意力机制和残差网络的细粒度菌菇图像分类模型 IAMR-Net。为进一步求
解细粒度图像菌菇分类的问题，设计了结合双线性卷积网络和融合注意力机制的分类模
型。模型首先在 ResNet50 网络的残差块中引入 CA 注意力机制后，结合双线性汇合操作
对特征矩阵外积实现对图像特征的融合，应用多头自注意力机制和 Embedded 实现嵌入特
征的空间维度建模。最后通过 Cross Entropy Loss、Center Loss、AM-Softmax 和 MC-Loss
混合损失共同度量网络。在构建 Mushroom-96（96 种 8179 张菌菇图像）上进行了实验达
到 91.17%的准确率。在 Oxford 102 Flowers 、CUB-200-2011、Stanford Cars 和 Stanford
36
吉林农业大学硕士学位论文第五章总结和展望
Dogs 数据集上进行实验分别取得了 96.05%、91.33%、94.14%和 91.22%的准确率，与其他

传统深度学习以及细粒度分类方法相比，分类效果更优。
5.2 展望
本文针对细粒度菌菇图像分类问题，设计的两个分类模型在两个公共细粒度数据集和
构建的菌菇数据集上均表现出良好的分类准确率，有效的解决细粒度菌菇图像分类的问
题。但仍存在以下不足：
（1）机器视觉应用到菌菇图像分类领域可以实现快速、高精度有效地对菌菇图像数
据进行分类。机器视觉应用到菌菇图像分类领域，本文模型对菌菇图像数据有效进行分类，
取得了良好的性能，但当前分类模型仍受限制于良好的实验环境的约束，需要足够实验硬
件条件的支撑，且实验训练时间较长，不能兼备便携性，不能满足实际问题的解决。
（2）构建的菌菇数据集解决了当前菌菇分类领域的数据集制作的困难，填补了菌菇
图像分类上的部分空白，但实际菌菇种类繁多，构建数据集样本量相对较小，欠缺普适性。
数据集中只涵盖了担子菌门下的菌菇图像，后续工作考虑纳入其它门下的菌菇数据，扩充
更多不同种类菌菇数据集数量。增强细粒度菌菇图像数据集的实用性和先进性。随着菌菇
样本的不断采集，后续将深入优化模型，有望使其解决复杂问题，实现研究应用于实际，
具有更深远的应用价值。
37
吉林农业大学硕士学位论文参考文献
参考文献
[1] 李玉. 中国食用菌产业发展现状、机遇和挑战——走中国特色菇业发展之路,实现食用菌产业强国

之梦 [J]. 菌物研究,2018,16(3):125-131.
[2] WU Y, MOON-HEE C, LI J, et al. Mushroom Cosmetics: The Present and Future [J]. Cosmetics,
2016, 3(3): 22.
[3] SICA, VINCENT, P, et al. Safety assessment of mushrooms in dietary supplements by combining
analytical data with in silico toxicology evaluation [J]. Food & Chemical Toxicology An
International Journal Published for the British Industrial Biological Research,
2017,103(5)133-147.
[4] D L, HAWKSWORTH. The fungal dimension of biodiversity: magnitude, significance, and
conservation [J]. Mycological Research, 1991, 95(6): 641-655.
[5] WANG Y, WANG Z. A survey of recent work on fine-grained image classification techniques
[J]. Journal of Visual Communication and Image Representation, 2019,59:210-214.
[6] 马瑶, 智敏, 殷雁君, et al. CNN 和 Transformer 在细粒度图像识别中的应用综述 [J]. 计算机
工程与应用, 2022, 58(19): 53-63.
[7] XIAO L, TIAN X, JIANG W, et al. Fully Convolutional Attention Localization Networks:
Efficient Attention Localization for Fine-Grained Recognition [J]. 2016.
[8] LEI J, DUAN J, FENG W, et al. Fast Mode Decision Based on Grayscale Similarity and Inter-View
Correlation for Depth Map Coding in 3D-HEVC [J]. IEEE Transactions on Circuits and Systems
for Video Technology, 2018, 28(03): 706-718.
[9] FU J, ZHENG H, TAO M. Look Closer to See Better: Recurrent Attention Convolutional Neural
Network for Fine-Grained Image Recognition [C]. proceedings of the IEEE Conference on Computer
Vision & Pattern Recognition, NJ:IEEE,2017:4476-4484 .
[10] ZHENG H, FU J, MEI T, et al. Learning Multi-attention Convolutional Neural Network for
Fine-Grained Image Recognition[C]. proceedings of the 2017 IEEE International Conference on
Computer Vision (ICCV).NJ:IEEE, 2017:5209-5217.
[11] DONAHUE J, JIA Y, VINYALS O, et al. DeCAF: A Deep Convolutional Activation Feature for
Generic Visual Recognition [C]. International Conference on Computer Machine
Learning.PMLR,2014:647-655.
38
[12] ZHANG N, DONAHUE J, GIRSHICK R, et al. Part-based R-CNNs for Fine-grained Category
Detection[C]. European conference on computer vision .Zurich:Springer,Cham,2014:834-849.
[13] TSUTSUI S, FU Y, CRANDALL D. Meta-Reinforced Synthetic Data for One-Shot Fine-Grained
Visual Recognition[C]. Neural Information Processing Systems,2019:3057-3066.
[14] GE W, LIN X, YU Y. Weakly Supervised Complementary Parts Models for Fine-Grained Image
Classification from the Bottom Up [C]. Proceedings of the 2019 IEEE Conference on Computer
Vision and Pattern Recognition.Piscataway:IEEE,2019:3034-3043.
[15] LIU C, XIE H, ZHA Z J, et al. Filtration and Distillation: Enhancing Region Attention
for Fine-Grained Visual Categorization [J]. Proceedings of the AAAI Conference on Artificial
Intelligence, 2020, 34(7): 11555-11562.
[16] YANG S, LIU S, YANG C, et al. Re-rank Coarse Classification with Local Region Enhanced
Features for Fine-Grained Image Recognition [J]. arXiv preprint arXiv.2021,2102.09875.
[17] GAO Y, HAN X, HUANG W, et al.Channel interaction networks for fine-grained image
categorization [J]. Proceedings of the2020 AAAI Conference on Artificial Intelligence.
2020,34(7):10818-10825.
[18] YU C, ZHAO X, ZHENG Q, et al. Hierarchical bilinear pooling for fine-grained visual
recognition; [C]. proceedings of the Proceedings of the European conference on computer vision
(ECCV), 2018:574-589.
[19] ZHENG H, FU J, ZHA Z J, et al. Learning Deep Bilinear Transformation for Fine-grained
Image Representation [J]. Advances in Neural Information Processing Systems, 2019, 32:
4277-4286.
[20] VOOREN J G, HEIJDEN G. Application of image analysis for variety testing of mushroom
[J]. Euphytica,57(03):245-250.
[21] 张晓宇. 基于双目立体视觉的鸡腿菇识别与定位研究 [D].甘肃兰州:兰州理工大学，2018.
[22] ZIELINSKI B, SROKA-OLEKSIAK A, RYMARCZYK D, et al. Deep learning approach to description
and classification of fungi microscopic images [J].CoRR, 2019,abs/1906.09449.
[23] 陈红 , 夏青 , 左婷 , et al. 基于机器视觉的花菇分选技术 [J]. 农业机械学报 , 2014,
45(1):281-287.
[24] 陈红 , 夏青 , 左婷 , et al. 基于纹理分析的香菇品质分选方法 [J]. 农业工程学报 ,
2014,30(3):285-292.
[25] 于跃. 基于卷积神经网络的平菇图像识别研究 [D].吉林长春:吉林农业大学,2018.
[26] 陈秋月. Android 平台下基于深度学习的蘑菇识别 APP 设计 [D].湖北武汉:中南民族大学,
2019.
39
[27] 王振杰, 张乐乐, 李双芳, et al. 基于机器学习算法的食用菌分类识别研究 [J]. 阜阳师范大

学学报:自然科学版, 2021, 38(4):42-48.
[28] 罗奇. 基于深度学习的蘑菇种类识别算法研究 [J]. 中国食用菌, 2019, 38(6): 26-29+33.
[29] 樊帅昌, 易晓梅, 李剑, et al. 基于深度残差网络与迁移学习的毒蕈图像识别 [J]. 传感技术
学报, 2020, 33(1): 74-83.
[30] 沈若兰, 黄英来, 温馨, et al. 基于 Xception 与 ResNet50 模型的蘑菇分类方法 [J]. 黑河学
院学报, 2020, 11(7): 181-184.
[31] 肖杰文, 赵铖博, 李欣洁, et al. 基于深度学习的蘑菇图像分类研究 [J]. 软件工程, 2020,
23(7): 21-26.
[32] 孟莉莎, 杨贤昭, 刘惠康. 基于 CA-EfficientNetV2 的蘑菇图像分类算法研究 [J]. Laser &
Optoelectronics Progress, 2022, 59(24):56-63.
[33] 陈德刚, 艾孜尔古丽, 尹鹏博, et al. 基于改进 Xception 迁移学习的野生菌种类识别研究 [J].
激光与光电子学进展, 2021,58(08):245-254.
[34] ZHAO H, GE F, YU P, et al. Identification of Wild Mushroom Based on Ensemble Learning;
proceedings of the 2021 IEEE 4th International Conference on Big Data and Artificial
Intelligence (BDAI), F, 2021 [C].
[35] GUPTA A P. Classification Of Mushroom Using Artificial Neural Network [J]. bioRxiv, 2022:
2022.08. 31.
[36] 袁培森, 申成吉, 徐焕良. 基于迁移学习和双线性 CNN 的细粒度菌菇表型识别 [J]. 农业机械学
报, 2021, 52(7): 151-158.
[37] 张志刚, 余鹏飞, 李海燕, et al. 基于多尺度特征引导的细粒度野生菌图像识别 [J]. 激光与
光电子学进展, 2022, 59(12): 192-201.
[38] VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need [C]. proceedings of
the31st International conference on NeuralInformation Processing
Systems.NewYork:ACM,2017:6000-6010.
[39] JIE H, LI S, GANG S, et al. Squeeze-and-Excitation Networks [J]. IEEE Transactions on
Pattern Analysis and Machine Intelligence,2020,42(08):2011-2023.
[40] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]. proceedings
of the Proceedings of the IEEE conference on computer vision and pattern
recognition,2016:770-778.
[41] SUN M, YUAN Y, ZHOU F, et al. Multi-Attention Multi-Class Constraint for Fine-grained
Image Recognition [C]. European conference on computer vision. Springer, Cham, 2018:834-850.
40
[42] GHOSH A, KUMAR H, SASTRY P S. Robust Loss Functions under Label Noise for Deep Neural
Networks [J]. Proceedings of the AAAI Conference on Artificial
Intelligence,2017,31(01):1919-1925.
[43] WEN Y, ZHANG K, LI Z, et al. A Discriminative Feature Learning Approach for Deep Face
Recognition [C]. Proceedings of the European conference on computer vision. SpringerScience,
Cham, 2016:499-515.
[44] MURUGAN P. Feed Forward and Backward Run in Deep Convolution Neural Network [C]. Computer
Vision and Pattern Recognition Workshops,2017:41-61.
[45] XU K, BA J, KIROS R, et al. Show, Attend and Tell: Neural Image Caption Generation with
Visual Attention [C]. International Conference on Machine Learning. NewYork:ACM, 2015:
2048-2057.
[46] ZHAO Z Q, ZHENG P, XU S T, et al. Object Detection With Deep Learning: A Review [J].
IEEE Transactions on Neural Networks and Learning Systems, 2019: 3212-3232.
[47] HOSSAIN M Z, SOHEL F, SHIRATUDDIN M F, et al. A Comprehensive Survey of Deep Learning
for Image Captioning [J]. Acm Computing Surveys, 2019, 51(6): 1-36.
[48] QIU S, WU Y, ANWAR S, et al. Investigating attention mechanism in 3d point cloud object
detection [C]. proceedings of the 2021 International Conference on 3D Vision (3DV),
2021:2108.00620.
[49] LONG J, SHELHAMER E, DARRELL T. Fully Convolutional Networks for Semantic Segmentation
[C]. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp.
2015.3431-3440.
[50]BABENKO A, LEMPITSKY V. Aggregating Deep Convolutional Features for Image Retrieval [J/C].
In Proceedings of IEEE International Conference on ComputerVision,pp. 2015:1269-1277.
[51] X. Zhang, J. Zhao, and Y. LeCun.Character-level Convolutional Networks for Text
Classification classification[C]. In Advances in Neural Information Processing Systems,
pp.2015.649-657.
[52] GEHRING J, AULI M, GRANGIER D, et al. Convolutional Sequence to Sequence Learning
[C].International conference on mach in learning.PMLR,2017:1243-1252.
[53] ZHANG H, GOODFELLOW I, METAXAS D, et al. Self-Attention Generative Adversarial Networks
[C].International conference onmachine learning. PMLR, 2019: 7354-7363.
[54] IQBAL S, SHA F. Actor-Attention-Critic for Multi-Agent Reinforcement Learning [C].
International Conference on Machine Learning. PMLR, 2019: 2961-2970.
[55] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating
errors [C].Nature, pp.533-536.
41
[56] 王振, 高茂庭. 基于卷积神经网络的图像识别算法设计与实现 [J]. 现代计算机:专业版, 2015,

(20): 61-66.
[57] YANN L, BOTTOU L, BENGIO Y, et al. Gradientbased learning applied to document recognition
Proceedings of the IEEE.1998.86(11):2278-2324.
[58] BAHDANAU D, CHO K, BENGIO Y. Neural Machine Translation by Jointly Learning to Align
and Translate [J].arXiv preprint arXiv .2014:1409.0473.
[59] WANG Q, WU B, ZHU P, et al. ECA-Net: Efficient channel attention for deep convolutional
neural networks [C]. proceedings of the Proceedings of the IEEE/CVF conference on computer
vision and pattern recognition, F, 2020 : 11534-11542.
[60] HE K, GKIOXARI G, DOLLÁR P, et al. Mask r-cnn [J]. proceedings of the Proceedings of
the IEEE international conference on computer vision, 2020,42(08):2011-2023.
[61] JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial Transformer Networks [C].Proceedings
of the 28th international conference on neural information processing
systems-volume2.Montreal, Canada:IEEE,2015:2017-2025.
[62] ALMAHAIRI A, BALLAS N, COOIJMANS T, et al. Dynamic Capacity Networks[C]. International
Conference on Machine Learning.PMLR,2016:2549-2558.
[63] WOO S, PARK J, LEE J-Y, et al. Cbam: Convolutional block attention module[C]. Proceedings
of the European conference on computer vision (ECCV).Munich:IEEE,2018:3-19.
[64] FU J, ZHENG H, MEI T. Look Closer to See Better: Recurrent Attention Convolutional Neural
Network for Fine-Grained Image Recognition [C]. proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, 2017:4438-4446.
[65] WANG F, JIANG M, QIAN C, et al. Residual Attention Network for Image Classification [C].
proceedings of the 2017 IEEE Conference on Computer Vision and Pattern
Recognition.Honolulu,USA:IEEE,2017: 6450-6458.
[66] WANG X, GIRSHICK R, GUPTA A, et al. Non-local neural networks [C]. Proceedings of the
IEEE conference on computer vision and pattern recognition.Salt Lack City: IEEE ,
2018:7794-7803.
[67] BELLO I, ZOPH B, LE Q, et al. Attention Augmented Convolutional Networks[C]. IEEE/CVF
International Conference on Computer Vision.Los Alamitos:IEEE. 2019: 3285-3294.
[68] TECHNICOLOR T, RELATED S, TECHNICOLOR T, et al. ImageNet Classification with Deep
Convolutional Neural Networks [J]. Communications of the ACM,2017,60(06):84-90.
[69] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image
Recognition [C].International Conference on Learning Representations 2015.San Diego,
CA,USA,2015:1-14.
42
[70] LIN M, CHEN Q, YAN S. Network In Network [J].CoRR, 2013,abs/1312.4400.

[71] NILSBACK M E, ZISSERMAN A. Automated Flower Classification over a Large Number of Classes
[C]. proceedings of the Sixth Indian Conference on Computer Vision, Graphics and Image
Processing, ICVGIP 2008, Bhubaneswar, India, 2008, :722-729.
[72] WELINDER P, BRANSON S, MITA T, et al. Caltech-UCSD Birds 200 [J]. california institute
of technology, 2011(01):20111026.
[73] KINGMA D, BA J. Adam: A Method for Stochastic Optimization [C]. 3rd International
Conference on Learning Represenations. San Diego. California. CA:ICLR. 2015.
[74] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]. proceedings of the
Proceedings of the IEEE conference on computer vision and pattern recognition. IEEE,2015:1-9.
[75] HOU Q, ZHOU D, FENG J. Coordinate Attention for Efficient Mobile Network Design [C].
Proceedings of the IEEE/CVFConference on computer vision and pattern recognition.Athens:
IEEE ,2021: 13713-13722.
[76] ROYCHOWDHURY A, MAJI S, LIN T Y. Bilinear CNNs for Fine-grained Visual Recognition
[C].International conference on Computer Vision,2015:1449-1457.
[77] KRAUSE J, STARK M, DENG J, et al. 3d object representations for fine-grained
categorization[C]. proceedings of the Proceedings of the IEEE international conference on
computer vision workshops, F, 2013:554-561.
[78] KHOSLA A, JAYADEVAPRAKASH N, YAO B, et al. Novel dataset for fine-grained image
categorization: Stanford dogs[C].Proc. CVPR Workshop on Fine-Grained Visual Categorization
(FGVC). 2011, 2(1).
[79] WANG F, CHENG J, LIU W, et al. Additive Margin Softmax for Face Verification [J]. IEEE
Signal Processing Letters, 2018,25(07): 926-930.
[80] LIU W, WEN Y, YU Z, et al. Large-Margin Softmax Loss for Convolutional Neural Networks
[C]. Proceedings of the 33rd International Conference on Machine Learning. NewYork: IMLS,
2016:507-516.
[81] LIU W, WEN Y, YU Z, et al. SphereFace: Deep Hypersphere Embedding for Face Recognition
[C]. Proc of the 30th IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ:
IEEE, 2017: 212-220.
[82] CHANG D, DING Y, XIE J, et al. The Devil is in the Channels: Mutual-Channel Loss for
Fine-Grained Image Classification [C]. IEEE Transactions on Image Processing: Vol. 29. 2020:
4683-4695.
43
[83] LONG C, ZHANG H, XIAO J, et al. SCA-CNN: Spatial and Channel-Wise Attention in
Convolutional Networks for Image Captioning [C]. Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:5659-5667 .
[84] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A Simple Way to Prevent Neural
Networks from Overfitting [J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[85] GOODFELLOW I J, WARDE-FARLEY D, MIRZA M, et al. Maxout Networks [C]. International
Conference on Machine Learning. PMIR,2013:1319-1327.
[86] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the Inception Architecture for Computer
Vision [C]. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern
Recognition(CVPR), 2016:2818-2826.
[87] SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks
[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Salt Lake City, UT, USA: IEEE Press, 2018:4510-4520.
[88] HUANG G, LIU Z, LAURENS V, et al. Densely Connected Convolutional Networks [C].2017 IEEE
Confer
ence on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017, Honolulu, HI, USA.
IEEE, 2017: 2261-2269.
[89] XIE S, GIRSHICK R, DOLLÁR P, et al. Aggregated Residual Transformations for Deep Neural
Networks [C].2017 IEEE Conference on Computer Vision and Pattern Recognition, Hawaii, USA.
New Jersey:IEEE, 2017:5987-5995.
[90] HOWARD A, SANDLER M, CHU G, et al. Searching for MobileNetV3 [C].2019 IEEE/CVF
International Conference on Computer Vision (ICCV) New York: IEEE Press. 2019: 1314-1324.
44

融合注意力机制和残差网络的细粒度菌菇图像分类 王新鹏

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

融合注意力机制和残差网络的细粒度菌菇图像分类 王新鹏

Uploaded by

Copyright:

Available Formats

分 类 号：S126/TP399 单位代码：10193

Fine-grained Mushroom Image Classification by Resnet Combined with

Keywords: Attention Mechanism, Residual Network, Fine-grained Classification, Mushroom

全连接层（fully connected layers，FC）一般位于神经网络的末尾，全连接层的每

图 2.5 TP、TN、FP、FN 关系图

加州蘑菇 黄盖粪伞 裂丝盖伞 鳞柄白鹅膏

Agaricus Bolbitius Inocybe rimosa Amanita virosa

灰鹅膏菌 香杏丽蘑 红鳞粘盖牛肝菌 赤褐鹅膏菌

褐环乳牛肝菌 粘盖牛肝菌 红褐乳菇 亮栗色乳菇

Suillus luteus Suillus bovinus Lactarius Lactarius helvus

多层感知机网络容易过拟合训练也难于收敛，直到 Krizhevsky 和 Hinton 提出

图 3.2 SENet 结构图

SENet 包含 Squeeze（压缩操作）、Excitation（激励操作）和 Scale（权重计算）。

特征图利用 Squeeze 操作，通过全局平均池化（global average pooling ，GAP）[70]

3.2.3 Multi-Head-Self 注意力机制

Google 团队在 2017 年提出一种包含自注意力以及多头自注意力机制的神经网络架

图 3.3 Multi-Head-Self Attention 结构图

在改进残差块的提取出来的特征图应用 Multi-Head-Self Attention 空间注意力机制

其中是每个单头注意力的输出,为第 i 个注意力头 Q,K,V 的权重矩阵。

3.3 分类模型 BAM-Net 结构设计

图 3.4 BAM-Net 模型结构图

实验的训练环境：实验在 Ubuntu 系统中进行，使用国产深度学习框架 Paddle Paddle

训练轮数(training epochs) 200

学习率（learning strategy） 0.0001

网络最大 FC 层通道数 4096

Method Flowers CUB Mushroom

AlexNet 80.39% 72.50% 56.67%

VGGNet(16) 29.39% 59.83% 32.79%

ResNet50 78.22% 74.43% 57.45%

Xception 89.90% 71.00% 68.89%

BAM-Net(单路) 83.40% 82.17% 82.49%

BAM-Net 94.42% 89.43% 90.09%

模型进行多方面的比较，模型在构建 Mushroom-96 菌菇数据集上分别提升了 33.42％、

为了使注意力捕捉位置信息，HOU Q 等提出了坐标注意力机制（Coordinate Attention，

CA 坐标注意力机制中的 Coordinate Information Embedding 对于给定输入的特征，

4.2.3 改进的 Bilinear CNNs

由于原始的 B-CNNs 模型采取 VGGNet 或/和 AlexNet 作为特征提取子网络，而 VGGNet

图 4.3 改进后的 B-CNNs 结构图

B-CNNs 中和，是指去除 SoftMax 层和 FC 层的 ResNet50 网络。对于图像在位置上的

4.3 分类模型 IAMR-Net 结构设计

图 4.4 IAMR-Net 模型结构图

整体模型由五元组(,,P,M,L)组成。是指预训练且去除 SoftMax 层和 FC 层的 ResNet50，

实验的训练环境是在百度 AI Studio 平台上使用 Tesla V100 GPU 显存 32GB，

网络最大 FC 层通道数 4096

实验数据集为 Oxford 102 Flowers 、CUB-200-2011、Stanford Cars、Stanford Dogs

模型总体损失为 CE-Loss，C-Loss，AM-Softmax 和 MC-Loss 的加权。有如下公式表述。

图 4.6 MC-loss 损失结构图

表 4-2 IAMR-Net 在 5 个数据集上的消融分析

Method Attention(M) Loss Flowers CUB Cars Dogs Mushroom

ResNet50 × × 65.30% 66.20% 70.50% 66.67% 54.48%

ResNet50  × 79.40% 74.17% 80.22% 79.89% 77.65%

ResNet50+CA  × 81.30% 77.36% 82.98% 81.19% 80.99%

ResNet50   90.98% 86.44% 90.03% 88.93% 88.64%

ResNet50+SE   94.11% 89.59% 92.16% 90.33% 89.08%

IAMR-Net   96.05% 92.33% 94.14% 91.22% 91.17%

表 2 中 Attention(M） 表示模型中的多头自注意力机制，Loss 表示模型的混合损失。

Method Flowers CUB Cars Dogs ResNet50 54.48%

VGG16 41.94% 50.27% 42.81% 52.18% ResNet101 55.88%

ResNet50 65.50% 66.20% 70.50% 66.67% ResNeXt50 61.45%

ResNet101 72.84% 65.03% 68.88% 66.86% ResNeXt101 64.10%

InceptionV3 77.37% 70.41% 73.47% 66.41% InceptionV3 61.13%

MobileNetV2 64.63% 70.09% 70.10% 66.98% MobileNetV2 57.58%

DenseNet121 82.74% 71.36% 77.43% 74.51% MobileNetV3 57.77%

融合注意力机制和残差网络的细粒度菌菇图像分类王新鹏

融合注意力机制和残差网络的细粒度菌菇图像分类王新鹏

分类号：S126/TP399 单位代码：10193

加州蘑菇黄盖粪伞裂丝盖伞鳞柄白鹅膏

灰鹅膏菌香杏丽蘑红鳞粘盖牛肝菌赤褐鹅膏菌

褐环乳牛肝菌粘盖牛肝菌红褐乳菇亮栗色乳菇

表 2 中 Attention(M）表示模型中的多头自注意力机制，Loss 表示模型的混合损失。