林胜 Et Al 2020 基于对抗式生成网络的农作物病虫害图像扩充

计算机与多媒体技术电子技术与软件工程
Computer And Multimedia Technology Electronic Technology & Software Engineering
基于对抗式生成网络的农作物病虫害图像扩充
林胜巩名轶牟文芊董伯男
（山东农业大学信息科学与工程学院山东省泰安市 271000）
摘要：本文提出一种基于深度卷积对抗式生成网络（Deep convolutional GAN，DCGAN）的农作物病虫害图像生成方法，利用卷积

神经网络强大的特征提取能力，提高生成网络的学习效果，生成大量接近真实数据的病虫害图像。实验结果表明，该方法能有效解决病虫
害图像数据不足的问题。
关键词：对抗式生成网络；卷积神经网络；病虫害图像；图像生成
1 引言
由加拿大 Goodfellow 博士于 2014 年提出的对抗式生成网络

（Generative Adversarial Networks，GAN）[2] 弥补了传统概率生成
模型的不足，如最大使然估计、马尔可链等方法在建立模型时存在
的需要大量先验知识（如大量样本）和拟合模型所需计算量庞大的
问题，由于其优越性，近年得到快速发展。Goodfellow 将 GAN 与
变分自编码器（Variational Auto-Encoder, VAE）[3] 和信念网络（Belief
Nets, BF）[4] 等作对比，GAN 的优点如下：图 1：GAN 基本模型
（1）与 VAE 相比，GAN 没有引入任何决定性偏置 (deterministic
bias)，变分方法引入决定性偏置 , 因为他们优化对数似然的下界，
而不是似然度本身，从而导致了 VAE 生成的实例比 GAN 更模糊。
（2）相比玻尔兹曼机和 GSN，GAN 生成实例的过程只需要模
型运行一次，而不是以马尔科夫链的形式迭代多次。
（3）GAN 因不需要在采样序列生成不同的数据，因此比完全
明显的信念网络 (NADE, PixelRNN, WaveNet) 等更快的产生样本。
理论上 GAN 可以逐渐逼近任何概率分布，若判别器训练良好，
生成器可以生成与真实样本几乎相同的分布，它能够有效地解决图 2：DCGAN 生成器
建立自然性解释数据的生成难题，丰富生成样本的多样性。目前，
GAN 在图像和视觉领域得到了广泛的研究和应用 , 并延伸至语音和
语言处理等方面。
GAN 也存在一些问题，包括优化过程中存在不稳定性、可解
释性差和很难达到纳什均衡等。但作为深度学习领域一种新的生
成模型也受到研究者的广泛关注，并提出多种改进模型 [5,6]。深度
卷积对抗式生成网络（Deep convolutional GAN，DCGAN）[7] 是继
GAN 之后比较好的改进，通过改进网络结构，成功解决 GAN 不易
训练的问题并拓展了维度。图 3：真实茶叶病害图像
2 对抗式生成网络数据 G(z)。可以证明在任意函数 G 和 D 的空间中，存在唯一的解
2.1 基本原理决方案，使得 G 重现训练数据分布，而 D=0.5。

判别器和生成器的训练过程可以用一个值函数 V（D,G）来表示，
生成式对抗网络包含捕获数据分布的生成器 G 和估计样本来自
并把问题表示成公式（1）的极小 - 极大问题。
训练数据的概率的判别器 D。两者的训练过程是一个极小极大博弈
问题，连着通过相互对抗最终达到纳什均衡 [8]。GAN 的基本模型
如图 1 所示，随机噪声 Z 通过生成器 G 生成接近真实数据分布 Pdata （1）
中，x 表示真实样本，D(x) 表示 x 通过判别网
（x）的样本 G(z)，判别器 D 判断输入样本是真实数据 x 还是生成
络判断其为真实样本的概率；中，z 表示输入
●基金：国家级大学生创新创业训练项目 , 项目名称 : 基于生成式对抗网络的农作物病害图像扩充的研究与应用 , 项目编号 : 201910434058。
140
电子技术与软件工程计算机与多媒体技术
Electronic Technology & Software Engineering Computer And Multimedia Technology
生成样本的噪声，G(z) 表示生成网络由噪声 z 生成的样本，D(G(z))

表示生成样本通过判别网络后，判断其为真实样本的概率。生成网
络的目的是让生成样本越接近真实样本越好，即 D(G(z)) 越接近 1
越好，这时 V(D, G) 会变小；而判别网络的目的是让 D(x) 接近 1，
D(G)(z) 接近 0，此时 V(D, G) 会增大。
2.2 DCGAN基本原理及特点
DCGAN 将卷积运算的思想引入到生成模型中来做无监督训练，
利用卷积网络强大的特征提取能力，提高了生成样本质量收敛速度，
有效解决对抗式生成网络在无监督学习方面的不足。DCGAN 模型
有以下特点：
（1）该网络模型去除全连接层，直接用卷积层连接生成器和图 4：生成器结构
判别器的输入和输出层。
（2）取消所有特征提取层（pooling），在 Generator 网络中使
用转置卷积进行上采样，在 Discriminator 网络中用加入 stride 的卷
积代替 pooling。
（3）在 Generator 网络中使用 Relu 作为激活函数，最后一层
使用 tanh，在 Discriminator 网络中使用 LeakyRelu 作为激活函数。
（4）在 Generator 和 Discriminator 上都使用 batchnorm 批标准图 5：生成器和判别器损失函数
化一定程度上解决初始化差的问题、帮助梯度传播到每一层、防止
Generator 把所有的样本都收敛到同一个点。
经典 DCGAN 的生成器如图 2 所示。
3 基于深度对抗式生成网络的农作物病虫害图像的生成
基于深度卷积生成式对抗网络生成图像通常需要四个步骤：
（1）收集和预处理训练数据；
（2）基于深度卷积对抗式生成网络构建生成器和判别器；图 6：生成茶叶病害图像
（3）训练生成器和判别器；
1 维的结果。
（4）利用训练好的生成网络生成农作物病虫害图像。
3.3 DCGAN模型训练
3.1 病虫害图像预处理
本论文工作基于深度卷积对抗式生成网络实现农作物病虫害
该实验病虫害图像由本团队在多个农作物生长周期期间采集的
图像的扩充，训练时使用 Adam 方式进行梯度下降，学习率为：
包括茶叶、小麦、花生等十几种农作物的几十种病虫害的近万张图
learning_rate=0.001，mini-batch 为 128，每层的输出结果进行批量
片。该实验计划以茶叶病虫害图像为真实图像，并对其进行归一化
归一化（Batch Normalization，BN）[9] 处理，使图像数据分布一致，
处理，将其处理为 256×256 像素，得到训练样本如图 3 所示。
增加训练网络模型更加容易和稳定。生成器的转置卷积层中使用
3.2 DCGAN网络模型建立
Relu 函数作为激活函数，判别器中卷积层使用 LeakRelu 函数作为
DCGAN 的生成器模型如图 4 所示，100 维噪声作为输入，通激活函数，迭代 200 个周期，输出图像大小为（256,256,3）。
过一个全连接层进行维度转换成（8,8,512）的三维张量，之后通
3.4 实验结果分析
过两个卷积核为 3×3 像素步幅为 2 的转置卷积层输出（32，32，
由图 5 可以看出 DCGAN 生成器和判别器在训练初期由于各自
128）的三维张量，经过卷积核为 3×3 像素步幅为 4 的转置卷积层，
的生成能力和判别能力都较弱 , 损失函数值变化较大。但随着训练
输出再次经过 3×3 像素步幅为 2 的转置卷积层输出（256，256,3）
次数的增加，生成器和判别器的能力逐渐增强，判别器和生成器的
的三维张量，tanh 激活，即生成一个图像样本。
损失函数 Loss 在逐步下降，最终两者在较小的范围内波动。这也
DCGAN 的判别器模型结构如图 4 所示，判别器以（256,256,3）
表明该模型训练正常，未发生异常情况。最终生成茶叶病害图像如
的三维张量作为输入，经过一个卷积核为 3×3 像素步幅为 2 的卷积
图 6 所示。
层输出维（128,128,32）的三维张量，然后经过卷积核为 3×3 像素
4 结束语
步幅为 4 的卷积层，输出再次经过两个卷积核为 3×3 像素步幅为 2
的卷积层输出（4,4,512）的三维张量，最后通过一个全连接层输出 DCGAN 结合了 CNN 和 GAN 模型各自的优点，可以从物体或
141
计算机与多媒体技术电子技术与软件工程
Computer And Multimedia Technology Electronic Technology & Software Engineering
基于深度学习的车辆跟踪算法综述
赵奇慧刘艳洋*
（智慧互通科技有限公司静态交通技术创新中心河北省张家口市 075000）
摘要：本文首先介绍了深度学习中用于车辆跟踪的神经网络模型，以及通过这些网络模型衍生的基于预训练、在线训练和离线训练
的跟踪算法，同时列举了车辆跟踪相关数据集和评价标准，最后对目前车辆检测中待解决的问题、未来待改进的方向进行了分析和讨论。
关键词：图像处理；目标识别；车辆跟踪；卷积神经网络（CNN）
计算机视觉技术使计算机能够像人类一样“看世界”。它利用确定视频场景中的感兴趣区域 , 然后在后续视频帧中找出车辆的位

摄像机来模拟人眼的功能，从而实现对目标的提取、识别和跟踪。置，最后通过一系列场景分析得出车辆运动的轨迹。
视觉跟踪是计算机视觉中最具挑战性的问题之一，它可以实现对指典型的车辆跟踪算法主要包括四个部分 : 初始化、运动模型、
定目标的跟踪、定位和识别功能，并将目标的参数提供给控制器供外观模型和更新模型。初始化的目的是确定要进行跟踪的车辆的初
后续使用。视觉跟踪在移动机器人、自动驾驶、人机交互、自动监始位置和大小 , 通常由人工标注获得 , 而在实际应用中也可以由目
控等机器智能领域有着广泛的应用。标检测算法提供。运动模型是对车辆的运动状态进行建模 , 用来预
智能交通是“智慧城市”的关键内容之一。在城市的主干道，测车辆在下一帧可能出现的位置或生成一组候选样本供车辆外观模
尤其是十字路口，对车辆、行人等目标的自动检测与跟踪是智能交型评价。外观模型是通过对车辆外观进行建模 , 用来评价候选位置
通系统的重要任务。目前基于深度学习的目标跟踪借助于云平台，或候选样本。更新模型是根据跟踪结果对外观模型和运动模型进行
能够及时有效地实现对交通状态的感知，从而提高整个城市的交通更新 , 以适应目标和背景的动态变化。
效能，因而起着越来越重要的作用。当前许多研究学者对车辆跟踪有研究，莫舒玥 [1] 提出了通过构
1 车辆跟踪的研究背景建车辆动态目标位置的运动学模型，研究了车辆弯道保持系统中的
动态目标位置跟踪问题，实现了自适应预测。胥中南 [2] 提出了一种
基于计算机视觉的车辆跟踪任务主要分为三个步骤，首先人为
快速分类尺度空间跟踪器，在核相关滤波算法的基础上融合了卡尔
场景图像数据集中学习到多维深层次表征。本文基于 Tensorﬂow 深 generative adversarial networks[J]. arXiv preprint

度学习框架设计图像生成模型，利用生成式对抗网络强大的生成能 arXiv:1511.06434, 2015.
力建立完备的农作物病害图像数据库，提高我们的农业病害图像的 [7]RATLIFF L J, BURDEN S A, SASTRY S. Characterization
基数，为农作物病害图像集的建立提供有力的数据支持。同时生成 and Computation of Local Nash Equilibria in Continuous
的数据可用于图像识别，提高图像识别的准确率。该工作对于农业 Games[C]//2013 51st Annual Allerton Conference on
的信息化现代化具有重要意义。 Communication, Control, and Computing (Allerton). IEEE,
2013:917-924.
参考文献 [8]Wu Shuang, Li Guo qi, Deng Lei, Liu Liu, Wu Dong,
[1]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Xie Yuan, Shi Lu ping. L1 -Norm Batch Normalization
Generative adversarial nets[C]// Advances Neural for Efficient Training of Deep Neural Networks. [J].
Information Processing Systems Conference. 2014: 2672- IEEE transactions on neural networks and learning
2680. systems,2019,30(7).
[2] 翟正利 , 梁振明 , 周炜 , 孙霞 . 变分自编码器模型综述 [J].
计算机工程与应用 ,2019,55(03):1-9. 作者简介
[3]HINTON G, OSINDERO S, TEH Y. A fast learning algorithm 林胜（1998-），男，山东省济宁市人。山东农业大学本科生。研
for deep belief nets[J]. Neural Computation, 2006, 究方向为深度学习在农业方面的应用。
18(7):1527-1554. 巩名义（1999-），男，山东省泰安市人。山东农业大学本科生。
[4] 林懿伦 , 戴星原 , 李力等 . 人工智能研究的新前线 : 生成式对研究方向为深度学习在农业方面的应用。
抗网络 [J]. 自动化学报 ,2018,44(5):775-792. 牟文芊（2001-），女，山东省泰安市人。山东农业大学本科生。
[5] 王万良 , 李卓蓉 . 生成式对抗网络研究进展 [J]. 通信学研究方向为大数据与人工智能。
报 ,2018,39(2):135-148. 董伯男（2000-），山东省泰安市人。山东农业大学本科生。研究
[6]Radford A, Metz L, Chintala S. Unsupervised 方向为大数据在农业方面的应用。
representation learning with deep convolutional
142

林胜 Et Al 2020 基于对抗式生成网络的农作物病虫害图像扩充

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

林胜 Et Al 2020 基于对抗式生成网络的农作物病虫害图像扩充

Uploaded by

Copyright:

Available Formats

计算机与多媒体技术电子技术与软件工程

Computer And Multimedia Technology Electronic Technology & Software Engineering

摘要：本文提出一种基于深度卷积对抗式生成网络（Deep convolutional GAN，DCGAN）的农作物病虫害图像生成方法，利用卷积

由加拿大 Goodfellow 博士于 2014 年提出的对抗式生成网络

2 对抗式生成网络数据 G(z)。可以证明在任意函数 G 和 D 的空间中，存在唯一的解

2.1 基本原理决方案，使得 G 重现训练数据分布，而 D=0.5。

●基金：国家级大学生创新创业训练项目 , 项目名称 : 基于生成式对抗网络的农作物病害图像扩充的研究与应用 , 项目编号 : 201910434058。

生成样本的噪声，G(z) 表示生成网络由噪声 z 生成的样本，D(G(z))

计算机视觉技术使计算机能够像人类一样“看世界”。它利用确定视频场景中的感兴趣区域 , 然后在后续视频帧中找出车辆的位

场景图像数据集中学习到多维深层次表征。本文基于 Tensorﬂow 深 generative adversarial networks[J]. arXiv preprint

You might also like

林胜 Et Al 2020 基于对抗式生成网络的农作物病虫害图像扩充

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

林胜 Et Al 2020 基于对抗式生成网络的农作物病虫害图像扩充

Uploaded by

Copyright:

Available Formats

计算机与多媒体技术 电子技术与软件工程

Computer And Multimedia Technology Electronic Technology & Software Engineering

摘 要：本文提出一种基于深度卷积对抗式生成网络（Deep convolutional GAN，DCGAN）的农作物病虫害图像生成方法，利用卷积

由加拿大 Goodfellow 博士于 2014 年提出的对抗式生成网络

2 对抗式生成网络 数据 G(z)。可以证明在任意函数 G 和 D 的空间中，存在唯一的解

2.1 基本原理 决方案，使得 G 重现训练数据分布，而 D=0.5。

●基金：国家级大学生创新创业训练项目 , 项目名称 : 基于生成式对抗网络的农作物病害图像扩充的研究与应用 , 项目编号 : 201910434058。

生成样本的噪声，G(z) 表示生成网络由噪声 z 生成的样本，D(G(z))

计算机视觉技术使计算机能够像人类一样“看世界”。它利用 确定视频场景中的感兴趣区域 , 然后在后续视频帧中找出车辆的位

场景图像数据集中学习到多维深层次表征。本文基于 Tensorﬂow 深 generative adversarial networks[J]. arXiv preprint

You might also like

计算机与多媒体技术电子技术与软件工程

摘要：本文提出一种基于深度卷积对抗式生成网络（Deep convolutional GAN，DCGAN）的农作物病虫害图像生成方法，利用卷积

2 对抗式生成网络数据 G(z)。可以证明在任意函数 G 和 D 的空间中，存在唯一的解

2.1 基本原理决方案，使得 G 重现训练数据分布，而 D=0.5。

计算机视觉技术使计算机能够像人类一样“看世界”。它利用确定视频场景中的感兴趣区域 , 然后在后续视频帧中找出车辆的位