Professional Documents
Culture Documents
改进的卷积神经网络在行人检测中的应用 谢林江
改进的卷积神经网络在行人检测中的应用 谢林江
E-mail: fcst@vip.163.com
Journal of Frontiers of Computer Science and Technology
http://www.ceaj.org
1673-9418/2018/12(05)-0708-11
Tel: +86-10-89056056
doi: 10.3778/j.issn.1673-9418.1708030
改进的卷积神经网络在行人检测中的应用*
谢林江,季桂树+,彭 清,
罗恩韬
中南大学 信息科学与工程学院,长沙 410083
XIE Linjiang, JI Guishu, PENG Qing, et al. Application of preprocessing convolutional neural network in
pedestrian detection. Journal of Frontiers of Computer Science and Technology, 2018, 12(5):708-718.
Abstract: In order to solve the problems of large computational complexity, complicated pedestrian feature extrac-
tion and complex background influence, this paper proposes a modified convolutional neural network (CNN) model.
Based on the traditional CNN algorithm, a selective attention layer is added to this model to simulate the selective
attention feature of humans eyes, which is able to filter the complex background and highlight the characteristics of
pedestrians. LBP (local binary pattern) texture processing and gradient processing are used to train the selective
attention layer, and the optimal model is obtained by comparing the training results. Experiments are conducted on
INRIA, NICTA and Daimler pedestrian datasets respectively. The results show that the accuracy of the proposed
model in the pedestrian detection is better than that of the traditional CNN, HOG + SVM, Haar + SVM and PCA +
SVM, and the accuracy of the INRIA, NICTA and Daimler pedestrian datasets is 96.14%, 96.64% and 99.78%
respectively.
Key words: pedestrian detection; deep learning; convolutional neural network; selective attention
摘 要:针对当前行人检测方法计算量大,行人特征提取复杂,检测结果易受复杂背景影响等问题,提出一种
改进的卷积神经网络(convolutional neural network,CNN)模型。该模型在传统 CNN 基础上加入选择性注意
层,模拟人眼的选择性注意功能,过滤复杂背景,突出行人特征。分别采用 LBP(local binary pattern)纹理处理
* The National Natural Science Foundation of China under Grant Nos. 61632009, 61472451, 61402161 (国家自然科学基金).
Received 2017-08, Accepted 2017-10.
CNKI 网络出版: 2017-10-18, http://kns.cnki.net/kcms/detail/11.5602.TP.20171018.1039.002.html
谢林江 等:改进的卷积神经网络在行人检测中的应用 709
1 引言 proposal network,PRN)和级联分类器相结合,运用到
行人检测指的是判断待处理图像或者视频帧中 行人检测中,提高了检测的准确率。文献[17]提出了
是否含有行人,如果有行人,给出标注。它是机动车 多尺度 CNN 模型(multi-scale CNN,MS-CNN),在不
辅助驾驶 、智能视频监控 、智能机器人以及人体
[1-3] [4]
同层生成一个目标检测子网,提高了 CNN 对小物体
行为分析 [5-6] 等应用中的关键技术,近些年来成功地 的检测能力。文献[18]通过对行人属性分析和语义
应用于直升机等飞行器拍摄的图片中 [7] 以及在地质 任务来优化行人检测,降低了误检率。
灾害中的受困人员搜寻与营救 [8-9]
等新兴领域。但在 本文结合了复杂的行人姿态、背景属性以及人
实际应用中行人图像容易受到光照、穿着、姿态、遮 眼视觉行为的分析,在网络的卷积层前加入选择性
挡以及拍摄角度的多样性等影响,使得行人检测成 注意层,以减少复杂背景的干扰,同时突出了行人特
为计算机视觉领域的研究难点与热点。目前,行人 征,以达到更高的检测结果。为了验证本文方法的
检测的方法主要有传统的检测方法和基于神经网络 优越性,分别在 INRIA、NICTA 和 Daimler 行人数据
的检测方法。 集上进行实验,
与传统的CNN模型检测效果进行对比,
传统的检测方法主要是通过图像相邻像素之间 实验结果表明,改进的 CNN 模型具有更高的准确率。
的关系来得到其特征表达。文献[10]提出的梯度方 本文主要贡献有:
(1)提出一种改进的 CNN 模
向直方图(histogram of oriented gradient,HOG)通过 型,即在传统 CNN 的基础上增加了一个选择性注意
计算像素梯度方向直方图来构成特征。但是 HOG 特 层,用来模拟人眼的选择性注意功能;
(2)在选择性
征的维度高,计算量大,难以满足实时性的要求。文 注意层,分析了两种选择性处理方法,并与传统 CNN
献[11]利用积分图技术来提高 HOG 特征的计算速 模型进行实验对比,分析不同处理对检测结果的影
度,但还是未能解决特征维度高的缺点。文献[12]提 响,找到最佳的处理方式;
(3)将改进的 CNN 模型在
出了局部二值模式(local binary pattern,LBP)算子, INRIA、NICTA 和 Daimler 行人数据集上进行实验,取
其根据每个像素点与周围像素值大小比较进行编 得了比传统模型更好的效果。
码,得到 LBP 特征图谱,具有旋转不变性和灰度不变
性等显著优点。文献[13]将 LBP 特征作为行人的特 2 相关理论
征描述子,同样取得了较好的检测效果。文献[14]提 2.1 选择性注意原理
出了模板匹配的方法,该方法虽然在检测速度和检 为了对目标的存在性做出判断,传统 CNN 在卷
测率上有所提高,但其需要人工标注模板且存在泛 积过程中会对整幅图片进行无差别特征提取,但实
化能力不强的缺点。 际上人们所关注的内容通常仅仅是图像中很少的一
为了克服传统方法中需要人工标注模板以及特 部分。这种特征提取方式不仅加重了分析难度,又
征维度高的缺点,文献[15]将卷积神经网络(convolu- 造成了计算的浪费。文献[19-20]在对猫和猴的视觉
tional neural network,CNN)应用到行人检测中,利用 皮层研究时,发现了一些对外界某种具有一定方向
CNN 具有从原始像素中学习辨别特征的能力,显著 或朝向的刺激有强烈反应的视神经细胞,被称为方
减 少 了 计 算 量 。 文 献 [16] 把 区 域 提 案 网 络(region 向选择性细胞。文献[21]研究发现人眼在面对复杂
710 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2018, 12(5)
式。根据方向选择性细胞对图像的纹理与边缘表现 像是离散的数字信号,因此可以把图像看成一个二
出较强的选择性,本文将分析在选择性注意层分别 维离散函数,函数的求导即为图像梯度。
采用纹理预处理和梯度预处理对实验结果的影响。 定义 1(梯度图像) 设 f (x,y) 表示一幅图像,F y
3 本文 CNN 模型
卷积神经网络作为一种前馈神经网络,是近年
发展起来,并引起学者广泛重视的一种高效识别方
法。其通过局域感受野、权值共享和池化实现识别
位移、缩放和扭曲不变性。局域感受野指的是网络
层的神经元与前一层的某个区域内的神经单元连
接,通过局域感受野,每个神经元可以提取初级的视
觉特征;权值共享使得卷积神经网络只需要较少的
参数就能完成对数据的训练;池化通过降低特征的
分辨率减少计算量,防止过拟合。在行人检测中,为
了减少复杂背景对检测效果的干扰,本文提出一种
改进的 CNN 模型,即在第一个卷积层前加入一个选
择性注意层。模型结构如图 2 所示。
4 实验与分析
为了验证本文算法的性能,
在 INRIA[30]、
NICTA[31]
和 Daimler[32] 3 个公开的行人数据集上进行测试。对
于每个数据集,先将两个数据集中的所有图像大小
缩放为 128 × 64 像素,然后在相同条件下重复 10 次
实 验 ,每 次 实 验 迭 代(epoch)200 次 ,每 次 批 序 列
(batch size)大小为 32 张图像,取 10 次结果的平均值
Fig.4 Convolution operation diagram
为实验的最终结果。采用均方误差和正确率对模型
图4 卷积操作示意图
进行评价。实验使用英特尔 i7-4510U 处理器,8 GB
积操作提取图像的局部特征。卷积层的计算公式为: 内存,
GeForce840M 显卡,
在 Matlab2016 环境下进行。
经过选择性注意层处理后,CNN 能够更加快速地提 sion and Pattern Recognition, Las Vegas, Jun 27-30, 2016.
archical shape matching[J]. IEEE Transactions on Pattern Transactions on Pattern Analysis and Machine Intelligence,
Analysis and Machine Intelligence, 2007, 29(8): 1408-1421. 2002, 24(3): 420-425.
[15] Szarvas M, Yoshizawa A, Yamamoto M, et al. Pedestrian de- [26] Deubel H, Schneider W X. Saccade target selection and ob-
tection with convolutional neural networks[C]//Proceedings ject recognition: evidence for a common attentional mecha-
of the 2005 Intelligent Vehicles Symposium, Las Vegas, nism[J]. Vision Research, 1996, 36(12): 1827-1837.
Jun 6-8, 2005. Piscataway: IEEE, 2005: 224-229. [27] Johansson R S, Westling G, Bäckström A, et al. Eye- hand
[16] Zhang Liliang, Lin Liang, Liang Xiaodan, et al. Is faster R- coordination in object manipulation[J]. Journal of Neurosci-
CNN doing well for pedestrian detection?[C]//LNCS 9906: ence, 2001, 21(17): 6917-6932.
Proceedings of the 14th European Conference on Computer [28] Chu Miao, Tian Shaohui. An extraction method for digital
Vision, Amsterdam, Oct 11- 14, 2016. Berlin, Heidelberg: camouflage texture based on human visual perception and
Springer, 2016: 443-457. isoperimetric theory[C]//Proceedings of the 2nd International
[17] Cai Zhaowei, Fan Quanfu, Feris R S, et al. A unified multi- Conference on Image, Vision and Computing, Chengdu,
scale deep convolutional neural network for fast object de- Jun 2-4, 2017. Piscataway: IEEE, 2017: 158-162.
tection[C]//LNCS 9908: Proceedings of the 14th European [29] Li Baopu, Yang Can, Zhang Qi, et al. Condensation- based
Conference on Computer Vision, Amsterdam, Oct 11-14, 2016. multi- person detection and tracking with HOG and LBP
Berlin, Heidelberg: Springer, 2016: 354-370. [C]//Proceedings of the 2014 IEEE International Conference
[18] Tian Yonglong, Luo Ping, Wang Xiaogang, et al. Pedestrian on Information and Automation, Hailar, Jul 28-30, 2014. Pis-
detection aided by deep learning semantic tasks[C]//Pro- cataway: IEEE, 2014: 267-272.
ceedings of the 2015 IEEE Conference on Computer Vision [30] INRIA person dataset[DB/OL]. [2017-09-25]. http://pascal.
and Pattern Recognition, Boston, Jun 7-12, 2015. Washing- inrialpes.fr/data/human/.
ton: IEEE Computer Society, 2015: 5079-5087. [31] Daimler. Daimler pedestrian detection benchmark dataset
[19] Hubel D H, Wiesel T N. Receptive fields of single neurones [DB/OL]. [2017- 09- 25]. http://www.gavrila.net/Research/
in the cats striate cortex[J]. Journal of Physiology, 1959, Pedestrian_Detection/Daimler_Pedestrian_Benchmark_D/Daim-
148(3): 574-591. ler_Mono_Ped_Detection_Be/daimler_mono_ped_detection_
[20] Hubel D H, Wiesel T N. Receptive fields of optic nerve fi- be.html.
bres in the spider monkey[J]. Journal of Physiology, 1960, [32] NICTA. Data61 predestrian dataset[DB/OL]. [2017-09-25].
attention for rapid scene analysis[J]. IEEE Transactions on [33] Ikemura S, Fujiyoshi H. Human detection by Haar-like fil-
Pattern Analysis and Machine Intelligence, 1998, 20(11): tering using depth information[C]//Proceedings of the 21st
[22] Treisman A M, Gelade G. A feature integration theory of at- Nov 11-15, 2012. Washington: IEEE Computer Society, 2012:
[23] Koch C, Ullman S. Shifts in selective visual attention: to- [34] Abd-Almageed W, Davis L S. Human detection using itera-
wards the underlying neural circuitry[J]. Human Neurobiol- tive feature selection and logistic principal component anal-
[24] Guo Mingwei, Zhao Yuzhou, Zhang Chenbin, et al. Fast ob- on Robotics and Automation, Pasadena, May 19- 23, 2008.
ject detection based on selective visual attention[J]. Neuro- Piscataway: IEEE, 2008: 1691-1697.
XIE Linjiang was born in 1991. He is an M.S. candidate at Central South University, and the student member of
CCF. His research interests include image recognition and deep learning.
谢林江(1991—),男,湖南衡阳人,中南大学硕士研究生,CCF 学生会员,
主要研究领域为图像识别,深度学习。
JI Guishu was born in 1960. He is an associate professor at Central South University. His research interests include
medical image recognition and computer network.
季桂树(1960—),男,辽宁喀左人,中南大学副教授,主要研究领域为医学图像识别,计算机网络。
PENG Qing was born in 1992. He is an M.S. candidate at Central South University, and the student member of
CCF. His research interests include image recognition and deep learning.
彭清(1992—),男,
湖南张家界人,中南大学硕士研究生,CCF 学生会员,
主要研究领域为图像识别,深度学习。
LUO Entao was born in 1978. He is a Ph.D. candidate at School of Information Science and Engineering, Central
South University, and an associate professor at Hunan University of Science and Engineering. His research inter-
ests include deep learning, big data and cloud computing.
罗恩韬(1978—),男,湖南永州人,中南大学信息科学与工程学院博士研究生,湖南科技学院副教授,主要研究
领域为深度学习,大数据,云计算。
欢迎到各地邮局或编辑部订阅。个人从编辑部直接订阅可享受 8 折优惠!
发行部
(010)89055541
电话: