改进的卷积神经网络在行人检测中的应用谢林江

ISSN 1673-9418 CODEN JKYTA8
E-mail: fcst@vip.163.com
Journal of Frontiers of Computer Science and Technology
http://www.ceaj.org
1673-9418/2018/12(05)-0708-11
Tel: +86-10-89056056
doi: 10.3778/j.issn.1673-9418.1708030
改进的卷积神经网络在行人检测中的应用*
谢林江，季桂树+，彭清，
罗恩韬
中南大学信息科学与工程学院，长沙 410083
Application of Preprocessing Convolutional Neural Network in Pedestrian Detection􀆽
XIE Linjiang, JI Guishu+, PENG Qing, LUO Entao

School of Information Science and Engineering, Central South University, Changsha 410083, China
+ Corresponding author: E-mail: csujgs@sina.com
XIE Linjiang, JI Guishu, PENG Qing, et al. Application of preprocessing convolutional neural network in
pedestrian detection. Journal of Frontiers of Computer Science and Technology, 2018, 12(5)：708-718.
Abstract: In order to solve the problems of large computational complexity, complicated pedestrian feature extrac-
tion and complex background influence, this paper proposes a modified convolutional neural network (CNN) model.
Based on the traditional CNN algorithm, a selective attention layer is added to this model to simulate the selective
attention feature of human􀆳s eyes, which is able to filter the complex background and highlight the characteristics of
pedestrians. LBP (local binary pattern) texture processing and gradient processing are used to train the selective
attention layer, and the optimal model is obtained by comparing the training results. Experiments are conducted on
INRIA, NICTA and Daimler pedestrian datasets respectively. The results show that the accuracy of the proposed
model in the pedestrian detection is better than that of the traditional CNN, HOG + SVM, Haar + SVM and PCA +
SVM, and the accuracy of the INRIA, NICTA and Daimler pedestrian datasets is 96.14%, 96.64% and 99.78%
respectively.
Key words: pedestrian detection; deep learning; convolutional neural network; selective attention
摘要：针对当前行人检测方法计算量大，行人特征提取复杂，检测结果易受复杂背景影响等问题，提出一种
改进的卷积神经网络（convolutional neural network，CNN）模型。该模型在传统 CNN 基础上加入选择性注意
层，模拟人眼的选择性注意功能，过滤复杂背景，突出行人特征。分别采用 LBP（local binary pattern）纹理处理
* The National Natural Science Foundation of China under Grant Nos. 61632009, 61472451, 61402161 (国家自然科学基金).
Received 2017-08, Accepted 2017-10.
CNKI 网络出版: 2017-10-18, http://kns.cnki.net/kcms/detail/11.5602.TP.20171018.1039.002.html
谢林江等：改进的卷积神经网络在行人检测中的应用 709
和梯度处理对选择性注意层进行训练，对比训练结果得到最优模型。分别在 INRIA、NICTA 和 Daimler 行人数

据集上进行实验，结果表明，该模型在行人检测中准确率明显优于传统 CNN、HOG+SVM、Haar+SVM、PCA+
SVM，在 INRIA、NICTA 和 Daimler 行人数据集上的准确率分别达到了 96.14%、96.64%和 99.78%。
关键词：行人检测；深度学习；卷积神经网络；选择性注意
文献标志码：A 中图分类号：TP391.41
1 引言 proposal network，PRN）和级联分类器相结合，运用到
行人检测指的是判断待处理图像或者视频帧中行人检测中，提高了检测的准确率。文献[17]提出了
是否含有行人，如果有行人，给出标注。它是机动车多尺度 CNN 模型（multi-scale CNN，MS-CNN），在不
辅助驾驶、智能视频监控、智能机器人以及人体
[1-3] [4]
同层生成一个目标检测子网，提高了 CNN 对小物体
行为分析 [5-6] 等应用中的关键技术，近些年来成功地的检测能力。文献[18]通过对行人属性分析和语义
应用于直升机等飞行器拍摄的图片中 [7] 以及在地质任务来优化行人检测，降低了误检率。
灾害中的受困人员搜寻与营救 [8-9]
等新兴领域。但在本文结合了复杂的行人姿态、背景属性以及人
实际应用中行人图像容易受到光照、穿着、姿态、遮眼视觉行为的分析，在网络的卷积层前加入选择性
挡以及拍摄角度的多样性等影响，使得行人检测成注意层，以减少复杂背景的干扰，同时突出了行人特
为计算机视觉领域的研究难点与热点。目前，行人征，以达到更高的检测结果。为了验证本文方法的
检测的方法主要有传统的检测方法和基于神经网络优越性，分别在 INRIA、NICTA 和 Daimler 行人数据
的检测方法。集上进行实验，
与传统的CNN模型检测效果进行对比，
传统的检测方法主要是通过图像相邻像素之间实验结果表明，改进的 CNN 模型具有更高的准确率。
的关系来得到其特征表达。文献[10]提出的梯度方本文主要贡献有：
（1）提出一种改进的 CNN 模
向直方图（histogram of oriented gradient，HOG）通过型，即在传统 CNN 的基础上增加了一个选择性注意
计算像素梯度方向直方图来构成特征。但是 HOG 特层，用来模拟人眼的选择性注意功能；
（2）在选择性
征的维度高，计算量大，难以满足实时性的要求。文注意层，分析了两种选择性处理方法，并与传统 CNN
献[11]利用积分图技术来提高 HOG 特征的计算速模型进行实验对比，分析不同处理对检测结果的影
度，但还是未能解决特征维度高的缺点。文献[12]提响，找到最佳的处理方式；
（3）将改进的 CNN 模型在
出了局部二值模式（local binary pattern，LBP）算子， INRIA、NICTA 和 Daimler 行人数据集上进行实验，取
其根据每个像素点与周围像素值大小比较进行编得了比传统模型更好的效果。
码，得到 LBP 特征图谱，具有旋转不变性和灰度不变
性等显著优点。文献[13]将 LBP 特征作为行人的特 2 相关理论
征描述子，同样取得了较好的检测效果。文献[14]提 2.1 选择性注意原理
出了模板匹配的方法，该方法虽然在检测速度和检为了对目标的存在性做出判断，传统 CNN 在卷
测率上有所提高，但其需要人工标注模板且存在泛积过程中会对整幅图片进行无差别特征提取，但实
化能力不强的缺点。际上人们所关注的内容通常仅仅是图像中很少的一
为了克服传统方法中需要人工标注模板以及特部分。这种特征提取方式不仅加重了分析难度，又
征维度高的缺点，文献[15]将卷积神经网络（convolu- 造成了计算的浪费。文献[19-20]在对猫和猴的视觉
tional neural network，CNN）应用到行人检测中，利用皮层研究时，发现了一些对外界某种具有一定方向
CNN 具有从原始像素中学习辨别特征的能力，显著或朝向的刺激有强烈反应的视神经细胞，被称为方
减少了计算量。文献 [16] 把区域提案网络（region 向选择性细胞。文献[21]研究发现人眼在面对复杂
710 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2018, 12(5)
场景时能够迅速地将注意力集中并优先处理一些显力。LBP 纹理特征具有旋转不变性和灰度不变性且

著的目标上，这里存在一个视觉选择性注意机制，这对光照变化不敏感。文献[29]将 LBP 纹理特征作为
种机制使得视觉皮层在有限的神经元下很好地处理行人特征的描述子，在实际应用中取得了较好的效
视觉信息。果。LBP 的基本思想是：以窗口中心点 (x,y) 的灰度
文献[22]通过对视觉注意研究，提出了一个称为值为阈值，用相邻的 8 个灰度值与其进行比较，若相
特征整合理论的视觉注意假设，把注意力选择分为邻像素的灰度值大于中心点的值，则该像素标记为
并行特征提取和串行特征融合两个阶段。文献[23] 1，否则标记为 0，从像素点 (x - 1,y + 1) 逆时针排列得
提出了一个视觉选择性注意模型，将选择性注意应到二进制编码，最后转换为十进制数即为像素点 (x,y)
用到目标检测上，在计算结构上模拟人脑的视觉选的特征值。本文采用的窗口大小为 3 × 3 ，则 LBP 特
择性神经机制，最终计算得到应用场景的视觉显著征的计算公式为：
图。文献[24-25]通过对原图像提取候选检测区域来
LBP(x c ,y c) =∑2 s(i p - i c)
P-1
p
（1）
模拟人眼的选择性注意功能，加快了检测速度。 p=0
以上方法都是采取候选框策略来模拟选择性注其中，(x c ,y c) 为 3 × 3 邻域的中心元素，它的像素值为

意功能，更小的候选框意味着更快的计算速度。然 i c ；i p 代表邻域内其他点的像素值；s(x) 为符号函数，
而在实验中发现，当目标在原图像中占比过大或者定义如下：
很小时，候选框可能未能完全覆盖目标或者还有很
ì1, x ≥ 0
s(x) = í （2）
î0, x < 0
大一部分背景区域，这样就会给检测任务带来困
难。并且人眼在观察物体的时候并不是简单地框出其 LBP 特征生成图如图 1 所示。
一个候选区，还会感知整个区域的结构或边缘信息，
之后再进行细节上的处理[26-27]。
在行人检测中，行人背景变化多样，姿态也存在
一定变化，但是行人的整体结构却相对固定。因此
本文尝试在整个区域应用选择性注意原理，对输入
图像进行纹理或者梯度操作，突出行人结构。实验
Fig.1 Schematic diagram of calculation
证明，在行人检测中，与不进行预处理相比，改进的
of 3 × 3 LBP operator
CNN 模型能有效提高行人识别率。
图1 3 × 3 LBP 算子计算示意图
2.2 图像预处理
对图像每个像素依次进行 LBP 特征计算，可得
在行人图像中，通常存在着光照强度变化、视角
到该图像的 LBP 纹理特征图。
变化、行人姿态变化以及行人背景多样性等干扰。
为了减少这些干扰对 CNN 的影响，对行人图像进行 2.2.2 梯度预处理
选择性处理，突出行人结构特征，是一种可行的方图像在计算机中以数字图像的形式存储，即图
式。根据方向选择性细胞对图像的纹理与边缘表现像是离散的数字信号，因此可以把图像看成一个二
出较强的选择性，本文将分析在选择性注意层分别维离散函数，函数的求导即为图像梯度。
采用纹理预处理和梯度预处理对实验结果的影响。定义 1（梯度图像）设 f (x,y) 表示一幅图像，F y
2.2.1 纹理特征预处理为图像水平方向的梯度，F x 为图像垂直方向的梯度，

图像纹理特征描述了图像或者图像区域所对应则有：
ì f (i + 1, j) - f (i - 1, j)
ïïF x (x,y) =
的物体的表面性质，其本质是研究图像相邻像素点
2 （3）
灰度的空间分布情况。LBP 纹理特征是一种局部纹 í
ïïF (x,y) = f (i, j + 1) - f (i, j - 1)
理描述算子，其在图像纹理上具有较好的表达能 2
[28]
î y
其中，f (i, j) 为图像 (i, j) 点的像素值。然后计算梯度

图像 Grad(x,y) ：
Grad(x,y) = F x*F x + F y *F y （4）
梯度图像能够更好地适应图像的变化趋势，通
过计算梯度，可以去除图像上的局部极小值和噪声，
而且可以去掉与边界无关的信息，
突出行人边缘轮廓。
3 本文 CNN 模型
卷积神经网络作为一种前馈神经网络，是近年
发展起来，并引起学者广泛重视的一种高效识别方
法。其通过局域感受野、权值共享和池化实现识别
位移、缩放和扭曲不变性。局域感受野指的是网络
层的神经元与前一层的某个区域内的神经单元连
接，通过局域感受野，每个神经元可以提取初级的视
觉特征；权值共享使得卷积神经网络只需要较少的
参数就能完成对数据的训练；池化通过降低特征的
分辨率减少计算量，防止过拟合。在行人检测中，为
了减少复杂背景对检测效果的干扰，本文提出一种
改进的 CNN 模型，即在第一个卷积层前加入一个选
择性注意层。模型结构如图 2 所示。
Fig.3 Effect contrast on different pretreatments

of some samples
图3 部分样本不同预处理效果对比
Fig.2 Preprocessing CNN model
理效果对比。从图 3（a）与图 3（b）的对比可以得出，
图2 预处理 CNN 模型
图 3（b）把图 3（a）的行人的背景差异全部转为纹理的
3.1 选择性注意层差异，并突出了行人轮廓。再对比图 3（c），梯度图像
传统 CNN 在卷积过程中直接对原图像进行特征过滤掉了绝大部分噪声，仅仅保留了图像的边界信
抽取。通过研究发现，在行人检测中，行人图像通常息。实验表明，当把 LBP 纹理预处理作为该层运算
以房屋、道路、车辆为背景，且行人的非刚性特点，致操作时，比传统 CNN 具有更高的识别率。
使 CNN 在特征提取过程中时常会学习到其他错误的 3.2 卷积层
特征，干扰最终检测效果。卷积是卷积神经网络的特征提取操作，其过程
在传统 CNN 的输入层后加入选择性注意层，模如图 4 所示。
拟人眼的选择性注意功能。选取 LBP 纹理预处理和在卷积层，特征图的每一个神经元与前一层的
梯度预处理为该层运算。图 3 是部分样本不同预处局部感受野相连接，与一个卷积核进行卷积，经过卷
4 实验与分析
为了验证本文算法的性能，
在 INRIA[30]、
NICTA[31]
和 Daimler[32] 3 个公开的行人数据集上进行测试。对
于每个数据集，先将两个数据集中的所有图像大小
缩放为 128 × 64 像素，然后在相同条件下重复 10 次
实验，每次实验迭代（epoch）200 次，每次批序列
（batch size）大小为 32 张图像，取 10 次结果的平均值
Fig.4 Convolution operation diagram
为实验的最终结果。采用均方误差和正确率对模型
图4 卷积操作示意图
进行评价。实验使用英特尔 i7-4510U 处理器，8 GB
积操作提取图像的局部特征。卷积层的计算公式为：内存，
GeForce840M 显卡，
在 Matlab2016 环境下进行。
X jl = f çç∑X il - 1∗K ijl + b lj ÷÷

æ ö 4.1 INRIA 数据集测试结果
（5）
èi∈M j ø INRIA 行人数据集是当前使用最广泛的静态行
其中，X 表示第 l 层的第 j 个特征图；K ijl 为网络权重
j
l
人检测数据库，拍摄条件多样化，背景复杂，存在人
（卷积核）；f (x) 为激活函数；b 为偏置；X l
j i
l-1
为网络体遮挡、光线强度变化等情形，检测难度较大。该库
的输入。CNN 的输入为初始图像或者卷积层和下采分为训练集和测试集，训练集中有 2 416 张正样本和
样层生成的特征图。卷积核内部的参数和偏置通过 912 张不含行人的负样本，测试集中有 1 126 张正样
反向传播算法进行训练，卷积核的初始值为随机生本和 300 张负样本。
成，偏置 b 的初始值为 0。卷积核的大小确定了运算在 INRIA 数据集上，对本文 CNN 模型采用 LBP
区域的大小，卷积核中权值的大小对应了其节点的纹理和梯度两种不同预处理方式进行对比实验。图
贡献能力，权值越大贡献越大，反之越小。 5 是两种不同处理方式的均方误差及正确率随迭代
3.3 下采样层次数变化曲线图。
在下采样层中，为了减少网络参数，并提高对图从图 5（a）可以看出，梯度预处理的均方误差曲
像平移、伸缩不变性，在计算图像局部特征时，需要线在训练初期波动较大，继续增加训练次数，二者都
对图像局部进行统计和分析，得到该局部的特征表得到了收敛，但 LBP 纹理预处理方式比梯度预处理
达，这个统计和分析过程在 CNN 中被称作为池化。方式收敛得更快更好。从图 5（b）可以看出，LBP 纹
池化的基本原理是根据图像相对不变性的属性，
对图理处理方式的正确率始终高于梯度预处理方式的正
像相邻区域的特征信息进行聚合统计。具体操作为：确率。由上可知，采用 LBP 纹理预处理方式优于梯
X = f ( β down(X ) + b )
j
l
j
l
j
l-1 l
j （6）度预处理方式。结合图 3 可以发现，采用梯度处理后
其中，down(x) 为池化函数；β 表示第 l 层第 j 个特征 j
l
的图像仅仅留下图中行人及其他背景物体的轮廓，
图对应的权重系数；b 为偏置。对于一幅图像 I ，尺其他大部分都是黑色，致使 CNN 无法学习更加详尽
寸为 M × N ，采样窗口为 s × s ，则得到特征图的大小的特征，最终使得检测率不高。因此本文将采用 LBP
为 (M/s) ×(N/s) ，本文 CNN 的采样窗口为 2 × 2 。最常纹理预处理作为选择性注意层运算方式。
见的两种池化方法为平均值池化和最大值池化。平然后继续分析本文改进的 CNN 模型和传统
均值池化是对池化域内所有值求和并取其平均值作 CNN 模型实验效果的对比，如图 6 所示。
为下采样特征图的特征值；最大值池化则是取池化由图 6（a）可知，两种模型的均方误差曲线收敛
域中的最大值作为下采样特征图的特征值。本文采都比较快，而从图 6（b）中可以发现，在训练初期，传
用的是平均池化，将池化的结果加上偏置 b 进行计统 CNN 模型与本文 CNN 模型的正确率曲线波动都
算，遍历原特征图的池化域后，得到下采样特征图。比较大且二者的差别不大，但随着迭代次数的增加，
Fig.5 Result comparison of different pretreatments

图 5 不同预处理结果对比
Fig.6 Result comparison of different CNN models

图 6 不同 CNN 模型结果对比
二者的正确率曲线逐渐稳定，且本文 CNN 模型的正类，却把形状轮廓与行人相似的负样本误认为是行

确率曲线在传统 CNN 模型之上。再结合表 1 可以看人，而图 7（b）中的行人衣着与背景十分相似，对于某
出，相对于传统 CNN 模型而言，本文 CNN 模型的正些图片，即使是人眼也可能误判。
确率提高了 3.33%，达到了 96.14%。由此可以说明，传统 CNN 模型在行人检测中更
Table 1 Correct rate comparison of different pretreatments 加容易被复杂背景影响，本文改进的 CNN 模型在选
表1 不同预处理正确率对比择性注意层采用 LBP 纹理预处理能够有效地去除图
特征提取方式正确率/% 网络层数像复杂背景对 CNN 网络的影响，突出行人特征，提高
传统 CNN 模型 92.71 9 行人检测率。
本文 CNN 模型 96.14 8
为了验证本文 CNN 模型的鲁棒性和泛化能力，
图 7 是不同 CNN 模型部分错误分类样本。从图本文用 NICTA 和 Daimler 行人数据库对改进的 CNN
7（a）中可以看出，即使是很明显的行人也不能正确分模型进行了实验。
Fig.7 Partial misclassification samples of

different CNN models
图 7 不同 CNN 模型部分错误分类样本
4.2 NICTA 数据集测试结果

NICTA 是一个规模较大的静态行人数据库，包
含 25 551 张行人图像和 5 207 张非行人图像，并且对
Fig.8 Result comparison of different CNN models
部分样本进行了平移、旋转、缩放等变换，增加了检
on NICTA data set
测难度。本文从以上样本集中随机选取了一部分作
图8 NICTA 数据集不同 CNN 模型测试结果对比
为实验样本集，样本集组成如表 2 所示。
4.3 Daimler 数据集测试结果
Table 2 NICTA integrated sample composition Daimler 行人数据集是采用车载摄像机获取的，
表 2 NICTA 样本集成分组成它分为检测和分类两个数据集，每个数据集包含训
样本集正样本负样本总计练和测试两部分，而每个训练和测试又分为正样本
训练集 3 000 3 000 6 000
和负样本。检测数据集的训练样本集有正样本
测试集 2 000 2 000 4 000
15 560 张，负样本 6 744 张。该训练集是车载视角拍
将学习效率（alpha）设为 1，批训练样本数量摄，相比于前两个数据集而言，
更加贴近真实情况。
（batchsize）设为 50，实验中对网络模型训练 200 次，本文从以上样本集中随机选取了 9 400 张图片
得到其均方误差及正确率变化曲线，如图 8 所示。从（4 700 个正样本和 4 700 个负样本）作为训练集和
图中可以看出，传统 CNN 模型的检测效果低于本文 4 000 张图片（2 000 个正样本和 2 000 个负样本）作为
改进的 CNN 模型。NICTA 样本集中存在着平移、旋测试集。样本集组成如表 3 所示。
转、缩放等变换，而 CNN 中的卷积操作能很好地适应同样将学习效率（alpha）设为 1，批训练样本数量
这种变换。（batchsize）设为 50，实验中对网络模型训练 200 次，
Table 3 Daimler Integrated sample composition 之后根据前面的实验结果，在 INRIA 和 Daimler

表 3 Daimler 样本集成分组成两个数据集进行交叉验证。具体步骤如下：首先采
样本集正样本负样本总计用 INRIA 数据集训练本文 CNN 模型，再用 Daimler 数
训练集 4 700 4 700 9 400 据集进行测试，然后再把训练集和测试集相互对调
测试集 2 000 2 000 4 000
进行实验，结果如表 4 所示。从表 4 中可以看出，在
得到其均方误差及正确率变化曲线，如图 9 所示。不同的数据集进行交叉验证的实验中，本文 CNN 模
从图 9 中同样可以看出，本文 CNN 模型的正确型的正确率都优于传统 CNN 模型，本文 CNN 模型具
率高于传统 CNN 模型的正确率。通过在 Daimler 数有更好的泛化能力。
据集上的对比再一次说明了本文 CNN 模型要优于 Table 4 Comparison of cross test results for
传统 CNN 模型。但对比前两个数据集的表现，这种 different CNN models
优势不太明显，可能是因为车载视角拍摄的图像背表4 不同 CNN 模型的交叉测试结果对比
景复杂度较低，使得两种 CNN 模型差别并不是十分方法训练数据集测试数据集正确率/%
明显。 INRIA Daimler 87.98
本文 CNN 模型
Daimler INRIA 87.38
INRIA Daimler 71.12
传统 CNN 模型
Daimler INRIA 86.89
为了进一步验证本文 CNN 模型行人图像检测的

有效性，在 Daimler 数据集下比较了文献[10]的 HOG
特征、文献[33]的 Haar 特征、文献[34]的 PCA 特征以
及本文算法的识别率，实验结果如表 5 所示。
Table 5 Comparison of recognition rate for different

characteristics on Daimler data set
表5 不同算法在 Daimler 数据集的识别率对比
方法正确率/% 耗时/ms
HOG+SVM [10]
92.40 2 207
Harr+SVM[33] 91.32 3 964
PCA+SVM [34]
86.85 7 326
传统 CNN 模型 99.51 574
本文 CNN 模型 99.78 496
从正确率来看，传统 CNN 模型高于其他检测方

法，而本文改进的 CNN 模型比传统 CNN 模型的正确
率更高，达到了 99.78%；从耗时来看，本文 CNN 模型
的检测速度明显优于其他算法。结合表 1 可以发现，
不管是从正确率还是从耗时来考虑，本文 CNN 模型
都具有很大优势。经过不断调节网络参数最终发现
Fig.9 Result comparison of different CNN models 传统 CNN 模型在网络层数为 9 时达到了最高准确
on Daimler data set 率，而本文改进的 CNN 模型在网络层数为 8 时准确
图 9 Daimler 数据集不同 CNN 模型测试结果对比率已经高于传统 CNN 模型。由此可以得出，图像在
经过选择性注意层处理后，CNN 能够更加快速地提 sion and Pattern Recognition, Las Vegas, Jun 27-30, 2016.
取到行人特征。 Washington: IEEE Computer Society, 2016: 3025-3033.

[5] Bera A, Kim S, Manocha D. Realtime anomaly detection using
trajectory- level crowd behavior learning[C]//Proceedings of
5 结束语
the 2016 IEEE Conference on Computer Vision and Pattern
本文针对现有的行人检测方法难以处理背景复
Recognition Workshops, Las Vegas, Jun 26-Jul 1, 2016. Wash-
杂的行人样本的问题，提出根据人眼的选择性注意 ington: IEEE Computer Society, 2016: 1289-1296.
功能，对传统 CNN 进行改进，加入选择性注意层，对 [6] Pan Lei. Real-time detection method of abnormal event in
复杂的行人图像进行预处理。在 3 个公开的行人数 crowds based on image entropy[J]. Journal of Frontiers of
据集上，对本文 CNN 模型进行交叉验证以及与传统 Computer Science and Technology, 2016, 10(7): 1044-1050.
方法进行对比，实验表明，本文 CNN 模型能更好地提 [7] Smedt F D, Hulens D, Goedeme T. On-board real-time tracking
取行人特征，其在 Daimler 数据集上的识别准确率达 of pedestrians on a UAV[C]//Proceedings of the 2015 IEEE

Conference on Computer Vision and Pattern Recognition
到了 99.78%。结果显示本文 CNN 模型优于传统的
Workshops, Boston, Jun 7-12, 2015. Washington: IEEE Com-
行人检测方法，具有一定的可行性和使用价值。
puter Society, 2015: 1-8.
本文分析了不同预处理方式对检测效果的影
[8] Minaeian S, Liu Jian, Son Y J. Vision-based target detection
响，发现选用预处理的方式要适当，过度的预处理会
and localization via a team of cooperative UAV and UGVs
使得图像留下的特征太少，致使 CNN 无法学习到足 [J]. IEEE Transactions on Systems Man and Cybernetics
够多的特征，影响检测率。并且研究发现，LBP 纹理 Systems, 2016, 46(7): 1005-1016.
预处理方式能够有效地过滤图像背景噪声，突出行 [9] Bertuccelli L F, Cummings M L. Operator choice modeling
人特征，
最终提高 CNN 的检测率。 for collaborative UAV visual search tasks[J]. IEEE Transac-
同时，在深度学习中，利用合理的先验知识对数 tions on Systems Man and Cybernetics: Part A Systems and
据进行适当的预处理，能够去除一定的噪声，突出数 Humans, 2012, 42(5): 1088-1099.

[10] Dalal N, Triggs B. Histograms of oriented gradients for hu-
据特征，使其在解决实际问题时更加有效，为今后的
man detection[C]//Proceedings of the 2005 IEEE Computer
研究指明了方向。
Society Conference on Computer Vision and Pattern Recog-
nition, San Diego, Jun 20-26, 2005. Washington: IEEE Com-
References: puter Society, 2005: 886-893.
[1] Liu Xiao, Tao Dacheng, Song Mingli, et al. Learning to track [11] Kim S, Cho K. Trade- off between accuracy and speed for
multiple targets[J]. IEEE Transactions on Neural Networks pedestrian detection using HOG feature[C]//Proceedings of
& Learning Systems, 2015, 26(5): 1060-1073. the IEEE 3rd International Conference on Consumer Elec-
[2] Li Xiaofei, Li Lingxi, Flohr F, et al. A unified framework tronics, Berlin, Sep 9-11, 2013. Piscataway, IEEE, 2014: 207-
for concurrent pedestrian and cyclist detection[J]. IEEE 209.
Transactions on Intelligent Transportation Systems, 2017, [12] Ojala T, Harwood I. A comparative study of texture mea-
18(2): 269-281. sures with classification based on feature distributions[J].
[3] Biswas S K, Milanfar P. Linear support tensor machine with Pattern Recognition, 1996, 29(1): 51-59.
LSK channels: pedestrian detection in thermal infrared im- [13] Mu Yadong, Yan Shuicheng, Liu Yi, et al. Discriminative local
ages[J]. IEEE Transactions on Image Processing, 2017, 26 binary patterns for human detection in personal album[C]//
(9): 4229-4242. Proceedings of the 2008 IEEE Conference on Computer
[4] Huang Shiyao, Ying Xianghua, Rong Jiangpeng, et al. Cam- Vision and Pattern Recognition, Anchorage, Jun 23-28, 2008.
era calibration from periodic motion of a pedestrian[C]// Washington: IEEE Computer Society, 2008: 1-8.
Proceedings of the 2016 IEEE Conference on Computer Vi- [14] Gavrila D M. A Bayesian, exemplar-based approach to hier-
archical shape matching[J]. IEEE Transactions on Pattern Transactions on Pattern Analysis and Machine Intelligence,
Analysis and Machine Intelligence, 2007, 29(8): 1408-1421. 2002, 24(3): 420-425.
[15] Szarvas M, Yoshizawa A, Yamamoto M, et al. Pedestrian de- [26] Deubel H, Schneider W X. Saccade target selection and ob-
tection with convolutional neural networks[C]//Proceedings ject recognition: evidence for a common attentional mecha-
of the 2005 Intelligent Vehicles Symposium, Las Vegas, nism[J]. Vision Research, 1996, 36(12): 1827-1837.
Jun 6-8, 2005. Piscataway: IEEE, 2005: 224-229. [27] Johansson R S, Westling G, Bäckström A, et al. Eye- hand
[16] Zhang Liliang, Lin Liang, Liang Xiaodan, et al. Is faster R- coordination in object manipulation[J]. Journal of Neurosci-
CNN doing well for pedestrian detection?[C]//LNCS 9906: ence, 2001, 21(17): 6917-6932.
Proceedings of the 14th European Conference on Computer [28] Chu Miao, Tian Shaohui. An extraction method for digital
Vision, Amsterdam, Oct 11- 14, 2016. Berlin, Heidelberg: camouflage texture based on human visual perception and
Springer, 2016: 443-457. isoperimetric theory[C]//Proceedings of the 2nd International
[17] Cai Zhaowei, Fan Quanfu, Feris R S, et al. A unified multi- Conference on Image, Vision and Computing, Chengdu,
scale deep convolutional neural network for fast object de- Jun 2-4, 2017. Piscataway: IEEE, 2017: 158-162.
tection[C]//LNCS 9908: Proceedings of the 14th European [29] Li Baopu, Yang Can, Zhang Qi, et al. Condensation- based
Conference on Computer Vision, Amsterdam, Oct 11-14, 2016. multi- person detection and tracking with HOG and LBP
Berlin, Heidelberg: Springer, 2016: 354-370. [C]//Proceedings of the 2014 IEEE International Conference
[18] Tian Yonglong, Luo Ping, Wang Xiaogang, et al. Pedestrian on Information and Automation, Hailar, Jul 28-30, 2014. Pis-
detection aided by deep learning semantic tasks[C]//Pro- cataway: IEEE, 2014: 267-272.
ceedings of the 2015 IEEE Conference on Computer Vision [30] INRIA person dataset[DB/OL]. [2017-09-25]. http://pascal.
and Pattern Recognition, Boston, Jun 7-12, 2015. Washing- inrialpes.fr/data/human/.
ton: IEEE Computer Society, 2015: 5079-5087. [31] Daimler. Daimler pedestrian detection benchmark dataset
[19] Hubel D H, Wiesel T N. Receptive fields of single neurones [DB/OL]. [2017- 09- 25]. http://www.gavrila.net/Research/
in the cat􀆳s striate cortex[J]. Journal of Physiology, 1959, Pedestrian_Detection/Daimler_Pedestrian_Benchmark_D/Daim-
148(3): 574-591. ler_Mono_Ped_Detection_Be/daimler_mono_ped_detection_
[20] Hubel D H, Wiesel T N. Receptive fields of optic nerve fi- be.html.
bres in the spider monkey[J]. Journal of Physiology, 1960, [32] NICTA. Data61 predestrian dataset[DB/OL]. [2017-09-25].
154(3): 572-580. https://data.csiro.au/dap/landingpage?pid=csiro:23454&v=1&
[21] Itti L, Koch C, Niebur E. A model of saliency-based visual d=true.
attention for rapid scene analysis[J]. IEEE Transactions on [33] Ikemura S, Fujiyoshi H. Human detection by Haar-like fil-
Pattern Analysis and Machine Intelligence, 1998, 20(11): tering using depth information[C]//Proceedings of the 21st
1254-1259. International Conference on Pattern Recognition, Tsukuba,
[22] Treisman A M, Gelade G. A feature integration theory of at- Nov 11-15, 2012. Washington: IEEE Computer Society, 2012:
tention[J]. Cognitive Psychology, 1980, 12(1): 97-136. 813-816.
[23] Koch C, Ullman S. Shifts in selective visual attention: to- [34] Abd-Almageed W, Davis L S. Human detection using itera-
wards the underlying neural circuitry[J]. Human Neurobiol- tive feature selection and logistic principal component anal-
ogy, 1985, 4(4): 219-227. ysis[C]//Proceedings of the IEEE International Conference
[24] Guo Mingwei, Zhao Yuzhou, Zhang Chenbin, et al. Fast ob- on Robotics and Automation, Pasadena, May 19- 23, 2008.
ject detection based on selective visual attention[J]. Neuro- Piscataway: IEEE, 2008: 1691-1697.
computing, 2014, 144(20): 184-197.

[25] Salah A A, Alpaydin E, Akarun L. A selective attention-based 附中文参考文献：
method for visual pattern recognition with application to [6] 潘磊. 基于图像熵的密集人群异常事件实时检测方法[J].
handwritten digit recognition and face recognition[J]. IEEE 计算机科学与探索, 2016, 10(7): 1044-1050.
XIE Linjiang was born in 1991. He is an M.S. candidate at Central South University, and the student member of
CCF. His research interests include image recognition and deep learning.
谢林江（1991—），男，湖南衡阳人，中南大学硕士研究生，CCF 学生会员，
主要研究领域为图像识别，深度学习。
JI Guishu was born in 1960. He is an associate professor at Central South University. His research interests include
medical image recognition and computer network.
季桂树（1960—），男，辽宁喀左人，中南大学副教授，主要研究领域为医学图像识别，计算机网络。
PENG Qing was born in 1992. He is an M.S. candidate at Central South University, and the student member of
CCF. His research interests include image recognition and deep learning.
彭清（1992—），男，
湖南张家界人，中南大学硕士研究生，CCF 学生会员，
主要研究领域为图像识别，深度学习。
LUO Entao was born in 1978. He is a Ph.D. candidate at School of Information Science and Engineering, Central
South University, and an associate professor at Hunan University of Science and Engineering. His research inter-
ests include deep learning, big data and cloud computing.
罗恩韬（1978—），男，湖南永州人，中南大学信息科学与工程学院博士研究生，湖南科技学院副教授，主要研究
领域为深度学习，大数据，云计算。
􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕􀤕
欢迎订阅 2018 年《计算机科学与探索》、

《计算机工程与应用》
《计算机科学与探索》为月刊, 大 16 开, 单价 48 元, 全年 12 期总订价 576 元, 邮发代号：

82-560。
邮局汇款地址：
北京 619 信箱 26 分箱《计算机科学与探索》编辑部(收) 邮编：100083
《计算机工程与应用》为半月刊, 大 16 开, 每月 1 日、15 日出版, 单价 45 元, 全年 24 期总订价 1080 元, 邮发代号：82-605。

邮局汇款地址：
北京 619 信箱 26 分箱《计算机工程与应用》编辑部(收) 邮编：100083
欢迎到各地邮局或编辑部订阅。个人从编辑部直接订阅可享受 8 折优惠！
发行部
(010)89055541
电话：

改进的卷积神经网络在行人检测中的应用 谢林江

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

改进的卷积神经网络在行人检测中的应用 谢林江

Uploaded by

Copyright:

Available Formats

ISSN 1673-9418 CODEN JKYTA8

Application of Preprocessing Convolutional Neural Network in Pedestrian Detection􀆽

XIE Linjiang, JI Guishu+, PENG Qing, LUO Entao

和梯度处理对选择性注意层进行训练，对比训练结果得到最优模型。分别在 INRIA、NICTA 和 Daimler 行人数

场景时能够迅速地将注意力集中并优先处理一些显 力。LBP 纹理特征具有旋转不变性和灰度不变性且

以上方法都是采取候选框策略来模拟选择性注 其中，(x c ,y c) 为 3 × 3 邻域的中心元素，它的像素值为

2.2.1 纹理特征预处理 为图像水平方向的梯度，F x 为图像垂直方向的梯度，

其中，f (i, j) 为图像 (i, j) 点的像素值。然后计算梯度

Fig.3 Effect contrast on different pretreatments

X jl = f çç∑X il - 1∗K ijl + b lj ÷÷

Fig.5 Result comparison of different pretreatments

Fig.6 Result comparison of different CNN models

二者的正确率曲线逐渐稳定，且本文 CNN 模型的正 类，却把形状轮廓与行人相似的负样本误认为是行

Fig.7 Partial misclassification samples of

4.2 NICTA 数据集测试结果

Table 3 Daimler Integrated sample composition 之后根据前面的实验结果，在 INRIA 和 Daimler

为了进一步验证本文 CNN 模型行人图像检测的

Table 5 Comparison of recognition rate for different

从正确率来看，传统 CNN 模型高于其他检测方

取到行人特征。 Washington: IEEE Computer Society, 2016: 3025-3033.

取行人特征，其在 Daimler 数据集上的识别准确率达 of pedestrians on a UAV[C]//Proceedings of the 2015 IEEE

据进行适当的预处理，能够去除一定的噪声，突出数 Humans, 2012, 42(5): 1088-1099.

154(3): 572-580. https://data.csiro.au/dap/landingpage?pid=csiro:23454&v=1&

[21] Itti L, Koch C, Niebur E. A model of saliency-based visual d=true.

1254-1259. International Conference on Pattern Recognition, Tsukuba,

tention[J]. Cognitive Psychology, 1980, 12(1): 97-136. 813-816.

ogy, 1985, 4(4): 219-227. ysis[C]//Proceedings of the IEEE International Conference

computing, 2014, 144(20): 184-197.

欢迎订阅 2018 年《计算机科学与探索》、

《计算机科学与探索》为月刊, 大 16 开, 单价 48 元, 全年 12 期总订价 576 元, 邮发代号：

《计算机工程与应用》为半月刊, 大 16 开, 每月 1 日、15 日出版, 单价 45 元, 全年 24 期总订价 1080 元, 邮发代号：82-605。

You might also like

改进的卷积神经网络在行人检测中的应用谢林江

改进的卷积神经网络在行人检测中的应用谢林江

场景时能够迅速地将注意力集中并优先处理一些显力。LBP 纹理特征具有旋转不变性和灰度不变性且

以上方法都是采取候选框策略来模拟选择性注其中，(x c ,y c) 为 3 × 3 邻域的中心元素，它的像素值为

2.2.1 纹理特征预处理为图像水平方向的梯度，F x 为图像垂直方向的梯度，

二者的正确率曲线逐渐稳定，且本文 CNN 模型的正类，却把形状轮廓与行人相似的负样本误认为是行