用于车辆识别的深度学习模型的优化 PDF

You might also like

You are on page 1of 5

第 39卷 第 1 期 天 津 师 范 大 学 学 报 (自 然 科 学 版 ) Vol. 39 No.

2019年 1 月 Journal of Tianjin Normal University (Natural Science Edition) Jan. 2 0 1 9

doi :10.19638/j.issn1671-1114.20190113

用于车辆识别的深度学习模型的优化

刘泽康,孙 华 志 ,姜 丽 芬 ,马春梅
( 天 津 师 范 大 学 计 算 机 与 信 息 工 程 学 院 ,天 津 3 0 0 3 8 7 )

摘 要 :在 车 辆 识 别 模 型 中 ,为 减 小 深 层 卷 积 神 经 网 络 的 计 算 开 销 ,对 网 络 模 型 参 数 进 行 优 化 ,基 于 实 验 确 定 了 模 型
最 优 参 数 ,从 而 以 较 少 的 网 络 层 数 获 得 较 高 的 车 辆 识 别 精 度 . 针 对 真 实 拍 摄 场 景 车 辆 图 像 尺 寸 较 小 的 问 题 ,使 用 复 制
边 界 的 方 法 减 小 卷 积 过 程 中 的 像 素 损 失 ,以 提 高 识 别 精 度 . 基 于 车 辆 公 开 数 据 集 I m a g e N e t 和 P K U - V D 进 行 实 验 ,并
与 现 有 的 高 精 度 模 型 比 较 ,结 果 表 明 ,优 化 后 的 卷 积 神 经 网 络 的 车 辆 识 别 精 度 高 达 9 9 . 7 4 % ,优 于 C N N + A d a b o o s t 的
9 7 . 0 2 % 和 GoogLeNet-lite 的 9 9.35%.

关 键 词 :车 辆 识 别 ;卷 积 神 经 网 络 ;参 数 优 化
中 图 分 类 号 :T P 3 9 1 文 献 标 志 码 :A 文 章 编 号 :1 6 7 1 - 1 1 1 4 ( 2 0 1 9 ) 0 1 - 0 0 7 1 - 0 5

Optimization of deep learning model for vehicle recognition


LIU Zekang, SUN Huazhi, JIANG Lifen, MA Chunmei
(College of Computer and Information Engineering, Tianjin Normal University, Tianjin 300387, China)

Abstract :For decreasing computing cost of deep convolutional neural network in vehicle recognition m o d e l , the parameters

of the mo del are optimized through experiments, so as to achieve a higher vehicle recognition rate with fewer network layers.

In view of the problem that the image size of the vehicle in the real shooting scene is small, the m e t h o d of copying boundary

of image is used for minimizing the loss of pixels in the convolution process a n d improving the correct rate. Experiments are

carried out based on the ImageNet a n d P K U - V D vehicle public datasets, an d this m e t h o d is c o m p a r e d with existing models

with high accuracies. T h e results show that the optimized three-layer convolutional neural network has a vehicle recognition

accuracy of 9 9 . 7 4 % , which is superior to 9 7 . 0 2 % of C N N + A d a b o o s t an d 9 9 . 3 5 % of GoogLeNet-lite.

K e y w o r d s :vehicle recognition; convolutional neural networks; optimization of parameters

随 着 日 常 生 活 中 汽 车 数 量 的 增 多 ,单 纯 依 靠 人 基 础 上 ,交 替 使 用 有 监 督 和 无 监 督 过 程 训 练 ,有 效 解
工 识 别 已 经 无 法 满 足 需 求 ,所 以 需 要 利 用 计 算 机 识 别 决 了 梯 度 消 失 问 题 . 文 献 [9]将 提 取 的 2 5 种 基 线 特 征
代 替 人 工 .传 统 的 车 辆 识 别 方 法 一 般 可 以 分 为 3 类 : 和 局 部 纹 理 特 征 融 合 ,进 行 栈 式 自 编 码 器 训 练 ,简 化
1 2
帧 间 差 分 法 []、背 景 差 分 法 []以 及 光 流 法 [3].传 统 方 法 虽 了 网 络 结 构 ,提 高 了 识 别 精 度 . 卷 积 神 经 网 络 ( CNN)
然 针 对 不 同 问 题 提 出 了 有 效 的 解 决 办 法 ,但 是 由 于 模 作 为 深 度 学 习 理 论 的 一 个 重 要 分 支 ,在 车 辆 识 别 方
型 结 构 简 单 、训 练 不 充 分 等 问 题 ,依 然 存 在 实 时 检 测 面 有 着 突 出 的 贡 献 . 文 献 [10]在 C N N 的 基 础 上 使 用
性 差 或 过 于 依 赖 外 部 环 境 等 缺 陷 [4-6]. 近 些 年 用 于 车 辆 Adaboost算 法 训 练 多 个 不 同 的 弱 分 类 器 ,再 将 弱 分 类
识 别 的 深 度 学 习 理 论 迅 速 发 展 . 文 献 [7]结 合 手 工 特 征 器 联 合 起 来 进 行 车 辆 识 别 . 文 献 [11]通 过 对 遮 挡 物 进
和 深 度 玻 尔 兹 曼 机 方 法 ,将 方 向 梯 度 直 方 图 等 3 种 手 行 处 理 ,再 利 用 卷 积 神 经 网 络 ,提 高 了 有 物 体 遮 挡 的
工 设 计 的 特 征 作 为 输 人 ,并 通 过 学 习 融 合 各 特 征 的 优 汽 车 的 识 别 精 度 . 文 献 [12]将 基 于 卷 积 神 经 网 络 的 车
点 ,以 提 高 识 别 精 度 . 文 献 [8]在 深 度 置 信 网 络 结 构 的 辆 检 测 用 于 正 面 碰 撞 预 警 .文 献 [13]通 过 反 复 堆 叠 3 3 x
收稿日期:2018-05-24
基 金 项 目 :国 家 自 然 科 学 基 金 资 助 项 目 (6 1 7 0 2 3 7 0 ); 天 津 市 国 际 科 技 合 作 资 助 项 目 (14RCGFGX00847 ) ; 天津市自然科学基金资助项目
(17JCYBJC16400,18JCYBJC85900);天津市自然科学青年基金资助项目(18JCQNJC70200);天津市科技计划资助项目(17ZLZXZF00530);
天津师范大学 131 三层次人选资助项目( 043/135305QS20);天津师范大学博士基金资助项目(043/135202XB1615, 043/135202XB1705).
第一 作 者 :刘泽康(995— ),男 ,硕士研究生 .
通信作者:马春梅(985— ),女 ,讲 师 ,主要从事移动计算、 群智感知、 机器学习和智能交通方面的研究 .E-mail: mcmxhd@163.com.
• 72 • 天 津 师 范 大 学 学 报 (自 然 科 学 版 ) 2019年 1 月

的小型卷积核和2x 2 的最大池化层构建了 16层的卷 I :64 x 64 C1 :64 x 64 S2 :32x 32 C3 :32x 32 S4 :16x 16 Feature vector
积神经网络(VGG16).文献[14]通过使用1 x 1、
3 x 3、
5x 5
的卷积核尺寸对输入数据进行卷积,再 将 3 个卷积的
输出结果组合起来构成模型(GoogLeNet).虽然以上万
法有较高的识别精度,但其对于深度学习网络的改造 图 1 卷积神经网络搭建过程

大多是通过加深模型层数的方法实现的,而网络层数 Fig. 1 Construction process of CNN


和网络参数的增加,会导致模型计算开销大、响应时 卷积神经网络通过训练自动更新权重和偏置值,
间慢,并且对硬件要求较高,所以这些方法不易于运 网络参数训练分为2 个 阶 段 :正向传播阶段输入图
用到现实中的车辆识别中.本文通过参数优化的方 像 ,经过各层过滤,最后由分类器输出分类结果;反
法 ,使模型以较小的网络层数在短时间内达到理想的 向训练阶段由分类器输出结果计算出误差值,反向传
精度.另外,本文选取真实拍摄场景中车辆的大小进 播训练各层参数.
行建模,针对真实拍摄场景车辆尺寸较小的问题,采 1 . 2 图像预处理
用复制边界的方法降低卷积过程中的信息损失,在特 由于卷积神经网络要求输入层输入图像的大小
定的分辨率下对比分析了不同大小的卷积核对车辆 要保持一致,而通过摄像头等方式采集到的样本大小不
识别精度的影响.利用公开数据集 ImageNet和 PKU- 一致.所以利用多相位图像插值(Lanczos)算法进行图
V D 进行实验,结果表明,用于车辆识别的最佳卷积 像预处理,通过缩放尺寸计算新的像素点,在将图像
核尺寸分别为5 x 5、 4 x 4、
3 x 3 , 优化后的模型识别 缩放到目标大小的基础上,尽量保留原图像的特征.
精度可达 99.74%,优于 CNN+Adaboost 的 97.02%和 设/(i ,
j )为缩放前像素点,g (u ,
v )为缩放后像素
GoogLeNet-lite 的 99.35%. 点 ,首先计算缩放前后像素点移动距离(x , y ).其中:
x=
(u x W j /Wou” y = ( x Hm)/H u t ; Wm和 Wout 分别为缩
1 网络结构设计
放前后的图像宽度,Hm和 分 别 为 缩 放 前 后 的 图 像
1 . 1 基于原边界保留的卷积神经网络模型构建 高度.则输出点(u , v )可由下式得出
2
卷积神经网络模型包括各网络层的构建以及各
网络层参数的训练.本文卷积神经网络由5 部分构
Hou( ,
J.)= 移(
k=-1
i j + k )Lanczos2PV(k+i)
, (3 )

成 ,分别为输入层、卷积层、池化层、全连接层和 2

Softmax分类器.输入层输入像素大小为 m xn 的图像. g(u v ) = i=-1


, 移 HouXi + i ,
j )Lanczos2PH(i+1) (4)
卷积层的计算公式为 LanczosN(x) =
ai wi ai b
= ( * _1 + ) (1) 1 x=0
其中:ai 为 第 l 卷积层的输出;(•
)为卷积层的激活函
数 ,wi 为卷积核,* 代表卷积操作,bi 为卷积层的偏置 nx nx/N
% sin(nx ) sin(nx/N ) x^ 0 ,
|x |< N (5)

参数.在传统卷积神经网络中,图像通过卷积层后尺 0 丨
x 丨彡#
寸会减小.为尽量保留图像中的像素点,卷积层采用 其中:Ho( i , j )为原像素点进行纵向移动后的像素点,
保留原边界像素的方法,即在图像边界补零,使得图 LanczosN(x)为滤波函数.图2 为 大 小 4 x 4 范围内进
像卷积后输出的图像尺寸与原图像尺寸保持一致.池 行 的 Lanczos算法缩放示意图.
化层选用最大池化,最大池化的公式为
xi = g (/3i down(xi_1 ) + b) (2) (i,
j) x
其 中 :xi 为池化层的输出;( • )为次抽样层的激活函 iy
( u ,v)
数 ,down( •)为次抽样函数, 烊为池化层权重,bi 为池
化层的偏置函数.池化层选择下采样框中像素值最大
的像素点进行下采样,提取主要特征,进而简化网络 Ph〇 Ph1 Ph2 P h3
复杂度.全连接层连接所有特征图共同做出决策,得 图 2 预处理示意图

到特征向量.全连接层得到的特征向量放入 Softmax Fig. 2 Preprocessing diagram


分类器中进行二分类.图1 为 大 小 64 x 6 4 的图像通 图 2 中,水平相位值 Ph0= 1 + x ,Ph1 = x ,Ph2= 1-x ,
过 3 x 3 的卷积核进行卷积的过程. PH3 = 2 - x ,垂直相位值 PV0 = 1 + y ,PV1 = y ,PV2 = 1 - y ,
第 39卷 第 1 期 刘 泽 康 ,等 :用 于 车 辆 识 别 的 深 度 学 习 模 型 的 优 化 •73 •

PF3 = 2 - y .根据上述关系式可得到8 个相位值,从而


3 实验结果分析
实现多相位滤波.原图像与经过缩放后的图像示例见
图 3 , 图 3 (a )为像素 值 300 x 2 4 0 的原图像,图 3(b ) 3 . 1 默认参数设置
为缩放后像素值64 x 6 4 的图像. 本 文 选 取 5 层卷积神经网络.第1 层为输入层,
输入大小为64 x 6 4 的裁剪后图像.中间3 层为卷积
层 ,卷积层的卷积核大小按默认设置,然后依次从第
»— ■ 4 1 个卷积层逐层改变卷积核大小,分别采用2 x 2、 3x
3、 4 x 4、
5 x 5 大小的卷积核进行实验,3 个卷积层分
(a) Original image (b) Scaled image 别使 用 32、 64、128个卷积核提取特征.全连接层设置
图 3 图像缩放对比 5 0 0 个卷积核进行全连接.之后将输出的向量放人
Fig. 3 Comparison of image zoom Softmax分类器进行分类.另外,本文选择对数损失函
数用作多分类,此函数为与 Softmax分类器相对应的
2 样本库建立
损失函数,主要使用极大似然估计的方式.学习速率
卷积神经网络属于深度神经网络,需要大量的训练 设 置 为 0.001,并且使用随机梯度下降的算法作为优
集进行训练,本文使用斯坦福大学的ImageNet数据库 化器.
和北京大学的PKU-VD[15]数据库,从中选取了 8 588张 3 . 2 实验结果对比
车辆图像以及11 375张背景图像作为样本库.其中训 输入层输入经过预处理后的64 x 64 R G B 图像,
练集样本占总数的8 0 % ,测试集样本占20%. 进行卷积神经网络训练.首先固定第2 层 和 第 3 层卷
2 . 1 样本标记 积网络卷积核大小为默认的3 x 3 , 第 1 层卷积网络
将样本中的非车辆图像和车辆图像分别用“0”和 分 别 使 用 2 x 2、
3 x 3、
4 x 4、
5 x 5 大小的卷积核进行
“1”标记.为防止过拟合导致检测框将含有车辆一部 实验,结果见图5.
分的背景图像认定为汽车,本文将设置只包含车辆一
099887766
050505050

部分的图像为非车辆图像.训练集和测试集中样本具
体标记见表1.
% i

表 1 样本标签统计
/ co m n o o y

Tab. 1 Sample label statistics


Set Image category Label Sample size
Train set Background 0 9 100
Vehicle 1 6 870
Test set Background 0 2 275
Vehicle 1 1 718
Epochs
2 . 2 样本裁剪
5 第 1 层卷积网络实验结果 图
由于收集到的样本图像像素大小不同,因此需要 Fig. 5 Experiment results of the first convolutional layer
将样本裁剪成大小一致的图像.按照1.2节 的 Lanczos
算法将所有样本图像统一裁剪为像素64 x 6 4 的图像 由图5 可以看出,卷积核大小为2 x 2、
3 x 3 的神
作为输入,裁剪后的部分图像如图4 所示. 经网络收敛速度较慢,卷积核大小为4 x 4 的神经网
络收敛速度在前期略高于卷积核大小为5 x 5 的.由
于 图 5 给出的是全部100次训练的测试结果,随着训
练次数的增加,不同卷积核网络的识别精度曲线几乎
重合,为了更准确地观察识别精度,截取训练次数为
9 0 至 100的精度识别曲线,见 图 6.
由 图 6 可 见 ,当训练次数较大时,使 用 5 x 5 大
小卷积核的神经网络的整体识别精度高于其他3 种
图 4 部分裁剪后图像 尺寸卷积核的网络.因此,第 1 层卷积网络最佳的卷
Fig. 4 Partial cropped images 积核尺寸为5 x 5.
• 74 • 天 津 师 范 大 学 学 报 (自 然 科 学 版 ) 2019年 1 月

1 0 0 .0 由图8 可见,训练次数较大时,卷积核大小为4 x
4 的网络的识别精度整体高于其他3 种卷积核的网
9

,
%/7{omnooy

9. 络.这是由于经过长时间的训练,随着网络层数的加
9

9.

9. 深 ,特征图尺寸变小,较大尺寸的卷积核会造成特征
9

信息的丢失,而较小尺寸的卷积核又不足以充分提取
9

特征信息.综合考虑收敛速度和识别精度,第 2 层卷
99.0 积网络最佳的卷积核尺寸为4 x 4.
90 91 92 93 94 95 96 97 98 99 100
Epochs 固定第1 层卷积网络卷积核大小为5 x 5, 第 2层
1 层卷积网络实验部分结果
图 6 第 卷积网络卷积核大小为4 x 4 , 第 3 层卷积网络分别
Fig. 6 Partial experiment results of the first 使 用 2 x 2、
3 x 3、
4 x 4、
5 x 5 大小的卷积核进行实验,
convolutional layer 结果见图9.
下 面 固 定 第 1 层卷积网络卷积核大小为5 x 5,
固定第3 层卷积核大小为默认的3 x 3 , 第 2 层卷积
网络分别使用2 x 2、
3 x 3、
4 x 4、
5 x 5 大小的卷积核
进行实验,结果见图7.
0 5 0 5 0 5 0 5 0

10
9
9
8
%/7{omnooy

8
7
7

Epochs
6
6

9 第 3 层卷积网络实验结果

Fig. 9 Experiment results of the third convolutional layer
20 40 60 80 100
Epochs 由图9 可见,各尺寸卷积核的网络收敛速度大致
图 7 第 2 层卷积网络实验结果 相 同 ,甚至使用较小卷积核(2x 2)的网络收敛速度要
Fig. 7 Experim ent results of the second convolutional layer 稍快于其他较大卷积核的网络.这是由于深层特征图
由图7 可以看出,卷积核大小为5 x 5 的神经网 尺寸较小,较大的卷积核不能充分提取车辆的细节特
络收敛速度快于其他3 种尺寸卷积核的网络.这是由 征 ,导致其收敛速度变慢.截取训练次数为9 0 至 100
于在训练次数较少的情况下,尺寸较大的卷积核对于 的精度识别曲线,见 图 10.
图像像素点的计算更充分,可以使得浅层特征得到充 1 0 0 .0

分提取,所以在图像像素损失不大的情况下可以更快
9

9.
达到较高的精度.但是,随着训练次数的增加,各尺
%/7{omnooy

9.
9

9.
寸卷积核网络的识别精度趋近相同.同样截取训练次 9.

数 为 9 0 至 100的精度识别曲线,见 图 8.
9

1 0 0 .0
9
8
9

.
99.0
9
%/homnooy

90 91 92 93 94 95 96 97 98 99 100
Epochs
图 1 0 第 3 层卷积网络实验部分结果
Fig. 10 Partial experiment results of the third
convolutional layer
99.0
90 91 92 93 94 95 96 97 98 99 100 由 图 1 0 结果可以看出,训练次数较大时,卷积
Epochs
8 第 2 层卷积网络实验部分结果 图 核 大 小 为 3 x 3 的网络效果最好.这是由于深层特征
Fig. 8 Partial experiment results of the second 图尺寸较小,较大的卷积核会造成特征细节的丢失,
convolutional layer 较小的卷积核又不足以提取车辆特征.因此第3 层卷
第 39卷 第 1 期 刘 泽 康 ,等 :用 于 车 辆 识 别 的 深 度 学 习 模 型 的 优 化 •75 •

积网络最佳的卷积核尺寸为3 x 3. 场景中车辆图像较小的问题,使用复制边缘像素进行
根据以上实验结果,分别选取3 层卷积网络卷积 填充的方法,减小了卷积造成信息丢失的影响,采取
核尺寸为5 x 5、
4 x 4、
3 x 3 , 搭建卷积神经网络模型 控制变量的方法对网络参数设置进行了优化实验,通
并进行训练.将车辆图像输入训练好的卷积神经网络 过实验找到了各网络层的最优参数设置,并与目前的
中,车辆图像经过(卷积层+池化层)处 理 ,得到特征 高精度方法进行实验对比,结果表明本文方法的识别
提取图,部分特征提取图见图11. 性能较好.
参考文献:
[1] COLLINS R T , LIPTON A J , KANADE T. Introduction to the special
Input section on video surveillance[J]. IEEE Trans on Pattern Analysis and
Machine Intelligence,2000, 22(22 ):745-746.
[2] LONG W , YANG Y H. Stationary background generation :An alterna­
tive to the difference of two images[J]. Pattern Recognition,1990, 23
(12 ):1351-1359.
C1 [3 ] 向 川 平 . 基 于 光 流 场 的 视 频 运 动 检 测 研 究 [D]. 成 都 :西 华 大 学 ,
2011.
XIANG C P. Research on Optical Flow and Its Application on Video
C2 Motion Detection[D]. Chengdu :Xihua University, 201 ( i n Chinese).
[4] HU W , BAI L. A new approach for vehicle color recognition based on
specular-free image[C]//Proceedings of SPIE. The International Society
C3 for Optical Engineering. IEEE ,2013.
图 1 1 特征提取图 [5] BEHLEY J , STEINHAGE V , CREMERS A B. Laser-based segment
Fig. 11 Feature extraction map classification using a mixture of bag-of-words[C]//International Confer­
ence on Intelligent Robots and Systems. IEEE ,2013.
为验证本文方法的有效性,选取车辆识别精度较 [6 ] 徐骏骅 . 基于边缘检测与模式识别的车脸识别算法 [J]. 控 制 工 程 ,
高的 CNN+Adaboost[10]、
VGG16[13]以及 GoogLeNet-lite[14] 2018, 25(2 ):357-361.
与本文方法进行对比实验,实验数据均采用第3 节构 XU J H. Car face recognition algorithm based on edge detection and
pattern recognition[J]. Control Engineering of China ,2018 ,25(2 ):
建的数据集,对比结果如表2 所示. 357-361(n Chinese).
表 2 不同算法实验结果对比 [7] HU A Q , HONG L I , ZHANG F , et al. Deep Boltzmann Machines
Tab. 2 Comparison of different algorithms based Vehicle Recognition[C]//Control and Decision Conference. IEEE ,
2014.
Method Accuracy/% F-measure/% Time/ms [8 ] SHI T , ZHANG C , LI F , et al. Application of alternating deep belief
Method of this paper 99.74 99.70 I% network in image classification[C]//Control and Decision Conference.
CNN+Adaboost 97.02 99.51 40 IEEE ,2016.
[ 9 ] 康 妙 ,计 科 峰 ,冷 祥 光 ,等 . 基于栈式自编码器特征融合的 SA R 图
VGG16 99.82 99.78 091
像车辆目标识别 [J]. 雷 达学报,2017, 6 (2 ): 167-176.
GoogLeNet-lite 99.35 99.36 133 KANG M, JI K F , LENG X G , et al. SAR target recognition with fea­
由表2 可以看出,本文优化后模型的最终识别精 ture fusion based on stacked autoencoder[J]. Journal of Radars ,2017,
6 (2 ):167-176(in Chinese).
度可以达到99.74°%,高 于 CNN+Adaboost的 97.02°%和 [10] SONG X , RUI T , ZHA Z , et al. The Adaboost algorithm for vehicle
GoogLeNet的 99.35%.另外,优化后模型的 F-measure detection based on CNN features[C]//International Conference on Inter­
net Multimedia Computing and Service. ACM ,2015.
达到 99.70%,也高于 CNN+Adaboost 的 99.51%和
[11] FEYZABADI S. Joint deep learning for car detection[J]. Computer Vi­
GoogLeNet的 99.36%.由 于 VGG1 6 的模型结构复杂, sion and Pattern Recognition ,2014 ,arXiv :1412.7854.
一定程度上减小了卷积核大小对于模型识别的影响. [12] PYO J , BANG J , JEONG Y. Front collision warning based on vehicle
detection using CNN[C]//Soc Design Conference. IEEE ,2016.
所 以 ,VGG16模型的最终识别精度为99.82%,虽然
[13] SIMONYAN K , ZISSERMAN A. Very deep convolutional networks for
略高于本文优化后的模型,但是其识别时间远远大于 large-scale image recognition[J]. Computer Vision and Pattern Recogni­
本文方法,而且本文方法的识别时间在4 种方法中是 tion ,2014, arXiv :1409.1556.
[14] SZEGEDY C, LIU W , JIA Y , et al. Going deeper with convolutions[C]
最优的.综合实验结果各指标,本文方法更适用于现 //IEEE Conference on Computer Vision and Pattern Recognition. IEEE
实场景的车辆检测. Computer Society ,2015.
[15] YAN K , TIAN Y , WANG Y , et al. Exploiting multi-grain ranking con­
4 结语 straints for precisely searching visually-similar vehicles[C]//IEEE Inter­
national Conference on Computer Vision. IEEE Computer Society,2017.
本文根据真实场景车辆大小进行建模,针对真实 (责 任 编 校 马 新 光 )

You might also like