You are on page 1of 5

2015 年 11 月 1 日 现代电子技术 Nov.

2015
第 38 卷第 21 期 Modern Electronics Technique Vol. 38 No. 21
109
doi:10.16652/j.issn.1004⁃373x.2015.21.029

基于有督导机器学习的网络流量识别系统
邢玉凤,毛艳琼
(云南经济管理学院 人文艺术学院,云南 昆明 650106)

摘 要:针对真实网络环境中存在大量干扰噪声和野值样本等严重影响最小二乘支持向量机算法的性能等问题,提出
一种结合协同量子粒子群优化算法和最小二乘支持向量机的网络流量识别系统。将网络流量分为 12 个类型,并进行数据
采集。使用采集的数据对网络流量识别系统进行训练和性能测试。为研究提出的基于 CQPSO⁃LSSVM 算法的性能,将其与
基于 CQPSO⁃LSSVM 算法和基于 PSO⁃LSSVM 算法进行对比,结果表明基于 CQPSO⁃LSSVM 算法具有更快的识别速度以及更
好的识别准确率,避免了出现陷入局部最优解的情况发生。
关键词:有督导机器学习;网络流量识别;LSSVM;协同量子粒子群优化算法
中图分类号:TN711⁃34;TP393 文献标识码:A 文章编号:1004⁃373X(2015)21⁃0109⁃04

Network traffic identification system based on supervised machine learning


XING Yufeng,MAO Yanqiong
(School of Humanity and Art,Yunnan College of Business Management,Kunming 650106,China)

Abstract:In the real network environment,a large number of interference noise and outlier samples are existed,which se⁃
riously affect on the performance of the least square support vector machine(LSSVM)algorithm. A network traffic identification
system combining cooperative quantum particle swarm optimization (CQPSO) algorithm with LSSVM is proposed. The network
traffic is divided into 12 types,in which the data of network traffic are collected. The network traffic identification system is con⁃
ducted with training and performance test by the collected data. To study the performance of the CQPSO ⁃ LSSVM based algo⁃
rithm,the CQPSO⁃LSSVM based algorithm is compared with the PSO⁃LSSVM based algorithm. The comparison results show that
the CQPSO⁃LSSVM based algorithm has faster identification speed and better identification accuracy,which can avoid the occur⁃
rence that the system is caught in local optimal solution.
Keywords:supervised machine learning;network traffic identification;LSSVM;CQPSO algorithm

导机器学习的网络流量分类识别方法;基于无督导机器
0 引 言
学习的网络流量分类识别方法。有督导机器学习算法
随着随着互联网技术的不断发展壮大,不断涌现出 又分为基于贝叶斯算法、基于决策树算法和基于支持向
各种各样的网络服务和应用类型,这对互联网管理提出 量机算法以及基于神经网络算法等;无督导机器学习算
了更高的要求,同时网络安全问题日益严重,对网络流 法又分为基于模型方法、基于密度方法以及基于划分方
量进行实时有效的检测,具有非常重要的意义 [1⁃2]
。 法等 [3⁃6]。
传统对网络流量进行分类识别的方式手段主要有:
1 网络流量识别系统
基于端口识别技术的网络流量分类识别方法;基于数据
包载荷内容的网络流量分类识别方法。传统网络流量 1.1 网络流量分类
分类识别方法虽然具有算法简单、效率高等优点,但是 近年来,P2P 技术已经得到了非常广泛的应用,P2P
由于其自身局限性已经不再适用于当今复杂多样互联 应用类型也随着其服务类型的增长而增长,因此,过去
网服务类型和应用。 文献在对网络流量识别进行研究时,通常将网络流量类
现在应用比较广泛的网络流量分类识别方法主要 型分为 10 个类型。本文根据 P2P 服务类型将三种常用
有:基于统计特征的网络流量分类识别方法;基于有督 应用类型分别考虑,即分为 P2P 文件共享、音视频以及
即时通信应用服务。因此,本文对网络流量类型划分为
收稿日期:2015⁃04⁃28 12 个类型,如表 1 所示 [7]。
110 现代电子技术 2015 年第 38 卷

表1 网络流量分类表 但是由于真实网络环境中,存在大量干扰噪声和野

类别 应用名称
值 样 本 等 ,严 重 影 响 了 最 小 二 乘 支 持 向 量 机 算 法 的 性
能;因此本文提出一种结合协同量子粒子群优化算法和
WWW HTTP,HTTPS
最小二乘支持向量机的网络流量识别系统。
P2P 文件共享 eMule,BitTorrent

P2P 音频视频 PPLive,PPStream 2 协同量子粒子群算法


P2P 即时通信 QQ,MSN
2.1 量子粒子群算法
ATTACK VIRUS,WORM
设粒子群中有 N 个粒子,其中:第 i 个粒子的位置
GAMES HALF⁃LIFE
x i = ( x i1, x i2 , ⋯, x iD );第 i 个 粒 子 的 速 度 v i = ( v i1, v i2 , ⋯, v iD );
MULTIMEDIA REAL MEDIA PLAYER
第 i 个 粒 子 的 历 史 最 优 位 置 p i = ( p i1, p i2 , ⋯, p iD );整 个 粒
INTERACTIVE TELNET,
子 群 体 的 历 史 最 优 位 置 是 :p g = ( p g1, p g2 , ⋯, p gD ) 。 粒 子
DATABASE SQLNET,ORACLE
群优化算法更新方法为:
BULK FTP
ìv it + 1 = ωv it + c1 r1 ( p it - x it ) + c 2 r 2 ( p tg - x it )
SERVICES DNS,NTP,X11 í t+1 t t+1 (1)
îx i = x i + v i
MAIL STMP,POP3,IMAP
式 中 :ω 是 惯 性 权 重 ;r1, r 2 是 随 机 数 ;C1, C 2 是 学 习 因
1.2 基于机器学习的网络流量识别分类方法 子;t 是迭代的次数。
机器学习方法已经得了非常成熟广泛的发展,将机 Kennedy 提出了一种量子粒子群算法,简称 QPSO,
器学习应用于网络流量识别技术,能够有效提高网络流 来提高粒子群优化算法的性能,QPSO 应用条件为:
量识别系统的识别率以及识别速度。机器学习通常分 q ijt = φ j × p ijt + (1 - φ j ) × p tgj ,     j = 1, 2, ⋯, D (2)
为两种,即有督导机器学习和无督导机器学习。相比无 式中:
督导机器学习来说,基于有督导机器学习的网络流量识 c1 r1j
φj = (3)
别系统具有更好的识别性能。 c1 r1j + c 2 r 2j
基于有督导机器学习的网络流量分类识别方法一 求解量子粒子的 Schrodinger 方程,计算概率分布函
般通过大规模已知类别的网络流量会话流样本数据对 数得:
-2|| x ij - q ij || L
识别系统进行训练,使得系统具有较强的泛化能力。基 F(x ij ) = e (4)
于有督导机器学习的网络流量识别分类训练过程如图 1
式中 L 是 δ 的特征长度。
所示 [8]。
使用蒙特卡洛法对粒子的位置进行更新:
x ij = q ij ± L ln (1 u ) (5)
2
式中 u 是 0~1 的随机数。
计算 mbest 的方法为:
N
p1i æ N p i1I N p i2I N
pI ö
mbest = ∑ = ç∑ ,∑ , ⋯,∑ iD ÷ (6)
1 N è 1 N 1 N 1 N ø
mbest 和 x ij 之间间距为:
图1 基于有督导机器学习的网络流量识别分类训练过程
L = 2 × β × | mbest tj - x ijt | (7)
基于有督导机器学习的网络流量分类识别方法种 式中 β 是收缩扩张系数:
类繁多。其中最小二乘支持向量机法因其具有较好的 t × ( β max - β min )
β = β max - (8)
鲁棒性和实用性能,得了比较广泛的应用。最小二乘支 t max
持向量机法综合了神经网络和支持向量机两种算法的 可以得到粒子更新公式修正为 [10]:
优点,摒弃了支持向量机训练过程复杂、效率低以及神 x ijt + 1 = q ijt ± β × | mbest tj - x ijt | × ln (1 u ) (9)
经网络需要大数据样本的缺点。因此最小二乘支持向 2.2 协同量子粒子群算法
量机法不仅具有较快的训练速度,而且具有较强的泛化 2.2.1 协同搜索策略
[9]
能力 。 协同搜索策略的核心思想是,将整个种群分解成多
第 21 期 邢玉凤,等:基于有督导机器学习的网络流量识别系统 111

个 子 群 ,整 个 种 群 使 用 的 是 对 一 个 种 群 进 行 搜 索 的 策 LSSVM 和 CQPSO⁃LSSVM 算法的网络流量识别模型,对


略,而将整个种群分解成多个子群后,能够成功削弱种 采集的数据进行处理。
[11]
群的多样性在迭代后期降低而产生的早熟问题 。 将采集到的数据分为两组:一组用于对基于三种算
2.2.2 粒子的学习行为 法的网络流量识别模型进行训练;另一组数据测试训练
对式(2)进行修改以提供粒子群的搜索能力: 后的基于三种算法的网络流量识别模型的识别性能。
ìφ j × p + (1 - φ j ) × p ,    l rand < l c
ï
t t
3.2 网络流量分类方法性能评价标准
q ijt = í
s gj
kj
(10)
î j ( j)
ïφ × p t + 1 - φ × p t ,     l
ij
rand  l c
gj
针对网络流量识别方法的评价标准,人们通常使用
反馈率(recall)、准确率(precision)评估识别方法性能,
式中:l rand 是 0~1 的随机数;l c 是学习概率参数;s 是其
具体表示为:
他子群序号;k 是其他粒子序号。
TP × 100%
recall = (12)
子群中,第 i 个粒子的取值按式(11)确定以平衡粒 TP + FN
子自身发展与种群搜索能力。 precision = TP × 100% (13)
TP + FP
l ci = l c min + ( l c max - l c min ) × ( i s)
a
(11)
式中:TP(True Positive)是被系统正确识别的类型 A 的
式中:l c max 和 l c min 是学习参数的最大和最小值;a 是不
样 本 数 量 ;FN(False Negative)是 未 被 系 统 正 确 识 别 的
小于 0 的常数。
类型 A 的样本数量;FP(False Positive)是被系统误认为
协 同 量 子 粒 子 群 算 法(简 称 CQPSO),就 是 使 用 上
是类型 A 的样本数量。
面描述的协同搜索策略的 QPSO 算法。
3.3 网络流量识别流程
2.3 CQPSO⁃LSSVM 的网络流量识别步骤
基 于 本 文 提 出 的 CQPSO⁃LSSVM 网 络 流 量 识 别 流
步 骤 1:对 网 络 流 量 数 据 进 行 采 集 ,对 数 据 进 行 处
程如图 2 所示 [13]。
理后,得到网络流量特征向量。
步骤 2:随机得到 N 个粒子的位置 X i,对各个粒子
的适应值 f ( X i ) 进行计算。
步骤 3:将粒子群分成 s 个子群,计算每一个子群适
应值的最优粒子序号:k = arg 1 min
i N s
f ( X s ) ,那么各个子 ( i
)
群 的 最 优 解 为 :p g = X s ;k = arg 1min
s is k
(
f ( p g ) ,p g = p g ,由 i
) pop k

基因比率 R gene 选出子群中适应值最优的粒子来组建种


群基因库。
步骤 4:对收缩扩张系数 β t、子群的 β t (1  i  s) 以 i

及 l c 进行计算,q i 取决于 l c 与 l rand 关系。 图2 网络流量识别流程

步骤 5:对粒子的适应值、子群的 p i、子群的 p g 以及 为 了 研 究 本 文 提 出 的 CQPSO 算 法 的 优 化 性 能 ,使


种群最优解 p g 进行更新。 pop 用 QPSO 作对比实验。设定粒子群个数为 20,子群的规
步 骤 6:当 到 达 进 化 的 周 期 后,依 据 R dead 淘 汰 子 群 模是 5,收缩扩张系数 β 随着迭代次数线性下降,由 1.0
中劣质粒子,更新种群的基因库。 降至 0.5。得到两种算法在 Rosenbrock 函数和 Ackley 函
步骤 7:重复步骤 4 到步骤 6,直到迭代完成。 数这两个测试函数下的性能对比如图 3 所示。可以看
步 骤 8:求 解 p g ,得 到 网 络 流 量 识 别 的 最 优 特 征
pop
出,CQPSO 算法比 QPSO 算法具有更快的收敛速度和收
子集。 敛精度,具有更好的稳定性能 [14]。
步骤 9:使用步骤 8 得到的网络流量识别的最优特 3.4 实验结果分析
征子集建立网络流量识别模型 。 [12]
使 用 本 文 提 出 的 CQPSO⁃LSSVM 识 别 算 法 对 实 验
数据进行识别后,得到表 1 中各种网络服务类型与应用
3 实验分析
的识别准确率和反馈率,见表 2。
3.1 实验数据采集 通 过 表 2 的 数 据 可 以 看 出 ,本 文 研 究 的 CQPSO ⁃
使用基于 Libsvm 软件包的 C#程序对网络流量数据 LSSVM 识别算法对 12 种类型网络服务与应用均有较好
进行采集,使用 Matlab 软件构建基于 PSO⁃LSSVM、QPSO⁃ 的识别准确率和反馈率。为了横向比较本文研究算法
112 现代电子技术 2015 年第 38 卷

的 性 能 ,使 用 基 于 PSO ⁃ LSSVM 算 法 和 基 于 QPSO ⁃ 出 4.32% ,比 PSO⁃LSSVM 算 法 的 平 均 识 别 反 馈 率 高 出


LSSVM 算法的网络流量识别系统对同样的数据进行模 9.37%。 可 以 说 明 ,相 比 粒 子 群 优 化 算 法 来 说 ,量 子 粒
型训练和测试,得到了基于三种不同算法的识别系统的 子群优化算法能够得到更优良的特征子集,因此得到了
识别准确率、反馈率以及识别速度 [15⁃16]。 更 好 的 流 量 识 别 效 果 。 另 外 由 于 CQPSO⁃LSSVM 识 别
算法使用了协同策略,因此避免出现陷入局部最优解的
表2 各个网络流量类别的准确率与反馈率
情况发生,因此加快了算法收敛速率,提高了识别准确
类别 应用名称 反馈率 /% 准确率 /%
率 [17⁃18]。
WWW HTTP 94.9 95.7
4 结 论
P2P 文件共享 BitTorrent 92.9 93.6

P2P 音频视频 PPlive 90.1 91.2 与传统网络流量分类方法不同,本文将 P2P 应用分


为三类,即 P2P 文件共享、P2P 音视频以及 P2P 即时通信
P2P 即时通信 QQ 92.3 92.1
服务,因此本文将网络流量类型划分为 12 个类别进行
ATTACK Virus 97.6 98.1
研究。
GAMES Half⁃life 95.2 96.9 将 CQPSO 算 法 和 QPSO 算 法 在 Rosenbrock 函 数 和
MULTIMEDIA Real media player 86.2 86.8 Ackley 函 数 这 两 个 测 试 函 数 下 进 行 性 能 测 试 ,结 果 表
明,CQPSO 算法比 QPSO 算法具有更快的收敛速度和收
INTERACTIVE Telnet 90.7 88.8
敛精度,具有更好的稳定性能。
DATABASE SqLnet 94.8 95.1
将本文提出的基于 CQPSO⁃LSSVM 算法与基于 PSO⁃
BULK FTP 92.5 90.9 LSSVM 算法和基于 QPSO⁃LSSVM 算法在相同网络环境

SERVICES DNS 92.6 93.9


下 ,使 用 相 同 数 据 进 行 性 能 测 试 对 比 。 结 果 表 明 基 于
CQPSO⁃LSSVM 算法具有更快的识别速度以及更好的识
MAIL Stmp 98.3 97.2
别准确率,避免了出现陷入局部最优解的情况发生。

参 考 文 献

[1] 王涛,余顺争.基于机器学习的网络流量分类研究进展[J].小型
微型计算机系统,2012(5):1034⁃1040.
[2] 邓河.基于机器学习方法的网络流量分类研究[D].株洲:湖南
工业大学,2009.
[3] 杨飞虎.特征选择算法及其在网络流量识别中的应用研究[D].
南京:南京邮电大学,2012.
[4] 杨宜辰.基于机器学习的网络流量分类技术研究与应用[D].淮
南:安徽理工大学,2014.
[5] 储慧琳,张兴明.一种组合式特征选择算法及其在网络流量识
别中的应用[J].小型微型计算机系统,2012(2):325⁃329.
[6] 陶 维 天.基 于 校 园 网 的 网 络 流 量 监 控 技 术 研 究 与 应 用 [D].兰
州:兰州大学,2010.
[7] 王程.网络流量识别分析系统的设计与实现[D].长春:吉林大
学,2014.
图3 CPSO 与 CQPSO 算法性能对比 [8] 许孟晋.基于机器学习的网络流量分类系统研究与实现[D].长
沙:国防科学技术大学,2010.
CQPSO⁃LSSVM 识别算法的平均识别准确率达到了
[9] 顾成杰,张顺颐.基于改进 SVM 的网络流量分类方法研究[J].
93.36% ,比 QPSO⁃LSSVM 算 法 的 平 均 识 别 准 确 率 高 出 仪器仪表学报,2011(7):1507⁃1513.
5.28% ,比 PSO ⁃ LSSVM 算 法 的 平 均 识 别 准 确 率 高 出 [10] 杨子江.基于混沌量子粒子群算法的流水线调度[D].上海:华
10.3%,CQPSO⁃LSSVM 识别算法的平均识别反馈率达到 东理工大学,2013.

了 93.18%,比 QPSO⁃LSSVM 算 法 的 平 均 识 别 反 馈 率 高 (下转第 117 页)


第 21 期 魏全增,等:基于遗传优化 RBF 神经网络的电动负载模拟器控制 117

似为 0°,幅差只有 1.54%,达到了“双十”标准,符合加载 到实际电动负载模拟器设计中。


系统的指标要求,完全适用于该炮控系统负载模拟器的
参 考 文 献
控制。
[1] 王力,钱林方,高强,等.基于灰预测模糊 PID 的随动系统负载
模拟器力矩控制研究[J].兵工学报,2012,33(11):1379⁃1386.
[2] 田巨,张科.电动负载模拟器的发展与现状[J].微特电机,2014,
42(5):70⁃74.
[3] 王鑫,冯冬竹.引入弹簧杆的电动负载模拟器实验研究[J].电机
与控制学报,2012,16(9):91⁃94.
[4] 苏东海,吴盛林,付兴武,等.利用基于同步补偿的角速度差值
克服多余力矩[J].哈尔滨工业大学学报,2000,32(1):78⁃81.
[5] 董文彬,肖利红.基于 FUZZY⁃PID 控制的变负载模拟技术的研
图8 IGA⁃RBFNNC 的正弦跟踪
究[J].航空航天,2010,28(2):63⁃69.
[6] 吴金波,李绍安,李维嘉,等.电动负载模拟器的建模与混合校
表3 加载测试数据
正策略[J].现代制造工程,2010(4):13⁃17.
控制策略 幅差 /% / °)
相差 ( [7] 张建.基于 RBF 神经网络的电动负载模拟器控制策略研究[D].
RBFNNC 6.59 4.26 哈尔滨:哈尔滨工业大学,2006.
[8] 王超,吴晓亮.基于复合控制策略的电动负载模拟器研究[J].现
GA⁃RBFNNC 4.68 1.23
代电子技术,2014,37(17):90⁃93.
IGA⁃RBFNNC 1.54 0.19 [9] 方强.被动式力矩伺服控制系统设计方法及应用研究[D].哈尔
滨:哈尔滨工业大学,2006.
5 结 语 [10] 张明君,张化光.遗传算法优化的 RBF 神经网络控制器[J].电
机与控制学报,2007,11(2):183⁃187.
本文在研究电动负载模拟器基本结构和原理的基
[11] 娄悦.伺服系统模拟加载系统的研究与设计[D].南京:南京理
础上,建立了执行机构的数学模型,利用炮控系统位置
工大学,2007.
控制信号进行前馈补偿,同时对传统遗传算法进行了改 [12] 王宝忠,宋冬锋,刘卫法.基于 Smith 预估补偿与 RBF 神经网
进 ,并 对 RBF 神 经 网 络 控 制 器 的 参 数 寻 优 。 实 验 结 果 络的改进 PID 控制[J].现代电子技术,2011,34(5):153⁃157.
表明,使用所设计的控制器满足动态性能指标,能够快 [13] 张冬,王涛.基于 RBF 神经网络的超高压继电保护的算法研
速稳定跟踪给定信号,有效地消除了多余力矩,可应用 究[J].现代电子技术,2011,34(20):196⁃199.

作者简介:魏全增(1990—),男,山东聊城人,硕士。主要研究方向为智能检测与控制。
陈机林(1965—),男,江苏扬中人,副教授。主要研究方向为武器系统智能控制与检测技术。
高 强(1979—),男,陕西汉中人,副教授。主要研究方向为武器系统智能控制与检测技术。

􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊􀤊

(上接第 112 页)

[11] 胡天骐,单剑锋,宋晓涛.基于改进 PSO⁃LSSVM 的模拟电路诊 [15] 刘丽霞.基于小波理论与 LSSVM 的模拟集成电路故障诊断方


断方法[J].计算机技术与发展,2015(6):193⁃196. 法[D].西安:西安电子科技大学,2011.
[12] 孟凡兵,彭顺堂,陈华.一种 QPSO 优化 SVM 的模拟电路故障 [16] 黄丽,孙玉坤,嵇小辅,等.基于 CPSO 与 LSSVM 融合的发酵过
诊断方法[J].计算机与数字工程,2015(6):1149⁃1151. 程软测量建模[J].仪器仪表学报,2011(9):2066⁃2070.
[13] 朱大奇,袁义丽,邓志刚.水下机器人参数辨识的量子粒子群 [17] 刘俊美.网络流量统计分析系统的设计与实现[D].大连:大连
算法[J].控制工程,2015(3):531⁃537. 理工大学,2013.
[14] 陈善学,杨政,朱江,等.一种基于累加 PSO⁃SVM 的网络安全 [18] 胡婷.基于神经网络的网络流量分类方法研究[D].桂林:桂林
态势预测模型[J].计算机应用研究,2015(6):1778⁃1781. 电子科技大学,2011.

作者简介:邢玉凤(1983—),女,云南曲靖人,硕士,讲师。主要从事计算机应用、数据加密及算法研究。
毛艳琼(1984—),女,云南昆明人,硕士,讲师。研究方向为电子商务、软件开发。

You might also like