You are on page 1of 4

2015 年 10 月 15 日 现代电子技术 Oct.

2015
第 38 卷第 20 期 Modern Electronics Technique Vol. 38 No. 20
11

机器学习算法在数据挖掘中的应用
陈小燕
(江苏农林职业技术学院,江苏 句容 212400)

摘 要:针对数据挖掘算法中常用的机器学习型算法进行研究。机器学习型算法特色是运用了人工智能技术,能在大
量样本集训练和学习后自动找出运算需要的参数和模式。以机器学习型算法中的人工神经网络为例研究数据挖掘技术,针
对学习速度慢、抗干扰能力弱以及容易陷入局部最小值等缺点和传统的遗传算法存在算法早熟以及局部寻优能力弱等问
题,提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对 BP 神经网络结构参
数进行优化的改进型遗传优化 BP 神经网络模型。最后通过煤矿空压机故障诊断系统这一实例来研究改进型算法的数据挖掘
技术的性能。研究结果表明,改进后的算法建立的诊断模型相比常规神经网络的诊断模型诊断准确率更好,诊断效率更快。
关键词:数据挖掘;BP 神经网络;遗传优化算法;空压机故障诊断
中图分类号:TN957.52+9⁃34;TP274 文献标识码:A 文章编号:1004⁃373X(2015)20⁃0011⁃04

Application of machine learning algorithm in data mining


CHEN Xiaoyan
(Jiangsu Polytechnic College of Agricultural and Forestry,Jurong 212400,China)

Abstract:The machine learning algorithm commonly used in data mining algorithm is studied in this paper. AIT(artificial
intelligence technology) is adopted in machine learning algorithm,which can automatically find out the parameters and modes
required by operation after a large number of sample set training and learning. The artificial neural network in machine learning
algorithm is taken as an example to research the data mining technology. Since the traditional genetic algorithm has the short⁃
comings of prematurity and weak local optimizing capacity,the improved genetic optimization BP neural network model is pro⁃
posed by improving the chromosome structure and genetic operator,and by introducing adaptive crossover and mutation probability
to optimize neural network structure parameters and solve the problems of slow learning speed,weak anti ⁃ jamming capability,
and easily falling into local minimum value. Finally,the performance of the improved algorithm is studied by using the fault di⁃
agnosis system of air compressor. The research results show that the improved diagnostic model,compared with the conventional
neural network diagnosis model,has better diagnostic accuracy and higher diagnostic efficiency.
Keywords:data mining;BP neural network;genetic optimization algorithm;fault diagnosis of air compressor

0 引 言 1 数据挖掘

数据挖掘技术是在整个社会发展中随着科学和技 数据挖掘算法中常用的有机器学习型算法和统计
术的不断进步而顺应需要所生。随着信息化技术的不 型算法两类。前者的特色是运用了人工智能技术,能在
断普及,人类社会逐步进入到信息化社会中,信息化管 大量样本集训练和学习后自动找出运算需要的参数和

理技术随之不断提升,成本却同时逐步下降,数据管理 模式;后者则常用相关性分析、聚类分析、概率和判别分
析等进行运算。不同算法当然有着各自不同的对应领
技 术(Data Management Technology)在 各 企 事 业 单 位 中
域和目标,它们既能单独使用,也能相互结合。
进一步普及,从而推动企事业单位内部职能部门间的沟
机器学习型算法中人工神经网络方法被普遍运用,
通联络。但是,随之而来的弊病是海量数据的累积导致
它具有极好的数据处理能力和自组织学习能力,并且能
数据分析的困难 [1⁃2]。
准确进行识别,从而有助于分类问题中的数据处理。人
工神经网络通过建构模型而工作,其模型多样,能满足
收稿日期:2015⁃04⁃25
基金项目:国家自然科学基金:基于 Sieve Bootstrap 方法的长记
不同需求。总体来看,人工神经网络模型精确度高、鲁
忆过程变点研究与应用(11301291) 棒性好,具有较强描述能力,在应用时可以无需专家支
12 现代电子技术 2015 年第 38 卷

持。当然,它也存在一些缺陷,具体表现在:训练数据所 下取值。设定自适应变异概率为:
需要的时间较长;对所获取知识的理解上不够智能;开 ìk 3 ( f m - f min ) ( f avr - f min ), f m  f avr
Pm = í (3)
放性和可伸缩性也有一定局限性。 îk 4 ,                                                   f m > f avrc
传统的 BP 神精网络存在学习速度慢、抗干扰能力 式中: f m 是等待变异的个体适应值;k 3 ,k 4 通常在 0.5
弱以及容易陷入局部最小值等缺点,而传统的遗传算法 上下取值 [5⁃7]。
存在算法早熟以及局部寻优能力弱等问题;所以本文提
本文提出的改进型遗传优化 BP 神经网络算法的实
出一种通过改进常规遗传算法的染色体结构和遗传算
施步骤如下:
子,并且通过引入自适应交叉和变异概率来对 BP 神经
Step1:采 集 并 归 一 化 处 理 数 据 。 将 处 理 好 后 的 数
网络结构参数进行优化的改进型遗传优化 BP 神经网络
据分为训练样本数据和测试样本数据两大类。
模型 [3⁃4]。
Step2:对遗传优化算法模型的基本参数,如进化最
2 改进型 GA⁃BP 神经网络 大代数为 G ,种群的规模 N 以及隐含层节点数等进行
设定。
本文为了提高 BP 神经网络的性能,针对常规遗传
Step3:对种群上层种群个体使用二进制编码,对种
算法的染色体结构和遗传算子进行改进。引入自适应
群下层种群个体使用实数编码。
交叉、变异概率以平衡优化 BP 神经网络的结构和初始
Step4:对种群各个个体解码以确定 BP 神经网络的
权重。
结构参数。
(1)染色体结构设计。本文将染色体基因结构分
为上下两层结构,分别为控制基因和参数基因两层,从 Step5:遗传操作种群中适应度优异的个体。

而对常规的遗传算法优化 BP 神经网络模型进行改进。 Step6:对 种 群 中 遗 传 个 体 使 用 自 适 应 概 率 进 行 交

处于上层的控制基因通过对 BP 神经网络的隐含层节点 叉、变异操作,获得新的子群。


数优化从而实现对 BP 神经网络结构的优化。处于下层 Step7:对上下层的子群个体解码以对 BP 神经网络
的参数基因主要对 BP 神经网络的连接权值和阈值进行 隐含层节点数、权值和阈值等结构参数进行更新。
优化。 Step8:如果迭代步数达到设定最大值或者最佳个体
(2)设计适应度函数。本文将适应度函数表示为: 适应度值满足要求, 否则从 Step5 继续循环。
进入下一步,
f = a∗f rmse + b∗f com   , 0 < a, b < 1 Step9:对适应值最佳的个体进行解码以确定最佳的
1
n
BP 神经网络隐含层节点数、阈值和连接权值等参数[8]。
∑ ( y i - ŷ i )
2
f rmse = (1)
n i=1
3 数据挖掘应用实例
f com = N (1) ( N ( 0 ) + N (1))
式中:n 为训练样本个数;f rmse 是训练数据的均方根误 本文以煤矿空压机的故障诊断系统为实例,
对提出的
差,处于 0~1 之间;y i 和 ŷ i 分别是实际值和识别值。 基于改进型 GA⁃BP神经网络的数据挖掘模型进行研究。
(3)算子选择。本文提出的改进型遗传优化 BP 神 3.1 煤矿空压机故障诊断系统
经网络算法使用最优个体保留方法实现算子选取以常规 在建立空压机故障诊断模型之前,首先要通过查阅
[5]
的适应值比例算法选取方法引起的局部最小值等问题 。 大量的空压机使用说明、故障说明、专家、操作人员的现
(4)交叉、变异算子。本文提出的改进型遗传优化 场使用经验以及集合现在实时监测数据对空压机故障
BP 神经网络算法的上层控制基因采用单点交叉和基本 类型、故障来源等问题进行归纳总结。
位变异算子,下层的参数基因使用整体算数交叉和非一 以某煤矿的煤矿空压机故障诊断系统为例进行研
致变异算子。 究。通过经验及现场数据对煤矿空压机归纳出 5 种工
(5)自适应交叉、变异概率。本文通过对自适应交 作状态,用符号 Y1~Y5 表示,即为神经网络故障诊断模型
叉、变异概率进行设计以平衡优化 BP 神经网络的结构和 的输出。Y1~Y5 分别表示:煤矿空压机为无故障工作状
初始权重,具体设计过程如下,设定自适应交叉概率为: 态;煤矿空压机冷却水系统出现故障的工作状态;煤矿
ìk1 ( f c - f min ) ( f avr - f min ), f c  f avr 空压机润滑系统出现故障的工作状态;煤矿空压机轴承
Pc = í (2)
îk 2 ,                                                   f c > f avrc 出现故障的工作状态;煤矿空压机电路系统出现故障的
式中:f avr ,f min 及 f c 分别是种群的平均适应值、最小适 工作状态。
应值以及交叉个体偏小的适应值;k1 ,k 2 通常在 1.0 上 当煤矿空压机出现上述故障情况时,会有相应的故
第 20 期 陈小燕:机器学习算法在数据挖掘中的应用 13

障征兆,根据经验及文献可以将煤矿空压机的故障征兆 10 组部分用于网络训练和测试的数据样本。
或者故障现象归纳为 10 种,用符号 X1~X10 表示,即为神 表1 空压机故障状态及故障现象关系
经网络故障诊断模型的输入。X1~X10 分别表示:煤矿空
故障 故障现象
压机排气量过低、空压机排气压力不足、空压机排气温 状态
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
度超限、空压机冷却水温度超限、空压机冷却水压力不
Y1 0 0 0 0 0 0 0 0 0 0
足、空压机主机转速低限、空压机振动超限、空压机润滑
系 统 油 温 超 限 、空 压 机 润 滑 油 压 力 不 足 以 及 轴 承 温 度 Y2 0 0 1 0 1 0 0 0 1 0

超限。 Y3 0 0 1 0 0 0 1 1 1 1

煤矿空压机的故障征兆或者故障现象与煤矿空压 Y4 1 1 0 0 1 1 1 0 0 1

机出现故障的工作状态有一定的内在联系,但又不是一 Y5 1 0 0 1 0 1 0 1 0 0
一对应的,属于非线性关系,在此将归纳整理的煤矿空
本文将所有用于训练和测试的数据样本进行归一
压机的故障状态和故障现象之间的内在联系列于表 1。
化处理以消除不同传感器信号数据不同量纲产生的影
通过长期的现场监测得到了大量关于煤矿空压机
响,通过式(4)将所有数据归一到 0.05~0.95 之间:
在正常工作及各种故障状态下的系统数据。通过对数
S * = 0.9(S - S min ) ( S max - S min ) + 0.05 (4)
据处理选取 100 组数据作为基于数据挖掘的故障诊断
系统的训练数据样本,选取 100 组数据用于基于数据挖 式中:S 为归一化处理之前的值;S max 为是归一化处理
掘的故障诊断系统的性能测试数据样本。表 2 列出了 的最大值;S min 为是归一化处理的最小值。
表2 训练和测试数据样本
序 排气压 排气量/ 排气 冷却水 冷却水压 主机转速 / 主机振 润滑油 润滑油 轴承温 故障
号 力/MPa (M3/min) 温度 /℃ 温度 /℃ 力 /MPa (r/min) 动 /mm/s2 温度 /℃ 压力 /MPa 度 /℃ 类型
1 0.80 30.41 38.91 19.92 0.33 1 502.01 8.22 77.80 0.56 120.70 1,0,0,0,0

2 0.65 25.21 40.21 20.31 0.28 1 434.00 7.70 82.52 0.71 114.21 1,0,0,0,0

3 0.72 28.21 36.40 28.92 0.05 1 477.02 7.91 79.92 0.48 100.92 0,1,0,0,0

4 0.69 30.22 40.11 21.60 0.18 1 479.01 5.91 81.82 0.67 119.51 0,1,0,0,0

5 0.67 28.11 42.51 36.20 0.09 1 520.00 8.90 81.91 0.71 117.22 0,1,0,0,0

6 0.67 29.21 43.71 33.41 0.30 1 388.01 7.21 96.50 0.51 102.12 0,0,1,0,0

7 0.41 17.21 35.92 26.41 0.27 1 321.01 9.41 79.22 0.63 115.21 0,0,0,1,0

8 0.40 19.71 36.21 27.21 0.38 1 206.01 15.12 86.21 0.59 119.72 0,0,0,1,0

9 0.41 16.51 36.42 21.62 0.33 1 362.01 6.72 78.90 0.63 120.91 0,0,0,1,0

10 0.45 19.61 34.62 21.21 0.22 1 501.02 16.71 94.21 0.40 109.21 0,0,0,0,1

建立基于本文提出的基于改进型 GA⁃BP 神经网络 设定遗传算法中种群的规模为 N = 150 ,进化最大


的故障诊断系统主要分为两大块: 代 数 为 G = 300 ,及 其 他 参 数 b = 0.1 ,k1 = k 2 = 1.0 ,
第一块是利用改进 GA 算法对 BP 神经网络结构参 k 3 = k 4 = 0.5 。
数进行优化,如阈值 θ j ,γ 、隐层节点数 m 以及连接权 通过遗传算法优化的平均适应度曲线如图 1 所示,
值 w j1 ,w ij 等;第二块就是根据优化后的 BP 神经网络结 隐含层节点数优化曲线如图 2 所示,最终隐含层节点数
构参数进行建模。 通过 189 次的迭代后确定为 22。
故障诊断系统的输入单元数由煤矿空压机故障现 3.2 基于数据挖掘的空压机故障诊断分析
象确定,通过上述分析,确定数量为 10,即 X1~X10;输出 针对上述建立的煤矿空压机故障诊断系统进行仿
单 元 个 数 由 煤 矿 空 压 机 的 工 作 状 态 确 定 ,通 过 上 述 分 真研究,为了比较本文提出的改进型 GA⁃BP 神经网络算
析,确定数量为 5,即 Y1~Y5;隐含层为单层,单元数量一 法的优越性能,使用基于常规 GA 优化的 BP 神经网络建
般先通过经验试凑法确定为 16。初始阈值 θ j ,γ 以及 立同样的煤矿空压机故障针对系统,使用同样的训练数
初始连接权值 w j1 ,w ij 在-3~3 范围内取值;神经网络的 据样本进行网络训练,使用同样的测试数据样本进行性
最大训练次数设定为 3 000,精度为 10 。 -3
能测试。使用采集并处理后的 100 组训练样本对模型进
14 现代电子技术 2015 年第 38 卷

行 训 练 ,得 到 两 种 模 型 的 误 差 逼 近 曲 线 如 图 3,图 4
所 示。

图4 改进 GA 优化的 BP 神经网络训练误差

可以看出,相比于常规 GA 优化的 BP 神经网络,本文


提出的改进型 GA⁃BP 神经网络算法所建立的故障诊断模
图1 平均适应度变化
型的性能更优,
检测准确率以及速度更快,
误判率极低。

4 结 论

数据挖掘技术是在整个社会发展中随着科学和技
术 的 不 断 进 步 而 顺 应 需 要 所 生 ,在 近 年 来 发 展 十 分 迅
速。本文针对机器学习算法中的人工神经网络算法在
数据挖掘技术中的应用进行了研究,提出一种通过改进
常规遗传算法的染色体结构和遗传算子,并且通过引入
图2 隐含层节点数更新过程 自适应交叉和变异概率来对 BP 神经网络结构参数进行
优化的改进型遗传优化 BP 神经网络模型。最后通过将
提出的基于改进 GA⁃BP 神经网络算法的数据挖掘技术
应用于无法用数学模型建立、具有复杂非线性、数据庞
大的煤矿空压机故障诊断系统中。

参 考 文 献

[1] 胡 秀.基 于 Web 的 数 据 挖 掘 技 术 研 究 [J].软 件 导 刊 ,2015(1):


149⁃150.
图3 常规 GA 优化的 BP 神经网络训练误差 [2] 李仕琼.数据挖掘中关联规则挖掘算法的分析研[J].电子技术
与软件工程,2015(4):200⁃202.
通过对比可以看出,使用本文提出的改进型 GA⁃BP
[3] 陈勇.一种目标行为序列模式的数据挖掘方法[J].无线电通信
神经网络算法经过 569 次迭代就使得误差达到了设定 技术,2015(2):79⁃81.
范 围 内 ,而 使 用 常 规 GA 优 化 的 BP 神 经 网 络 算 法 经 过 [4] 于书媛,陈靓,王伟.基于空间数据挖掘的合肥市应急避难场
2 779 次迭代才使得误差满足要求。因此在网络的训练 所选址[J].地理空间信息,2015(1):93⁃95.
速 度 、收 敛 速 度 和 收 敛 精 度 方 面 ,本 文 提 出 的 改 进 型 [5] 庄健,杨清宇,杜海峰,等.一种高效的复杂系统遗传算法[J].软

GA⁃BP 神经网络算法更胜一筹。 件学报,2010(11):2790⁃2801.


[6] 刘磊.基于遗传神经网络的指数跟踪优化方法[J].系统工程理
下面使用采集并处理后的 100 组测试数据样本对
论与实践,2010(1):22⁃29.
故障诊断模型的诊断性能进行测试。测试结果表明,常
[7] 宋国峰,梁昌勇,梁焱,等.改进遗传算法优化 BP 神经网络的
规 GA 优化的 BP 神经网络的诊断正确率为 87.5%,诊断
旅 游 景 区 日 客 流 量 预 测 [J].小 型 微 型 计 算 机 系 统 ,2014(9):
时间为 564 s,输出值不稳定,而本文提出的改进型 GA⁃ 2136⁃2141.
BP 神经网络的诊断正确率为 98.2%,诊断时间为 246 s, [8] 李松,刘力军,解永乐.遗传算法优化 BP 神经网络的短时交通
输出值稳定。 流混沌预测[J].控制与决策,2011(10):1581⁃1585.

作者简介:陈小燕(1980—),女,江苏如皋人,讲师。研究方向为计算机应用技术。

You might also like