Professional Documents
Culture Documents
机器学习算法在数据挖掘中的应用
机器学习算法在数据挖掘中的应用
2015
第 38 卷第 20 期 Modern Electronics Technique Vol. 38 No. 20
11
机器学习算法在数据挖掘中的应用
陈小燕
(江苏农林职业技术学院,江苏 句容 212400)
摘 要:针对数据挖掘算法中常用的机器学习型算法进行研究。机器学习型算法特色是运用了人工智能技术,能在大
量样本集训练和学习后自动找出运算需要的参数和模式。以机器学习型算法中的人工神经网络为例研究数据挖掘技术,针
对学习速度慢、抗干扰能力弱以及容易陷入局部最小值等缺点和传统的遗传算法存在算法早熟以及局部寻优能力弱等问
题,提出一种通过改进常规遗传算法的染色体结构和遗传算子,并且通过引入自适应交叉和变异概率来对 BP 神经网络结构参
数进行优化的改进型遗传优化 BP 神经网络模型。最后通过煤矿空压机故障诊断系统这一实例来研究改进型算法的数据挖掘
技术的性能。研究结果表明,改进后的算法建立的诊断模型相比常规神经网络的诊断模型诊断准确率更好,诊断效率更快。
关键词:数据挖掘;BP 神经网络;遗传优化算法;空压机故障诊断
中图分类号:TN957.52+9⁃34;TP274 文献标识码:A 文章编号:1004⁃373X(2015)20⁃0011⁃04
Abstract:The machine learning algorithm commonly used in data mining algorithm is studied in this paper. AIT(artificial
intelligence technology) is adopted in machine learning algorithm,which can automatically find out the parameters and modes
required by operation after a large number of sample set training and learning. The artificial neural network in machine learning
algorithm is taken as an example to research the data mining technology. Since the traditional genetic algorithm has the short⁃
comings of prematurity and weak local optimizing capacity,the improved genetic optimization BP neural network model is pro⁃
posed by improving the chromosome structure and genetic operator,and by introducing adaptive crossover and mutation probability
to optimize neural network structure parameters and solve the problems of slow learning speed,weak anti ⁃ jamming capability,
and easily falling into local minimum value. Finally,the performance of the improved algorithm is studied by using the fault di⁃
agnosis system of air compressor. The research results show that the improved diagnostic model,compared with the conventional
neural network diagnosis model,has better diagnostic accuracy and higher diagnostic efficiency.
Keywords:data mining;BP neural network;genetic optimization algorithm;fault diagnosis of air compressor
0 引 言 1 数据挖掘
数据挖掘技术是在整个社会发展中随着科学和技 数据挖掘算法中常用的有机器学习型算法和统计
术的不断进步而顺应需要所生。随着信息化技术的不 型算法两类。前者的特色是运用了人工智能技术,能在
断普及,人类社会逐步进入到信息化社会中,信息化管 大量样本集训练和学习后自动找出运算需要的参数和
理技术随之不断提升,成本却同时逐步下降,数据管理 模式;后者则常用相关性分析、聚类分析、概率和判别分
析等进行运算。不同算法当然有着各自不同的对应领
技 术(Data Management Technology)在 各 企 事 业 单 位 中
域和目标,它们既能单独使用,也能相互结合。
进一步普及,从而推动企事业单位内部职能部门间的沟
机器学习型算法中人工神经网络方法被普遍运用,
通联络。但是,随之而来的弊病是海量数据的累积导致
它具有极好的数据处理能力和自组织学习能力,并且能
数据分析的困难 [1⁃2]。
准确进行识别,从而有助于分类问题中的数据处理。人
工神经网络通过建构模型而工作,其模型多样,能满足
收稿日期:2015⁃04⁃25
基金项目:国家自然科学基金:基于 Sieve Bootstrap 方法的长记
不同需求。总体来看,人工神经网络模型精确度高、鲁
忆过程变点研究与应用(11301291) 棒性好,具有较强描述能力,在应用时可以无需专家支
12 现代电子技术 2015 年第 38 卷
持。当然,它也存在一些缺陷,具体表现在:训练数据所 下取值。设定自适应变异概率为:
需要的时间较长;对所获取知识的理解上不够智能;开 ìk 3 ( f m - f min ) ( f avr - f min ), f m f avr
Pm = í (3)
放性和可伸缩性也有一定局限性。 îk 4 , f m > f avrc
传统的 BP 神精网络存在学习速度慢、抗干扰能力 式中: f m 是等待变异的个体适应值;k 3 ,k 4 通常在 0.5
弱以及容易陷入局部最小值等缺点,而传统的遗传算法 上下取值 [5⁃7]。
存在算法早熟以及局部寻优能力弱等问题;所以本文提
本文提出的改进型遗传优化 BP 神经网络算法的实
出一种通过改进常规遗传算法的染色体结构和遗传算
施步骤如下:
子,并且通过引入自适应交叉和变异概率来对 BP 神经
Step1:采 集 并 归 一 化 处 理 数 据 。 将 处 理 好 后 的 数
网络结构参数进行优化的改进型遗传优化 BP 神经网络
据分为训练样本数据和测试样本数据两大类。
模型 [3⁃4]。
Step2:对遗传优化算法模型的基本参数,如进化最
2 改进型 GA⁃BP 神经网络 大代数为 G ,种群的规模 N 以及隐含层节点数等进行
设定。
本文为了提高 BP 神经网络的性能,针对常规遗传
Step3:对种群上层种群个体使用二进制编码,对种
算法的染色体结构和遗传算子进行改进。引入自适应
群下层种群个体使用实数编码。
交叉、变异概率以平衡优化 BP 神经网络的结构和初始
Step4:对种群各个个体解码以确定 BP 神经网络的
权重。
结构参数。
(1)染色体结构设计。本文将染色体基因结构分
为上下两层结构,分别为控制基因和参数基因两层,从 Step5:遗传操作种群中适应度优异的个体。
障征兆,根据经验及文献可以将煤矿空压机的故障征兆 10 组部分用于网络训练和测试的数据样本。
或者故障现象归纳为 10 种,用符号 X1~X10 表示,即为神 表1 空压机故障状态及故障现象关系
经网络故障诊断模型的输入。X1~X10 分别表示:煤矿空
故障 故障现象
压机排气量过低、空压机排气压力不足、空压机排气温 状态
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
度超限、空压机冷却水温度超限、空压机冷却水压力不
Y1 0 0 0 0 0 0 0 0 0 0
足、空压机主机转速低限、空压机振动超限、空压机润滑
系 统 油 温 超 限 、空 压 机 润 滑 油 压 力 不 足 以 及 轴 承 温 度 Y2 0 0 1 0 1 0 0 0 1 0
超限。 Y3 0 0 1 0 0 0 1 1 1 1
煤矿空压机的故障征兆或者故障现象与煤矿空压 Y4 1 1 0 0 1 1 1 0 0 1
机出现故障的工作状态有一定的内在联系,但又不是一 Y5 1 0 0 1 0 1 0 1 0 0
一对应的,属于非线性关系,在此将归纳整理的煤矿空
本文将所有用于训练和测试的数据样本进行归一
压机的故障状态和故障现象之间的内在联系列于表 1。
化处理以消除不同传感器信号数据不同量纲产生的影
通过长期的现场监测得到了大量关于煤矿空压机
响,通过式(4)将所有数据归一到 0.05~0.95 之间:
在正常工作及各种故障状态下的系统数据。通过对数
S * = 0.9(S - S min ) ( S max - S min ) + 0.05 (4)
据处理选取 100 组数据作为基于数据挖掘的故障诊断
系统的训练数据样本,选取 100 组数据用于基于数据挖 式中:S 为归一化处理之前的值;S max 为是归一化处理
掘的故障诊断系统的性能测试数据样本。表 2 列出了 的最大值;S min 为是归一化处理的最小值。
表2 训练和测试数据样本
序 排气压 排气量/ 排气 冷却水 冷却水压 主机转速 / 主机振 润滑油 润滑油 轴承温 故障
号 力/MPa (M3/min) 温度 /℃ 温度 /℃ 力 /MPa (r/min) 动 /mm/s2 温度 /℃ 压力 /MPa 度 /℃ 类型
1 0.80 30.41 38.91 19.92 0.33 1 502.01 8.22 77.80 0.56 120.70 1,0,0,0,0
2 0.65 25.21 40.21 20.31 0.28 1 434.00 7.70 82.52 0.71 114.21 1,0,0,0,0
3 0.72 28.21 36.40 28.92 0.05 1 477.02 7.91 79.92 0.48 100.92 0,1,0,0,0
4 0.69 30.22 40.11 21.60 0.18 1 479.01 5.91 81.82 0.67 119.51 0,1,0,0,0
5 0.67 28.11 42.51 36.20 0.09 1 520.00 8.90 81.91 0.71 117.22 0,1,0,0,0
6 0.67 29.21 43.71 33.41 0.30 1 388.01 7.21 96.50 0.51 102.12 0,0,1,0,0
7 0.41 17.21 35.92 26.41 0.27 1 321.01 9.41 79.22 0.63 115.21 0,0,0,1,0
8 0.40 19.71 36.21 27.21 0.38 1 206.01 15.12 86.21 0.59 119.72 0,0,0,1,0
9 0.41 16.51 36.42 21.62 0.33 1 362.01 6.72 78.90 0.63 120.91 0,0,0,1,0
10 0.45 19.61 34.62 21.21 0.22 1 501.02 16.71 94.21 0.40 109.21 0,0,0,0,1
行 训 练 ,得 到 两 种 模 型 的 误 差 逼 近 曲 线 如 图 3,图 4
所 示。
图4 改进 GA 优化的 BP 神经网络训练误差
4 结 论
数据挖掘技术是在整个社会发展中随着科学和技
术 的 不 断 进 步 而 顺 应 需 要 所 生 ,在 近 年 来 发 展 十 分 迅
速。本文针对机器学习算法中的人工神经网络算法在
数据挖掘技术中的应用进行了研究,提出一种通过改进
常规遗传算法的染色体结构和遗传算子,并且通过引入
图2 隐含层节点数更新过程 自适应交叉和变异概率来对 BP 神经网络结构参数进行
优化的改进型遗传优化 BP 神经网络模型。最后通过将
提出的基于改进 GA⁃BP 神经网络算法的数据挖掘技术
应用于无法用数学模型建立、具有复杂非线性、数据庞
大的煤矿空压机故障诊断系统中。
参 考 文 献
作者简介:陈小燕(1980—),女,江苏如皋人,讲师。研究方向为计算机应用技术。