Web网络中的离群数据挖掘技术研究与改进

翁佩纯+张远海+马慧



摘 要: 离散数据在Web网络中分布较广,是造成数据挖掘有用信息容量低的主要原因。霍金斯离散数据挖掘方法自提出以来获得了很高的成就,但仍存在挖掘数据分类性能不高的缺点,在此,使用BP神经网络对其进行改进。霍金斯离散数据挖掘方法分离散数据扫描和离散信息挖掘两个步骤进行,所提改进方法通过优化原方法中离散数据的排序规律,挖掘最优BP神经网络连接节点权值集群,改进离散数据集群的正确分区能力,降低离散信息挖掘过程的时空复杂度,提高原方法的分类精度和分类效率。实验结果表明,所提改进方法在Web网络离散数据中能获取高度可靠的挖掘结果。
关键词: Web网络; 霍金斯离群数据挖掘; 改进的离散信息挖掘; BP神经网络
中图分类号: TN711?34; TP301.6 文献标识码: A 文章编号: 1004?373X(2017)18?0029?03
Research and improvement of outlier data mining technology in Web network
WENG Peichun1, ZHANG Yuanhai2, MA Hui1
(1. Zhongshan Institute, University of Electronic Science and Technology of China, Zhongshan 528400, China;
2. Zhongshan Torch Polytechnic, Zhongshan 528403, China)
Abstract: Discrete data has a wide distribution in the Web network, and is the main reason causing the low capacity of useful information. Since Hawkins discrete data mining method was put forward, it has been obtain a high achievement, but it still exists a fault that its data classification performance is not high. Therefore, the BP neural network is adopted to improve it. Hawkins discrete data mining method is divided into two steps: discrete data mining and discrete information mining. The improved method can optimize the discrete data sorting law of the original method, mine the optimal weight of BP neural network connecting node, improve the correct partition ability of discrete data cluster, reduce the time and space complexity in the process of discrete information mining, and improve the classification accuracy and classification efficiency of the original method. The experimental results show that the improved method can obtain highly reliable mining results in discrete data of Web network.
Keywords: Web network; Hawkins outlier data mining; improved outlier data mining; BP neural network
0 引 言
在Web网络与人工智能的发展进程中,产生了“数据挖掘”这种专门针对数据进行深层原理解析的研究技术。随着网络科技的不断进步,Web网络作为广大网民收集知识的主要媒介,往往却只能索引到不足30%数据容量的有用信息,在大部分网页中显示的均为无用动态信息,而且数据结构混乱、复杂,可借鉴性不高。离散数据在Web网络中分布较广,是造成数据挖掘有用信息容量低的主要原因。由于离散数据结构的相对孤立性和整体分散性,研究者霍金斯曾在1980年提出“离散数据与普通数据产生机理不相同”的理念,并展开Web网络中离群数据挖掘方法的研究工作,在这一挖掘方法上进行改进,对网络科技的发展具有很大的增益效果。
1 Web网络中的离群数据挖掘方法研究
Web网络中离散数据的定义是:“不符合既定数据规律的少数、异常性数据” [1],在计算误差、设备运转失误或者传输偏差等网络行为中均可能产生离散数据。霍金斯在研究中发现,几乎每个离散数据都对应着Web网络的异常行为或规则,是网络防入侵、数据防异常的重要媒介。
图1是霍金斯离散数据挖掘方法的处理原理,在一个完整的离散数据挖掘流程内,网格细化法[2]是数据挖掘的重要处理方法。

图1 霍金斯离散数据挖掘方法原理图
在霍金斯离散数据挖掘方法的离散数据扫描过程中,需要对每个局部细化区间分别构建哈希查询表,聚类数据获取精度高,为高水准数据挖掘提供了可能。但是,离散信息挖掘的密度检测过程没能很好地将离散数据控制在一个Web节点最大负荷内,存储挖掘信息时经常不能将同一聚类区间的离散信息放在一起,后续还需要进行比较复杂的分类处理[3]。可见,霍金斯離散数据挖掘方法的缺点主要是时空复杂度大,式(1)是时空复杂度[O]的计算公式:
[O=O(N)+O(n2)] (1)
式中:[O(N)]是离散数据扫描的时空复杂度,与离散数据总量[N]有关;[O(n2)]是离散信息挖掘的时空复杂度;[n]是扫描结果数据总量。一般而言[n]远小于[N],由于Web网络中离散数据维度很高,故用[n2]进行维度校正[4?5]。在接下来的改进处理中,将对霍金斯离散数据挖掘方法中的[O(n2)]进行降低,主要是提高挖掘结果的分类精度和分类效率。
2 霍金斯离散数据挖掘改进方法
2.1 改进原理
基于神经网络的霍金斯离散数据挖掘改进方法的核心是BP神经网络,所使用的改进原理是挖掘最优的关联网络连接点权值集群,得到挖掘结果后直接将其存储在原聚类区间。BP神经网络先任意设置权值集群内的数据点,数据大小区间[6]为(-1,1),权值控制方法通过修正权值梯度训练BP神经网络离散数据聚类结构,并且梯度修正也可以减少分类误差的产生。
设Web网络离散数据维度为[m],BP神经网络隐含层关联节点有[k]个,聚类区间用[C]表示,关联节点上的聚类区间表示为[C1,C2,…,Ck]。用初始权值划分聚类区间,对聚类区间中的离散数据进行训练,使得BP神经网络输入层和输出层中的离散数据与挖掘结果具有一一对应关系。BP神经网络隐含层上的节点处于休眠状态[7],需要对其进行激活,激活方式是把输入层连接权值串联成一个非线性驱动函数,计算结果用来激活休眠节点。将输入层第[i]个节点与隐含层第[k]个节点的连接权值表示为[wki],[1≤i≤k],设离散集群数据在输入层中的输入值为[Xi],则非线性驱动函数可表示为:
[ak=fi=1mwkiXi-tk] (2)
式中:[tk]表示隐含层第[k]个节点的偏置延时,能够实现大量离散数据在小范围上的信息映射;函数[f[·]]是曲面切面函数,设函数参量为[x],则[f[]]表示式为:
[f[x]=ex-e-xex+e-x] (3)
当隐含层所有节点都摆脱休眠状态后,BP神经网络输出层第[p]个节点将输出:
[Sp=nσp=1akvkp] (4)
式中:[σ[]]是输出层节点的休眠破坏函数,取值为[1ex+e-x];[vkp]是第[p]个输出层与第[k]个隐含层之间连接节点的权值。为了令Web网络挖掘信息能够被正确地分区域并存储起来,BP神经网络三个层次之间的权值应符合式(5)给出的条件:
[maxwki-vkp≤η] (5)
式中,[η]为阈值。当[Xi]位于首聚类区间[C1],[η=0.5];当[Xi]位于尾聚类区间[Ck],[η=1];其他情况下,[η=0]。
在此基础上,通过BP神经网络为霍金斯离散数据挖掘方法搜寻一个最优关联网络连接点权值集群。权值集群搜寻误差应先置于最小值,从而降低挖掘结果分类误差。式(6)是权值集群搜寻误差[E]的定义式,为了获取其最小值,设置式(7)所示的误差补偿函数,对不同聚类区间之间的交接点进行模糊化处理。使用[E]的最小值设置权值集群,可获取较高的Web网络离群数据挖掘精度。随后开始进行Web网络集群数据挖掘结果的分类,如式(8)所示。
[E=-i=1mp=1k{(tklogSp+tk-1)[log(1-Sp)]}] (6)
[P=ε1i=1kp=1kβ(wki)21+β(wki)2+ε2i=1kp=1kβ(vkp)21+β(vkp)2+ ε2i=1kp=1k(wki)2+i=1kp=1k(vkp)2] (7)
[Ck=xi,k-xp,k×n-Sp] (8)
式中:[ε1],[ε2]分别表示正、负权值的衰减变量;[β]为初始权值;[xi,k],[xp,k]分别表示输入层与隐含层、隐含层与输出层之间的离散数据聚类关联度。
2.2 改进方法基本要求
从第2.1节的函数推导中可以看出,基于BP神经网络的霍金斯离散数据挖掘改进方法能够优化原方法中离散数据的排序规律,使得数据挖掘精度可轻而易举地满足用户需求。图2对所提方法的改进流程进行了总结。因为BP神经网络在使用之前需要训练数据样本,这会消耗一定的时间,所以直接在输入层输入任意一次的霍金斯离散数据挖掘结果进行训练,但挖掘结果维度必须满足以下要求:高维度数据必须易于降维;离散数据属性可随意进行剔除和归一化操作。
根据用户对挖掘效率的要求,将挖掘结果降维并进行无用属性剔除和全局归一化,输入BP神经网络,经输出层输出离散数据聚类关联度,作为训练样本使用。按照关联度顺序激活隐含层和输出层的休眠节点,使输入层中的离散数据能够流通,从而获取最优关联网络连接点权值集群,提高挖掘结果的分类精度和分类效率,使霍金斯离散数据挖掘方法的时空复杂度得以降低。
3 实验分析
本次实验使用Web网络中的真实离散数据,所选类型是篮球比赛中与得分有关的离散数据,由于不同球员身体素质和得分技巧不同,每个球员均可看成不同离散度的离散数据集群,其数据属性关联度和权值集群也各不相同。使用本文所提基于BP神经网络的霍金斯离散数据挖掘改进方法对5名球员在Web网络中离散数据进行数据挖掘,分配球员上场时间。通过计算机建立云计算虚拟环境,分析这个分配方案在篮球比赛中的可靠性,如表1所示。
表1中,成功得分率等于球员投篮成功率减去违规率的,得分增益是指本文改进方法比赛得分相对于原篮球比赛得分的增加值。由表1可知,本文方法所提分配方案共能够得到27分的得分增益,这对篮球比赛来说是一个较大的比分差距,表明本文方法能获取高度可靠的挖掘结果。
4 结 论
本文提出一种借助BP神经网络对霍金斯离散数据挖掘方法进行改进的方法。通过学习Web网络中的离散数据行为,搜寻到BP神经网络最优关联网络连接点权值集群,使用这个集群管理离群数据挖掘结果的存储区间,对霍金斯离散数据挖掘方法的分类性能进行提高。最后,实验使用Web网络中的真实离散数据分析出本文所提改进方法是高度可靠的。
注:本文通讯作者为张远海。
参考文献
[1] 黄宏本.基于改进关联规则的危险Web信息挖掘技术研究[J].现代电子技术,2016,39(6):14?17.
[2] 李平.网络安全防范与Web数据挖掘技术的整合研究[J].信息安全与技术,2016,7(8):63?65.
[3] 施佺,钱源,孙玲.基于教育数据挖掘的网络学习过程监管研究[J].现代教育技术,2016,26(6):87?93.
[4] 钟旭东,黄章进,顾乃杰,等.Web文本分类中的标签权重自动优化研究[J].小型微型计算机系统,2016,37(5):890?894.
[5] 田秀娟.网络环境中不完整数据挖掘方法研究与仿真[J].计算机仿真,2016,33(10):454?457.
[6] 李建林,籍天明,孔令达,等.光伏发电数据挖掘中的跨度选取[J].电工技术学报,2015,30(14):450?456.
[7] 张继荣,王向阳.基于X ML数据挖掘的Apriori算法的研究與改进[J].计算机测量与控制,2016,24(6):178?180.