标题 | 基于贝叶斯信念网络的多层传感网异常识别模型的设计 |
范文 | 刘冰 摘要:多层传感网由于其不同层次的异常特征差异较大,导致其异常数据识别存在一定的困难。传统的识别方法多以数据流量异常为参照指标,并在建模过程中需要明确不同层次之间的关联,否则就无法设置检测阈值,因此导致了误报警情况频发。该文提出将贝叶斯信念网络引入到多层传感网异常数据检测模型中,并通过评估函数来测试不同的网络结构与多层传感网中某一层的契合度,随后采用压缩候选方法来分析异常数据间的依赖关系,从而对采集到的数据样本进行筛选,最终挖掘出异常数据。 关键词:多層传感网;异常数据;数据挖掘;识别模型 中图分类号:TP393? ? ? ? 文献标识码:A 文章编号:1009-3044(2019)22-0189-02 开放科学(资源服务)标识码(OSID): 1 引言 多层传感网在现代工业生产的实时监控领域内发挥了重要的作用,是动态调节设备运转状态,保障生产水平的主要方式之一。随着精细化控制理念的提出,监控系统对数据采集与分析的标准不断提高,多层传感网的异常数据导致的负面影响日益突出,传统的异常检测方法误警率高,且检出率也不甚理想,迫切需要改进。目前,借助高效的数据挖掘技术,对网络中多层传感器故障数据进行可靠的识别与分类已经成了该领域内研究的热点。多层传感网最大的特点就是其不同层次的异构性较大,因而也导致了不同层次内由于传感器故障而监测到的异常数据特征多样化,这也是典型的故障特征“断层”问题的根本原因。 2 多层传感网异常数据检测机制分析 多层传感网目前已经得到了广泛应用,尤其在一些特殊环境下,更是控制系统获取被控对象实时状态信息的首选模式。由于多层传感网本身的复杂性和异构性,导致监测信息无法快速的与其对应的被控对象之间形成映射关联,增加了分析的难度。传统的基于数据流量异常的检测模式主要流程如下: 首先引入干扰因子[β∈[0,1]],其作用是对决策树的分类质量进行评估,通过对该参数的计数实现对样本的采样次数进行调整,同时根据该参数的取值与偏差节点同根节点之间的差距,与树深(出现误差的层数)相映射,从而描述当前节点分类的误差程度,显然,当[β]=1时表示分类正确。其次,当前节点的[β]值比之前节点更加趋向于0时,表明分类误差加剧,此时构造替代子树来改善分类质量:在初始属性分叉处,若新样本属性模糊信息增益相对较大,则以其为根节点,构造一棵新的子树。最后,为了实现对替代子树的约束,确保其落在合理的分类范围之内,也需要评价该子树的分类精确度,并同原树相比,根据增量来灵活的调整子树的[β]值。 该流程中最关键的环节就是需要在滑动窗口中设定一个阈值[ξ],设滑动窗口涵盖的样本群体个数为[W],而[W]为干扰因子计数[βcount],规定当[W≤ξ]时,判定节点性能异常,需进行纠正,通过替代子树缩小滑动窗口,直至[W>ξ]。由此可见,对于该检测方法而言,最关键的就是选取合适的阈值[ξ],从而保障判定结果的准确性。但多层传感网由于其异构性较大,因此很难确定一个合理的定值[ξ],这也是传统检测方法普遍质量不高的重要原因。 3 基于贝叶斯信念网络的检测模型优化方案 传感器网络异常的主要原因是传感器节点出现故障,从而发出了异常突变的信号,并导致一系列的连锁反应,最终使得监测模型发生重大的偏差。由于该过程动态性极强,因此很难通过传统方法进行自适应的判定。贝叶斯网络可通过概率描述数据集内所有样本之间的关联,而个别数据的丢失或异常不会改变整体的描述结论,从而也不会对分类结果产生影响。因此,将贝叶斯信念网络的理念引入到多层传感网的异常检测模型当中,可显著的提高检测机制的动态性与准确性,有效的改善误报警现象。 3.1 贝叶斯信念网络原理 定义1:对于一个任意样本集[x=X1,X2,…Xn],若其中的一条联合条件概率散布,则有: [B=G,θ]? ? ? ? ? ? ? ? ? (1) 上式中,[X]为某一单一样本,用m维向量表示;[G]为有向无环图,该图顶点即为样本集中的某个样本,弧度的大小则用以表示函数依赖关系的高低;θ代表建模过程中预定的参数组合。 定义2:如果有一条弧从变量Y连接到了X,则Y是X的双亲或者直接前驱,反之则为其后继。节点群中任一节点,除了与其后继节点构建关联外,与其他节点均保持独立。[G]中某个节点[Xi]的所有前驱节点构建的集合为[Pa(Xi)]。 定义3:对于所有的[Xi],[Pa(Xi)]的取值[x1]存在以下参数:[θxi/Pa(Xi)=P(xiPa(Xi))],则贝叶斯信念网络给定的变量集合[Xi]上的联合条件概率分布为: [PB(X1,X2,…Xn)=i=1nPB(xiPa(Xi))]? ? ? ? ? ?(2) 3.2 异常识别模型的设计 将贝叶斯算法引入到多层传感网异常识别模型中,可将其作用过程描述如下:首先将样本集[D=x1,x2,…xn]定义为一组故障数据训练样本,其中[xi]是X的实例,根据贝叶斯网络的运算机制,可通过一个估算函数[S(B|D)]来完成针[xi]的贝叶斯网络的构建,同时也运用该函数来评价任意一种网络拓扑与故障数据样本间的适应度,从而收敛至一个最符合的解,即在所有可能的网络拓扑当中,是硬度最高的故障数据样本。在传统的贝叶斯网络算法中,其搜索机制必须在双亲变量的n-1个候选节点中遍历,而并没有充分利用变量之间的关联特征,导致了大量的无效计算,提高了算法的空间复杂度,因此效果不好。本文提出在父节点之间设置互斥关联,从而大幅压缩查询规模的优化思路,即通过一个依赖度量函数[H(X,Y)]来评估两个多层传感器故障数据[(X,Y)]间的依赖程度,[H(X,Y)]值越大,关联性越强,其成为父子的可能性就越大,反之亦然。根据[H(X,Y)]的计算,可以掌握所有传感器异常数据间的关联性,并快速获取某个样本[Xi]的所有父节点数据,并对其进行集中检索。改进后的识别模型算法如下: Step 1:设置输入端,构建多层传感网异常数据集[D=x1,x2,…xn]中某一样本的贝叶斯信念网络[Bn],设定估算函数[S(B|D)]和参数k。 Step 2:设置输出端,对任意的异常数据样本[Xi],返回一个k候选父集[Ci]。 Step 3:针对样本集中的任意样本[Xj],计算[H(Xi,Xj),Xi≠Xj]。 Step 4:选择计算结果中权值最高的的k-1个样本,[l=|Pa(Xi)|],候选集合[Ci=Pa(Xi)Y{X1,X2,…,Xk-1}]返回[Ci]。 4 实验与分析 为论证本文提出的优化模型在多层传感网异常数据的检测过程中能够发挥其作用,特进行模拟实验。模拟环境为VisualC++6.0。预定采集到的样本总数为n,所有数据的特征由集合[g1,g2,…,gm]描述,样本群中包含的异常数据规模为p,所有数据的平均散布系数是μ。采用下式评价异常检出的正确率: [Ψ=n-pg2i-μ×100%]? ? ? ? ? ? ? ? (3) 为了对比分析本文方法的有效性,引入传统的检测方法作为参照,共同完成了10轮模拟测试,并将数据汇总,如表1所示。 效果對比如图1所示。 通过对比分析后可以发现,本文提出的优化模型明显提高了对异常数据检出的准确率,得益于贝叶斯信念网络在多维特征解间的关联分析能力,模型可以更加合理的评估某条样本出现异常的概率,同时也基于本文提出的父节点关联互斥方法,模型的计算规模得到了有效的压缩,使得整个算法的复杂度并未提高。 5 结论 目前,随着各种智能算法的不断提出,对于大规模数据的实时监控能力得到了显著的加强。多层传感网由于层数多,传感器种类差异大,因此其故障特征多样,导致数据异常的种类较多,很难采用统一的检测标准进行评测,因此异常检出率不高,且误报警情况一直无法得到有效控制。本文提出的基于贝叶斯信念网络的多层传感网异常数据检测模型,充分利用了贝叶斯信念网络强大的样本关联能力,以及对多个样本进行联立评估的方法,有效改善了原本针对孤立样本进行单独评价的机制造成的问题,通过评估函数评估各个可能的网络结构与样本多层传感器故障数据间的适应度,找到最符合数据异常特征的解,并以此为基础展开搜索,根据异常数据间的依赖关系,构建出异常数据样本集,实现了多层传感网的异常检测目标。 参考文献: [1] 于强.基于模糊关联规则并行挖掘算法的飞行数据处理[J].微计算机信息,2009,5(3):148-150. [2] 李浪,李仁发.基于数据流异常挖掘的入侵检测系统设计[J].科学技术与工程,2008,8(13):3500-3503. [3] 李国徽,陈辉.挖掘数据流任意滑动时间窗口内频繁模式[J].软件学报,2008,19(10): 2585-2596. 【通联编辑:代影】 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。