标题 | 基于Spark的三比值和随机森林结合的并行变压器故障诊断 |
范文 | 朱永利+刘少波+王方 摘要:随着智能化电网的建设过程,越来越多的电网系统监测数据被传回来在云平台上进行检测和诊断。针对在集群环境下,缺乏专有的变压器故障诊断模型;而随机森林在多分类问题中,准确率高,不容易出现过拟合但是特征最好离散等特点;结合变压器三比值法可以让连续的变压器油中溶解气体离散化,进而可以通过随机森林进行分类;而Spark环境可以提供一个并行的分布式的环境,和在内存上的计算可以加快运算的速度。基于Spark框架提出了三比值和随机森林结合的并行变压器故障诊断模型,并行的对变压器油中溶解气体数据集进行故障诊断,提高了变压器故障诊断的效率,有利于应对在极端情况下,可能面临的井喷式报警数据处理问题。 关键词:变压器;故障诊断;随机森林;Spark;三比值法 中图分类号:TP306+.3 文献标识码:A 文章编号:1009-3044(2017)27-0221-04 Abstract: With the construction of intelligent power grid, more and more monitoring data of power grid system is transmitted back to the cloud platform for detection and diagnosis. The fault diagnosis model of transformer in cluster environment is lacking. And the random forest in the multi-classification problem, the accuracy is high, it is not easy to have to fit but the characteristics are best to take discrete characteristics; Combined with the transformer three-ratio method, the data can be discretized and its characteristics are meaningful, which can satisfy the characteristics of random forest data. The spark environment can provide a distributed environment and computational speed in memory. The training model can be put on it to improve the speed of diagnosis, and to deal with the problem of blowout alarm data which may be faced in extreme cases. Key word: Transformer; Fault diagnosis; Random Forest; Spark; Three-ratio method 1 概述 在电力系统大数据环境的背景下,随着电力系统智能化的建设,越来越多的电力设备监测装置安装到电力系统的各个环节中,为了实时确保电力系统的运行状态,这些监测设备定时向数据管理中心发送设备检测数据,及时处理这些数据,从而判断电力系统设备的运行状况与健康状况,对电力系统具有重要的意义。其中包括变压器运行中油中溶解的各种气体的含量。这些状态监测数据能反映变压器的运行状况是否出现故障,以及出现故障的种类。由此也对变压器故障诊断的准确率和精确度提出了更高的要求。在电力系统大数据环境下,这些电力系统的状态监测数据有如下的特点。 数据规模大,数据具有时效性、数据的价值密度低。故障数据较之于正常数据所占比例特别低。已有的单机故障诊断系统难以满足要求。在并行框架上进行大规模监测数据的存储,以及实时的故障诊断成为了研究热点。 目前,大数据处理技术在智能电网中主要运用到大量数据的可视化,采集存储、数据挖掘等领域。对于海量数据处理分为流式处理和批处理两种方法。以批处理的方式处理数据对实时性没有要求,而对数据的准确性和全面性要求高。流处理的方式现只注重实时计算、及时反馈结果。 Hadoop和Spark是当前最流行的大数据框架。Hadoop较Spark提出较早,它包括Hadoop的分布式文件系统(HDFS),数据分析框架(MapReduce)。智能电网在Hadoop框架上已经做了许多研究运用。文獻[1]电力系统用户用电大数据特点,基于Hadoop设计开发了一套简单负荷预测系统,并用不同规模数据在该系统上进行了数据集预测分析,相比于单机系统,预测精度和效率都得到了提高。文献[2]利用数据挖掘算法在Hadoop上对测量系统数据进行了高效的处理。文献[3]基于Spark提出了随机森林并行的文本分类方法,分类效率上相比于Hadoop随机森林并行的对文本分类,在分类的效率上有了很大的提高。 2 算法原理 2.1 绝缘油产气原理 变压器油中绝缘油是由学多不同的分子量的碳氢化合物组成的混合物,其中某些C-C键和C-H键可能会因为放电故障或者过热故障而断裂分解形成一些游离的自由基,这些自由基马上聚合形成新的C-H化合物,溶解在变压器绝缘油中。下面是不同类型故障产生的气体具有以下规律。 所以在DGA(Dissolved Gas Analysis,变压器油中溶解气体)数据包括H2、CH4和C2H6、C2H4、C2H2、CO和CO2。通过对这些气体在油中溶解的浓度进行判断,进而诊断变压器运行状态。 2.2 随机森林 2.2.1 决策树的原理 决策树是一种树结构,每个叶子结点代表一种类别,而每个非叶结点表示数据在该特征属性上的测试分类,每个分支代表这个特征属性在某个值域上的输出。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子结点,将叶子结点存放的类别作为决策结果。 构建决策树的关键在于切分点的选择,切分点的选择直接影响这个决策树的分类性能。最佳切分点的选择方法就是量化纯度,具体的方法有信息增益,基尼指数,以及基于距离的划分。假设记录被分为m类,每类的比例是P(i)=第i类的数目/总数目。下面是常见的三种量化纯度的方法。 三种公式都对应分类的纯度,越大表示越“不纯”,越小表示“越纯”。决策树构建算法 1) 把所有记录看作一个节点。 2) 遍历每个变量的每个分割点,找到最好的分割属性点。 3) 分割成两个结点M1和M2。 4) 对M1和M2继续分,直到达到限制的深度,或者纯度足够小。 利用上面的决策树方法,由于数据的噪声,缺少代表性数据,以及多重比较等原因,经常会造成过拟合。虽然可以利用修剪枝叶的方法消除过拟合,但是也达不到足够的准确率。因此决策树不单独用来做最终的分类判定。 2.2.2 随机森林原理 随机森林是用许多决策树构建的组合分类器。利用训练数据随机的计算出许多决策树,形成一个森林。然后用这个森林对未知数据进行预测,选取投票最多的分类。随机森林较决策树大大提高了分类的准确率。随机森林实现过程: 1) 原始训练集为N,应用Bootstrap法有放回地随机抽取k个新的自助样本集,并由此构建k棵决策树; 2) 每一棵树的每个节点的m个变量中,通过计算不纯度选择一个最具有分类能力的变量作为分类属性点,变量分类的阈值通过检查每一个分类点确定; 3) 每棵树最大限度地生长, 不做任何修剪; 4) 将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。 2.3 基于spark框架的随机森林 随机森林算法在单机环境下很容易实现,但在并行的分布式环境下例如是在 Spark 平台上,传统单机形式的迭代方式必须要进行相应改进才能适用于并行的分布式环境,这是因为在并行的分布式环境下,数据也是分布式的,例如在HDFS文件系统上,数据就是并行存放在不同的设备中的。如果算法设计不得当,会生成大量的数据传输操作,例如频繁的网络数据传输,从而影响算法效率。因此,油中溶解气体在 Spark 上利用随机森林算法分类的实现,需要进行一定的优化和改进,主要对随机森林算法主要实现了三个优化策略。 2.3.1 油中溶解气体用三比值法进行属性离散化 油中溶解气体浓度值是连续的值,直接用三比值法进行分类准确率只能达到60%。而经过改进的三比值法准确率也只能达到80%。 决策树组成的随机森林有望提高诊断的性能。但是决策树对连续的油中溶解气体浓度值进行切分只是经过简单的数学平均切割,切分点并不反应任何意义。 所以首先将数据用三比值法离散化,在通过在离散的比值编码选择切分点更能真实的反应和代表数据的实情。三比值法编码见表2: 实验选择行标DL/T722-2000三比值法作为离散化油中溶解气体浓度值的方法。 2.3.2 随机森林并行化的实现 1) 随机森林并行性分析 随机森林并行设计主要包括文本抽样的并行设计和决策树的并行构建。而文本抽样时,抽样之间的相互独立的,因此抽样过程具有很好的可并行性;文本抽样完成后,在抽样样本的基础上选择特征子空间构建决策树,决策树的构造与样本是一一对应关系,且前后依赖,因此决策树的建立同样具有很好的并行性。 2) 随机森林并行设计 随机森林算法是一种集成分类器,是由很多决策树组成的一个综合的分类器,在原始DGA数据抽样作为决策树的输入,然后利用随机子空间思想构建决策树,决策树的构建是相互独立的,所以有很好的可并行性。随机森林算法并行设计如图2: 一个完整的随机森林构建过程,首先读取变压器DGA数据。然后对其并行的进行三比值法标准化。然后对其抽样,需要构建K棵决策树,则抽样K次,并行抽样得到样本;每一次抽样完成后,随之根据RDD,样本-n构建抽样样本对用的决策树RDD—treen,因此决策树的构建也是并行完成的;最后利用Spark中的union算子汇总分散的决策树,构建随机森林,算法如下。 2.3.3 基于spark的三比值和隨机森林结合的并行变压器故障诊断 分类模型训练完成后,在对DGA数据分类之前,首先需并行的对数据应用三比值法进行特征属性离散化。 (1) DGA数据分类并行性分析 随机森林分类模型训练完成后,对每一个测试集样本,去用随机森林中的所有弱分类器去判断其类别,每个弱分类器输出一个类别作为该测试样本的类别,然后汇总统计判断测试样本的最终类别,由此可见,DGA分类时各测试样本之间相互独立,因此分类阶段具有很好的并行性。 当随机森林的模型训练完成后,对所有的测试数据集,并行的用所有的决策树对其进行类别判断,每颗决策树输出一个类别作为该数据的类别,然后统计所有类别判断最终所属类别,所以,DGA分类时,各样本直接相互独立,可以并行,各决策树之间相互独立,也可以并行。 (2) DGA数据并行性设计 随机森林并行分类是一个所有决策树依次对每一条测试集样本投票的过程,对不同的测试样本的投票可以并行化,投票完成后统计每条测试样本的类别集合,然后取类别最多的类最为最终类,DGA数据集分类在Spark下的并行设计如图3 一个完整的DGA数据分类过程,首先从HDFS读取变压器油中溶解气体DGA数据,并转换为RDD,然后按照三比值法将其进行属性的离散化,得到直接可以用随机森林分类的测试数据集,然后利用随机森林模型RDD forest并行的对各分区中的测试集样本进行并行投票。当所有决策树对一条测试样本投票完成后,该样本被判定的各类别出现次数,选择出现次数最多的分类作为该测试样本的最终类别,最后通过Spark的saveAsTextFile算子触发所有任务的执行,并将结果存储。 2.4 本章小结 本章分为三小节,从各个方面阐述算法的原理。 第一小节讲述了实验分析的数据的来源,即变压器油中溶解气体的产气原理。 第二节系统地介绍了随机森林的原理,从决策树的原理、构建、以及最佳属性点的选择,到随机森林的原理及其算法的具体流程。 第三小节提出了针对变压器DGA数据的随机森林分类方法在Spark上的并行设计。创新地提出了用三比值法作为DGA数据在随机森林中的属性离散化方法,又将其在Spark平台上实现。 3 验证实验 3.1 标准数据集准确率测试 IRIS是鸢尾花数据集,是一种多重变量分类数据集。该数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。 本实验将150个数据读入,并随机抽取90个作为训练集,另外60个数据集作为测试集,来测试基于spark平台的随机森林分类准确率。 测试结果可以看出,随机森林树的个数为1时,分类的准确率就已经达到60%多, 这种情况是随机森林的特殊情况,相当于用决策树进行分类的准确率。而随着随机森林树的增加,其分类的准确率也在逐渐增加。当棵数达到20棵时,其准确率也基本达到了97%。再增加树的棵数,随机森林的准确率基本保持稳定。 3.2 对变压器DGA数据的分类效果 变压器DGA数据,即油色谱数据,指的是变压器油中溶解的CH4,C2H2,C2H4,C2H6,H2五种气体,本实验选取的数据为 500条变压器油中溶解气体的数据,包含五种故障类型,和正常的数据,共六种数据。 本实验将该数据集随机分为两份,一份用作训练随机森林的训练数据集,一类用作测试随机森林分类效果的测试数据集。并设置不同子树情况下,测试其分类精度三次取平均值作为该精度下的分类准确率。 从图中可以看出在随机森林的决策树的个数达到一定数目,随机森林分类的精确率较决策树有很大的提高。 3.3 相比于Hadoop 运算速度的测试 应用油色谱数据中的五种气体,五种故障,包括正常共六种分类,共501条变压器故障数据,将其按倍数扩大到1万倍。分别在Hadoop 和Spark平台上以不同的节点数运行,对比其运行时间。 实验表明节点较少时Spark较MapReduce性能提升较大,1个节点时MapReduce的运行时间大约是Spark的40倍,但随着节点的增加,集群得到充分利用这种差距会减小,16个节点的时候,MapReduce的运行时间大约是Spark的16倍,因此同MapReduce相比,Spark下的随机森林算法具有更高的效率。 3.4 加速比测试 仍然使用翻倍后的数据集测试。 图7中横轴的单位是结点的数量,纵轴的单位是加速的倍数。红色曲线是理想情况下加速比,而蓝色是测试情况下加速比,由于节点间通信损耗,以及数据量小,通信时间占用运算时间比例变大,造成随着结点数增加,加速比呈下降趋势。 4 结束语 为了提高变压器故障诊断的准确率和精确度,提出了基于Spark的随机森林和三比值结合的变压器故障诊断方法,并对该算法进行了标准数据集的分类准确率测试和变压器故障DGA数据的分类准确率测试,以及和Hadoop进行了运行速度的比较,最后在不同节点数目下,测试了在Spark平台上的加速比。 实验表明,该算法对变压器的故障诊断具有良好的准确率和很快的诊断速度。在对大规模的变压器故障数据的诊断方面将会有很大的优势。 实验缺点是没有同其他分类算法在Spark平台上进行比较,后期将会做这方面的工作。 参考文献: [1] 王德文,孙志伟.电力用户测大数据分析与并行负荷预测[J].中国电机工程学报,2015,35 (3):527-537. [2] 曲朝阳,朱莉张士林.基于hadoop的广域测量系统数据处理[J].电力系统自动化,2013,37(4):92-97. [3] 罗元帅.基于随机森林和Spark的并行文本分类算法研究[D].西南交通大学.2013. [4] 湖南大学.Spark云服务环境下面向大数据的随机森林并行机器学习方法[p].中国:105550374.2016. [5] 王琪,张洪伟.基于Spark计算模型的随机森林的电话量预测研究[J].成都信息工程学院学报,2015,30(5):445-450. [6] GB/T 7252-2001,变压器油中溶解气体分析和判断导则[S]. [7] 吴生特,欧阳敏,等.改进型三比值法在变压器故障诊断中的应用[J].水电站機电技术,2015,38(8):13-16. [8] 陶栋琦,薄翠梅.基于随机森林的变压器故障检测方法的研究[J].电子器件.2015,38(4):840-844. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。