基于滑动窗口和聚类算法的变压器状态评价研究
朱建华 梁栋 李芳 翟海文
摘?要:为了提高变压器状态检测实时性和精准性,本文采用聚类算法,引入滑动窗口技术,设计了状态检测模型。该模型以异常多元数据点相邻时间段内出现异常数據点数量统计结果作为判断依据,判断设备运行是否发生异常。测试结果表明,本检测模型可以准确检测异常数据,有助于变压器运行状态监管工作的开展。
关键词:聚类算法;异常检测;滑动窗口
变压器作业状态在线评估作为提高输变电设备管理的参考依据,随着状态检测技术水平的提升逐渐得到完善[1]。目前,主要针对单一系统设备运行信息进行检测,根据设备运行参数标准设定阈值,观察采集到的信号是否超出此范围,从而判断变压器健康状态[2-3]。由于变压器运行状态数据信息量较大,加大了异常检测难度,目前尚未形成较为完善的状态检测评价模型。
一、变压器状态评价模型的构建
(一)滑动窗口在候选异常数据集创建中的应用
(5)按照以上步骤筛选数据,从大量数据中筛选出异常数据,标记并列入异常数据集,形成集合D。
(二)k-means聚类算法在异常数据检测中的应用
聚类分析指的是在不知情情况下划分类型,采用相似度作为量化标准,对变压器运行状态进行评估[5]。此评估过程是通过计算各个类之间的相似度,根据相似度排名情况,分析设备运行数据变化特点。本文选取k-means聚类算法作为数据变化分析工具,按照最小相似度原则展开数据分析,通过简化数据之间的关系,以减少数据分析工作量。
假设集合U数据点数量为N,空间维度为M,将此集合拆分为k个子集,形成k-聚类,每个聚类中均含有1个簇,计算N个聚类簇平均值,通过构建聚类目标函数,来判断聚类质量。判断公式如下:
本文构建异常数据检测模型时,选取CH4、C2H2体积分数、环境温度、油温、负荷作为集合维度指标,向k-means聚类中心输入570组历史数据,得到聚类簇数量为k。假设阈值为P,k聚类簇中心与以上5个维度指标数据点之间的距离存在大于P的情况,则认为此数组不在簇内。所以,利用本模型检测异常数据时,可以通过观察各个维度数据点与簇中心之间距离大小进行判断,得出设备状态异常检测结果。
二、变压器状态异常检测实施步骤
(一)数据预处理
考虑到变压器运行状态数据属性不通过,需要按照不同标准进行检测判断,容易出现阈值较小被忽略情况,所以需要对数据采取特征标准预处理,以此提高数据鲁棒性[6]。此项处理工作主要涉及到平均绝对偏差、特征值属性值的计算,计算方法如下:
(二)状态异常检测实施步骤
待设备运行数据属性值经过预处理以后,按照以下步骤对设备状态进行检测。
第一步:采用k-聚类数据划分方法,将历史数据划分为多个聚类簇,确定各个聚类簇中心;
第二步:从大量在线监测数据中筛选异常数据。该处理环节是将数据划分为多个时间序列,滑动时间窗口,从序列中筛选异常数据,标记异常数据的同时,将异常数据列入集合D;
第三步:按照聚类簇判断标准,根据包含关系,对集合中的数据点进行判断,如果数据点不包含于聚类簇集合,则认为此数据为状态异常数据点;
第四步:以前三步输出的判断结果为依据,观察异常数据点相邻时刻下的数据点所属情况,获得多元时间序列数据异常判断结果。
三、测试分析
为了检验上述状态异常检测模型可靠性,本文以某输变电工程变压器为例,选取2020-04的570组数据作为检测对象,包括乙炔体积分数、负荷、环境温度、甲烷体积分数、顶层油温,将这5个维度正常作业状态下的历史数据输入异常检测模型中,对设备运行状态进行检测,通过观察检测结果,得出检验结果。本次测试时间长达23.3个小时,时间为2020-04-12 12:00:00至2020-04-13 8:00:00,以5min为样本数据采集时间间隔,获取280个数据样本。利用公式(3)、公式(4)、公式(5)对数据进行预处理,以3个已知簇类中心作为最大距离计算参考点,检测异常数据,结果如下:
(1)G1=0.67,G2=0.78,G3=0.76时,检测成功率为87.9%,误检出率10.7%;(2)G1=0.70,G2=0.78,G3=0.77时,检测成功率为89.1%,误检出率7.8%;(3)G1=0.71,G2=0.78,G3=0.75时,检测成功率为95.4%,误检出率2.6%;(4)G1=0.71,G2=0.78,G3=0.78时,检测成功率为95.4%,误检出率1.9%;(5)G1=0.71,G2=0.78,G3=0.76时,检测成功率为97.2%,误检出率1.9%。
当阈值G=(0.71,0.78,0.78)时,距离逐渐稳定下来。由此看来,本文设计的模型能够检测变压器运行状态异常数据,达到某一状态后逐渐稳定。为了进一步验证检验模型性能,本次测试分别对候选异常数据集时间间隔和实时待测数据集时间间隔数据分别特点进行统计分析,结果如下:
检测时间间隔T范围0~280,按照数据类型不同,将检测结果时间间隔划分为3部分分别是100~110、50或者200、240~280。
当时间间隔范围为100~110时,异常数据点分布特点为小片连续。由此看来,此时间段内,设备运行出现了异常状况,需要对设备健康状态进行进一步探究。
当时间间隔为50或者200时,数据点不包含于聚类簇,这两个时刻相邻数据均为正常数据。由此看来,T=50或者T=200时,设备运行数据出现了噪声,很有可能是传感器作业遭受干扰造成的,可以忽略不计。
当时间间隔范围为240~280时,异常数据点不包含于数据簇内。由此看来,变压器设备在此时间段内出现了故障,并且很有可能持续一段时间内均出现设备异常情况。
基于上述统计分析,本设计方案可以实时反映变压器运行状态,准确检测异常数据。
四、总结
本文围绕变压器状态异常检测问题展开研究分析,选取聚类算法和滑动窗口作为研究工具,构建状态异常检测模型。该模型按照设定的时间间隔,分别对在线监测数据进行检测,通过观察异常多元数据点相邻时间段内出现异常数据点数量,判断设备运行状态。测试结果表明,该模型不仅可以准确检测异常数据点,还满足数据检测实时性要求。
参考文献:
[1]荣智海,齐波,张鹏,等.基于油中溶解气体CANOPY高维模型的变压器异常状态快速识别方法[J].中国电机工程学报,2018,38(13):3987-3996.
[2]辛建波,康琛,翁新林,等.基于聚类和时间序列分析的变压器状态评价方法[J].电力系统保护与控制,2019,47(3):64-70.
[3]李敏,陈果,沈大千,等.基于改进凝聚层次聚类算法的变压器绕组及铁心故障诊断研究[J].高压电器,2018,54(1):236-242.
[4]刘庆珍,张晓燕,蔡金锭.基于降维技术与K-MEANS聚类的油纸绝缘状态综合灰评估[J].电力系统保护与控制,2019,47(8):68-76.
[5]蔡金锭,祝顺才.基于灰色聚类-集合赋权法的变压器油纸绝缘状态评估[J].高电压技术,2018,44(3):765-771.
[6]郭鹏,王兆光.基于高斯过程回归和双滑动窗口残差处理的风电机组主轴状态监测[J].电力自动化设备,2018,38(6):34-40.
作者简介:朱建华(1979—),男,汉族,陕西渭南人,本科,工程师,主要从事变压器组部件、变压器二次设计及管理工作。