基于PSO-SVM的风机叶片结冰检测方法
傅晓骏 孙海龙 章珈宁
摘?要:发电风机叶片结冰故障诊断在国际上现在依旧在研发过程,大多数风力发电厂都是叶片结冰影响运行后进停止发电,用各种方法去冰。针对这一现象,本文设想了一种采用数据驱动型的结冰检测方法,通过分析SCADA系统采集现场数据,建立结冰预测模型。首先根据工业大数据的特点,在预处理环节,进行剔除奇异值等操作;再通过机理分析,选择合适特征;最后将特征数据带入使用粒子群算法优化参数的支持向量机中。实验表明对叶片结冰预测取得了显著成果,这可能成为风机叶片结冰状态预测的新方法。
关键词:风机故障诊断;风力发电;工业大数据;支持向量机
叶片结冰是风电领域的一个全球范围难题。目前对风力机结冰问题研究上集中在及时发现叶片的结冰情况并在产生影响前除去冰,如果能对叶片结冰进行早期预测,也是防止叶片结冰对风力发电产生影响的重要手段,现在也有通过红外线检测叶片温度数据预测结冰状态。然而上述这些方法,都需要对叶片进行改造,装设额外设备,降低了风力发电效率。
SCADA系统在风电行业已广泛使用,系统每天产生大量的监测数据,而叶片结冰的信息往往蕴含其中,本文设想通过数据驱动角度,对SCADA系统监视数据进行处理,以实现对叶片结冰状态的检测和判断,从过去被动维护转变为主动维护,且不过分依赖于专业知识。
1 数据预处理
首先删去训练集中的已知的无效样本。
然后采用箱型图方法可以剔除部分奇异点:
(1)样本被从小到大排列,按照某个变量;
(2)计算该变量的上四分位数Q2,下四分位数Q1,中位数;
(3)计算上下限:
式中:Δ=Q2-Q1,k为控制限,但k=1.5时得到的奇异值是温和的,当k=3时得到的奇异值是极端的,这里我们需要极端奇异值;
(4)该变量奇异点所在的样本被全部删除;
(5)继续以上方法计算,直到检验完毕所有变量。
2 平衡数据集
通过一般的学习算法所获得的分类效果经常不够理想。因此我们尝试通过在数据层面和算法层面进行创新改进来提升效果。数据层面主要是重采样技术,比如EasyEnsemble和BalanceCascade两种知情欠采样方式,合成少类过采样技术(SMOTE)技术等等。在算法层面的方法有基于代价敏感(Cost-Sensitive)、基于单类学习(One-Class)、基于主动学习(Active Learning)、基于集成分类算法等几个方法。
大样本定长欠采样和小样本Smote算法过采样方法都在本文中被使用,从大数据中摘取有效数据,把结冰和未结冰的样本数据控制在20000以内,且基本相等。由于从大数据欠采样到2万组,任何采样方法失去很多有价值的样本,本文结合风力发电机运行实际情况,总结出几条规则,可以将样本中明显不结冰的数据先剔除。
经过上述方法筛选后,去除了约5万条正常数据的样本,14万样本数量依旧太过庞大,进一步分析,许多样本之间的表征信息几乎一致,下一步删除冗余部分,该过程算法为:
具体过程为:
(1)原始样本标准化,计算δ值;
(2)计算$x_{i}$和$x_{j}$(j>i)的相似度$R_{ij}$;
(3)定义一合适阈值ε,如果$R_{ij}>\\varepsilon$,删去样本$x_{j}$;
(4)重复以上步骤,直到所有样本检查完毕。
经过上述步骤后,最后摘取到约2万组正常有效的样本。
接下来处理非正常样本,即我们得到的约1万结冰样本数据,为使样本量增加一倍,我们采用了Smote算法。为达到平衡样本的目的,在一些位置接近的数量较少的样本中插入新样本即是Smote算法的中心思想,以上方法不同于随机过采样的将样本数据简单复制,而是为避免分类器的过度拟合,通过增加创造出来的样例。
經过上述一系列操作,训练集两类数据一共约4万组样本,且数量相等。
3 选择特征
运行中的风力发电机叶片表面结冰,这是复杂的过程,这一过程受到许多环境因素影响的,想要建立精准的预测风机叶片结冰状态的数学模型具有很大难度,而采用数据驱动的方法,数量众多的样本还有检测变量,都会使得运算过程十分复杂,并且不能快速确定叶片的结冰状态。所以,结合风力发电原理以及叶片表面冻结过程,对风机结冰整个过程的特征状态进行分析,并与机器学习的能力相结合,方可进行有效预测。
所谓风力发电,即风力推动叶片转动,叶片带动发电机转动,利用电磁感应现象产生电能。但是叶片结冰后会改变运动特性,降低风能到电能的转化效率,虽然电能的产生效率不全依赖风速,但风能与电能的转化效率在一定程度上可以反映叶片的结冰状态,结合正常情况和异常结冰数据功率散点和通过数据拟合正常数据获得理论功率曲线,将该理论功率曲线作为叶片未冻结的理论曲线,把风力发电机实际输出功率与理论功率的残差作为特征,通过分析,若两者的残差非常大,或者残差不稳定,表示叶片很大可能已出现结冰故障,需要处理。
从另一方面讲,运行中的风机叶片表面出现冻结故障势必会对风能与电能的转化效率造成不利影响,以上述方法,第二特征选择拟合正常转速曲线计算出的每组数据的转速残差。
另外,周围温度肯定也是十分重要的因素,温度这一变量要被着重考虑,通过分析外部温度与风机内部温度的差别,我们发现这一差别与风机叶片的是否结冰有着很大的关联。
通过主成分分析技术,我们可以分析样本在主成分和非主成分方向的投影,通过这一技术可以进一步构造敏感特征的方法,分析风速和实际功率在非主成分方向的投影。
最终经过分析,把外部温度,外部温度,风速,实际功率以及4个衍生变量作为选择特征。
4 分类器构建及参数优化
本文采用机器学习模型为支持向量机,同时为了寻找最优参数,又引入粒子群算法,借以提高故障识别的性能。以下是计算过程:
在统计学中提出的机器学习方法即是SVM算法,这一算法的基础是VC维理论和结构最小化原理,通过超强的学习能力克服复杂的数学模型,为有效的解决线性不可分的这一难题引入核函数,这一方法的效果非常显著。过程可简单描述为:
我们按照要求取w,b的值。这一过程使该超平面到两类支持向量的几何间隔最大,从而目标函数及约束条件写作:
核函数类型确定之后,结合粒子群算法进行参数C和g寻优。
5 结语
数据驱动学习方法在工业领域有广泛的应用前景,本文在发电风机叶片结冰领域,针对过去单纯依靠机理分析或监控可视化等手段,使用机器学习的方法,首先对现场实际数据进行预处理,然后结合机理分析进行特征提取,最后通过粒子群支持向量机模型实现对叶片结冰的预测。
参考文献:
[1]田鹏辉,罗衡强,汤亚男.风力机组叶片防覆冰技术发展现状[J].电器工业,2013,14(5):62-65.
[2]东乔天,金哲岩,杨志刚.风力机结冰问题研究综述[J].机械设计与制造,2014,52(10):269-272.
[3]梁颖,方瑞明.基于SCADA和支持向量回归的风电机组状态在线评估方法[J].电力系统自动化,2013,37(14):7-12.
[4]刘强,秦泗钊.过程工业大数据建模研究展望[J].自动化学报,2016,42(2):161-171.
作者简介:傅晓骏(1990—?),男,汉族,浙江桐庐人,本科,中级工程师,研究方向:自动化。