源域多样本集成GFK的不同跟工况下滚动轴承寿命状态识别

    陈仁祥 陈思杨 胡小林 董绍江 黄鑫 朱炬锟

    

    

    

    摘要:针对不同工况下滚动轴承寿命状态识别时训练样本与测试样本分布差异导致寿命状态无法有效识别的问题,提出基于源域多样本集成(Geodesic Flow Kernel,GFK)的滚动轴承寿命状态识别方法。首先,采用无重复均匀随机抽样对源域类间样本进行多次等量随机抽样得到源域内部多个训练样本以充分挖掘源域样本信息;其次,将源域内部多个训练样本和目标域测试样本输入GFK,分别计算每个源域训练样本与目标域测试样本的测地线核矩阵以充分利用源域样本信息并提升GFK迁移学习能力;最后,利用核矩阵构造核分类器并输出分类结果,采用一致性投票对所有源域训练样本下目标域测试样本的分类结果进行集成以提升目标域测试样本的识别准确率。不同工况下滚动轴承寿命状态识别实验验证了所提方法的可行性和有效性。

    关键词:寿命状态识别;滚动轴承;测地线流式核;迁移学习

    中图分类号:TH165+。3;TH133.33文献标志码:A 文章编号:1004-4523(2020)03-0614-08DOI:10.16385/j.cnki.issn.1004-4523.2020.03.021

    引言

    滚动轴承运行状态对航空发动机、风电机组等大型精密设备的运行可靠性有直接影响。对其壽命状态进行识别有助于预先判定设备所处运行阶段,避免因突发失效造成的安全事故和经济损失。

    寿命状态识别的本质是模式识别,其关键在于特征提取和状态判定。为准确识别滚动轴承寿命状态,Yu等提出基于多域特征融合和降维学习的滚动轴承退化状态识别方法;陈仁祥等分别提出了基于振动敏感时频特征和加噪样本扩展深度稀疏自编码神经网络的航天轴承寿命状态识别方法。这些方法取得了较好效果,但主要解决单一工况下滚动轴承寿命状态的识别问题。实际工程中,滚动轴承工作环境恶劣,运行工况复杂多变,导致寿命状态特征表征发生动态变化、测试样本与训练样本分布特性存在一定的差异。需考虑多工况或不同工况下的滚动轴承寿命状态识别。

    对此,张焱等提出了多工况寿命模型加权输出的方法,但实际中多工况数据难以获取,该方法应用成本高。Liu等提取工况不敏感特征进行不同工况下的滚动轴承故障诊断,但该方法仅在微小差异工况和典型故障数据下进行讨论,实际应用效果未知。

    近年来,迁移学习以其跨领域、跨任务学习的优势在各领域得到了广泛应用。它放宽了传统机器学习训练样本与测试样本同分布和训练样本足够多的两个假设条件,在训练样本与测试样本分布特性不一致时也能取得较好学习效果。在故障诊断领域,沈飞等将奇异值分解与迁移学习应用于不同工况下的电机轴承故障诊断;段礼祥等将迁移成分分析应用于不同工况下的齿轮箱故障诊断。可见,迁移学习方法能较好实现不同工况下的模式识别。

    基于以上分析,本文将迁移学习应用于不同工况下滚动轴承寿命状态识别,提出基于源域多样本集成测地线流式核的不同工况下滚动轴承寿命状态识别方法。GFK方法是Sha等在子空间抽样测地线流形(Subspace by sampling Geodestic Flow,SGF)方法基础上提出的一种领域自适应迁移学习方法。通过引入核映射大大简化了SGF的求解过程。Alim等将GFK与SVM结合用于数据分布偏移的高光谱图片分类;Saha等将GFK与最大边缘聚类结合提出一种源域无标记样本的无监督学习方法。

    GFK参数少,计算简单,易于实现,通过核矩阵构造核分类器提升了分类器的非线性分类能力。但实际应用中未能对源域训练样本信息进行充分挖掘和利用,迁移学习能力较弱,导致目标域测试样本的识别率偏低。为提升目标域测试样本的识别率,本文对GFK方法做了改进,得到源域多样本集成GFK方法。在利用GFK对源域训练样本和目标域测试样本计算测地线流式核矩阵之前,采用无重复均匀随机抽样对源域类间样本进行多次等量随机抽样得到源域内部的多个训练样本,称为源域多样本;然后分别计算每个源域训练样本与目标域测试样本的测地线流式核矩阵,利用核矩阵构造核分类器并输出分类结果;最后,采用一致性投票对所有源域训练样本下目标域测试样本的分类结果进行投票集成,得到最终分类结果。

    1 测地线流式核方法

    GFK利用特征变换方法,通过构造测地线流式核来得到高维投影矩阵将源域样本和目标域样本变换到一个公共空间。

    GFK方法步骤:确定嵌入子空间最优维度d,构造测地线,计算测地线流式核矩阵G以及构造核分类器。

    1.1 确定嵌入子空间最优维度d

    GFK采用于空间不一致性度量(Subspace Dis-agreement Measure,SDM)来确定源域和目标域保持最大一致性的子空间维度d。

    记源域数据集为s,目标域数据集为T。嵌入子空间维度d计算方法如下:

    1)利用主成分分析(PCA)分别对s和T做变换得到两个子空间PS和PT。

    2)将s和T合并为一个数据集S+T,利用PCA对S+T做变换得到子空间PS+T。

    3)分别计算PS,PT与PS+T,的空间夹角:αd,βd。

    4)记两个夹角的总度量为

    D(d)=0.5[sinαd+sinβd] (1)

    D(d)∈[0,1],D(d)=1,表示两空间垂直。文献[11]采用贪心算法来确定子空间最优维度d

    d=min{d | D(d)=1} (2)

    即子空间维度d=1,2,…尽可能取大,直到满足第一次取到D(dmax)=1后,d的取值不再增加,则此时的dmax即为d的最终取值。

    1.2 构造测地线

    定义PS,PT为源域和目标域经PCA后的子空间,φ为测地线映射函数。设源域和目标域经φ映射后分别处于0和1两个极点,即φ(0)=PS,φ(1)=PT。则对于处于[0,1]之间的点t,有:φ(T)∈G(d,D),G(d,D)表示D维向量空间中的d维向量构成的Grassmann流形,φ(t)由以下公式求得

    φ(t)=PsU1F(t)-RsU2∑(t) (3)

    1.3 计算测地线流式核矩阵G

    1.4 构造核分类器

    与其他基于内核的分类器一样,GFK利用测地线流式核矩阵G将数据变换到高维空间,并根据数据在高维空间中的表示对数据类别进行识别。

    此外,GFK提出ROD(Rank of Domain)指标

    2 源域多样本集成GFK

    GFK方法来源于SGF方法并通过求解核矩阵G大大简化了SGF方法的求解过程。然而,GFK方法将源域样本整体视为一个单样本参与学习,仅对其包含的信息利用一次,未能充分挖掘和利用源域样本信息,迁移能力稍显不足。

    基于以上两点,本文利用无重复均匀随机抽样对GFK进行改进得到源域多样本集成GFK方法。具体步骤如下:

    设Xs为C类别,每类样本数为n1,n2,…,nc的源域标记数据集,Xt为C类目标域数据集,XT为Xt经随机抽样后得到的C类目标域测试样本集。

    1)对Xs每类样本进行无重复均匀随机抽样,为保证样本类别平衡,每类样本的抽样数均为n,n≤min(n1,n2,…,nc)共得到C×n个样本组成的源域单样本xs;

    2)将步骤1重复k次,得到k个源域单样本xs1,xs2,…,ssk也即源域多样本集。

    3)计算每个源域单样本xsi(i=1,2,…,k)与XT的SDM指标以确定最优维度di;

    4)将xsi与XT用于构造测地线并计算其测地线流式核Gi;

    5)利用Gi构造核分类器并得到k个测试结果ytesti;

    6)将5)的k个结果一致性投票得到最终识别结果。

    由于核KNN分类器计算简单,易于实现,无需参数估计和无需训练等优点,故本文将核矩阵G用于构建核KNN分类器。

    改进的源域多样本集成GFK方法的流程图如图1所示,其中虚线框为本文方法改进部分。

    3 基于源域多样本集成GFK的不同

    工况下滚动轴承寿命状态识别

    基于源域多样本集成GFK的不同工况下滚动轴承寿命状态识别包括:源域多樣本训练集与目标域测试集构建、特征提取、集成过程和识别结果输出。其流程图如图2所示。

    3.1 源域多样本训练集与目标域测试集构建

    对于源域标记数据,采用无重复均匀随机抽样从人种寿命状态样本中抽取n个样本,得到一个源域单样本训练集,训练集大小为h·n,待识别状态数为h。将抽样过程重复k次,得到源域内k个单样本训练集,也即源域多样本训练集。每个源域单样本训练集大小均为h·n,待识别状态数均为h。

    对于目标域未标记数据,从中抽取一定数量样本构建测试集。为验证本文方法对不同工况数据h种寿命状态的识别情况,从每种寿命状态样本中抽取等量样本用于构建目标域测试集。

    3.2 特征提取

    提取能够反映滚动轴承寿命运行状态的特征指标是正确识别滚动轴承寿命状态的关键。目前反映滚动轴承寿命及退化状态的特征主要有时域、频域特征,小波包能量特征,小波包相对能量特征和信息熵特征等。

    由于单域特征评估效果不足,故本文提取多域特征构建高维特征集。包括16维时域特征和12维频域特征,8维db3小波3层小波包能量特征,8维db3小波3层小波包相对能量特征,8维db3小波3层小波包能量谱熵以及振动信号幅值谱熵、倒谱熵、自相关谱熵和奇异值谱熵等共56维特征。

    3.3 集成过程与识别结果输出

    图2中虚线框部分即为源域多样本集成过程,包括:GFK核矩阵计算、核分类器构造、多测试结果和一致性投票。基于源域多样本集成GFK的滚动轴承寿命状态识别最终识别结果是由源域内多个单样本训练集和目标域测试集经过GFK以及一致性投票等过程得到的,充分利用了源域内部多个单样本训练集信息。

    4 实验验证

    4.1 全寿命周期数据寿命状态识别

    采用PRONOSTIA实验台采集的IEEE PHM2012Data Challenge加速寿命实验振动信号数据进行实验验证和分析。此数据采样频率为25.6kHz,采样间隔为10s,每个样本采样时间为0.1s。PRONOSTIA实验平台如图3所示。

    本文以文献[19]提出的健康指数为依据将滚动轴承全寿命周期划分为3种寿命状态:磨合期、有效工作期和衰退期。IEEE PHM 2012Data Challenge包含多个工况条件下的全寿命周期实验数据,本文选择3个寿命状态清晰划分的工况工和工况2数据进行验证。工况数据信息如表1所示。

    为验证本文方法对不同工况下滚动轴承寿命状态识别的有效性,将工况工和工况2数据进行交叉验证实验。首先,以工况1为源域标记数据集,以工况2为目标域未标记数据集。然后,以工况2为源域标记数据集,以工况1为目标域未标记数据集。采用1000次无重复均匀随机抽样对源域数据每种寿命状态各抽取10,20和30个样本构建训练集。即训练集样本数分别为30,60和90,每种数量的训练集各1000个,即源域多样本数为1000.对于目标域数据集,设置测试集样本数分别为30,60和90(3种寿命状态样本各10,20和30个)。采用本文方法交叉验证寿命状态识别结果如表2所示,其中“/”前后数据表示工况1、工况2分别为源域训练集时的识别率。

    由表2可知,首先,本文方法对不同工况滚动轴承寿命状态识别切实有效,识别率较高,最高达到93.33%;其次,训练样本的数量对识别率有较大影响,随着训练样本数量增加,识别率也随之增加。

    为验证本文改进的源域多样本集成GFK较源域单样本GFK识别率的优越性和一致性投票对识别率的提升作用,以工况1为源域训练样本,工况2为目标域测试样本。设置训练样本数分别为3,6,…,87和90,测试样本数为30,源域多样本数为1000.分别比较源域多样本集成、源域多样本平均和源域单样本的识别率。其中,源域多样本平均方法为将1000个源域多样本训练识别结果进行算术平均。不同源域样本的识别率如图4所示。

    从图4可以看到:源域单样本数量对识别率影响不大,识别率比较稳定,但识别率较低,不高于80%;源域多样本平均反映了识别率随训练样本数变化的规律,大致呈正相关,但识别率仍不足90%;源域多样本集成不仅反映识别率与训练样本数呈正相关的规律,而且通过充分利用源域数据信息提升了识别率,识别率最高达93.33%。

    为证明本文方法较传统机器学习方法在不同工况滚动轴承寿命状态识别上的优越性,以工况1为源域训练样本,工况2为目标域测试样本。设置训练样本数分别为3,6,…,87和90,测试样本数为30,源域多样本数为1000.分别比较SVM,KNN和本文方法在寿命状态识别上的准确率。不同方法识别准确率如图5所示。

    由图5可知,随着训练样本数增加,本文方法识别率均高于SVM和KNN,且最高达到93.33%;KNN方法在不同工况滚动轴承寿命状态识别有一定效果,但效果不佳;SVM识别效果最差,仅为33.33%,无法有效识别。可见,本文方法较传统SVM,KNN方法对不同工况滚动轴承寿命状态识别具有较大优势。

    为具体说明本文方法在不同工况下较SVM、KNN的识别优势,分析各算法在训练样本数为60(3种寿命状态各20),测试样本数为30(3种寿命状态各10),源域多样本数为1000下3种寿命状态识别结果,如表3所示。由表3可知,经过一致性投票集成后,SVM在磨合期和工作期识别错误,KNN在工作期识别完全错误(识别率为0),导致3种寿命状态无法有效识别。本文方法对工作期的识别率为70%,因此可有效识别不同工况下的3种寿命状态。

    分析KNN在工作期识别率为0的原因,统计KNN算法在10个工作期寿命状态样本识别中的一致性投票得票数,如表4所示。

    由表4可知,在1000次一致性投票过程中,KNN算法在工作期寿命状态识别中每个样本最高得票数均为磨合期。因此,一致性投票将其全部判断为磨合期,故工作期寿命状态10個样本的识别准确率为0.SVM对工作期识别率为0的原因与KNN同理。

    4.2 角接触球轴承寿命状态识别

    为验证本文方法在不同型号轴承上的有效性,将方法用于角接触球轴承数据下的寿命状态识别。轴承型号为C36018,轴承节径为15mm,滚动体个数为7,接触角为15°。采集各寿命状态下的轴承振动信号,振动信号采集装置如图6所示。

    现有的在相同转速、不同负载下运行相同圈数的3套同类型角接触轴承,分别以T1,T2和T3表示,对应的轴承寿命状态及状态说明如表5所示。

    相同运行圈数下,负载越大,寿命损耗越多。故表5中轴承对应3种不同寿命状态,实际寿命损耗为T1

    设置1kg载荷、1500r/min转速的数据为源域数据,1kg载荷、1000与2000r/min转速的数据为目标域数据。源域样本增加会导致源域与目标域特征空间距离增加,应尽量减少源域样本个数。本文采用无重复均匀随机抽样从每类样本中分别抽取1,2和3个,即训练样本分别为3,6和9个。设置测试样本数分别为30,60,90和120个。设置源域多样本数为3000,采用本文方法对角接触球轴承数据进行不同工况下滚动轴承寿命状态识别,识别结果如表6所示,结果较好,识别率超过90%。

    为具体说明本文方法在不同工况下较SVM、KNN的识别优势,设置训练样本数9个,测试样本数为120个,以1500r/min为训练集,1000和2000r/rmin为测试集,计算T1,T2和T3三种寿命状态的平均识别率及总平均识别率,结果如表7所示。

    由表6-7结果可知,本文方法在角接触球轴承寿命状态识别中表现良好,总平均识别准确率达到90%。KNN和SVM方法识别率较差,KNN总平均识别率约为75%,SVM总平均识别率仅为33.33%。可见,本文所提基于迁移学习的寿命状态识别方法在不同工况寿命状态识别中比传统机器学习方法表现更好。

    5 结论

    本文提出的源域多样本集成GFK方法有效实现了不同工况下滚动轴承寿命状态识别。利用多次无重复均匀随机抽样得到的源域多样本充分利用源域数据信息,改善了源域单样本迁移学习能力不足的问题,提升了识别准确率(平均识别率达90%);同时,所提方法相对于源域单样本GFK算法和源域多样本平均算法表现更好,识别率提高约10%。此外,一致性投票集成过程有效提升了识别结果的稳定性,避免了源域内部样本选择带来的识别率差异问题。