基于一元线性回归的近红外光谱模型传递研究

杨辉华 张晓凤 樊永显 谢谱模 褚小立
摘要为解决近红外光谱分析中的模型传递问题,本研究提出了一元线性回归直接标准化算法(Simple linear regression direct standardization,SLRDS)。为验证算法的有效性,采用玉米样品的近红外光谱集进行实验,并与传统的直接标准化算法(Direct standardization, DS)、分段直接标准化算法(Piecewise direct standardization, PDS)进行比较。实验结果表明,SLRDS算法不仅能够有效消除近红外光谱仪之间的差异,很好地实现玉米样品的PLS校正模型在3台仪器之间的共享,而且与DS和PDS算法相比,具有传递性能高、模型简单及所求参数少等优点。关键词近红外光谱; 模型传递; 一元线性回归
20140330收稿;20140702接受
本文系国家自然科学基金项目(Nos.21365008,61105004), 广西自然科学基金资助项目(Nos.2012GXNSFAA053230,2013GXNSFBA019279), 广西信息科学实验中心重点基金项目(No.201202), 广西高等学校优秀人才资助计划项目(桂教人[2011]40号)资助
*Email: 13718680586@139.com; yongxian.fan@gmail.com1引言
近红外光谱分析技术因具有快速、高效、无损和易于在线分析等优点,近年在制药、农业、生物和石化等诸多领域得到了广泛应用\[1~6\]。近红外光谱分析技术的定量应用依赖于校正模型,即对标准样品集的参考值(成分含量或物理化学性质)和对应的近红外光谱进行关联,建立两者之间的函数关系,对未知样品的近红外光谱应用该定量模型计算该样品性质的预测值[7]。但是,在实际应用中,由于仪器老化、仪器间差异及空气、光源、探测器和测量引入的随机噪声,各仪器测量的光谱有差异,因此在某一台光谱仪器上建立的校正模型,在应用于另一台仪器上时无法适用或结果会产生较大的误差。而要为每台仪器分别建立校正模型,显然是不可取的。根据文献\[8\]报道,使用近红外光谱法建立一个柴油十六烷值的校正模型,至少十几万元。对毒性较大、不稳定的样品建立校正模型,费用会更高。为解决这一问题,人们提出了模型传递方法,所谓模型传递是指经过数学处理后,使一台仪器上的模型能够用于另一台仪器,从而减少重新建模所带来的巨大工作量,实现样品和数据资源的共享\[9\]。模型传递的成功与否直接影响近红外光谱分析技术的应用和推广。
目前,模型传递算法主要有两种,一种为有标样算法,这类算法需要选择一定数量的样品组成标样集(也称转换集),并在主仪器和从仪器上分别测得其光谱,从而找出该函数关系,如直接校正(DS)算法\[10\]、分段直接校正(PDS)算法\[11\]和Shenk′s算法\[12\]等;另一种是无标样算法,这类算法不需要选择标样集,如有限脉冲响应(FIR)算法\[13\]等。其中DS算法和PDS算法是最常用、最有效的算法,DS算法利用全谱区的光谱数据逐一校正每个波长点,原理简单,使用方便,但所需标样数多\[14\];PDS算法是一种多元全光谱模型传递算法,它的基本假设是实际光谱数据的变化只局限于一个小区域,选择合适的窗口对各个波长点的光谱进行较正\[15\],但在实际中不同近红外光谱仪上测量的光谱存在较大差异,这些差异大小及体现在谱区范围有很大不同,有的是局部,有的是全谱区,因此会产生一定的校正误差。
本研究基于一元线性回归提出一种新的有标样模型传递算法——一元线性回归直接标准化算法(Simple linear regression direct standardization,SLRDS)。利用玉米样品的近红外光谱集验证算法的有效性,并与DS及PDS算法的传递效果进行对比。实验结果表明:经过SLRDS传递后,主从仪器上玉米样品的预测集光谱平均差异度得到有效降低,预测结果得到明显改善,并且相比DS及PDS,传递效果得到明显提高。2原理与方法
设X(n×p)为任意光谱矩阵,其中n为样品数,p为变量数;X(i,j)表示第i个样品在第j个波长点处的吸光度;X(i,:)为光谱矩阵的行向量,表示第i个样品在所有波长处的吸光度; X(:,j)为光谱矩阵的列向量,表示所有样品在第j个波长点处的吸光度。为了区分主从仪器上的光谱矩阵,设Xm为主仪器上采集的光谱矩阵,Xs为从仪器上采集的光谱矩阵。
选取标准样品集,在主从仪器上分别同时测量其近红外光谱,得到光谱矩阵Xm和Xs。
2.1DS算法
DS算法是用转换矩阵F建立光谱矩阵Xm和Xs之间的关联。
Xm=XsF(1)
转移矩阵F可通过式(2)得到:
F=X+sXm(2)
其中,Xs+为Xs的广义逆阵,F为p×p维的矩阵。
对在从仪器上测得的未知样品光谱Xunknown, 用公式(3)进行转换得到与主仪器上测得的光谱相一致的光谱Xstd,再由主仪器建立的校正模型计算最终结果。
Xstd=XunknownF(3)
2.2PDS算法
在PDS算法中,用从仪器第i个波长点两侧窗口宽度为j+k+1的标样光谱阵Xs,j+k+1(从第i-j波长点至第i+k波长点)与主仪器第i波长的标样光谱阵Xm,j,计算该第i波长点的转换系数Fi。然后逐点移动得到所有波长的转换矩阵F。
对在从仪器上测得的未知样品光谱Xunknown,经固定窗口分段,由转换系数Fi循环得到与主仪器相一致的光谱Xstd,再由主仪器建立的校正模型计算最终结果。
分 析 化 学第42卷第9期杨辉华等: 基于一元线性回归的近红外光谱模型传递研究2.3一元线性回归直接标准化算法(SLRDS)
2.3.1一元线性回归原理在一元线性回归分析中,主要问题是根据一组n个测量值(xi,yi)找出b0和b的最优估计值0和,使得=0+x与y达到最接近的程度,0与一经求出,便可用于预测分析\[16\]。b0和b的估计值通常采用最小二乘法求得。
2.3.2SLRDS算法原理假设不同波长间吸光度是相互独立的,利用一元线性回归对从仪器上光谱进行校正。
通过式(6),可求出任意波长点j(j∈1…p)对应的回归系数b0(j)和b(j),共有p×2个。对在从仪器上测得的未知样品光谱Xunknown(n′×p),其中n′为未知样品数,由式(7)可得与主仪器上测得的光谱相一致的光谱xstd,再由主仪器建立的校正模型计算最终结果。
Xstd(:,j)=[ln×1Xunknow(:,j)]·b0(j)
b(j)(j∈1…p)(7)3实验部分
3.1实验样品
为了验证SLRDS算法的有效性,采用玉米样品的近红外光谱集(来源于:http://www.eigenvector.com/data/Corn/corn.mat)。光谱集包含在3台不同光谱仪(分别记作m5,mp5,mp6)上测得的80个玉米样品的近红外光谱,光谱波长范围为1100~2498 nm,间隔2 nm。同时包含玉米4种组分: 水分、油、蛋白质和淀粉含量的参考值。
3.2定量校正模型及评价标准
利用偏最小二乘(PLS)方法建立定量校正模型,由于主因子选取太小会丢失有用信息,选取太大会包含过多噪音\[17\],因此,本研究设定最大主因子数目为15,并按留一交叉验证的方法确定最终的主因子数。采用校正标准偏差(Standard error of calibration, SEC)、预测标准偏差(Standard error of prediction, SEP)和决定系数(R2)对PLS模型的性能进行评价。SEC和SEP越小,R2越大,表示模型的性能越好。采用光谱平均差异(ARMS) \[18\]、光谱校正率(Prcorrected)\[17\]及预测标准偏差(SEP)对模型传递算法(SLRDS、DS及PDS)的传递效果进行评价。ARMS越大,表示仪器间采集的光谱差异越明显,Prcorrected为不同仪器之间的光谱差异扣除率,越大传递效果越好,SEP越小,同样表明传递性能越好。ARMS=1n∑ni=11Ppi=1|Si2λ-Si1λ|(8)Prcorrected(%)=ARMS2uncrrected-ARMS2correctedARMS2uncorrected×100(9)
其中, Si1λ和Si2λ分别为第i个标准样品在仪器1和仪器2上测定的λ波长点处的光谱数据。ARMSuncorrected为传递前的ARMS,ARMScorrected为传递后的ARMS。4结果和讨论
4.1PLS模型的建立与主从仪器的选择
首先利用SavitzkyGolay卷积平滑法对所有光谱数据进行平滑预处理,窗口大小为17,多项式阶数为3;然后根据玉米样品各成分含量的参考值梯度排序;最后采用隔三选一的方式选出27个样品作为预测集,其余53个样品作为校正集。m5,mp5和mp6仪器的校正集和检验集的样品一致。利用PLS方法对玉米样品各成分在3台仪器上分别建立定量校正模型,
不同仪器之间有差异,因此相同样品在不同仪器上建立模型的预测效果也存在差别。由表1可知,玉米的4种成分在3台仪器上建立的校正模型,m5仪器上所建模型的预测效果要优于mp5和mp6两台仪器,其R2相对更大,SEC和SEP相对更小,即模型更加稳健、性能更好。因为主仪器自建模预测效果越好,则模型传递效果越好\[8\],所以应选择预测效果较好的仪器m5作为主仪器(Master, M),mp5和mp6分别作为从仪器1(Slave 1, S1)和从仪器2(Slave 2, S2)。
4.2转换集样品的选择
SLRDS算法为有标样算法,需要选择转换集样品。转换集样品数的选取对转移效果有重要影响,转换集样品数太小,则使转化信息不充分;转换集样品数太大,则使实际应用太复杂。通常,转换集样品取自校正集,选取的方法有杠杆点算法、MSID算法及KennardStone(KS)算法\[19\]等。其中,KS算法是一种应用最为广泛的转换集选取方法,其根据样品间光谱的欧氏距离来计算样品间差异,能够产生具有代表性的子集。本研究将转换集样品数的上限设为20,以SEP最小为原则,对玉米样品不同成分,分别利用KS算法从校正集中选择最佳样品数。
4.3模型转移结果
4.3.1模型传递前后仪器间光谱差异分析当以玉米样品中水分性质选择转换样品集时,图1分别给出了预测集在主从仪器上的原始平均光谱。观察图1中3条光谱可以发现在模型传递前,从仪器上的光谱与主仪器上的光谱差异明显,且基本上是基线漂移与少量波长漂移。图2给出了经SLRDS算法传递后预测集在主从仪器上的平均光谱,主从仪器上的光谱差异性得到明显改善,两台从仪器上的光谱与主仪器上的光谱几近重合。表2给出了玉米样品的近红外光谱经SLRDS算法传递前后光谱平均差异(ARMS)及光谱校正率(Prcorrected)的计算值。以玉米中水分性质为例进行说明,从表2可见,两台从仪器上的转换集大小分别为6和7,光谱传递前主从仪器上的光谱平均差异(ARMSuncorrected)分别为0.2100和0.2365,经SLRDS算法传递后光谱平均差异(ARMScorrected)分别降低为0.0766和0.0750,光谱校正率分别为86.68%和89.93%,与图1、图2的结果分析一致。由以上实验结果可知,SLRDS算法能够有效消除近红外光谱仪之间的差异。
3.2模型传递前后预测结果分析分别用主仪器上建立的校正模型对预测集在从仪器上测得的光谱和经过SLRDS算法校正过后的光谱进行预测,预测结果如表3所示。从表3可知,转移后的蛋白质和淀粉预测效果较转移前有明显提高,与主仪器的预测效果相当;转移以后的水分和油分预测效果虽然与主仪器预测效果有明显差距,但是较转移前的预测效果有了一定提高。由以上实验结果可知:SLRDS算法可有效提高近红外光谱模型的预测精度,很好地实现玉米样品光谱模型在3台仪器之间的共享。为了进一步验证SLRDS的传递效果,对SLRDS的模型传递效果与DS, PDS进行比较。DS和PDS的校正步骤与SLRDS类似,首先采用KS算法在校正集中选择合适数目的样品作为转换集,然后利用DS和PDS计算转化矩阵,最后再对预测集的光谱进行校正。转换集大小和PDS的窗口宽度通过SEP最小的原则选出。PDS在主从仪器上传递水分模型时最佳窗口大小为5,其余情况为3。表4列出了模型传递前的预测标准偏差(SEPuncorrected)与经过3种算法传递之后的预测标准偏差。经3种算法传递后预测效果较传递前都得到不同程度提高,但是SLRDS相比DS和PDS校正后的光谱预测效果更接近主仪器的原始模型,传递效果更好。这是因为,DS算法是利用全谱区的光谱数据逐一校正每个波长点,所需标样数多,而在本实验中标样数n=53,光谱波长点数p=700, n
Table 4Comparison of SLRDS, direct standardization (DS) and piecewise direct standardization (PDS) for SEP成分 Component 仪器 Instrument水分 Moisture S1S2油 Oil S1S2蛋白质 Protein S1S2淀粉 StarchS1S2一元线性回归直接标准化算法SLRDS0.25180.27870.12010.10800.11260.12740.34410.3458直接标准化算法DS0.30060.28600.12510.12090.24000.21250.35350.4845分段直接标准化算法PDS0.26490.33760.16270.16670.38210.58100.65780.6859传递前预测标准偏差SEPuncorrected1.48551.58260.22530.34331.34881.50151.92081.47395结论
随着近红外光谱分析技术的普及,模型传递问题也备受关注。本文研究基于一元线性回归提出一元线性回归直接标准化算法(SLRDS)。并且在一个实际样品集上验证算法的有效性。实验结果表明,SLRDS能够有效消除不同仪器之间的光谱差异,提高模型分析精度,能够实现主仪器的玉米水分、油、蛋白质及淀粉4个模型在3台仪器之间的共享,大大减少了分析测试工作量,节约模型建立的成本。与传统的DS及PDS算法相比,SLRDS不仅具有所求参数少、模型简单等优点,而且模型预测的准确度更高。
AbstractTo solve the calibration transmission problem in nearinfrared (NIR) spectroscopy, a novel model transfer method, Simple Linear Regression Direct Standardization (SLRDS), has been presented. To investigate the validity of the proposed method, a real corn sample NIR dataset was tested and the direct standardization (DS) method and piecewise direct standardization (PDS) method were involved as a comparison. Our results indicated that SLRDS can correct compressed NIR data differences among instruments and enable the user to share corn sample PLS calibration model among three instruments, at the same time it has higher prediction accuracy, fewer parameters and simpler model than DS and PDS.KeywordsNearinfrared spectroscopy; Model transfer; Simple linear regression
(Received 30 March 2014; accepted 2 July 2014)
This work was supported by the National Natural Sciences Foundation of China (No. 21365008, 61105004)
相关文章!
  • 改进演示实验,提高演示实验教

    曹雪梅众所周知,化学是以实验为基础的学科.实验是化学的灵魂,也是提高学生学习兴趣的主要因素.教学实践证明,化学实验教学可以让学生

  • 素质教育在中职教育中的重要性

    杨天摘要:进入21世纪之后,素质教育已经成为全社会非常关注的一个重要话题。而在职业教育中,许多学生和家长错误的认为职业教育的本质就

  • 质谱法测定水中溶解氙的含量及

    李军杰+刘汉彬 张佳+韩娟+金贵善+张建锋<br />
    <br />
    <br />
    <br />
    摘要 利用设计的一套水样中提取并分离Xe的装置,与稀有气体质谱