基于粒子群算法-支持向量机-激光诱导击穿光谱技术对稻壳中铬元素的定量分析模型
周华茂 陈添兵 刘木华 徐将 何秀文 许方豪 姚明印
摘 要 为了对稻壳中重金属铬(Cr)含量进行快速测定,利用激光诱导击穿光谱技术(LIBS)获取了江西省鄱阳湖周边24组水田污染区稻壳中Cr元素的等离子体信号光谱数据。通过在422.04~445.94 nm波段范围内构建光谱九点平滑和归一化数据预处理,选择18组数据作为训练样本,另外6组作为测试样本,提出了基于粒子群算法(PSO)的支持向量机(SVM)参数调节优化方法。建立了PSO-SVM智能算法对Cr含量的LIBS定量分析模型,得到测试集均方根误差(RMSE)为7.83 μg/g,平均绝对误差百分比(MAPE)为4.10%,预测值与测定值之间的相关系数为0.9948。在同等条件下,采用联合区间偏最小二乘法(siPLS)预测6组样本浓度,其RMSE为22.58 μg/g,MAPE为6.17%,相关系数为0.9840。结果表明,PSO-SVM回归定量方法可用于LIBS农产品的成分分析,其分析效果优于siPLS。
关键词 激光诱导击穿光谱;粒子群算法-支持向量机;铬;稻壳
1 引 言
稻米在粮食中占有重要地位,但由于环境污染,稻谷重金属超标问题时有发生[1,2],进而危害人体健康。稻壳是稻米加工过程中数量最大的副产品,可作为家禽饲料、化工原料[3]等,用途广泛。此外,稻壳中含有较多SiO2,且以网络状态处于纤维素、木质素之中,机械强度较好,通过热解碳化及化学改性,使稻壳表面形成多孔状,具有较好的吸附能力[4]。 有研究表明,稻壳中重金属含量高于大米[5],因此,对稻壳中金属元素、农药残留等污染物进行绿色、快速检测具有重要意义。
激光诱导击穿光谱(LIBS)是一种快速检测物质成分的技术,通过探测激光诱导等离子体信号光谱分析线的位置及信号强度,获取物质成分和浓度信息。由于LIBS具有快速、简便、多元素同时分析等优点,已被广泛用于食品安全[6,7]、工业生产[8,9]、生物医学[10,11]等领域,但由于单变量分析方法无法消除样品的基体效应等因素的影响,不利于分析结果准确性。基于此,许多研究者利用偏最小二乘法(PLS)、人工网络(ANN)、多元线性回归(MLR)和支持向量机回归(SVM)等多种多变量分析方法,提高LIBS分析的灵敏度和准确度。
PLS算法主要针对多因变量和多自变量的数据关系进行回归建模,可以解决大量样本数据。同时,PLS还结合了主成分分析(PCA)优点,可以剔除变异数据,尽可能提取最大的有效信息[12,13]。ANN算法也是一种处理非线性数据的重要手段,其优点在于可以模拟测定数据进行预测,尤其是在不能用规则或公式描述的大量原始数据处理过程中,能依据环境变化不断对权值进行调整而学习实现算法,表现出极大的灵活性和自适应性。Li等[14]提出了一种基于ANN的多谱线校正方法,以提高LIBS分析钢的精度。El Haddad等[15]利用人工神经网络对土壤样品现场LIBS分析数据进行定量分析,其现场预测分析结果效果较好。MLR算法可将多个线性的物质之间的变量和自变量之间建立相关度高的线性回归方程,对物质成分进行定量分析时,需要人工参与,手动查找谱峰位置等准备过程,但是,当样品条件和激光能量变化时,与实际物理含义无关的MLR方法对目标的成分预测值可能会与实际值有较大的误差。沙文等[16]将LIBS技术和MLR结合,用于复混肥中磷元素浓度测定,发现四元线性回归法可提高LIBS测量准确性。SVM是继神经网络之后出现的一种比较高效优越的算法,该算法能避免经验非线性方式的过拟合、局部最优等问题,泛化能力强,已被广泛应用于各种预测领域[17,18]。
以上多变量方法一定程度上解决了LIBS分析中基体效应及自吸收效应问题,提高了定量分析结果的准确度,有力推动了LIBS的快速发展。但是,每种分析方法都有其优势和局限性,如SVM算法参数的选取会直接影响模型的预测准确度,采取试凑法或遍历优化进行参数选择比较费时,且找到的未必是全局最优解。本研究针对SVM参数的选取具有一定的“盲目性”的问题,以稻壳中的Cr元素为研究对象,提出利用粒子群优化(PSO)算法优化其模型参數,采用PSO对SVM的惩罚因子c和核函数g的参数进行优化,建立基于粒子群算法的支持向量机(PSO-SVM)回归预测模型,测定稻壳中Cr浓度,并将测定结果与联合区间偏最小二乘法(siPLS)的测定结果进行比较。
2 定量分析模型与原理
2.1 支持向量机回归模型
SVM是一种以统计学习理论为基础,建立在VC维(Vapnik-Chervonenkis)、结构风险最小和核函数原理基础上的新型机器学习方法。SVM算法适用于小样本,已广泛用于解决各种分类和回归预测问题[19,20]。SVM的算法原理及具体建模过程参见文献[21],由于建模时参数c与g的选择决定SVM回归的准确度与预测的精度,c是影响回归模型对回归误差大于样本的重视水平,g的大小关系着回归模型的精度。因此,为了提高SVM的学习和泛化能力,需要对c和g两个参数进行优化,可以得到最佳的预测模型。
2.2 粒子群优化算法
PSO是一种基于迭代模式的优化算法,源于对鸟群捕食行为的模拟,其基本思想是通过对群体中粒子之间的信息传递及共享达到寻优目的。在PSO中,每个优化问题的潜在解称为“粒子”,每个粒子都有自己的位置和速度,以及一个被优化的函数决定的适应值。PSO初始化时为一群随机粒子,每个粒子都需要在历次迭代过程中基于目标函数决定自适应值的取值,根据自适应值确定当前粒子的最优解pbest(个体极值)和群体最优解gbest(全局极值)[22]。设在一个D维搜索空间中,微粒数M,第i个粒子的位置为xi=(xi1,xi2,…,xiM),速度为vi=(vi1,vi2,…,viM),
在获得两个极值后,粒子根据式(1)和式(2)更新自己的位置和速度。
式中,ω为惯性权重因子;c1和c2为加速因子,通常取值为(0,2)之间;r1和 r2为随机参数,取值为(0,1)之间。当迭代次数达到设定值或搜索到的最佳位置,满足设定的最小自适应值时,寻优结束。采用PSO算法对SVM参数进行优化的过程如图1所示。
3 实验部分
3.1 实验装置
LIBS实验装置示意图如图2所示,系统采用Nd:YAG激光器作为激光光源(工作波长为1064 nm,单脉冲最大能量为300 mJ,脉冲宽度为8 ns,频率为2 Hz),激光束经反射镜垂直后穿过穿孔反射镜经焦距为100 mm的聚焦透镜聚焦在待测样品表面。样品表面产生的激光等离子体光谱信号经过穿孔反射镜(表面镀紫外加强铝膜,(LIBS)反射率>80%)反射到焦距为100 mm的石英聚焦透镜耦合至光纤,并传输至八通道光谱仪(探测波长为200~1050 nm,分辨率0. 08~0.13 nm)完成光谱的分光与探测。DG645型数字式延迟脉冲发生器为激光器和光谱仪提供精准外触发信号,控制光谱采集的延迟时间。同时,为了保证测量的均匀性和稳定性,将样品置于二维自动旋转工作台上,匀速运动实现无重复采样打点。
3.2 实验样品采集和处理
根据实地考察及调研,在江西省鄱阳湖湖边采集了24个不同区域的水田污染区稻谷测试样品。稻谷自然风干后,将其谷壳分离,并采用粉碎机对稻壳进行粉碎,再用手动压片机对样品进行压片制样(压力为30 MPa),每个样品制成直径为30 mm,厚度约为3 mm的圆饼块状型。待 LIBS光谱采集实验后,采用原子吸收光谱法(AAS)对每个样品进行测定浓度的检测,每个样品中Cr元素的含量如表1所示,为考虑训练集与测试集浓度大小分布合理,24个样品按浓度大小排列,然后按步长为4抽取数据,分成4等份,并以其第1、2、4等份数据为训练集,第3等份数据为测试集。
3.3 LIBS光谱采集
为增强等离子体光谱信号强度,本研究采用双脉冲激光器对样品进行LIBS实验,两路激光能量分别为175和235 mJ,两路光束之间的延迟时间为60 ns,光谱最佳采集的延迟时间为1.58 μs。
每个样品进行3次重复实验,每次重复实验采集50幅光谱,每幅光谱由2个脉冲累加组成。图3 显示了24个稻壳样品在422.04~445.94 nm波段内的特征峰光谱,Cr元素的Cr I 425.43 nm、Cr I 427.48 nm、Cr I 428.97 nm三重线谱线清晰。同时,由于仪器自身特点和测量过程中温湿度等因素引起的干扰,谱线的特征峰会出现不同程度的变化,因此,为了降低仪器设备和实验环境带来的干扰,选择包含Cr元素三重线在内的波段422.04~445.94 nm特征峰光谱的积分强度为多元回归的输入。
4 结果与讨论
4.1 回归训练
利用Matlab2018软件对24个稻壳样品在42204~445.94 nm波段内的469组光谱数据进行九点平滑法和归一化法数据预处理。采用图1中的PSO算法流程对SVM参数进行优化,并利用基于台湾大学林智仁等开发设计的Libsvm 3.22 软件包对稻壳中的Cr元素进行PSO-SVM回归训练。
先对PSO的参数进行初始化设置,设粒子维度为2,每一维粒子群中粒子数目为20,粒子群最大优化代数为200,加速因子c1=1.5和c2=1.7,惯性权重因子ω=1,惩罚参数c的搜索范围为(0.1,1000),核参数g的搜索范围为(0.01,1000)。PSO训练过程的适应度变化曲线如图4所示,输出的最佳参数值为Best c=2.4265,Best g=0.0100。将优化得到的参数代入PSO-SVM回归模型,得到稻壳中Cr元素的训练集和测试集的预测结果(图5),均与测定值基本吻合,相关系数分别为0.9999和0.9948。
利用siPLS算法对稻壳中Cr元素的含量进行定量分析,同样选取波段422.04~445.94 nm内特征峰光谱的积分强度为模型输入,Cr元素的浓度作为输出,得到训练集和测试集的预测结果,两者与测定值拟合度系数分别为0.9714和0.9840。
4.2 预测结果分析
以相关系数(R)、平均绝对误差百分比 (MAPE)、預测集均方根误差(RMSE)为指标,优化建模参数,考察所建立稻壳LIBS光谱数据与Cr含量之间的PSO-SVM和siPLS 算法定量回归模型性能。
式中,M为样品总数量,yi、L、L分别为样品浓度实际值、预测值和平均值。相关系数R表示两组变量之间的线性关系,MAPE可反映预测值误差的实际情况,RMSE用于衡量预测值与实际值之间的偏差。
PSO-SVM与siPLS算法预测的结果分析如表2所示,PSO-SVM算法测定结果的MAPE为4.10%,RMSE为7.83 μg/g;siPLS算法测定结果的MAPE为6.17%,RMSE为22.58 μg/g,与siPLS算法的预测结果相比,PSO-SVM预测的平均绝对误差百分比和均方根误差均更低,检测能力更优。同时,通过PSO-SVM算法预测稻壳中Cr元素浓度的预测值与测定值之间的相关系数为0.9948,高于siPLS算法得到的相关系数(0.9840),说明PSO-SVM的输出值更接近测定值,提高了准确性。
5 结 论
采集稻壳样品的LIBS光谱,结合LIBS技术与SVM理论,利用PSO算法对SVM 进行参数寻优,以R、MAPE、RMSE为指标,对预测结果进行评估,获得惩罚系数c最优值为24265,核参数g 最优值为0.0100,建立了稻壳中重金属Cr含量的PSO-SVM定量分析模型,并与siPLS 建模结果比较。预测结果表明,LIBS与PSO-SVM算法相结合,能够有效地检测出稻壳中Cr元素的浓度,且检测准确度优于siPLS方法,相关系数R由0.9840提升到0.9948,MAPE由6.17%降低为4.10%,RMSE由22.58 μg/g下降为7.83 μg/g。 这说明PSO-SVM模型具有较高的泛化性能,为提高稻谷安全的监测和稻壳的开发与再利用提供了参考。
References
1 WANG Xiao-Bo,LI Jian-Guo,LIU Dong-Ying,QIU Yan-Jun,CHEN Rui-Tao. Chinese Journal of Food Hygiene,2015,27(1): 75-78
王晓波,李建国,刘冬英,邱艳君,陈锐涛. 中国食品卫生杂志,2015,27(1): 75-78
2 SHENTU Ping-Ping,LUO Jin-Bin,CHEN Gao-Shang,CAO Li-Jun,CHEN Shuang. Zhejiang Journal of Preventive Medicine,2014,26(2): 128-132
申屠平平,羅进斌,陈高尚,曹丽军,陈 爽. 浙江预防医学,2014,26(2): 128-132
3 LIU Qiang,HOU Ye-Mao,ZHANG Hu,ZHENG Kun,ZHANG Juan,TIAN Yuan,WANG Shao-Wen. Grain Processing,2013,38(3): 39-42
刘 强,侯业茂,张 虎,郑 坤,张 娟,田 原,王绍文. 粮食加工,2013,38(3): 39-42
4 SUN Nan,TIAN Wei-Wei,ZHANG Ying,TIAN Jia-Li. Transactions of the Chinese Society of Agricultural Engineering,2016,32(13): 197-205
孙 楠,田伟伟,张 颖,田佳丽. 农业工程学报,2016,32(13): 197-205
5 CHEN Ya-Ya,LIN Qin-Lu,LUO Fei-Jun. Journal of Cereals & Oils,2017,30(4): 1-4
陈娅娅,林亲录,罗非君. 粮食与油脂,2017,30(4): 1-4
6 Peng J Y,He Y,Jiang J D,Zhao Z F,Zhou F,Liu F. Food Chem.,2019,295: 327-333
7 Moncayo S,Manzoor S,Rosales J D,Anzano J,Caceres J O. Food Chem.,2017,232: 322-328
8 Cheng X,Yang X Y,Zhu Z H,Guo L B,Li X Y,Lu Y F,Zeng X Y. Appl. Optics,2017,56(33): 9144-9149
9 Sun L X,Yu H B,Cong Z B,Lu H,Cao B,Zeng P,Dong W,Li Y. Spectrochim. Acta B,2018,142: 29-36
10 Moncayo S,Trichard F,Busser B,Sabatier-Vincent M,Pelascini F,Pinel N,Motto-Ros V. Spectrochim. Acta B,2017,133: 40-44
11 Busser B,Moncayo S,Coll J L,Sancey L,Motto-Ros V. Coordin. Chem. Rev.,2018,358: 70-79
12 Yuan T B,Wang Z,Li Z,Ni W D,Liu J M. Anal. Chim. Acta,2014,807: 29-35
13 CHEN Tian-Bing,LIU Mu-Hua,HUANG Lin,ZHOU Hua-Mao,WANG Cai-Hong,YANG Hui,HU Hui-Qin,YAO Ming-Yin. Chinese J. Anal. Chem.,2016,44(7): 1029-1034
陈添兵,刘木华,黄 林,周华茂,王彩虹,杨 晖,胡慧琴,姚明印. 分析化学,2016,44(7): 1029-1034
14 Li K H,Guo L B,Li C M,Li X Y,Shen M,Zheng Z,Yu Y,Hao R F,Hao Z Q,Zeng Q D. J. Anal. Atom. Spectrom.,2015,30(7): 1623-1628
15 El Haddad J,Bruyère D,Ismal A,Gallou G,Laperche V,Michel K,Bousquet B. Spectrochim. Acta B,2014,97: 57-64
16 SHA Wen,LI Jiang-Tao,LU Cui-Ping,ZHENG Chun-Hou. Spectroscopy and Spectral Analysis,2019,39(6): 1958-1964
沙 文,李江涛,鲁翠萍,郑春厚. 光谱学与光谱分析,2019,39(6): 1958-1964
17 DONG Mei-Rong,WEI Li-Ping,LU Ji-Dong,LI Wen-Bing,LU Sheng-Zi,HUANG Jian-Wei,LI Shi-Shi,LUO Fa-Sheng,NIE Jia-Lang. Spectroscopy and Spectral Analysis.,2019,39(7): 2202-2209
董美蓉,韦丽萍,陆继东,黎文兵,陆盛资,黄健伟,李诗诗,骆发胜,聂嘉朗. 光谱学与光谱分析,2019,39(7): 2202-2209
18 Lu S Z,Dong M R,Huang J W,Li W B,Lu J D,Li J. Spectrochim. Acta B,2018,140: 35-43
19 ZHU Yi-Ning,YANG Ping,YANG Xin-Yan,LI Jia-Ming,HAO Zhong-Qi,LI Qiu-Shi,GUO Lian-Bo,LI Xiang-You,ZENG Xiao-Yan,LU Yong-Feng. Chinese J. Anal. Chem.,2017,45(3): 336-341
朱毅宁,杨 平,杨新艳,李嘉铭,郝中骐,李秋实,郭连波,李祥友,曾晓雁,陆永枫. 分析化学,2017,45(3): 336-341
20 WANG Chun-Long,LIU Jian-Guo,ZHAO Nan-Jing,MA Ming-Jun,WANG Yin,HU Li,ZHANG Da-Hai,YU Yang,MENG De-Shuo,ZHANG Wei,LIU Jing,ZHANG Yu-Jun,LIU Wen-Qing. Acta Optica Sinica,2013,33(3): 314-319
王春龙,刘建国,赵南京,马明俊,王 寅,胡 丽,张大海,余 洋,孟德硕,章 炜,刘 晶,张玉钧,刘文清. 光学学报,2013,33(3): 314-319
21 Zhang T L,Wu S,Dong J,Wei J,Wang K,Tang H S,Yang X F,Li H. J. Anal. Atom. Spectrom.,2015,30(2): 368-374
22 JIN Ye,YANG Kai,WU Yong-Jiang,LIU Xue-Song,CHEN Yong. Chinese J. Anal. Chem.,2012,40(6): 925-931
金 叶,杨 凯,吴永江,刘雪松,陈 勇. 分析化学,2012,40(6): 925-931