标题 | 基于提升建模的锌离子与钴离子浓度紫外可见吸收光谱检测方法 |
范文 | 朱红求 周涛 李勇刚 陈俊名 摘 要 紫外可见分光光度法检测高浓度Zn离子和痕量Co离子混合溶液时,由于Zn离子对痕量Co离子吸收光谱的掩蔽,以及两种离子之间化学性质相近,经常导致光谱重叠、相互干扰。针对这一问题,本研究提出一种基于提升建模的Zn离子和Co离子浓度紫外可见吸收光谱检测方法。本方法通过对校正集加权采样获得子数据集; 然后使用子数据集建立不同压缩比的LASSO回归子模型集,使用赤池信息量准则(AIC)选择最优子模型; 根据子模型对建模样本的误差大小,更新样本权重,重复迭代建模至子模型收敛; 最后根据子模型的预测性能给予子模型不同的权重,加权融合子模型得到最终的总模型。共获得80组Zn离子和Co离子混合溶液的紫外可见光谱数据集,将本方法与全波段的偏最小二乘(PLS)、蒙特卡洛无信息变量消除(MCUVE)-PLS及竞争自适应重加权采样(CARS)-PLS进行了比较分析,对于Zn离子,本方法保留的有效波长点个数相比PLS、MCUVE-PLS和CARS-PLS都大幅减少,预测均方根误差相对于PLS、MCUVE-PLS和CARS-PLS分别减少55.3%、21.3%和1.64%。对于Co离子,本方法保留的有效波长点个数相比MCUVE-PLS 和CARS-PLS大量减少,降低了模型的复杂度,预测均方根误差相对于PLS、MCUVE-PLS和CARS-PLS分别减少71.4%、46.2%和54.8%。 关键词 紫外可见吸收光谱; LASSO回归; 提升建模; 金属离子检测 1 引 言 湿法炼锌过程中需要对复杂电解料液的多金属离子浓度进行检测,已有研究对复杂料液中单个痕量离子进行检测[1],并建立了单个痕量离子预测模型,但对复杂料液中多金属离子同时检测的研究较少。这主要是因为紫外可见分光光度法对复杂电解料液进行检测存在以下难点[2]:(1)高浓度锌离子的吸收光谱信号严重掩盖了痕量离子的吸收光谱信号; (2)高浓度锌离子导致吸收光谱在部分波段不再满足叠加性,呈现明显的非线性; (3)离子间化学性质相近,光谱信号相互干扰。使用紫外可见分光光度法对复杂料液进行检测时,紫外可见光谱数据集同时包含了有效信息和大量无效冗余信息,甚至包含噪声信息,这些冗余信息和噪声会严重影响模型的预测性能,因此不能使用传统的最小二乘建模方法。偏最小二乘(PLS)[3,4]分別对光谱矩阵和浓度矩阵进行正交分解,去除一些不重要的信息来建立模型,取得了较好的效果。但是偏最小二乘的隐变量都由所有的解释变量组成,会导致所建立的最终预测模型也包含所有的解释变量。这样得到的模型的稳定性和预测性能通常较差,模型复杂度高并且无可解释性,因此偏最小二乘法通常结合变量选择方法建模。变量选择方法可以降低光谱数据的维度,提高模型的可解释性。常见的变量选择方法有前向选择(Forward selection)[5]、后向消除(Backward elimination)[6]和无信息变量消除(UVE)[7]。这些变量选择方法都可以有效地单独选取一些有用变量,但是这些变量选择方法不能考虑各个变量之间的相互影响,属于离散的选择方法[8],不能根据变量对模型的贡献程度连续选择。另一些变量选择方法如蒙特卡洛无信息变量消除(MCUVE)[9]、竞争自适应重加权采样(CARS)[10]考虑了个变量之间的影响,综合多次迭代建立模型具有较好的模型预测性能。但在复杂料液多金属离子检测的背景下,MCUVE和CARS会倾向于选择谱峰处的波长点,而谱峰处的波长点对痕量离子预测模型的贡献度较小,导致模型性能下降。 LASSO回归[11,12]是通过在最小二乘回归估计中引入一范数惩罚,使得一些对模型贡献不大的变量的回归系数压缩为0,可以综合考虑变量之间的相互影响对变量进行连续选择,获得稀疏的回归模型。LASSO回归是一种同时具有变量选择和参数估计的回归方法[13],参数估计过程中考虑到各个变量之间的相互影响,将性质相近的变量回归系数规整在一起,并赋予较大的建模系数,将其它变量系数压缩为0。此方法可以有效保留重要的变量, 同时删除数据中的冗余信息。 传统的回归方法通常建立单个的预测模型,然而单个预测模型通常在稳定性和预测性能方面较差[14]。近年来,集成建模快速发展[15],集成建模是通过对样本多次采样获得多个训练子集,使用多个训练子集建立多个子模型,然后通过一定的规则将多个子模型融合, 得到最终的模型。常见的集成方法有Bagging[16,17]和Boosting[18,19]两种。Boosting集成方法通过对样本重加权采样获取训练子集,连续训练较差的样本获得一系列子模型,并根据子模型的预测性能进行加权融合, 得到最终的模型。Boosting方法已被证明可以明显减小模型的方差和预测误差[20]。 为了提高混合溶液多金属离子的检测精度,针对湿法炼锌过程中高浓度Zn离子和痕量Co离子混合溶液的紫外可见吸收光谱数据特点,本研究提出采用LASSO回归结合Boosting方法进行建模,使用Boosting方法连续建立一系列欠拟合的LASSO回归子模型集,使用赤池信息量准则(AIC)[21]选择子模型集中的最优子模型,根据最优子模型更新样本权重,重复迭代至最优子模型收敛,最后通过加权融合所有的子模型获得一个稳定的、预测性能强的回归总模型。此方法具有随机森林算法类似的优点,可同时在样本方向和变量方向进行选择,具有多样性的优点,可以提高总模型的稳定性,减小预测误差。 2 实验部分 实验使用北京普析T9双光束紫外可见分光光度计和微型计算机进行分析。使用紫外可见分光光度法测量高浓度Zn离子和痕量Co离子的混合溶液光谱数据。按照均匀实验设计思想,设计了80组具有不同浓度Zn离子和Co离子的混合溶液样本,其中Zn离子浓度变化范围是160~800 mg/mL,间隔为80 mg/mL,Co离子浓度范围是0.2~1.0 mg/mL,间隔为0.1 mg/mL。以空白样品(只含有测试体系不含有待测金属离子)作参比,T9双光束紫外可见分光光度计的扫描波长范围是:470~800 nm, 扫描间隔为1 nm, 测量待测溶液在各波长点的吸光度,获得80组样本的吸光度矩阵。 3 建模方法 3.1 LASSO回归方法 LASSO回归是一种同时进行变量选择和参数估计的回归方法,此方法通过在最小二乘回归估计中引入一个范数惩罚,对建模系数进行连续压缩,可以将一些对模型贡献不大的变量的回归系数压缩为0。多元线性回归模型为[23]: 4 结果与讨论 4.1 最佳子模型选取分析 首先分析LASSO回归模型的有效变量个数和模型预测精度之间的变化关系,使用LASSO回归对全部校正集数据进行建模,分别对Zn离子和Co离子进行预测。改变LASSO回归的一个范数惩罚因子,从而得到有效变量个数不同的回归模型。图2A和2B分别表示Zn离子和Co离子LASSO回归模型的预测均方根误差(RMSEP)与LASSO回归保留的有效建模波长点个数的变化关系。如图2A所示,对Zn离子而言,LASSO回归模型保留的有效变量个数大于24时,LASSO回归模型的预测均方根误差趋于稳定且较小,因此使用Boosting-LASSO方法建模时,子模型的有效变量个数应该大于24个。变量个数太少,模型预测性能较差,但过多的变量会导致模型可解释性降低,因此结合AIC准则选择最佳子模型。同理,对Co离子而言,变量个数大于12时,LASSO回归的预测均方根误差趋于稳定(图2B)。由于变量个数是LASSO回归自动确定的,因此存在变量个数不连续的情况。不同压缩比的LASSO回归模型可能有相同的变量个数,因此图中存在一对多的坐标点。 从图2可见,由于LASSO回归的压缩程度难以确定,较大的压缩因子导致模型欠拟合,较小的压缩因子会导致模型夹杂较多的噪声和冗余信息,降低模型解释性和模型稳定性。此外,也导致LASSO回归直接用于多金属离子紫外可见光谱建模时,预测误差大,因此每次迭代使用AIC准则计算子模型的赤池信息量,选择准确性较好和复杂度较低的子模型。 4.2 Boosting-LASSO建模分析 使用上述Boosting-LASSO建模方法对校正集数据进行建模,Boosting-LASSO建模方法是迭代提升的过程。图3A和3B分别表示了Zn离子和Co离子总模型的有效变量个数和總模型的RMSEP与迭代次数之间的变化关系。可以看到,随着迭代次数增加, 模型的有效变量个数增加, 同时预测均方根误差减小。 从图3A可见,对于Zn离子,Boosting-LASSO建模迭代达到25次时,模型的预测性能趋于稳定,有效变量个数不再增加,说明子模型和总模型已经趋于收敛。如图3B所示,Boosting-LASSO对Co离子建模迭代达到8次时,模型的预测性能趋于稳定。 4种建模方法建立的模型对20组验证集数据预测结果如表1所示。全波段PLS建模,由于光谱数据存在大量数据冗余、噪声干扰,导致全波段PLS建模预测精度低,且模型没有可解释性。对于Zn离子,Boosting-LASSO建模方法保留的有效波长点个数,相比MCUVE-PLS 和CARS-PLS都有较大程度的减少,预测均方根误差相对于PLS、MCUVE-PLS和CARS-PLS分别减少55.3%、 21.3%和1.6%,平均相对误差(MSE)和相对最大误差都明显减小。对于Co离子,Boosting-LASSO建模方法保留的有效波长点个数相比MCUVE-PLS 和CARS-PLS大量减少,降低了模型复杂度,预测均方根误差相对于PLS、 5 结 论 本方法使用LASSO回归作为基础回归方法,使用赤池信息量准则(AIC)确定子模型的最佳压缩比; 然后通过Boosting方法的迭代重加权采样对基础回归方法进行提升,最后融合多个子模型得到最终的模型。使用此方法对Zn和Co混合溶液紫外可见光谱数据集进行建模预测分析,实验结果表明,本研究提出的方法相比于三种常见的建模方法PLS、MCUVE-PLS和CARS-PLS在预测精度和模型稳定性上都有较大的提升,同时可以很大程度地减小预测的平均相对误差和最大相对误差。本方法以Zn和Co离子混合溶液的紫外可见吸收光谱为例进行分析, 用于湿法冶金工业现场的浸出液中锌离子和钴离子的检测,检测精度满足湿法炼锌现场的最大检测误差小于10%的要求。本方法也可应用于含锌、铜、铁、镍等离子的混合溶液的检测,检测精度相比于传统的检测方法都有较大的提高。 References 1 ZHU Hong-Qiu, GONG Juan, LI Yong-Gang, CHEN Jun-Ming. Spectroscopy and Spectral Analysis, 2017, 37(12): 3882-3888朱红求, 龚 娟, 李勇刚, 陈俊名. 光谱学与光谱分析, 2017,? 37(12): 3882-3888 2 ZHU Hong-Qiu, CHEN Jun-Ming, YIN Dong-Hang, LI Yong-Gang, YANG Chun-Hua. Journal of Chemical Industry,? 2017,? 68(03): 998-1004朱红求, 陈俊名, 尹冬航, 李勇刚,阳春华.? 化工学报,? 2017,? 68(03): 998-1004 3 LIANG Yi-Zeng, WU Hai-Long, YU Ru-Qing. Handbook of Analytical Chemistry·Chemometrics. Beijing: Chemical Industry Press,? 2016:? 211-212梁逸曾, 吴海龙, 俞汝勤.? 分析化学手册·化学计量学.? 北京: 化学工业出版社,? 2016:? 211-212 4 Poerio D V, Brown S D. Chemometr. Intell. Lab. Sys.,? 2017,? 166(2017): 49-60 5 Blanchet F G, Legendre P, Borcard D. Ecology,? 2008,? 89(9): 2623-2632 6 Sutter J M, Kalivas J H. Microchem. J.,? 1993,? 47(1): 60-66 7 Centner V, Massart D, deNoord O E, deJong S, Vandeginste B M, Sterna C. Anal. Chem.,? 1996,? 68(21): 3851-3858 8 Yun Y H, Wang W T, Tan M L, Liang Y Z, Li H D. Anal. Chim. Acta,? 2014,? 807(1): 36-43 9 Sun X D, Zhou M X, Sun Y Z. Infrared Phys. Tech.,? 2016,? 77(1): 65-72 10 Li H D, Liang Y Z, Xu Q S. Anal. Chim. Acta,? 2009,? 648(1): 77-84 11 Colombani C, Legarra A, Fritz S, Guillaume F, Croiseau P, Ducrocq V. J. Dairy Sci., 2013,? 96(1): 575-591 12 Lê C K A, Rossouw D, Robertgranié C, Besse P. Stat. Appl. Genet. Mol.,? 2008,? 7(1): 11-35 13 Li H D, Liang Y Z, Xu Q S. Chemometr. Intell. Lab. Sys.,? 2010,? 104(2): 341-346 14 Bian X, Li S, Shao X G, Liu P. Chemometr. Intell. Lab. Sys.,? 2016,? 158(1): 174-179 15 Li Z G, Lv J T, Si G Y. Chemometr. Intell. Lab. Sys.,? 2015,? 146(1): 211-220 16 Breiman L. Mach. Learn.,? 1996,? 24(2): 123-140 17 Zou P C, Wang J, Chen S, Chen H. Knowl. Based Sys.,? 2014,? 65(1): 21-30 18 Cao D S, Xu Q S, Liang Y Z, Zhang L X, Li H D. Chemometr. Intell. Lab. Sys.,? 2010,? 99(1): 1-11 19 Gao F, Kou P, Gao L, Guan X. Neurocomputing,? 2013,? 113(7): 67-87 20 Shao X, Bian X, Cai W. Anal. Chim. Acta,? 2010,? 666(1): 32-37 21 Inouye T, Toi S, Matsumoto Y. Cognitive Brain Res.,? 1995,? 3(1): 33-40 22 Macho S, Rius A, Callao M P, Larrechi M S. Anal. Chim. Acta,? 2001,? 445(2): 213-220 23 Martens H, Naes T. J. Chromatogr. A,? 2007,? 33(3): 366-367 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。