网站首页  词典首页

请输入您要查询的论文:

 

标题 质谱解析的模式识别算法分析
范文

    龙草芳

    提要:该文针对质谱解析中常用的模式识别方法,分析比较了其常用算法:线性学习机、K最邻近法、人工神经网络判别法。

    关键词:质谱解析;模式识别;算法

    中图分类号:TP302 文献标识码:A 文章编号:1009-3044(2016)36-0181-03

    在生活中,人们能够认出周围不同的人分辨他们说话的声音和方式,认出住的小区工作的单位,人们的这种能力就是“模式识别”。随着科技的发展,人们研究用计算机模拟人的模式识别能力,对不同类型形式的数据进行描述、分类、识别。

    模式识别的计算过程大致概况成以下几部分:首先从训练样本获得原始数据,对各元素进行综合分析,获得最能反映样本属性的观测量,从众多的特征中找到合适有效的特征量,然后进行特征提取,构成模式空间或特征空间。数据需要预先进行处理,处理后,即可通过模式识别算法进行训练和分类,然后根据训练分类所得的判据对未知样本进行判别(或称计算机预报)。过程如图1所示。

    1 线性学习机(linear learning machine)

    1.1 原理

    此方法亦称为纠错反馈法。最早由Kowalski等引入化学数据的解析,之后被广泛地用于质谱、红外光谱及核磁共振谱。

    该方法使用判别函数进行分类,判别函数在二维空间为一直线,在三维空间为一平面,而在多维空间则为一超平面,判别函数将N维空间分成类别区域,预测实验样本属于哪一类别。在LLM中,判别函数先将样本分为两类,使属于一类的样本处于平面的一侧,而属于另一类的样本处于另一侧。判别函数可以通过训练样本求得,并在通过校验集的验证后用于预测待测样本的归属。

    1.2 算法步骤

    线性学习机是一种有监督的学习类型的简单线性判别函数的迭代算法,可通过以下步骤来实现:

    设在训练集中有两类样本,记为[ω1]和[ω2],

    1)随机选取一个与样本矢量具有相同维数的矢量作为w

    2)对于每个样本都进行计算(k=1~n)。如果[xk∈ω1],而且如果[wtxk>0],则[wnew=wold](判决矢量保持不变)。反之,如果[wtxk<0],则[wnew=wold-λxk](修正判诀矢量);如果[xk∈ω2]且[wtxk<0],则[wnew=wold](判决矢量保持不变)。反之,如果[wtxk>0],则[wnew=wold-λxk](修正判诀矢量)。在此,[λ=2wtoldxk/xk2]。

    3)重复第二步,直至对所有的样本都正确分类。

    值得提出的是,以上算法是对于线性可分的情况而设计的,对于线性不可分的情况,则规定重复次数,到了规定次数还不能完全将训练集分开,则认为属于线性不可分的。

    另外,在本算法中的修正判决矢量的计算,实际上是将当前的不能正确分类的判决矢量进行反射,这是因为

    [wtnewxk=(wold-λxk)txk=wtoldxk-2wtoldxkxtkxk/xk2=-wtoldxk]

    也就是说,经过这样的修正以后,原来不能正确分类的现在可以分类正确了。一般来说,这样的重复次数在20次左右就足够了。

    1.3 缺点

    LLM方法的缺点之一是没有唯一解,当训练对象的表示次序发生改变时会出现不同的答案。并且只有当样本线性可分时,LLM才能很好的工作。LLM的另一缺点是判别面简单、异常点容易错误分类以及收敛缓慢的不足。另外,LLM只适用于区分两个类别的情况。

    2 K最邻近法(K-nearest neighbors,K-NN)

    2.1 原理

    K最邻近法在化学上应用极为广泛,它是直接以模式识别的基本假设即同类样本在模式空间相互靠近为依据的分类方法。它计算在最近邻域中k个已知样本到未知的待判别样本的距离,即使所研究的体系线性不可分,此方法仍可适用。

    KNN法对每一个待分类的未知样本都要计算它到全体已知样本之间的距离,得到它的k个最近邻点进行判决。若k=1,未知样本属于这一个最近邻样本。若k>1,则未知样本与这k个最近邻样本不一定属于一类。这时要采用权值的方法,对这k个近邻的情况按少数服从多数进行表决。一个近邻相当于一票,但考虑k个邻近与未知样本的距离有所判别,所以对各票进行加权,距离最近的近邻的类属,应予以较重的权。

    [V=i=1kviDi]或[V=i=1kviD2i]

    式中,[vi]为近邻的类属取值。对两类分类,i属于第一类时取“+1”,属于第二类时取“-1”。Di为未知样本与第i个近邻的距离,k為最近邻数。当V>0时,则未知样本归入为类1;否则归于类2。

    这种方法因采用获多数“票”的方法确定未知样本的归属,所以k一般采用奇数。k值不同时,未知样本的分类结果可能不同。

    2.2 算法步骤

    1)取一个未知样本,记为[xunknown],计算该样本到训练集各样本的距离[Di](i=1,2,…,n),在此n为所有训练集样本的总数。

    2)取出k个距离最短的训练集样本,计算它们的权值和

    [Vunknown=ViDi] (i=1,2,…,k)

    如果[xi∈ω1],则取[Vi=1];反之,如果[xi∈ω2],[Vi=-1];[Di]是待判别的一本与近邻的距离。

    3)建立判别标准,即当[Vunknown>0],则[xunknown]判别为第一类[ω1];反之,[Vunknown<0],则[xunknown]判为第二类[ω2]。

    2.3 缺点

    不幸的是,这种分类方式依赖于每一类中的对象个数。当类与类有重叠时,未知对象将被分配给对象个数较多的类。在没有唯一标准而允许近邻数可变的条件下,这种情况有时也可以得到解决。

    3 人工神经网络判别法

    3.1 原理

    人工神经网络(artificial neural network)的研究是受人脑组织的生理学启发而创立的,是由处理单元(神经元)组成,通过一定的模型结成一个网络,相互间的联系可以在不同神经元之间传递增强或抑制信号。人工神经网络用于化学模式识别的基本思路与判别分析方法是相同的,它也是通过对已知类别的训练集的拟合来建立模型从而进行分类与预测。

    3.2 算法

    人工神经网络有多种算法,大致分为两类:有管理的人工神经网络和无管理的人工神经网络。有管理的人工神经网络的方法主要是对已知式样进行训练,然后对未知式样进行预测。例如BP(Back Propagation)人工神经网络,是一种误差反向传输网络,其采用最小均方差学习方式,是一种使用最广泛的网络。无管理方法,也称自组织(self-organization)人工神经网络,无需对已知样本进行训练,则可用于化合物的分类,例如被称为自组织特征映射网络(SOM)的Kohonen神经网络和典型的反馈式网络Hopfield神经网络。BP人工神经网络是使用最广泛的网络,所以下面对它进行介绍。

    BP算法由以下几步构成:

    1)数据预处理。因大都采用由s型非线性函数(sigmoid nonlinearity)为其活性函数,即[fu=(1+e-u)-1],其输出值都介于0~1之间,所以需要对网络的输出进行预处理,使之同样落入0~1之间。这样的预处理不会影响问题的一般性。

    2)随机选取连接权重[wme2ki]和[wme1ij](j=1,…,n;i=1,…,m;k=1,…,L),其中n为输入矢量的节点数(或称输入矢量的维数);m为隐节点数;L为输出节点数。一般用(-0.5~0.5)的均匀分布随机函数产生。

    3)设a=1,…,A,重复迭代以下步骤,直至收敛。

    a.前传计算。按照

    [ymej=fwme1ijlnpi+wme10]

    和

    [Outk=fwme2kiymej+wme20=fwme2ki[fwme1ijlnpi+wme1oi]+wme2o]

    来计算Out,并与所期望得到的数值比较,计算出误差函数E。

    b.反傳调节。计算目标函数对连接权重的一阶导数,以此调节连接权重[wme2ki]和[wme1ij](在此只介绍最陡梯度法,用的是一阶导数,别的优化算法同样可行)。

    [Δwij=ρδiuj]

    式中:[ρ]—— 一步长因子可在(0~1)之间取值;

    [u]——第j节点上的抽象变量,视其是在输出层还是隐蔽层,就分别等于[fwme1ijlnpi+wme10]或[fwme2kiymej+wme20];

    [δ]——梯度因子,对于不同层,有不同表达式

    [] [δi]= [(ui-Expi)(ui)(1-ui)] 如[ui]为输出节点

    [(wme1ijδk)(ui)(1-ui)] 如[ui]为隐蔽层节点

    在这里[u(1-u)=u′]。这是因为

    [u=fwme1ijlnpi+wme10=fx=1/(1+e-x)]

    所以有

    [u′=f″x=[1/(1+e-x)]/dx=-(1+e-x)-2(e-x)(-1)=(11+e-x)[1-(11+e-x)]=u(1-u)]

    [Δwij=ρδiuj]中步长因子[ρ]的取值大小对收敛速度有很大影响,如取值太大,可能引起迭代过程的振荡(oscillation);反之若取值太小,则会导致权重调节的迭代过程收敛太慢。一般来说,为了加快迭代过程且防止迭代过程的振荡,在[Δwij=ρδiuj]中引入一个惯量因子λ,有

    [Δwij(a+1)=ρδiuj+λΔwij(a)]

    以保证迭代收敛速度。

    3.3 缺点

    人工神经网络能精确的对复杂问题进行预测,但却难以理解。此外也有其他一些问题,如网络训练速度问题、神经网络易受训练过度的影响,网络中的神经网络节点个数难以确定,网络结构优化等问题。

    4 小结

    人类能很轻易通过视觉辨别文字、图片,通过听觉辨别语言,这是人的一种基本技能。但是要机器模拟人进行识别,涉及的问题就比较复杂。本文就模式识别中的三种常用算法:线性学习机、K最邻近法、人工神经网络判别法,简单分析比较了他们的优缺点。

    参考文献:

    [1] 郭传杰.计算机辅助质谱解析的谱图匹配和模式识别方法[J].质谱学杂志,1984,5(3):19-24.

    [2] Jurs P C, Venhour T L. Chemical Application of Pattern Recognition[M].Wiley Interscience Publication,1975.

    [3] Kowalski B R, bender C F,J.Am.Chem.Soc.,94,5632 (1972).

    [4] 许国根,许萍萍.化学化工中的数学方法及MATLAB实现[M].化学工业出版社,2008.

    [5] 许禄.化学计量学:一些重要方法的原理及应用[M].北京:科学出版社,2004.

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/6 6:00:28