基于分类器组合的心电信号身份识别算法研究
曹书豪 许成哲
摘 要:本文针对基于分类器组合的ECG信号进行了身份识别算法的研究,通过无基准点的方法来提取QRS波形,HOAC、DWT、PCA特征提取和分类器组合算法相结合的方法,该算法对身份识别的准确率进行提高。通过对比实验得出,在组合规则中,中值规则和乘法组合形式的分类器的效果最好,相比通过单一特征提取的分类效果更好,分类的错误率也较比同类论文有了一定程度上的降低。实验验证,本文研究的的号身份识别算法分类识别精度高,而且实现更加容易,为今后基于ECG身份识别的研究提供了良好的支持。
关键词:心电信号;身份识别;分类器组合算法;高阶自相关
0 引言
身份识别技术这个研究课题已经被提出许久,市面上常见的身份识别还有虹膜识别等,该类产品大多数应用于身份验证、视频监控等领域。特别是在人口流量管理方面有着较为广泛的应用。2001年由Biel首先提出心电信号身份识别的概念并且完全实现后[1],数以百计的研究人员不断对此技术进行革新,身份识别的流程可以概括为三步,首先对基础数据进行预处理,再通过选取特征输入到分类器中,进行最后的分类来完成身份的识别。
2010年,文献[2]提出基于ECG信号的身份识别算法,在预处理阶段通过小波变换的方式进行去噪处理,选取R峰值点作为特征,最后通过遗传算法、DNA算法以及优化过后的BP神经网络分类器三种分类方法进行分类识别,取得了较好的准确率。Plataniotis[3]是最早的将基于ECG信号波形提取的特征提出来,采用的是自相关变换加离散余弦变换,对原始信号经过进行滤波处理,选用4阶巴特沃斯滤波器,第二步在保证时间窗不重叠的情况下进行窗口分割,最后计算每个小窗口的AC值。
针对现有方法的不足,本文提出了一种基于分类器组合的心电信号身份识别算法,分选选取HOAC、DWT、PCA三种方式提取特征,通过离散余弦变换对HOAC提取的特征做降维处理,另外详尽的介绍了K近邻分类方法,通过使用不同的5种分类器组合规则,在MIT-BIH和PTB数据库中进行仿真,验证了本算法的有效性。
1 ECG信号的预处理及QRS波形的提取
针对ECG信号的噪声干扰及其特点,本文选择4阶巴特沃斯带通滤波器,该滤波器的频率范围是在1~40Hz之间,巴特沃斯滤波器的特点就是它的通频带对应的频率响应曲线是最为平滑的。该巴特沃斯低通滤波器平方函数如公式(1-1)所示:
预处理之后的ECG信号我们利用文献[7]的方法来进行QRSnorm波形提取,使用HOAC算法可以减少受特征点不准确性的干扰,更为准确的获取到ECG信号波形特征信息。本文对每个ECG信号都将其用同等窗口长度的ECG信号进行划分,通过设置相同时间窗口长度的方法,来提取心电信号中的重要信息,原则上QRS复合波的波形长度应与时间窗口长度的设定相同。通过这样的方式在一定程度上可以减少心率变化对信号的干扰,也降低了算法本身的复杂程度。通过公式(1-2)可以确定HOAC系数,得出QRSnorm。
2 基于分类器组合的ECG信号身份识别算法
2.1 基于ECG信号多种特征提取结合的过程分析
本算法为了提高身份识别识别精度,并更好的将其特征应用在分类器组合规则,利用高阶自相关提取QRSnorm波形。HOAC特征中时间窗口长度为4s,重叠时间窗口长度为1s。在特征选择上,第一个特征为7阶HOAC系数进行DCT变换后的前20个系数;第二个特征为QRSnorm波形进行PCA之后的前10个系数;最后一个特征为进行3层DWT变换之后QRSnorm波形的17个低频成分系数,DWT中选取‘db1母小波。将上述三个特征输入到K值为1的K-NN分类器中,选择乘法、最大、最小、中值、大多数投票等5种分类器组合规则。本文的整个分类过程流程如图1所示:
2.2 基于分类器组合的心电信号身份识别算法介绍
将提取到的特征作为输入值进入到K近邻分类器之后,本文创新性通过不同组合规则对所提取特征特征进行组合,从而实现提高基于ECG信号的身份识别率,其中包括乘法规则、最小规则、最大规则、中值规则及大多数投票规则等5种组合规则,组合规则均为并行结构。分类器的组合方式規则可以表示为:
乘法规则:模式Z包含了m个可能的出现的类别,表示为w1,...,wm,如果使用分类的的数量为R,那么在给定的类别中,任何一个分类器都会赋予一个不相同的测量xi , i从1到R,等式两侧按贝叶斯理论与全概率定理,表示如(2-1):
若测试向量均为彼此独立的话,类条件概率密度公式可表示为:
将此公式代入到公式(2-1)可以得出乘法规则:
本算法中3个特征是相互独立的,用乘法规则进行分类器组合是最优的。乘法规则也可以表示为:
通过下式衍生出了最大值、最小值和中值规则:
最大值规则:是通过求和规则逼近最大的后验概率推导后可表示为:
最小值规则是通过对乘法规则逼近后验概率的边界范围,经推导后得出以下公式:
中值规则是在相等的先验假设,求和规则可视为计算平均最大的后验概率。公式如下:
该公式表示最大的后验概率是中值规则分配给该类的机率。一旦有分类器输出的后验概率为异常结果,平均值结果会因此受到影响,进而导致分类出现错误。我们规定,稳健估计的均值为中值。因此基于分类器组合的后验概率中值规则表示为(2-10):
大多数投票规则可表示为:
上式右边的表示为从个体分类器接收到类wk的选票个数之和。哪一个类别的累加之和最大,意味着得到最多的投票,进而表示为第wj类,第wj类是由获得最多投票来确定的。最后使用K近邻分类器对心电信号进行分类识别,利用上述5中不同的组合规则进行组合,验证本文提出算法的可行性以及实际性能。
3 仿真结果与分析
仿真实验的过程中分别对PTB数据库与MIT-BIH数据库中的数据进行对比实验,在原始数据库当中随机选取训练集与测试集,实验共进行1000次,从而得出STD與平均错误率,最后利用本文算法的实验结果与同类别论文进行数据对比。3种不同特征以及5种不同分类器组合规则在两个数据库中进行对比,实验结果如表1所示。从实验的结果我们不难看出,乘法规则与中值规则的组合方式在心电信号身份识别的识别精度上要优于只利用单一特征的分类精度,分类的错误率也更低。
通过本文得出的实验数据,与其他研究人员提出的算法,文献[4-7],在PTB和MIT-BIH数据库进行实验结果比较,实验结果如表2所示:
4 结论
通过对比实验,共得到以下结论:
(1)本文利用HOAC手段对QRS复合波形进行特征提取后进行分类识别,通过对比错误率和使用分类器组合规则的平均错误率进行了比较,验证了该算法的优越性,同时对设置不同的时间窗重叠长度,对分类器组合的算法起到了优化的作用。
(2)通过本文提出的分类器组合算法,在两个数据库当中进行验证对比试验,实验得出,乘法和中值规则组合的方式令分类器的分类能力有了极大的加强,较比只利用单一特征而言,识别率得到了显著的提升,同时分类错误率也有了极大地下降。通过对比本文提出的算法与现有的心电信号识别算法进行试验数据对比,本文的身份识别精度更高。
参考文献:
[1]Biel L,Pettersson O,Philipson L,et al.ECG analysis: a new approach in human identification[J].Instrumentation and measurement,IEEE Transactions on,2001,50(03):808-812.
[2]朱民杰.基于神经网络的心电图身份识别研究[D].郑州大学,2010.
[3]K.N.Plataniotis,D.Hatzinakos,J.K.M.Lee.ECG Biometric Recognition Without Fiducially Detection[C].Baltimore:2006 Biometric Symposium;Special Session on Research at the Biometric Consortium,2006:1-6.
[4]S.C.Fang,H.L.Chan.Human Identification by Quantifying Similarityand Dissimilarity in Electrocardiogram Phase Space. Pattern Recognition,2009(42):1824-1831.
[5]Wang Y J,Agrafioti F,Hatzinakos D,el al Analysis of human electrocardiogram for biometric recognition [J].EUR ASIP Journal on Advances in Signal Processing,2008.
[6]C.C.Chiu,C.M.Chuang,C.Y.Hsu.A Novel Personal Identity Verification Approach Using a Discrete Wavelet. In: Proceedings of the 2008 International Conference on Multimedia and Ubiquitous Engineering.Washington,DC,2008: 201-206.
[7]Chengzhe Xu,Yonggao Jin.Human Identification using one lead ECG signal.Advanced Material Research,2013:671-672.