柯西分布下网络入侵跳频数据挖掘技术

王苏南+李滢滢+王永学+郑智华



摘 要: 对网络入侵跳频数据准确挖掘实现入侵检测,保障网络安全。针对当前的K分布挖掘方法的漏检率大的问题,提出一种基于柯西分布的网络入侵跳频数据挖掘技术。构建网络入侵跳频数据的柯西分布时间序列分析模型,采用双线性Hough变换进行入侵数据的双曲跳频分解,得到网络入侵数据的频谱特征,对提取的入侵数据频谱特征进行柯西分布下的时频分析,实现数据挖掘优化。最后进行仿真测试,结果表明,采用该方法进行网络入侵跳频数据挖掘的准确概率较高,抗干扰性能较强。
关键词: 柯西分布; 网络入侵; 数据挖掘; 跳频数据
中图分类号: TN711?34; TP393 文献标识码: A 文章编号: 1004?373X(2017)08?0029?04
Network intrusion frequency hopping data mining technology in Cauchy distribution
WANG Sunan1,2, LI Yingying1,3, WANG Yongxue1, ZHENG Zhihua1
(1. School of Electronic & Communication Engineering, Shenzhen Polytechnic, Shenzhen 518005, China;
2. College of Computer Science and Technology, Zhejiang University, Hangzhou 310058, China;
3. College of Optoelectronic Engineering, Shenzhen University, Shenzhen 518005, China)
Abstract: Accurate mining of network intrusion frequency hopping data can achieve intrusion detection and ensure network security. Aiming at the problem of the great detection loss rate of the current K distribution mining method, a network intrusion frequency hopping data mining technology based on Cauchy distribution is proposed to structure the time series data analysis model of Cauchy distribution of the network intrusion frequency hopping data network. The bilinear Hough transform is used for hyperbolic frequency hopping decomposition of intrusion data to get spectrum feature of network intrusion data. The Cauchy distribution time?frequency analysis of the extracted intrusion data spectrum feature is performed to realize data mining optimization. The simulation test results show that the proposed method has high accuracy and high anti?jamming performance for network intrusion frequency hopping data mining.
Keywords: Cauchy distribution; network intrusion; data mining; frequency hopping data
在网络信息技术快速发展的今天,网络安全受到人们的极大关切,其是人们有效利用网络系统进行数据存储和信息传输的必备环境条件,网络入侵是通过病毒木马植入方式进行信息窃取和系统攻击,导致网络用户的系统崩溃和数据泄露,影响网络用户的隐私和财产安全[1?2]。在网络入侵中,常见的如拒绝服务(Denial of Service,DoS)入侵、拖库入侵、撞库入侵等[3?4],上述入侵方法通过跳频数据植入,实现对用户信息的窃取或者对网络拒绝服务,网络入侵者发送大量入侵数据降低用户的使用性能,导致系统用户崩溃,需要通过对网络入侵的跳频数据进行有效挖掘,实现入侵检测,保障网络安全。
1 入侵数据柯西分布时间序列分析模型
1.1 网络入侵跳频数据的状态转移特征建模
本文研究的网络结构为分布式异构网络结构模型。为了实现对分布式异构网络入侵跳频数据的准确挖掘,首先进行分布式异构网络入侵跳频数据的信号拟合及时间序列分析,网络入侵跳频数据为一组非线性时间序列[5],采用信号拟合方法把分布式异构网络入侵跳频数据拟合为一组宽平稳的高斯随机状态转移模型。首先进行分布式异构网络传输数据的原始信息采集,假设网络节点分布结构定义为一个二元有向图模型,,网络入侵信源为一组多源节点分布的严平稳随机模型,在网络入侵数据挖掘中,受到网络随机信息的干扰。干扰项为,其中,。在网络环境中的大数据信息干扰下,分布式异构网络入侵跳频数据接收路由单元采集到的网络入侵数据信号模型为:
(1)
在柯西分布下,进行分布式异构网络入侵的跳频数据的频谱检测,采用最小二乘估计算法进行入侵数据的柯西特征分解[6],得到网络中传输的数据序列的跳频跃迁幅度为:
(2)
采用自适应频谱分离,实现对网络入侵跳频数据的信号拟合和非线性时间序列分析,进而得到网络入侵跳频数据的状态转移特征方程建模结果为:
(3)
式中:表示入侵数据的前期统计测量值;表示色噪声分量。
1.2 柯西分布时间序列分析模型
在上述进行网络入侵跳频数据的状态转移特征建模的基础上,构建网络入侵跳频数据的柯西分布时间序列分析模型,提取网络入侵跳频数据时间序列有效的主成分特征,进行数据挖掘算法改进,通过自相关检验和误差修正方法进行入侵数据的特征提取,采用自适应学习方法实现对网络入侵跳频数据的挖掘[7?8],得到本文设计的网络入侵跳频数据挖掘的总体流程如图1所示。
根据图1所示的网络入侵跳频数据挖掘流程,进行网络入侵跳频数据的非线性时间序列分析和特征提取,假设网络入侵跳频数据分布特征信息满足柯西分布为:
(4)
式中,网络入侵跳频数据的随机变量Y服从参数为λ0的柯西分布,则其概率密度函数和概率分布函数如下:
(5)
(6)
设Y1,Y2,…,YN为Y的一组样本,此时网络入侵跳频数据的一阶原点矩的数学期望和方差为:
(7)
(8)
在柯西分布模型约束下,网络入侵时间序列模型为:
(9)
式中:Ai和τi分别第i个网络路由节点接收到的入侵数据的幅度和时延;A0和τ0分别是幅度和初始入侵时延,设Y1,Y2,…,YN为Y的一组样本。则网络入侵跳频数据的匹配滤波参数λ0的矩估计为:
(10)
式中,m1为Y的样本一阶原点矩,其计算公式为:
(11)
定义柯西决策变量进行分布式异构网络入侵跳频数据的时间序列重构,在满足柯西分布下进行网络入侵跳频数据的均匀采样,结合尺度匹配,构建网络入侵数据的柯西分布时间序列分析模型,以此为基础进行数据挖掘算法设计。
2 入侵数据挖掘改进实现
2.1 入侵数据的双曲跳频分解计算
在上述进行了网络入侵跳频数据的状态转移特征建模和柯西分布时间序列分析模型构建的基础上,进行入侵数据挖掘改进设计。为了克服当前的K分布挖掘方法存在漏检率大的弊端,本文提出一种基于柯西分布的网络入侵跳频数据挖掘技术。在构建网络入侵跳频数据的柯西分布时间序列分析模型的基础上,采用双线性Hough变换进行入侵数据的双曲跳频分解,分布式异构网络入侵跳频数据在基函数集D中的张成子空间描述为:
(12)
式中:为原始的网络入侵的波束域直线高速函数;为网络入侵跳频数据的初始采样时间;为频谱特征伸缩尺度;为混响包络;为干扰强度。
在柯西分布域中采用双曲跳频分解方法进行网络入侵跳频数据的最佳尺度匹配,得到分布式异构网络入侵跳频数据的频谱函数和基底函数之间的概率密度函数为:
(13)
计算出随机变量Y的数学期望和方差,则得到通过双曲跳频分解后参数λ0的似然比估计为:
(14)
采用似然比估计的方法估计参数μ和σ,则可以得到参数μ和σ的似然比估计:
(15)
(16)
式中,Y服从参数为(μ,σ)的 Lognormal分布,采用双线性Hough变换进行网络入侵数据的频谱特征的跳频分解,推导柯西分布下的网络入侵数据的跳频特征概率分布函数,如下:
(17)
由概率分布函数的性质,则有:
(18)
令:
(19)
结合Kv(z)函数的性质,采用双线性Hough变换进行入侵数据的双曲跳频分解,可以获得柯西分布的所有2k阶原点矩,则得到入侵数据的双曲跳频分解的计算结果为:
(20)
根据双曲跳频分解,利用Kv(z)函数的性质推导柯西分布的2k阶原点矩的表达式,进而推导出网络入侵数据随机变量Y的二阶和四阶原点矩,实现频谱特征提取。
2.2 网络入侵数据频谱特征提取挖掘实现
在网络入侵数据的双曲跳频分解的基础上,采用频谱特征学习和提取模型对网络入侵跳频数据进行挖掘,假设网络入侵跳频数据表示为,为了去除原始数据的量纲,得到柯西分布下的時频分析模型为:
(21)
式中:为初始网络入侵跳频数据的采样幅值;为具有相同的均值、方差的网络入侵跳频数据标量时间序列;为网络入侵跳频数据的振荡幅值。
通过自相关特征匹配得到网络入侵跳频数据的特征映射为:,在特征分布空间中进行频谱特征提取,进行数据挖掘,入侵数据挖掘的步骤为:
(1) 对网络入侵跳频数据时间序列进行Fourier变换,得到。
(2) 测量二阶原点矩和四阶原点矩,通过替代数据法对网络入侵跳频数据进行振幅随机化处理,得到。
(3) 采用基于二阶和四阶原点矩的柯西分布检验网络入侵跳频数据的非线性成分,生成替代数据,对网络入侵跳频数据序列的替代数据求Fourier逆变换,得到。
(4) 生成的网络入侵跳频数据替代数据保留了原始数据的指数分布特征,提取网络入侵跳频数据信息流的频谱主成分特征,进行入侵检测,以匹配滤波器输出包络为基础的检测问题,如下:
(22)
(5) 对网络入侵跳频数据的频谱特征检测输出的结果在灰度模型中进行学习训练,以混响包络的某个函数作为检验统计量,检验统计量l可以统一表示为以下形式:
(23)
式中,g(x)表示以x为自变量的某个函数,对提取的入侵数据频谱特征进行柯西分布下的时频分析,实现数据挖掘优化。
3 实验测试分析
采用分布式异构网络入侵跳频数据的挖掘问题为研究对象进行仿真实验,实验建立在Matlab仿真环境中,硬件环境为:Intel Core3?530 1 GB内存,操作系统为Windows 7,分布式异构网络的病毒数据来自于MIT林肯实验室KDD Cup 2015网络入侵病毒数据库。在一个时间采样周期内取病毒数据库中的网络入侵数据对分布式异构网络的服务层、网络组件层和中间件结构层进行持续性攻击,特征采样的归一化初始频率Hz,特征采样的终止频率Hz,网络病毒入侵环境的干扰为色噪声干扰,强度介于SNR取值-20~10 dB之间,根据上述仿真环境,得到不同路由节点中采集到的原始网络传输数据时域波形如图2所示。
以上述采样的数据为研究对象,进行入侵跳频数据挖掘,得到提取的频谱特征如图3所示。
由图3可见,采用本文方法入侵数据挖掘,能有效实现对原始传输数据中的合法数据的分离,实现对入侵跳频数据特征点的准确标记,数据挖掘的准确性得到保证。在此基础上,进行挖掘性能测试,为了测试入侵检测的实时性,得到数据挖掘的时延误差迭代曲线见图4。图5给出了不同方法进行数据挖掘的准确概率ROC图。
分析图4和图5结果得知:
(1) 采用本文方法进行数据挖掘,时延误差快速收敛到零,保证了数据挖掘的实时性;
(2) 本文方法进行入侵跳频数据挖掘的准确概率高于传统方法,且能在信噪比较低的情况下实现有效挖掘,说明抗干扰性能较强,且准确概率收敛到100%,具有很好的可行性。
4 结 语
为了提高网络入侵检测能力,本文提出一种基于柯西分布的网络入侵跳频数据挖掘技术,构建网络入侵跳频数据的柯西分布时间序列分析模型,采用双线性Hough变换进行入侵数据的双曲跳频分解,得到网络入侵数据的频谱特征,对提取的入侵数据频谱特征进行柯西分布下的时频分析,实现数据挖掘优化。最后进行仿真测试,结果表明,采用该方法进行网络入侵跳频数据挖掘的准确概率较高,抗干扰性能较强,具有较好的实践价值。
注:本文通讯作者为李滢滢。
参考文献
[1] KOLHE J P, SHAHEED M, CHANDAR T S, et al. Robust control of robot manipulators based on uncertainty and disturbance estimation [J]. International journal of robust and nonlinear control, 2013, 23(1): 104?122.
[2] LIU Yuntong. k?pruning algorithm for semantic relevancy calculating model of natural language [J]. Journal of theoretical and applied information technology, 2013, 48(3): 231?235.
[3] ZHANG Q, ZHU Q Y, ZHANI M F, et al. Dynamic service placement in geographically distributed clouds [J]. IEEE journal on selected areas in communications, 2013, 31(12): 762?772.
[4] 杨雷,李贵鹏,张萍.改进的Wolf一步挖掘的网络异常流量检测[J].科技通报,2014,30(2):47?49.
[5] 任志刚,赵松云,黄姗姗,等.求解多维背包问题的蚁群?拉格朗日松弛混合优化算法[J].控制与决策,2016,31(7):1178?1184.
[6] 刘俊,刘瑜,何友,等.杂波环境下基于全邻模糊聚类的联合概率数据互联算法[J].电子与信息学报,2016,38(6):1438?1445.
[7] 黎峰,吴春明.基于能量管理的网络入侵防波动控制方法研究[J].计算机仿真,2013,30(12):45?48.
[8] 滕书华,鲁敏,杨阿峰,等.基于一般二元关系的粗糙集加权不确定性度量[J].计算机学报,2014,37(3):649?665.