网站首页  词典首页

请输入您要查询的论文:

 

标题 基于机器学习的入侵检测研究
范文

     彭宁 任薇 范会丽

    

    

    

    摘要:互联网环境的复杂性造成网络连接数据的海量化和繁复性,使得入侵检测时间长效率低。因此,提出一种基于核主成分分析(KPcA)和孪生支持向量机(TSVM)的入侵检测方法(KPCA-TSVM)研究。KPCA可以将原始高维数据映射成低维数据,TSVM比支持向量机具有更高效的检测精度和分类效果。使用Python语言对KPCA-TSVM模型在经过字符映射和归一处理后的KDDCUP99数据上进行实验模拟,结果表明该模型是一种有效的检测方式。

    关键词:机器学习;核主成分分析;孪生支持向量机;入侵识别;数据特征提取

    中图分类号:TP393 文献标识码:A

    文章编号:1009-3044(2019)32-0198-02

    1概述

    入侵检测(Intrusion Detection)是指通过对网络连接数据和计算机中关键点信息的监测,检测出是否有威胁计算机安全的行为发生,并在此基础上发出警报和进行预警处理。人们的日常生活也因为网络的普及而简化了许多烦琐的方式,它在带来巨大便利的同时也使得网络安全问题日趋严峻,例如各大运营商用户信息的泄露,震惊全球的勒索病毒等等。面对日新月异、种类多变的网络攻击手段,基于传统异常检测和误用检测方法在入侵检测系统研究(Intrusion Detection Systems,IDS)上进入了瓶颈期。为解决这一难题,研究学者将当下热点研究机器学习应用于入侵检测领域中,如支持向量机(Support Vector Ma-chine,SVM)t21、朴素贝叶斯网络、粒子群算法、决策树等,经实验证明这些方法在IDS中皆取得了令人满意的效果。然而,由于网络入侵原始数据特征维度多,数据量大的特点,会导致准确率低,耗费时间长,影响检测的整体效果,因此提出一种基于KPCA和TSVM的入侵检测模型。

    KPCA将大量高维非线性数据在保持原有数据特征信息的基础上使原始数据映射到低维空间,大幅度减少数据的维数,去除冗余,获得更具有代表性特征的数据,从而更有利于分类和识别。TSVM是比SVM具有更高的分类精度,而且时间只是SVM的四分之一。以KDDCUP99为实验数据,验证KPCA-TSVM方法提高入侵检测准确率的同时并降低误报率,为IDS研究开拓了新的研究思路。

    2相关知识

    2.1KPCA

    主成分分析(PCA)只能提取数据中的线性特征或筛选方差最大的特征数据,以致用PCA降维的数据用于分类获得的结果并不理想。KPCA利用核函数将原始数据映射到高维度空间,再利用PCA算法进行降维,这样不仅减小了计算量,同时又可以进行非线性映射KPCA有效地提取原始输入数据集的非线性信息,从而使映射出的低维数据更利于分类和入侵识别检测。

    2.2TSVM

    TSVM于2007年提出,它是对正负两类样本点分别构造一个分类超平面,同时远离另一类样本点。TSVM的两个超平面是将SVM中的一个二次规划问题(QPP)分成两个规模较小的QPP得到嘲,这样既简化了计算复杂度,又使样本训练时间缩减为传统SVM的1/4,还具有较高的分类精度。

    其中A和B分别代表正和负两类样本,e1和e2分别为对应的单位变量,c,和c:是A和B的惩罚因子,ζ1ζ2是松弛变量。公式(2)表示求得的超平面使其尽量拟合正类样本A的同时远离负样本B。同理公式(3)代表的超平面尽可能拟合负类样本B而同时远离样本A。

    3 KPCA-TSVM方法

    本文提出的KPCA-TSVM方法总体架如图1所示,包含三个步骤:

    1)数据预处理

    KDDCU99中的数据既有数值型又有字符型,然而字符型的数据不能直接用于模型的入侵识别,需要先把字符属性的数据通过字符映射的方法全部转换成数值类型的数据;再将所有数据归一到0-1之间,去除属性量纲影响。

    2)KPCA降维

    将归一化后标准数据进行特征提取,降低原始数据的属性特征,获得非线性、最优的低维数据表示。

    3)TSVM识别

    对入侵数据进行识别,检测数据的异常情况。

    4实验结果与分析

    实验采用Windows 7系统,运行内存8GB,处理器是i5,使用Anaconda和Pycharm的python語言环境。利用python第三方库sklearn里自带的函数将KDDCUP99数据集分割成训练集和测试集。本文通过SVM、KPCA-SVM、TSVM、KPCA-TSVM四个方法对比入侵检测准确率。由于RBF核函数参数设置少,且非线性分类性能好,所以采用RBF核函数。

    表1是四种方法在数据集上进行多次实验得到的平均检测精度结果。

    从实验结果看,TSVM比SVM具有较高的分类作用,而经过KPCA降维后的数据再用分类器识别,具有更精准的检测效果。

    5结论

    对于入侵检测数据量大并具有高维特征的问题,需要把降维的必要性考虑到研究中去。本文提出的KPCA-TSVM方法,利用KPCA进行特征提取,然后用TSVM分类器进行入侵识别。实验表明,此方法具有很好的检测效果,是一种行之有效的入侵检测手段。

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/16 7:39:13