网络信息安全防范与Web数据挖掘系统的设计与实现
赵悦品
摘 要: 傳统的信息挖掘方法挖掘面窄,扩展性差,无法有效挖掘出网络中的不安全信息。因此,设计并实现了网络信息安全防范与Web数据挖掘系统,其由Web文本采集模块、文本分类模块和类别判断模块构成。Web文本采集模块从网络Web网页中采集文本信息,并将信息反馈给文本分类模块。文本分类模块由训练模块、分类模块和分类器构成。训练模块采用完成分类的文本对文本分类模型进行训练,获取不同类别特征词间的关联性,塑造向量空间模型。分类模块对将要进行分类的Web文本进行分词处理,通过向量描述文本特征词。分类器运算待分类文本特征向量同各类中心向量间的相似度,确保Web文本被划分到具有最高相似度的文本类型中。类别判断模块辨识待分析的网络文本信息是否属于不安全信息类,并通过报警模块对不安全信息进行报警。软件部分给出了系统的功能结构以及文本分类模块的程序实现代码。实验结果表明,所设计系统具有较高的查全率、查准率和较高的检测性能。
关键词: 网络信息; 安全防范; Web数据; 数据挖掘
中图分类号: TN711?34; TP309 文献标识码: A 文章编号: 1004?373X(2017)04?0061?05
Design and implementation of network information security protection and
Web data mining system
ZHAO Yuepin
(Hebei Jiaotong Vocational and Technical college, Shijiazhuang 050091, China )
Abstract: The traditional information mining method has narrow mining face and poor scalability, so it cannot effectively dig out the unsafety information in the network. Therefore, the network information security protection and Web data mining system was designed and realized. It is composed of Web text acquisition module, text classification module and category judgment module. The Web text acquisition module is used to collect text information from the Internet Web pages, and feeds the information back to text classification module. The text classification module is made up of training module, classification module and classifier. The training module adopts the text completing classification to train text classification model to obtain the correlation among different category feature words and establish vector space model. The classification module is used to conduct the segmentation processing of words in Web text under classification and diescribe the text feature words through vector. The classifier is used to operate the similarity between the character vector of the text under classification and all kinds of central vector to ensure that the Web text is divided into the text type with the highest similarity. The category judgment module identifies whether the network text information under analysis belongs to the unsafety information, and gives an alarm for the unsafety information through the alarm module. The system function structure and program implementation code of the text categorization module are given in the software section. The experimental results indicate that the designed system has a high recall ratio, high precision ratio and high detection performance.
Keywords: network information; security protection; Web data; data mining
0 引 言
随着网络信息技术的快速发展,其在人们的生产和生活中发挥着越来越重要的作用。网络信息技术的发展促使网络经济发展速度提升,网络信息安全问题限制了网络经济的发展。因此,寻求有效的方法,确保网络信息安全,成为相关人员分析的热点问题[1?3]。传统的信息挖掘方法,挖掘面窄,扩展性差,无法有效挖掘出网络中的不安全信息。而在网络中充分运用Web 数据挖掘技术,可大大增强网络信息安全的监测质量,具有重要应用意义[4?6]。
当前针对网络不安全信息的挖掘方法大都存在一定的问题,如文献[7]分析依据规则的网络不安全信息检测方法,其采用人工事先设置好的推理规则,对Web资料进行推理分析,检测出不安全信息。但是该方法对待检测资料的可理解性要求较高,存在一定的局限性。文献[8]分析了基于回归模型检测网络不安全信息,其统计不安全信息发生的概率,塑造概率的回归模型,完成不安全信息的归类。该方法可在实际运用中获取满意的结果,但是需要大量的数据为分析依据,且检测效率较低。文献[9]通过基于连接的形式,实现网络不安全信息的检测。其通过一定的算法模拟人的思维,完成网络信息的有效分类。但是该方法检测到的结果较为粗糙,存在较高的误差。文献[10]提出了基于向量的网络不安全信息挖掘方法,塑造网络信息的向量空间,通過分析网络信息向量空间的相似度,挖掘出不安全信息。但其检测精度较低,无法获取令人满意的检测效果。
针对上述问题,设计并实现了网络信息安全防范与Web数据挖掘系统,其由Web文本采集模块、文本分类模块和类别判断模块构成。实验结果表明,所设计系统具有较高的查全率、查准率和较高的检测性能。
1 网络信息安全防范与Web数据挖掘系统
1.1 系统的体系结构
塑造的网络信息安全防范与Web数据挖掘系统的体系结构如图1所示。
图1描述的系统体系结构由Web文本采集模块、文本分类模块和类别判断模块构成。Web文本采集模块从网络Web网页中采集文本信息,同时将获取的Web文本信息传输给文本分类模块。文本分类模块包括训练模块、分类模块以及分类器,训练模块采用完成分类的文本对文本分类模型进行训练,获取不同类别特征词间的关联性,塑造向量空间模型。分类模块对将要进行分类的文本进行分词处理,过滤其中的停用词,采集其中的特征词,并通过向量描述获取特征词。分类器对比待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到最高相似度的文本种类内。类别判断模块分析待分析的网络文本信息是否属于不安全信息类,并通过报警模块对网络不安全信息进行报警,同时通知管理人员对不安全信息进行相关的处理。
1.2 Web文本采集模块设计
Web文本数据采集流程如图2所示。
图2 Web文本信息自动采集流程图
其中的Spider采集模块位于Web 信息采集中底层,其通过不同Web协议自主采集互联网网页中的信息。Web 页面的采集,应先过滤Web页面的图像、声音等非结构数据,再从页面采集链接、文本的标题以及正文,确保在Web网页中仅存在文本信息。
超链接采集获取URL,按照超链接分析算法,分析Web页面种类,删除无价值的分析链接页面,保留页面种类为“tex/html”的分析连接页面。按照应答头以及URL的文件扩展名分析页面的种类。
规范文本将Web文本信息划分成文章的标题和主体,确保分类模块可基于不同的标题和主体,设置相应的参数。具体的过程如下:
(1) 分析正文开始位置,顺次检索文章的段落,直至某段长高于设置的正文最小长度,则说明该段文字为正文中的某段。
(2) 在正文位置向文章开始处检索,按照字体大小,是否居中等特征,获取最满意的一段文字,将其当成标题。
(3) 检索文章直至获取非文字字符,将对应的内容当成文本的主体。
(4) 将获取的标题和主体存储到数据库或格式文件内。
1.3 文本分类模块设计
文本分类模型由训练模块、分类模块和分类器构成。训练模块通过大量完成分类的文本进行训练,获取文本分类模型,获取不同类型特征词间的关联性,塑造向量空间模型SVM。分类模块将待分类的Web文本进行分词处理,过滤其中的停用词,获取其中的特征词,同时通过向量描述文本特征词。分类器可运算待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到具有最高相似度的文本类型中。塑造的文本自动分类模块的结构图如图3所示。
图3中,本文训练模块通过分类文本训练对文本分类模型进行训练,获取不同类别特征词的关联性,塑造向量空间模型。新文本分类模块过滤将要进行类型划分的文本中的分词,获取文本中的特征词,并通过向量描述该特征词。对比将要分类的文本特征向量同各类中心向量的相似度,确保文本被分类到具有最高相似度的种类中。文本训练模块持续进行自我学习,并接收新文本分类模块反馈的训练文本,提高文本分类精度。
其中的语料搜集是从积累的大规模不安全网络信息资料中,采集代表性的文本资料,将其当成训练分类模型的语料。按照不同的文本类别塑造各类专业词表,其中含有文本的专业词编号、所属类别以及专业词等内容。采用逆向最大匹配法采集Web文本中的最大符号串,并将其同词典中的单词条目进行匹配,若匹配不成功,则过滤一个汉字,再次进行匹配,直至在词典中获取相关的单词,最终获取Web文本的中文分词。
将新文本划分到分类体系中的某一类时,因为分类体系中的各类别间具有一定相似性,因此需要对各类别确定合理的阈值,若Web文本在该类的阈值之上,则将文本归类到该类中,设置的分类类别阈值为65%。
2 软件设计
0 引 言
随着网络信息技术的快速发展,其在人们的生产和生活中发挥着越来越重要的作用。网络信息技术的发展促使网络经济发展速度提升,网络信息安全问题限制了网络经济的发展。因此,寻求有效的方法,确保网络信息安全,成为相关人员分析的热点问题[1?3]。传统的信息挖掘方法,挖掘面窄,扩展性差,无法有效挖掘出网络中的不安全信息。而在网络中充分运用Web 数据挖掘技术,可大大增强网络信息安全的监测质量,具有重要应用意义[4?6]。
当前针对网络不安全信息的挖掘方法大都存在一定的问题,如文献[7]分析依据规则的网络不安全信息检测方法,其采用人工事先设置好的推理规则,对Web资料进行推理分析,检测出不安全信息。但是该方法对待检测资料的可理解性要求较高,存在一定的局限性。文献[8]分析了基于回归模型检测网络不安全信息,其统计不安全信息发生的概率,塑造概率的回归模型,完成不安全信息的归类。该方法可在实际运用中获取满意的结果,但是需要大量的数据为分析依据,且检测效率较低。文献[9]通过基于连接的形式,实现网络不安全信息的检测。其通过一定的算法模拟人的思维,完成网络信息的有效分类。但是该方法检测到的结果较为粗糙,存在较高的误差。文献[10]提出了基于向量的网络不安全信息挖掘方法,塑造网络信息的向量空间,通過分析网络信息向量空间的相似度,挖掘出不安全信息。但其检测精度较低,无法获取令人满意的检测效果。
针对上述问题,设计并实现了网络信息安全防范与Web数据挖掘系统,其由Web文本采集模块、文本分类模块和类别判断模块构成。实验结果表明,所设计系统具有较高的查全率、查准率和较高的检测性能。
1 网络信息安全防范与Web数据挖掘系统
1.1 系统的体系结构
塑造的网络信息安全防范与Web数据挖掘系统的体系结构如图1所示。
图1描述的系统体系结构由Web文本采集模块、文本分类模块和类别判断模块构成。Web文本采集模块从网络Web网页中采集文本信息,同时将获取的Web文本信息传输给文本分类模块。文本分类模块包括训练模块、分类模块以及分类器,训练模块采用完成分类的文本对文本分类模型进行训练,获取不同类别特征词间的关联性,塑造向量空间模型。分类模块对将要进行分类的文本进行分词处理,过滤其中的停用词,采集其中的特征词,并通过向量描述获取特征词。分类器对比待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到最高相似度的文本种类内。类别判断模块分析待分析的网络文本信息是否属于不安全信息类,并通过报警模块对网络不安全信息进行报警,同时通知管理人员对不安全信息进行相关的处理。
1.2 Web文本采集模块设计
Web文本数据采集流程如图2所示。
图2 Web文本信息自动采集流程图
其中的Spider采集模块位于Web 信息采集中底层,其通过不同Web协议自主采集互联网网页中的信息。Web 页面的采集,应先过滤Web页面的图像、声音等非结构数据,再从页面采集链接、文本的标题以及正文,确保在Web网页中仅存在文本信息。
超链接采集获取URL,按照超链接分析算法,分析Web页面种类,删除无价值的分析链接页面,保留页面种类为“tex/html”的分析连接页面。按照应答头以及URL的文件扩展名分析页面的种类。
规范文本将Web文本信息划分成文章的标题和主体,确保分类模块可基于不同的标题和主体,设置相应的参数。具体的过程如下:
(1) 分析正文开始位置,顺次检索文章的段落,直至某段长高于设置的正文最小长度,则说明该段文字为正文中的某段。
(2) 在正文位置向文章开始处检索,按照字体大小,是否居中等特征,获取最满意的一段文字,将其当成标题。
(3) 检索文章直至获取非文字字符,将对应的内容当成文本的主体。
(4) 将获取的标题和主体存储到数据库或格式文件内。
1.3 文本分类模块设计
文本分类模型由训练模块、分类模块和分类器构成。训练模块通过大量完成分类的文本进行训练,获取文本分类模型,获取不同类型特征词间的关联性,塑造向量空间模型SVM。分类模块将待分类的Web文本进行分词处理,过滤其中的停用词,获取其中的特征词,同时通过向量描述文本特征词。分类器可运算待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到具有最高相似度的文本类型中。塑造的文本自动分类模块的结构图如图3所示。
图3中,本文训练模块通过分类文本训练对文本分类模型进行训练,获取不同类别特征词的关联性,塑造向量空间模型。新文本分类模块过滤将要进行类型划分的文本中的分词,获取文本中的特征词,并通过向量描述该特征词。对比将要分类的文本特征向量同各类中心向量的相似度,确保文本被分类到具有最高相似度的种类中。文本训练模块持续进行自我学习,并接收新文本分类模块反馈的训练文本,提高文本分类精度。
其中的语料搜集是从积累的大规模不安全网络信息资料中,采集代表性的文本资料,将其当成训练分类模型的语料。按照不同的文本类别塑造各类专业词表,其中含有文本的专业词编号、所属类别以及专业词等内容。采用逆向最大匹配法采集Web文本中的最大符号串,并将其同词典中的单词条目进行匹配,若匹配不成功,则过滤一个汉字,再次进行匹配,直至在词典中获取相关的单词,最终获取Web文本的中文分词。
将新文本划分到分类体系中的某一类时,因为分类体系中的各类别间具有一定相似性,因此需要对各类别确定合理的阈值,若Web文本在该类的阈值之上,则将文本归类到该类中,设置的分类类别阈值为65%。
2 软件设计
0 引 言
随着网络信息技术的快速发展,其在人们的生产和生活中发挥着越来越重要的作用。网络信息技术的发展促使网络经济发展速度提升,网络信息安全问题限制了网络经济的发展。因此,寻求有效的方法,确保网络信息安全,成为相关人员分析的热点问题[1?3]。传统的信息挖掘方法,挖掘面窄,扩展性差,无法有效挖掘出网络中的不安全信息。而在网络中充分运用Web 数据挖掘技术,可大大增强网络信息安全的监测质量,具有重要应用意义[4?6]。
当前针对网络不安全信息的挖掘方法大都存在一定的问题,如文献[7]分析依据规则的网络不安全信息检测方法,其采用人工事先设置好的推理规则,对Web资料进行推理分析,检测出不安全信息。但是该方法对待检测资料的可理解性要求较高,存在一定的局限性。文献[8]分析了基于回归模型检测网络不安全信息,其统计不安全信息发生的概率,塑造概率的回归模型,完成不安全信息的归类。该方法可在实际运用中获取满意的结果,但是需要大量的数据为分析依据,且检测效率较低。文献[9]通过基于连接的形式,实现网络不安全信息的检测。其通过一定的算法模拟人的思维,完成网络信息的有效分类。但是该方法检测到的结果较为粗糙,存在较高的误差。文献[10]提出了基于向量的网络不安全信息挖掘方法,塑造网络信息的向量空间,通過分析网络信息向量空间的相似度,挖掘出不安全信息。但其检测精度较低,无法获取令人满意的检测效果。
针对上述问题,设计并实现了网络信息安全防范与Web数据挖掘系统,其由Web文本采集模块、文本分类模块和类别判断模块构成。实验结果表明,所设计系统具有较高的查全率、查准率和较高的检测性能。
1 网络信息安全防范与Web数据挖掘系统
1.1 系统的体系结构
塑造的网络信息安全防范与Web数据挖掘系统的体系结构如图1所示。
图1描述的系统体系结构由Web文本采集模块、文本分类模块和类别判断模块构成。Web文本采集模块从网络Web网页中采集文本信息,同时将获取的Web文本信息传输给文本分类模块。文本分类模块包括训练模块、分类模块以及分类器,训练模块采用完成分类的文本对文本分类模型进行训练,获取不同类别特征词间的关联性,塑造向量空间模型。分类模块对将要进行分类的文本进行分词处理,过滤其中的停用词,采集其中的特征词,并通过向量描述获取特征词。分类器对比待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到最高相似度的文本种类内。类别判断模块分析待分析的网络文本信息是否属于不安全信息类,并通过报警模块对网络不安全信息进行报警,同时通知管理人员对不安全信息进行相关的处理。
1.2 Web文本采集模块设计
Web文本数据采集流程如图2所示。
图2 Web文本信息自动采集流程图
其中的Spider采集模块位于Web 信息采集中底层,其通过不同Web协议自主采集互联网网页中的信息。Web 页面的采集,应先过滤Web页面的图像、声音等非结构数据,再从页面采集链接、文本的标题以及正文,确保在Web网页中仅存在文本信息。
超链接采集获取URL,按照超链接分析算法,分析Web页面种类,删除无价值的分析链接页面,保留页面种类为“tex/html”的分析连接页面。按照应答头以及URL的文件扩展名分析页面的种类。
规范文本将Web文本信息划分成文章的标题和主体,确保分类模块可基于不同的标题和主体,设置相应的参数。具体的过程如下:
(1) 分析正文开始位置,顺次检索文章的段落,直至某段长高于设置的正文最小长度,则说明该段文字为正文中的某段。
(2) 在正文位置向文章开始处检索,按照字体大小,是否居中等特征,获取最满意的一段文字,将其当成标题。
(3) 检索文章直至获取非文字字符,将对应的内容当成文本的主体。
(4) 将获取的标题和主体存储到数据库或格式文件内。
1.3 文本分类模块设计
文本分类模型由训练模块、分类模块和分类器构成。训练模块通过大量完成分类的文本进行训练,获取文本分类模型,获取不同类型特征词间的关联性,塑造向量空间模型SVM。分类模块将待分类的Web文本进行分词处理,过滤其中的停用词,获取其中的特征词,同时通过向量描述文本特征词。分类器可运算待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到具有最高相似度的文本类型中。塑造的文本自动分类模块的结构图如图3所示。
图3中,本文训练模块通过分类文本训练对文本分类模型进行训练,获取不同类别特征词的关联性,塑造向量空间模型。新文本分类模块过滤将要进行类型划分的文本中的分词,获取文本中的特征词,并通过向量描述该特征词。对比将要分类的文本特征向量同各类中心向量的相似度,确保文本被分类到具有最高相似度的种类中。文本训练模块持续进行自我学习,并接收新文本分类模块反馈的训练文本,提高文本分类精度。
其中的语料搜集是从积累的大规模不安全网络信息资料中,采集代表性的文本资料,将其当成训练分类模型的语料。按照不同的文本类别塑造各类专业词表,其中含有文本的专业词编号、所属类别以及专业词等内容。采用逆向最大匹配法采集Web文本中的最大符号串,并将其同词典中的单词条目进行匹配,若匹配不成功,则过滤一个汉字,再次进行匹配,直至在词典中获取相关的单词,最终获取Web文本的中文分词。
将新文本划分到分类体系中的某一类时,因为分类体系中的各类别间具有一定相似性,因此需要对各类别确定合理的阈值,若Web文本在该类的阈值之上,则将文本归类到该类中,设置的分类类别阈值为65%。
2 软件设计
摘 要: 傳统的信息挖掘方法挖掘面窄,扩展性差,无法有效挖掘出网络中的不安全信息。因此,设计并实现了网络信息安全防范与Web数据挖掘系统,其由Web文本采集模块、文本分类模块和类别判断模块构成。Web文本采集模块从网络Web网页中采集文本信息,并将信息反馈给文本分类模块。文本分类模块由训练模块、分类模块和分类器构成。训练模块采用完成分类的文本对文本分类模型进行训练,获取不同类别特征词间的关联性,塑造向量空间模型。分类模块对将要进行分类的Web文本进行分词处理,通过向量描述文本特征词。分类器运算待分类文本特征向量同各类中心向量间的相似度,确保Web文本被划分到具有最高相似度的文本类型中。类别判断模块辨识待分析的网络文本信息是否属于不安全信息类,并通过报警模块对不安全信息进行报警。软件部分给出了系统的功能结构以及文本分类模块的程序实现代码。实验结果表明,所设计系统具有较高的查全率、查准率和较高的检测性能。
关键词: 网络信息; 安全防范; Web数据; 数据挖掘
中图分类号: TN711?34; TP309 文献标识码: A 文章编号: 1004?373X(2017)04?0061?05
Design and implementation of network information security protection and
Web data mining system
ZHAO Yuepin
(Hebei Jiaotong Vocational and Technical college, Shijiazhuang 050091, China )
Abstract: The traditional information mining method has narrow mining face and poor scalability, so it cannot effectively dig out the unsafety information in the network. Therefore, the network information security protection and Web data mining system was designed and realized. It is composed of Web text acquisition module, text classification module and category judgment module. The Web text acquisition module is used to collect text information from the Internet Web pages, and feeds the information back to text classification module. The text classification module is made up of training module, classification module and classifier. The training module adopts the text completing classification to train text classification model to obtain the correlation among different category feature words and establish vector space model. The classification module is used to conduct the segmentation processing of words in Web text under classification and diescribe the text feature words through vector. The classifier is used to operate the similarity between the character vector of the text under classification and all kinds of central vector to ensure that the Web text is divided into the text type with the highest similarity. The category judgment module identifies whether the network text information under analysis belongs to the unsafety information, and gives an alarm for the unsafety information through the alarm module. The system function structure and program implementation code of the text categorization module are given in the software section. The experimental results indicate that the designed system has a high recall ratio, high precision ratio and high detection performance.
Keywords: network information; security protection; Web data; data mining
0 引 言
随着网络信息技术的快速发展,其在人们的生产和生活中发挥着越来越重要的作用。网络信息技术的发展促使网络经济发展速度提升,网络信息安全问题限制了网络经济的发展。因此,寻求有效的方法,确保网络信息安全,成为相关人员分析的热点问题[1?3]。传统的信息挖掘方法,挖掘面窄,扩展性差,无法有效挖掘出网络中的不安全信息。而在网络中充分运用Web 数据挖掘技术,可大大增强网络信息安全的监测质量,具有重要应用意义[4?6]。
当前针对网络不安全信息的挖掘方法大都存在一定的问题,如文献[7]分析依据规则的网络不安全信息检测方法,其采用人工事先设置好的推理规则,对Web资料进行推理分析,检测出不安全信息。但是该方法对待检测资料的可理解性要求较高,存在一定的局限性。文献[8]分析了基于回归模型检测网络不安全信息,其统计不安全信息发生的概率,塑造概率的回归模型,完成不安全信息的归类。该方法可在实际运用中获取满意的结果,但是需要大量的数据为分析依据,且检测效率较低。文献[9]通过基于连接的形式,实现网络不安全信息的检测。其通过一定的算法模拟人的思维,完成网络信息的有效分类。但是该方法检测到的结果较为粗糙,存在较高的误差。文献[10]提出了基于向量的网络不安全信息挖掘方法,塑造网络信息的向量空间,通過分析网络信息向量空间的相似度,挖掘出不安全信息。但其检测精度较低,无法获取令人满意的检测效果。
针对上述问题,设计并实现了网络信息安全防范与Web数据挖掘系统,其由Web文本采集模块、文本分类模块和类别判断模块构成。实验结果表明,所设计系统具有较高的查全率、查准率和较高的检测性能。
1 网络信息安全防范与Web数据挖掘系统
1.1 系统的体系结构
塑造的网络信息安全防范与Web数据挖掘系统的体系结构如图1所示。
图1描述的系统体系结构由Web文本采集模块、文本分类模块和类别判断模块构成。Web文本采集模块从网络Web网页中采集文本信息,同时将获取的Web文本信息传输给文本分类模块。文本分类模块包括训练模块、分类模块以及分类器,训练模块采用完成分类的文本对文本分类模型进行训练,获取不同类别特征词间的关联性,塑造向量空间模型。分类模块对将要进行分类的文本进行分词处理,过滤其中的停用词,采集其中的特征词,并通过向量描述获取特征词。分类器对比待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到最高相似度的文本种类内。类别判断模块分析待分析的网络文本信息是否属于不安全信息类,并通过报警模块对网络不安全信息进行报警,同时通知管理人员对不安全信息进行相关的处理。
1.2 Web文本采集模块设计
Web文本数据采集流程如图2所示。
图2 Web文本信息自动采集流程图
其中的Spider采集模块位于Web 信息采集中底层,其通过不同Web协议自主采集互联网网页中的信息。Web 页面的采集,应先过滤Web页面的图像、声音等非结构数据,再从页面采集链接、文本的标题以及正文,确保在Web网页中仅存在文本信息。
超链接采集获取URL,按照超链接分析算法,分析Web页面种类,删除无价值的分析链接页面,保留页面种类为“tex/html”的分析连接页面。按照应答头以及URL的文件扩展名分析页面的种类。
规范文本将Web文本信息划分成文章的标题和主体,确保分类模块可基于不同的标题和主体,设置相应的参数。具体的过程如下:
(1) 分析正文开始位置,顺次检索文章的段落,直至某段长高于设置的正文最小长度,则说明该段文字为正文中的某段。
(2) 在正文位置向文章开始处检索,按照字体大小,是否居中等特征,获取最满意的一段文字,将其当成标题。
(3) 检索文章直至获取非文字字符,将对应的内容当成文本的主体。
(4) 将获取的标题和主体存储到数据库或格式文件内。
1.3 文本分类模块设计
文本分类模型由训练模块、分类模块和分类器构成。训练模块通过大量完成分类的文本进行训练,获取文本分类模型,获取不同类型特征词间的关联性,塑造向量空间模型SVM。分类模块将待分类的Web文本进行分词处理,过滤其中的停用词,获取其中的特征词,同时通过向量描述文本特征词。分类器可运算待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到具有最高相似度的文本类型中。塑造的文本自动分类模块的结构图如图3所示。
图3中,本文训练模块通过分类文本训练对文本分类模型进行训练,获取不同类别特征词的关联性,塑造向量空间模型。新文本分类模块过滤将要进行类型划分的文本中的分词,获取文本中的特征词,并通过向量描述该特征词。对比将要分类的文本特征向量同各类中心向量的相似度,确保文本被分类到具有最高相似度的种类中。文本训练模块持续进行自我学习,并接收新文本分类模块反馈的训练文本,提高文本分类精度。
其中的语料搜集是从积累的大规模不安全网络信息资料中,采集代表性的文本资料,将其当成训练分类模型的语料。按照不同的文本类别塑造各类专业词表,其中含有文本的专业词编号、所属类别以及专业词等内容。采用逆向最大匹配法采集Web文本中的最大符号串,并将其同词典中的单词条目进行匹配,若匹配不成功,则过滤一个汉字,再次进行匹配,直至在词典中获取相关的单词,最终获取Web文本的中文分词。
将新文本划分到分类体系中的某一类时,因为分类体系中的各类别间具有一定相似性,因此需要对各类别确定合理的阈值,若Web文本在该类的阈值之上,则将文本归类到该类中,设置的分类类别阈值为65%。
2 软件设计
0 引 言
随着网络信息技术的快速发展,其在人们的生产和生活中发挥着越来越重要的作用。网络信息技术的发展促使网络经济发展速度提升,网络信息安全问题限制了网络经济的发展。因此,寻求有效的方法,确保网络信息安全,成为相关人员分析的热点问题[1?3]。传统的信息挖掘方法,挖掘面窄,扩展性差,无法有效挖掘出网络中的不安全信息。而在网络中充分运用Web 数据挖掘技术,可大大增强网络信息安全的监测质量,具有重要应用意义[4?6]。
当前针对网络不安全信息的挖掘方法大都存在一定的问题,如文献[7]分析依据规则的网络不安全信息检测方法,其采用人工事先设置好的推理规则,对Web资料进行推理分析,检测出不安全信息。但是该方法对待检测资料的可理解性要求较高,存在一定的局限性。文献[8]分析了基于回归模型检测网络不安全信息,其统计不安全信息发生的概率,塑造概率的回归模型,完成不安全信息的归类。该方法可在实际运用中获取满意的结果,但是需要大量的数据为分析依据,且检测效率较低。文献[9]通过基于连接的形式,实现网络不安全信息的检测。其通过一定的算法模拟人的思维,完成网络信息的有效分类。但是该方法检测到的结果较为粗糙,存在较高的误差。文献[10]提出了基于向量的网络不安全信息挖掘方法,塑造网络信息的向量空间,通過分析网络信息向量空间的相似度,挖掘出不安全信息。但其检测精度较低,无法获取令人满意的检测效果。
针对上述问题,设计并实现了网络信息安全防范与Web数据挖掘系统,其由Web文本采集模块、文本分类模块和类别判断模块构成。实验结果表明,所设计系统具有较高的查全率、查准率和较高的检测性能。
1 网络信息安全防范与Web数据挖掘系统
1.1 系统的体系结构
塑造的网络信息安全防范与Web数据挖掘系统的体系结构如图1所示。
图1描述的系统体系结构由Web文本采集模块、文本分类模块和类别判断模块构成。Web文本采集模块从网络Web网页中采集文本信息,同时将获取的Web文本信息传输给文本分类模块。文本分类模块包括训练模块、分类模块以及分类器,训练模块采用完成分类的文本对文本分类模型进行训练,获取不同类别特征词间的关联性,塑造向量空间模型。分类模块对将要进行分类的文本进行分词处理,过滤其中的停用词,采集其中的特征词,并通过向量描述获取特征词。分类器对比待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到最高相似度的文本种类内。类别判断模块分析待分析的网络文本信息是否属于不安全信息类,并通过报警模块对网络不安全信息进行报警,同时通知管理人员对不安全信息进行相关的处理。
1.2 Web文本采集模块设计
Web文本数据采集流程如图2所示。
图2 Web文本信息自动采集流程图
其中的Spider采集模块位于Web 信息采集中底层,其通过不同Web协议自主采集互联网网页中的信息。Web 页面的采集,应先过滤Web页面的图像、声音等非结构数据,再从页面采集链接、文本的标题以及正文,确保在Web网页中仅存在文本信息。
超链接采集获取URL,按照超链接分析算法,分析Web页面种类,删除无价值的分析链接页面,保留页面种类为“tex/html”的分析连接页面。按照应答头以及URL的文件扩展名分析页面的种类。
规范文本将Web文本信息划分成文章的标题和主体,确保分类模块可基于不同的标题和主体,设置相应的参数。具体的过程如下:
(1) 分析正文开始位置,顺次检索文章的段落,直至某段长高于设置的正文最小长度,则说明该段文字为正文中的某段。
(2) 在正文位置向文章开始处检索,按照字体大小,是否居中等特征,获取最满意的一段文字,将其当成标题。
(3) 检索文章直至获取非文字字符,将对应的内容当成文本的主体。
(4) 将获取的标题和主体存储到数据库或格式文件内。
1.3 文本分类模块设计
文本分类模型由训练模块、分类模块和分类器构成。训练模块通过大量完成分类的文本进行训练,获取文本分类模型,获取不同类型特征词间的关联性,塑造向量空间模型SVM。分类模块将待分类的Web文本进行分词处理,过滤其中的停用词,获取其中的特征词,同时通过向量描述文本特征词。分类器可运算待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到具有最高相似度的文本类型中。塑造的文本自动分类模块的结构图如图3所示。
图3中,本文训练模块通过分类文本训练对文本分类模型进行训练,获取不同类别特征词的关联性,塑造向量空间模型。新文本分类模块过滤将要进行类型划分的文本中的分词,获取文本中的特征词,并通过向量描述该特征词。对比将要分类的文本特征向量同各类中心向量的相似度,确保文本被分类到具有最高相似度的种类中。文本训练模块持续进行自我学习,并接收新文本分类模块反馈的训练文本,提高文本分类精度。
其中的语料搜集是从积累的大规模不安全网络信息资料中,采集代表性的文本资料,将其当成训练分类模型的语料。按照不同的文本类别塑造各类专业词表,其中含有文本的专业词编号、所属类别以及专业词等内容。采用逆向最大匹配法采集Web文本中的最大符号串,并将其同词典中的单词条目进行匹配,若匹配不成功,则过滤一个汉字,再次进行匹配,直至在词典中获取相关的单词,最终获取Web文本的中文分词。
将新文本划分到分类体系中的某一类时,因为分类体系中的各类别间具有一定相似性,因此需要对各类别确定合理的阈值,若Web文本在该类的阈值之上,则将文本归类到该类中,设置的分类类别阈值为65%。
2 软件设计
0 引 言
随着网络信息技术的快速发展,其在人们的生产和生活中发挥着越来越重要的作用。网络信息技术的发展促使网络经济发展速度提升,网络信息安全问题限制了网络经济的发展。因此,寻求有效的方法,确保网络信息安全,成为相关人员分析的热点问题[1?3]。传统的信息挖掘方法,挖掘面窄,扩展性差,无法有效挖掘出网络中的不安全信息。而在网络中充分运用Web 数据挖掘技术,可大大增强网络信息安全的监测质量,具有重要应用意义[4?6]。
当前针对网络不安全信息的挖掘方法大都存在一定的问题,如文献[7]分析依据规则的网络不安全信息检测方法,其采用人工事先设置好的推理规则,对Web资料进行推理分析,检测出不安全信息。但是该方法对待检测资料的可理解性要求较高,存在一定的局限性。文献[8]分析了基于回归模型检测网络不安全信息,其统计不安全信息发生的概率,塑造概率的回归模型,完成不安全信息的归类。该方法可在实际运用中获取满意的结果,但是需要大量的数据为分析依据,且检测效率较低。文献[9]通过基于连接的形式,实现网络不安全信息的检测。其通过一定的算法模拟人的思维,完成网络信息的有效分类。但是该方法检测到的结果较为粗糙,存在较高的误差。文献[10]提出了基于向量的网络不安全信息挖掘方法,塑造网络信息的向量空间,通過分析网络信息向量空间的相似度,挖掘出不安全信息。但其检测精度较低,无法获取令人满意的检测效果。
针对上述问题,设计并实现了网络信息安全防范与Web数据挖掘系统,其由Web文本采集模块、文本分类模块和类别判断模块构成。实验结果表明,所设计系统具有较高的查全率、查准率和较高的检测性能。
1 网络信息安全防范与Web数据挖掘系统
1.1 系统的体系结构
塑造的网络信息安全防范与Web数据挖掘系统的体系结构如图1所示。
图1描述的系统体系结构由Web文本采集模块、文本分类模块和类别判断模块构成。Web文本采集模块从网络Web网页中采集文本信息,同时将获取的Web文本信息传输给文本分类模块。文本分类模块包括训练模块、分类模块以及分类器,训练模块采用完成分类的文本对文本分类模型进行训练,获取不同类别特征词间的关联性,塑造向量空间模型。分类模块对将要进行分类的文本进行分词处理,过滤其中的停用词,采集其中的特征词,并通过向量描述获取特征词。分类器对比待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到最高相似度的文本种类内。类别判断模块分析待分析的网络文本信息是否属于不安全信息类,并通过报警模块对网络不安全信息进行报警,同时通知管理人员对不安全信息进行相关的处理。
1.2 Web文本采集模块设计
Web文本数据采集流程如图2所示。
图2 Web文本信息自动采集流程图
其中的Spider采集模块位于Web 信息采集中底层,其通过不同Web协议自主采集互联网网页中的信息。Web 页面的采集,应先过滤Web页面的图像、声音等非结构数据,再从页面采集链接、文本的标题以及正文,确保在Web网页中仅存在文本信息。
超链接采集获取URL,按照超链接分析算法,分析Web页面种类,删除无价值的分析链接页面,保留页面种类为“tex/html”的分析连接页面。按照应答头以及URL的文件扩展名分析页面的种类。
规范文本将Web文本信息划分成文章的标题和主体,确保分类模块可基于不同的标题和主体,设置相应的参数。具体的过程如下:
(1) 分析正文开始位置,顺次检索文章的段落,直至某段长高于设置的正文最小长度,则说明该段文字为正文中的某段。
(2) 在正文位置向文章开始处检索,按照字体大小,是否居中等特征,获取最满意的一段文字,将其当成标题。
(3) 检索文章直至获取非文字字符,将对应的内容当成文本的主体。
(4) 将获取的标题和主体存储到数据库或格式文件内。
1.3 文本分类模块设计
文本分类模型由训练模块、分类模块和分类器构成。训练模块通过大量完成分类的文本进行训练,获取文本分类模型,获取不同类型特征词间的关联性,塑造向量空间模型SVM。分类模块将待分类的Web文本进行分词处理,过滤其中的停用词,获取其中的特征词,同时通过向量描述文本特征词。分类器可运算待分类文本特征向量同各类中心向量间的相似度,将Web文本划分到具有最高相似度的文本类型中。塑造的文本自动分类模块的结构图如图3所示。
图3中,本文训练模块通过分类文本训练对文本分类模型进行训练,获取不同类别特征词的关联性,塑造向量空间模型。新文本分类模块过滤将要进行类型划分的文本中的分词,获取文本中的特征词,并通过向量描述该特征词。对比将要分类的文本特征向量同各类中心向量的相似度,确保文本被分类到具有最高相似度的种类中。文本训练模块持续进行自我学习,并接收新文本分类模块反馈的训练文本,提高文本分类精度。
其中的语料搜集是从积累的大规模不安全网络信息资料中,采集代表性的文本资料,将其当成训练分类模型的语料。按照不同的文本类别塑造各类专业词表,其中含有文本的专业词编号、所属类别以及专业词等内容。采用逆向最大匹配法采集Web文本中的最大符号串,并将其同词典中的单词条目进行匹配,若匹配不成功,则过滤一个汉字,再次进行匹配,直至在词典中获取相关的单词,最终获取Web文本的中文分词。
将新文本划分到分类体系中的某一类时,因为分类体系中的各类别间具有一定相似性,因此需要对各类别确定合理的阈值,若Web文本在该类的阈值之上,则将文本归类到该类中,设置的分类类别阈值为65%。
2 软件设计