网络大数据平台中的特征数据分类系统设计与实现

张科星



摘 要: 网络大数据平台中特征数据的有效分类,是提高网民查询体验、开发新型应用的有效途径。为此,设计稳定性好、资源占用率低的网络大数据平台特征数据分类系统。系统的显示端是网民的直接应用端,其主要进行网络大数据的获取、大数据获取结果的显示和特征分类结果的显示。服务端利用SOA体系结构为网络大数据平台提供特征数据的分类服务,其将特征数据的分类标准纳入到网络大数据中,并传递给逻辑层处理端。逻辑层处理端根据特征数据分类标准,利用云计算和策略设计对网络大数据集合进行特征提取,其特征提取算法于软件中给出。特征数据分类端根据逻辑层处理端所提取出的大数据特征,利用特征向量机进行特征数据的自动分类工作。实验结果表明,所设计的系统稳定性好、资源占用率低。
关键词: 网络大数据平台; 特征数据分类系统; 分类服务; 云计算
中图分类号: TN711?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)08?0025?04
Design and implementation of feature data classification system in
network big data platform
ZHANG Kexing
(Taiyuan University, Taiyuan 030012, China)
Abstract: Effective classification of the characteristics data of the network big data platform is to improve the Internet query experience of netizens, and an effective way to develop new applications. Therefore, a characteristic data classification system with good stability and low resource utilization was designed for the network large data platform. The system′s display terminal is the direct application client of netizens, which is used to acquire the network big data, and display the data acquisition result and feature classification result. The server utilizes SOA architecture to provide the classification service of the characteristics data for network big data platform. The classification standard of characteristic data is brought into network large data, and passed to the logic layer processing side, which extracts the characteristics of network big data set according to the characteristic data classification standard, cloud computing and strategy design. The feature extraction algorithm is given in the third paragraph of this paper. Feature data classification end classifies the characteristics data automatically by using the feature vector machine (SVM) according to the big data characteristics extracted by logic layer processing side. The experimental results show that the designed system has high stability, low resource utilization.
Keywords: network big data platform; characteristic data classification system; classification service; cloud computing
0 引 言
隨着科技的不断进步,网络大数据时代悄然来临,为了各国网民提供了更为高效、便捷的服务。网络大数据平台中的特征数据的有效分类,是提高网民查询体验、开发新型应用的有效途径[1?3]。以往设计出的网络大数据平台特征数据分类系统,未能合理分析大数据的固有特征趋势,稳定性不高并造成了系统运行资源的浪费。故能否设计出一种稳定性好、资源占用率低的网络大数据平台特征数据分类系统,是特征分类领域关注的重点内容[4?6]。
曾设计出的网络大数据平台特征数据分类系统都或多或少地存在一些问题。如文献[7]设计基于信息互动的网络大数据平台特征数据分类系统,此系统以信息互动这一学习方式,对网络大数据平台中的特征数据进行对比互动分析,并利用软件设计出迭代算法,对特征数据进行“再教育”,进而将其准确分类。此系统的准确性高、资源占用率低,但稳定性欠佳。文献[8]设计基于语义的网络大数据平台特征数据分类系统,此系统根据语义方式对网络大数据进行相似搜索,并在网络大数据平台的资源库中构建语义特征向量,通过计算特征向量的角度对特征数据进行分类。整个系统利用分布式设计,拥有较高的稳定性,但其资源占用率较高。文献[9]设计基于地图缩放模型的网络大数据平台特征数据分类系统,此系统将AVM算法引入网络大数据平台中,并构建地图缩放模型,将特征数据准确提取并分类。但此系统只能用于数据量较少的网络大数据平台中,数据量过多时,系统的稳定性较低。
为了解决以上问题,设计稳定性好、资源占用率低的网络大数据平台特征数据分类系统。实验结果证明,所设计的系统能够较好地实现设计初衷,为特征分类领域指引了新的方向。
1 網络大数据平台中的特征数据分类系统设计
所设计的网络大数据平台特征数据分类系统是基于SOA体系结构和云计算设计的。SOA体系结构能够根据网民需求,将网络大数据进行分布式配置,其应用价值是无法估量的。将云计算凌驾于SOA体系结构基础上进行系统设计,则大大增强了云计算的兼容性和稳定性,使稳定性好、资源占用率低的特征数据分类工作得以实现。
1.1 显示端设计
显示端是网民的直接应用端,其主要进行网络大数据的获取、大数据获取结果的显示和特征分类结果的显示。对于不同的网络大数据平台,显示端所进行的工作流程并不相同,这需要根据实际情况进行分析。
显示端为网民提供了非常简单易懂的交互页面,便于网民的操作以及系统的自管理。网络大数据平台特征数据分类系统对网络大数据的特征数据分类结果,是按照一定的分类标准进行统计并显示的,显示方法主要是文字、图形和视频。网络大数据的获取工作一部分是根据网民个性化定制的,但大部分的网络大数据还是基于网络大数据平台特征数据分类系统的预设参数进行的。显示端所获取到大数据将传输到服务端。
1.2 服务端设计
服务端是网络大数据平台特征数据分类系统的基础,其能够接受软件的直接调用,为特征数据的准确分类提供技术支持。服务端利用SOA体系结构为网络大数据平台提供特征数据的分类服务,并将特征数据的分类标准纳入到网络大数据中。图1是SOA对外接口示意图。由图1可知,SOA的接口是中立的,并与网络大数据平台特征数据分类系统的硬件设施和编程软件独立开来,使进入服务端的网络大数据均通过相同的流程进行交互,以缩减系统资源利用率、增强系统稳定性。基于SOA的服务端的大数据传输接口分为两种,一种是同显示端的输入接口,另一种是同逻辑层处理端的输出接口,如图2所示。
图2中,服务端上部是其与显示端的输入接口,下部是与逻辑层处理端的输出接口。输入接口的输入数据主要作为服务端设定标准的借鉴参数,包括接口参数和后台分类参数。服务端根据以上两种参数设定自身的处理参数,包括软件调用参数和后台运行参数,这两种参数主要进行大数据目标层后台操作和网民返还的标准制定。同时,显示端获取到的网络大数据将以集合形式无差别地传输到服务端处理并存储。
输出接口能够将服务端所制定的特征数据分类标准传输到逻辑层处理端,包括网民的个性化分类标准和系统的后台操作标准,网络大数据仍将以集合的形式无差别传输。
1.3 逻辑层处理端设计
逻辑层处理端能够实现服务端所制定的特征数据分类标准,并利用云计算对网络大数据集合进行特征提取。逻辑层处理端根据特征数据分类标准,首先对网络大数据集合开始定性分析,并对分析结果进行管理。
为了提高网络大数据平台特征数据分类系统的稳定性,逻辑层处理端的定性分析工作主要通过云计算和策略设计进行,云计算先将网络大数据集合从传输接口中调出,再经由大数据坐标系构建、大数据更正和限制等计算操作,给出网络大数据特征类型,为策略设计的特征提取工作打下坚实的基础。图3是策略设计原理图。
由图3可知,策略设计由网络环境、策略和策略实施三步骤组成,这三个步骤虽然是相互封装进行的,但也存在一定的关联性。策略设计首先检测网络环境,再给出特征数据的提取策略。特征数据提取策略的实施是双向进行的,通常给出A,B两种通道同时开始实施工作。逻辑层处理端将网络大数据的特征提取出来后,网络大数据平台特征数据分类系统将进入最终处理流程,这项工作是经由特征数据分类端完成的。
1.4 特征数据分类端设计
特征数据分类端能够实现人工操作的完全解放,其根据逻辑层处理端所提取出的大数据特征,利用分类器进行特征数据的自动分类工作。图4是特征数据分类端给出的特征数据最优分类原理图。
由图4可知,特征数据分类端所设计的特征数据最优分类原理,是基于特征向量机这一分类器实现的。特征向量机是一种将统计学应用于特征数据分类工作的设备,其运算精准,有很高的工作效率,且对网络大数据类型的分类限制较少,有效简化了网络大数据平台特征数据分类系统的工作流程,缩减了系统的资源占用率。
特征向量机根据逻辑层处理端提取出的网络大数据特征,将网络大数据分解成向量形式,其中的支持向量将被分配到两端,一端用于接收与特征数据无关的向量,另一端则经由最优超平面进行分类。特征向量机的分类间隔由特征数据分类端根据网络的实际情况进行设置。
2 特征数据分类系统软件设计
所设计的网络大数据平台特征数据分类系统需要对网络大数据的特征提取,才能进行特征数据的分类工作。由于网络大数据类型过多,无法一一列出,故以其中的多媒体大数据为例,给出特征提取算法。多媒体大数据的时域特征虽在特征分类中很少应用,但对于特定的多媒体大数据来讲却是不可缺少的;频域则应用较多。因此,系统对多媒体大数据的时域和频域分别进行了特征提取。
2.1 时域特征提取算法
时域特征主要包括瞬时能量及其均方值、过零率以及高过零帧比。
瞬时能量的单位通常是帧,对网络大数据中的多媒体大数据来讲,一般是将每帧的参照点幅值的平方和作为时间同多媒体大数据增减的参照能量值,其表达式如下:
多媒体大数据中语音信号的不同音色往往交替出现,这将造成过零率波动趋势的增大,高过零帧比较大;而视频信号的音色波动却不明显,高过零帧比较小。根据以上原理能够准确进行多媒体大数据的特征分类。
2.2 频域特征提取算法
时域特征主要进行多媒体大数据中梅尔频率倒谱系数和线性预测系数的特征提取,其对频谱以及子带能量等的特征提取均为辅助提取。
梅尔频率倒谱系数是一种对梅尔尺度等距划分频带的特征,其拥有较高的抵抗噪音能力,且与频率具有线性关系。因此,常将梅尔频率倒谱系数作为多媒体大数据频率特征的替代特征。若想获取梅尔频率倒谱系数,软件需对多媒体大数据进行语音加重、帧分类、添窗等处理,此时将获取到帧的时域信号用表示。对帧的时域信号进行傅里叶变换后将获取到离散频谱,用表示,则离散频谱的表达式为:
3 实验验证
实验对本文所设计的网络大数据平台特征数据分类系统的稳定性和资源占用率进行了验证。实验选取两种类型不同的网络大数据平台(分别编号为平台1和平台2),验证本文系统的稳定性和资源占用率。实验结果如表1~表3所示。
由表1和表2可知,召回率和F1值代表着本文系统对特征数据分类水平的预测值。本文系统在平台1和平台2中,均具有较高的分类准确率,且平台的分类准确率、召回率和F1值结果相差不大,验证了本文的稳定性较好。由表3可知,本文系统的CPU占用率实验结果范围为[48%,58%],内存占用率实验结果范围为[20%,33%]。而以往研究出的网络大数据平台特征数据分类系统的CPU占用率和内存占用率大致在70%和40%,验证了本文系统资源占用率低。
4 结 论
本文设计稳定性好、资源占用率低的网络大数据平台特征数据分类系统。系統的显示端是网民的直接应用端,其主要进行网络大数据的获取、大数据获取结果的显示和特征分类结果的显示工作。服务端利用SOA体系结构为网络大数据平台提供特征数据的分类服务,其将特征数据的分类标准纳入到网络大数据中,并传递给逻辑层处理端。逻辑层处理端利用云计算对网络大数据集合进行特征提取,其特征提取算法于软件中给出。特征数据分类端根据逻辑层处理端所提取出的大数据特征,利用特征向量机进行特征数据的自动分类工作。实验结果表明,所设计的系统稳定性好、资源占用率低。
参考文献
[1] 尹晓华,胡楠,刘为,等.OpenFlow在电力大数据平台中的应用[J].电力建设,2015,36(3):43?48.
[2] 李维乾,李莉,张晓滨,等.Hadoop平台下突发水污染应急预案并行化处置[J].西安工程大学学报,2015,29(6):733?739.
[3] 朴雪,张立,俞啸,等.面向医疗大数据平台的异构网络网关的设计[J].自动化仪表,2015,36(9):42?44.
[4] 王昌辉.云计算设备中的大数据特征高效分类挖掘方法研究[J].现代电子技术,2015,38(22):55?58.
[5] 林海.基于SO平台的4G网络大数据优化分析手段研究[J].新媒体研究,2015,1(9):18?19.
[6] 关培源,陈志刚,王云华,等.基于移动医疗大数据平台下降低能量消耗机会网络的研究与应用[J].计算机应用研究,2015,32(12):3790?3793.
[7] 吴纯青,任沛阁,王小峰.基于语义的网络大数据组织与搜索[J].计算机学报,2015,38(1):1?17.
[8] 张建,孙铭,段娟.基于大数据平台的精准广告系统研究与设计[J].电脑与信息技术,2015,23(4):47?50.
[9] 张兆楠,万录品.基于移动互联网及大数据的学校心理健康自服务系统的研究[J].移动通信,2016,40(5):35?40.