标题 | 云计算环境下的大数据特征挖掘技术研究 |
范文 | 张文 苏玉 摘 要: 基于梯度采样的大数据特征挖掘方法在大数据挖掘过程中,逻辑性较差,仅从单层角度进行大数据特征挖掘,极大降低大数据特征挖掘的精度。对此,提出基于云计算环境下大数据特征挖掘模型的特征挖掘方法,其大数据存储体系层包括多源信息资源服务层、核心技术层、多源信息资源平台服务层以及多源信息资源基础层,采用大数据特征分布函数实施大数据特征匹配,实现大数据特征初步挖掘;大数据特征挖掘处理层对存储体系层中的大数据进行抽取、转换、清洗、集成与加载实现大数据预处理,采用FP?tree对预处理后的大数据进行准确特征挖掘,通过用户层将获取的大数据特征挖掘结果反馈给用户,完成云计算环境下大数据特征挖掘。实验结果表明,所提方法在云计算环境下大数据特征挖掘方面准确率较高,具有低能量开销的优势。 关键词: 云计算; 梯度采样; 大数据; 存储体系; 特征挖掘; 能量开销 中图分类号: TN919?34; TP391.4 文献标识码: A 文章编号: 1004?373X(2018)20?0161?04 Abstract: The big data feature mining method based on gradient sampling has poor logicality during the process of big data mining, and conducts big data feature mining only from the single layer perspective, which greatly reduces the precision of big data feature mining. Therefore, a feature mining method based on the cloud computing environment is proposed for the big data feature mining model. The big data storage system layer consists of the multi?source information resource service layer, core technology layer, multi?source information resource platform service layer, and multi?source information resource base layer. The big data feature distribution function is used to implement big data feature matching and realize initial mining of big data features. In the big data feature mining processing layer, extraction, transformation, cleaning, integration and loading of big data in the storage system layer are conducted to realize big data preprocessing. The FP?tree is used to conduct accurate feature mining of preprocessed data. The obtained big data feature mining results are fed back to users by means of the user layer, so as to complete big data feature mining in the cloud computing environment. The experimental results show that the proposed method has high accuracy of big data feature mining in the cloud computing environment, and has the advantage of low energy overhead. Keywords: cloud computing; gradient sampling; big data; storage system; feature mining; energy overhead0 引 言 云计算平台具有高效分配动态资源、根据用户请求生成动态计算与存储等功能[1],为大数据特征分析与挖掘提供良好平台[2]。在云计算环境下进行大数据特征挖掘是信息时代海量数据高效应用的有效方法。基于梯度采样的大数据特征挖掘方法在大数据挖掘过程中,逻辑性较差,仅从单层角度进行大数据特征挖掘,降低了大数据特征挖掘的精度[3]。针对这一不足,提出基于云计算环境下大数据特征挖掘模型的特征挖掘方法。通过实验验证了该方法具有较高的数据挖掘性能,为社会生产各行业大数据特征挖掘提供有效手段。1 大数据特征挖掘模型的特征挖掘方法 1.1 云计算环境下大数据特征挖掘模型 文章采用云计算环境下大数据特征挖掘模型实现大数据特征挖掘,该模型如图1所示。 分析图1所示的云计算环境下大数据挖掘模型可知,该模型主要包括大数据存储体系层、大数据挖掘处理层以及用户层[4?5],下面进行详细研究。 1.2 大数据存储体系层 云计算中多源数据信息的交互、网络技术的集成依赖于云计算环境中的三个不同模型分别是I/O,USB及磁盘层[6],图2为云计算环境下大数据存储体系层的架构。 分析图2能够看出,云计算环境下大数据存储体系包括多源信息资源服务层、核心技术层、多源信息资平台服务层以及多源信息资源基础层。 1.3 大数据特征挖掘处理层 1.3.1 大数据预处理 对大数据进行预处理获取符合特征挖掘标准的高质量大数据,保证特征挖掘结果的真实性、可靠性[7]。大数据抽取、转换、清洗、集成与加载是大数据预处理的主要流程,通过该方法获取规则、可靠的大数据,基于该结果进行大数据特征挖掘[8]。 1.3.2 基于FP?tree的大数据特征挖掘 第1.3.1小节大数据特征挖掘过程进行大数据特征挖掘时,存在分类精度低、用时长的缺点,为解决该问题,本文提出一种新的、高效率基于FP?tree的大数据特征分类挖掘方法,详细步骤如图3所示。 分析图3能够看出:第一步,对获取大数据训练集进行map分解,接着对大数据训练集生成FP?tree;第二步,基于FP?tree获取频繁项集;第三步,根据reduce实施归并,关联规则可通过频繁项集进行获取,接着实施剪枝[9]获取分类规则,基于分类规则构建大数据特征分类器,实现大数据特征的有效分类与挖掘。 1.4 用户层 用户层中的用户输入模块为用户提供表达请求的平台。该模块对用户输入的数据信息进行分析,匹配合理的数据挖掘方法[10]。采用该方法对预处理后的数据进行数据特征挖掘,基于结果展示模块用户能够获取相应的大数据特征挖掘结果,实现云计算环境下的大数据特征挖掘。2 实验分析 2.1 大数据特征挖掘准确率分析 为了验证本文方法进行云计算环境下大数据特征挖掘的有效性,对其展开仿真实验研究。具体实验设置如下:一台PC机配备Windows 7系统,2.89 Hz双核Core四处理器,存储空间为1 GB;采用Matlab 7仿真软件、覆盖范围300×300的云计算设备,大数据库B500C30D50提供实验数据集,包含44 878 308条记录。在上述实验环境下,采用本文方法对大数据进行特征匹配,获取的匹配结果如图4所示。 分析图4能够看出,采用本文方法实施大数据特征匹配,在时间为30 s时归一化投影值为0.14;随着时间的增加,相应的归一化投影值增大,在时间为35 s时出现归一化投影值峰值0.8,在40 s时归一化投影值为0.18。总体看来,采用本文方法进行大数据特征匹配获取的归一化投影值以时间35 s处为中心呈对称状态分布。 将上述获取的大数据特征匹配结果作为特征数据实施大数据特征挖掘,获取的大数据特征分类挖掘结果如图5所示。 分析图5可知,图中中间处图形为特征挖掘前数据形态,左右两侧两条图形是采用本文方法后获取的大数据特征挖掘形态,通过对比能够看出,采用本文方法获取的数据挖掘结果不存在特征交叉、融合的现象,大数据特征得到有效分割,在去除原始数据集冗余特征的基础上获取规则、可靠的大数据特征挖掘结果。 将本文方法与基于时空分析的大数据特征挖掘方法、基于梯度采样的大数据特征挖掘方法进行对比实验,采用三种方法进行10次大数据特征挖掘准确率测试,获取的结果如表1所示。 分析表1能够看出三种方法进行大数据特征挖掘的准确率对比情况。本文方法在10次准确率测试中获取的准确率均在95%以上,在第10次测试中准确率达到最大值99.4%,在第8次测试中达到准确率最小值95.6%,本文方法进行大数据特征挖掘的平均准确率为97.6%。基于时空分析的大数据特征挖掘方法在10次准确率测试中获取的准确率均在90%~96%之间,其准确率均值为92.1%,在第9次测试中该方法的准确率达到最大值95.2%,其余测试中准确率均在92%上下,低于本文方法。基于梯度采样的大数据特征挖掘方法的准确率均值为95.9%,虽然与本文方法的准确率均值仅相差1.7%,总体看来该方法的大数据特征挖掘准确率较高,难以凸显本文方法的优势。因此采用本文方法与基于梯度采样的大数据特征挖掘方法再次进行对比实验。详细实验方法为:在相同实验环境下采用本文方法与基于梯度采样的大数据特征挖掘方法进行5次大数据特征挖掘测试并记录准确率结果,制成条形图如图6所示。 分析圖6能够明显看出本文方法与基于梯度采样的大数据特征挖掘方法准确率对比情况,本文方法准确率明显高于基于梯度采样的大数据特征挖掘方法。 2.2 数据挖掘开销分析 为验证本文方法优势,以大数据特征挖掘能量开销为测试指标,三种方法获取的能量开销结果见图7。 分析图7,基于时空分析的大数据特征挖掘方法能量开销曲线位于曲线图的最上方。从实验数据能够看出,该方法进行大数据特征挖掘的总体能量开销最大,且随着云计算设备的增加,该方法的能量开销并未减少,而是呈无规律状态大幅度波动。其中出现两次能量开销高峰,说明该方法的稳定性较差。基于梯度采样的大数据特征挖掘方法的能量开销位居第二位。随着云计算设备数量的增加,该方法的能量开销呈逐渐减少的趋势,相对基于时空分析的大数据特征挖掘方法而言,该方法的大数据特征挖掘性能较强,但仍低于本文方法。本文方法能量开销曲线位于曲线图最下方,随着云计算设备数量增加,本文方法能量开销逐渐减少。与基于时空分析的大数据特征挖掘方法相比,本文方法能量开销降低了约10倍,大大节省了大数据特征挖掘能量消耗,而且本文方法能量开销基本稳定,无大幅度波动。 3 结 论 文章提出基于云计算环境下大数据特征挖掘模型的特征挖掘方法,从云计算环境下大数据存储体系层、大数据特征挖掘处理层以及用户层三个层次实现云计算环境下大数据特征挖掘。经过实验验证,本文方法在云计算环境下进行大数据特征挖掘的准确率较高,且具有能量开销低的优势。 注:本文通讯作者为苏玉。 参考文献 [1] 张晋芳,王清心,丁家满,等.一种云计算环境下大数据动态迁移策略[J].计算机工程,2016,42(5):13?17. ZHANG Jinfang, WANG Qingxin, DING Jiaman, et al. A big data dynamic migration strategy in cloud computing environment [J]. Computer engineering, 2016, 42(5): 13?17. [2] 王欣,周晓梅.云计算环境下大数据合理分流技术研究与仿真[J].计算机仿真,2016,33(3):292?295. WANG Xin, ZHOU Xiaomei. Research and simulation on big data reasonable splitting technology in cloud computing environment [J]. Computer simulation, 2016, 33(3): 292?295. [3] MANIKYAM N R H, KUMAR S M. Methods and techniques to deal with big data analytics and challenges in cloud computing environment [J]. International journal of civil engineering & technology, 2017, 8(4): 669?678. [4] 申琢.基于云计算和大数据挖掘的矿山事故预警系统研究与设计[J].中国煤炭,2017,43(12):109?114. SHEN Zhuo. Study on early warning system of coal mine accidents based on cloud computing and big data crunching platform [J]. China coal, 2017, 43(12): 109?114. [5] GHORBEL A, GHORBEL M, JMAIEL M. Privacy in cloud computing environments: a survey and research challenges [J]. Journal of supercomputing, 2017, 73(6): 2763?2800. [6] LIAO L, HUANG Y, LIU X. Study on the mining method for specific fault data of multimedia sensor networks in cloud computing environment [J]. Multimedia tools & applications, 2016, 76(16): 1?16. [7] 楼凤丹,裴旭斌,王志强,等.基于云计算及大数据技术的电力搜索引擎技术研究[J].电网与清洁能源,2016,32(12):86?92. LOU Fengdan, PEI Xubin, WANG Zhiqiang, et al. Research on power search engine technology based on cloud computing and large data [J]. Advances of power system & hydroelectric engineering, 2016, 32(12): 86?92. [8] GOLI?MALEKABADI Z, SARGOLZAEI?JAVAN M, AKBARI M K. An effective model for store and retrieve big health data in cloud computing [J]. Computer methods and programs in biomedicine, 2016, 132: 75?82. [9] HUA M A, ZHI?GANG H U, ZHANG H Y, et al. Personalized fusion method of service trust evaluation in cloud computing environment [J]. Journal of Chinese computer systems, 2014, 35(4): 776?780. [10] 吴凯峰,刘万涛,李彦虎,等.基于云计算的电力大数据分析技术与应用[J].中国电力,2015,48(2):111?116. WU Kaifeng, LIU Wantao, LI Yanhu, et al. Cloud?computing based power big data analysis technology and its application [J]. Electric power, 2015, 48(2): 111?116. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。