Web网络大数据的聚类中心调度技术研究

2022.07.05

肖铮+董祥千+赵文革
摘要：针对传统调度方法一直存在调度精度不准确的问题，提出一种Web网络大数据的聚类中心调度技术的研究方案。针对Web网络大数据重新建立调度模型有效的对数据进行识别，优化聚类中心的K?means算法，解决对大数据调度能力差的问题，提高聚类中心的大数据调度能力，最后使用建立调度模型完成在Web网络大数据环境下的聚类中心数据调度。设计对比仿真试验，通过实验数据可以有效地证明Web网络大数据的聚类中心调度技术的有效性。
关键词： Web网络大数据；聚类中心；调度技术；数据识别；数据调度
中图分类号： TN711?34； TP391.3 文献标识码： A 文章编号： 1004?373X（2017）24?0025?03
Abstract： In allusion to the problem of the inaccurate scheduling precision of the traditional scheduling method， a research scheme of clustering center scheduling technology for Web network big data is proposed. The Web network big data scheduling model is reconstructed for effective data recognition. The K?means algorithm in clustering center is optimized to resolve the problem of poor big data scheduling capability and improve the big data scheduling capability in clustering center. The constructed scheduling model is employed to accomplish the data scheduling of clustering center in the Web network big data environment. The contrast simulation experiment was carried out. The experimental data effectively demonstrates the validity of the clustering center scheduling technology for Web network big data.
Keywords： Web network big data； clustering center； scheduling technology； data identification； data scheduling
0 引言
互联网时代的快速崛起，在网络上信息传递的数量已经出现井喷式的爆发，许多依附互联网的产业应运而生[1?2]。聚类中心是对数据进行系统分类以及统计调用网络应用层的关键设置[3?4]。聚类中心能够在Web网络环境中进行数据的系统分析筛选，通过不同信道将信息划分成若干个簇族，这样方便对海量信息进行汲取分类，保证了数据的有效性同时完成了对数据调度任务[5?6]。传统的聚类中心对大数据进行调度是通过数据属性筛选提取进行调度的，这样的方法虽然调度准确率极高但是调度时间很长，在数据量增长以平方计算的今天，此方法已经不能满足人们的正常需求[7?8]。针对上述情况，本文提出一种Web网络大数据的聚类中心调度技术研究方案。还设计了对比仿真试验，通过实验数据的分析有效地证明了本文研究的Web网络大数据的聚类中心调度技术的有效性。
1 聚类中心调度技术的设计方案
本文针对聚类中心数据调度技术进行一定的有效设计，主要针对调度的数据模型进行有效的研发，调度数据模型是对大数据进行筛选、分类、簇族选取的关键所在，其中优化数据调用算法也是节省时间的有效手段。本文在调度数据模型的设计过程中，对其中的K?means算法进行了有效的优化，这样可以提高数据的分配同时加强管理调用的能力。最后通过调用模型完成了在Web网络下的大数据调用。其调度数据的流程图如图1所示。
1.1 大数据调度模型的建立
Web网络环境下的大数据首先需要进行标注筛选，这样能够有效地提高本文设计调度模型抗数据干扰能力，但是由于簇族划分过程中会出现数据波动，还需要对调度模型进行系统条件筛选：
式中：为簇族划分熵函数；为大数据的可信度；为筛选预处理结果；为预处理过程系数；表示簇族的类比属性集合。
经过筛选过后的大数据需要进行簇族的分类，分类后的数据才可以进入调度模型中进行系统的调用。过程如下：
式中：表示经过分类后的大数据；为簇族分类的路径标注码。经簇族分类的大数据便可进行调度：
式中：代表大数据的波动能力；表示大数据的最小波动能力。调度的过程中需要进行一定的條件限制，限制的目的是保证调度的准确性，过程如下：
式中，为大数据属性有效值。经过上述条件的限制能够保证模型的调度准确率，也进一步完成了调度模型。
1.2 优化聚类中心的K?means算法
本文对聚类中心K?means算法进行了优化，K?means算法是针对独立的大数据进行有效选取计算方法。K?means算法中大数据必须经过预处理才能够进行K?means计算，大数据预处理[9]公式为：
式中：P为大数据运行参数；为大数据差值转换属性；表示大数据差值转换用时。经预处理后大数据便可进行K?means计算，如下：
式中：表示K?means算法的调用常数，一般是在[100，150]值域范围内；表示大数据的极限调用属性；表示能够平复的能力数据属性。通过K?means计算过后有效地缩短了计算的步骤，简化了调用时间，同时避免了数据波动的产生[10]。
2 仿真实验分析
2.1 参数设定
为了保证设计的Web网络大数据的聚类中心调度技术的有效性，对参数进行设定，调用常数选择在[100，150]值域范围之内；设置熵变函数的表达值为18.5。设置与的分类项分别为：
设置实验参数如表1所示。
2.2 结果分析
实验对比过程中，主要以基础分析、调度时间及调度准确率为指标进行对比分析。其中基础分析主要通过最大调度距离、平均调度距离为指标对其调度距离进行分析：
式中：为两个所需调度数据和之间的距离；为数据类中所要调度的数据量；为数据类中所要调度的数据量。实验结果如表2所示。
分析表2结果得知，本文提出的Web网络大数据的聚类中心调度技术能够在Web环境下进行长距离的大数据调度。本文提出的Web网络大数据的聚类中心调度技术在最大调度距离上比传统的调度方法增加了30 m，同时平均调度距离大于传统调度方法30 m。上述数据表明本文提出的方法能够进行更快更长距离的大数据调度。调度时间和调度准确率如图2、图3所示。
分析图2结果得知，传统的调度方法所需的时间明显要多于本文提出的调度方法。分析图3结果得知，本文提出的Web网络大数据的聚类中心调度技术能够保证较高的调度准确率，同时没有随着数据的变化产生浮动。
3 结语
本文提出一种Web网络大数据的聚类中心调度技术的研究方案。针对Web网络大数据进行调度模型的建立，重新建立的调度模型能够有效的对数据进行识别。特别是大数据的识别，有效地避免了数据干扰、数据混乱的发生，优化了聚类中心中的K?means算法，解决了对大数据调度能力差的问题，提高了聚类中心的调度能力。最后使用建立的调度模型完成在Web网络大数据环境下的聚类中心数据调度。希望通过本文的研究能够提高聚类中心对大数据的调度能力。
参考文献
[1] 陈珂，柯文德，许波.一种基于增量式时间序列和最佳任务调度的Web数据聚类算法[J].现代电子技术，2016，39（14）：4?8.
[2] 王向华，陈特放，张必明，等.基于时间序列和任务调度的Web数据聚类算法[J].计算机工程与应用，2016，52（9）：159?163.
[3] 张晓，王红.一种改进的基于大数据集的混合聚类算法[J].计算机工程与科学，2015，37（9）：1621?1626.
[4] 王海巍.我国险企运营中道德风险甄别问题研究：以大数据Hadoop聚类分析技术为视角[J].保险研究，2016（2）：59?67.
[5] 廖律超，蒋新华，邹复民，等.一种支持轨迹大数据潜在语义相关性挖掘的谱聚类方法[J].电子学报，2015（5）：956?964.
[6] 王晨，李耀庭.大数据大数据视阈下档案学研究的困境和启示：基于CNKI档案类期刊的共词聚类分析[J].北京档案，2016（6）：14?17.
[7] 高繼平，马峥，潘云涛，等.大数据领域代表性专家识别与分析：文献计量学视角[J].科技管理研究，2016，36（16）：177?182.
[8] 周润物，李智勇，陈少淼，等.CCF BigData 2015+063面向大数据处理的并行优化抽样聚类K?means算法[J].计算机应用，2016，36（2）：311?315.