基于大数据的最优招标方案选取算法

王鹏 皮水江



關键词: 大数据; 最优选取算法; 招标方案; 大数据处理; 聚类; 投影寻踪模型
中图分类号: TN919?34; TV511 ? ? ? ? ? ? ? ? 文献标识码: A ? ? ? ? ? ? ? ? ? ?文章编号: 1004?373X(2019)04?0105?04
Optimal bidding scheme selection algorithm based on big data
WANG Peng, PI Shuijiang
(Chongqing University of Technology, Chongqing 400054, China)
Abstract: The traditional bidding scheme selection algorithm makes the optimal bidding scheme selection by establishing the index attribute matrix and intuitive fuzzy linear evaluation model, and does not consider the timing of big data processing, resulting in low efficiency and poor accuracy of the selected results. Therefore, an optimal bidding scheme selection algorithm based on big data is put forward. All the bidding schemes are clustered. The big data processing process of bidding schemes is accelerated by means of big data sampling. The Single method is selected to cluster the results of big data sampling, so as to determine the centroid orientation for the natural cluster of big data. The mean value updating method is adopted to modify the centroid orientation for the natural cluster of big data, so as to determine the actual centroid orientation for the natural cluster of big data. On this basis, the classification and clustering of the bidding schemes are conducted. The projection tracing model is constructed to select the optimal bidding scheme. The experimental results show that the proposed algorithm has a clustering error of less than 7%, accuracy of as high as 93%, and a great advantage in computing speed.
Keywords: big data; optimal selection algorithm; bidding scheme; big data processing; clustering; projection tracing model0 ?引 ?言
招标工作中,管理者需要对大量的招标文件实施排序,选取最优招标方案[1]。而最优招标方案会受到投标公司经济、技术以及环境等多方面的影响,是一个较为复杂的问题[2]。最优招标方案选取是工程建设的基础,对工程建设计划的圆满实现具有重要意义,因此,如何有效、快速、准确地选取最优招标方案一直是众多公司关注的重点。
文献[3]采用大数据分析方法进行资源数据库的信息融合和优化访问设计,结合自适应均衡博弈和灰色关联度分析,得到方案选取的综合决策模型,该模型每次迭代都需要进行节点间通信,效率较低。文献[4]通过建立指标属性矩阵和直觉模糊线性评价模型进行最优招标方案选取,其没有考虑大数据处理上的时间性,选取结果效率低、准确性差。文献[5]基于模糊综合分析和Gale?shapley理论提出了一个二阶段的招投标优化策略,该策略需要选取大量的代表点,耗时长、稳定性较差。针对上述情况,提出基于大数据的最优招标方案选取算法,对全部招标方案进行聚类,通过抽样加快对招标方案大数据的处理;根据招标方案聚类结果,构建投影寻踪模型实现最优招标方案的选取。1 ?基于大数据的最优招标方案选取算法
1.1 ?招标大数据聚类
1.1.1 ?大数据抽样
为了加快对大数据集的聚类分析,通常会采用抽样的处理方式[6]。在对招标方案进行抽样时,抽取出的小方案集应与大方案集保持一致,即均涵盖全部自然簇,则大数据样本[s]可用下式进行获取:
[s=f×n+nni×log1δ+ ? ? nnilog1δ2+2×f×ni×log1δ] ?(1)
式中,[f],[n],[ni]和[δ]分别表示抽取到指定招标方案的比例、招标方案量、簇[Ci]的范畴以及概率,其中,[0≤f≤1]。式(1)主要表示的是在簇[Ci]内,根据[1-δ]([0≤δ≤1])的概率抽取[f×ni]以上个方案所组成的大数据样本[s]的规模。
假设[n=100 000],[ni=1 000],[δ=0.2],[f=0.1],则方案簇[Ci]中抽取的样本方案集[s]规模为11 962;假设[n=100 000],与[δ=0.2]不变,[f=0.05],[ni=50],则方案簇[Ci]中抽取的样本方案集[s]规模为6 440。
在全部招标方案中,簇[Ci]所占比例较小,只占1%。一般情况下,同一个工程的招标方案类别不会超过10%,若簇[Ci]的大小满足10%,则可以通过更小规模的抽样达到目的;如果[f]值较小,则抽样同样可更小。
为了方便聚类,本文对由全部招标方案组成的、大小为[n]的方案集[D]实施规模一致的[M]次大数据抽样。将大数据抽取的方案样本集[Di]的大小设定为[ni]。实施大数据抽样操作需遵守以下条件:
[Di∩Dj=?ni=njni×M?n] ? (2)
同时,不同大数据抽样之间不存在关联。式中,[i=1,2,…,M],[i≠j],[M∈Z]。
1.1.2 ?确定大数据自然簇质心方位
1) 对大数据抽样进行聚类
假设由全部招标方案构成的方案集包含[k]个类别,方案集的一个抽样包含[k′]个类别,并且[1≤k′<k],对此类抽样进行聚类操作,构成[k]个小簇,那么其中的一个簇将被分裂。对大数据抽样进行聚类时选用Single方法[7]。采用欧氏距离对比招标方案间的雷同度,其运算过程如下:
[dis=xi-xj2] ? (3)
式中,[xi],[xj]分别表示大数据特征空间内数据点的坐标。
各招标方案抽样的聚类大小一致,由于對招标方案抽样实施聚类操作时均是单独操作,因此招标方案的[M]个大数据抽样能够进行聚类处理。在对运行时间无指定要求的情况下,不同招标方案大数据抽样进行聚类操作时可同时进行串行处理。
2) 重整大数据抽样聚类结果
对全部抽样实施聚类操作,可以得到[k×M]个小簇。对各小簇的均值进行运算,公式为:
[xi=1nij=1nixij] ?(4)
式中,[xi],[ni],[xij]分别表示簇[Ci]的数据属性均值、数据规模以及[Ci]内某一个样本的属性。
簇[Ci]通过均值能够获取新方案集[A],该方案集的大小用[k×M]描述。通过Single法对新方案集[A]实施聚类操作,能够得到[k]个簇,即以[k]个大簇替代[k×M]个小簇。通过对该[k]个大簇均值的运算能够获取自然簇质心的方位。
1.1.3 ?均值更新与大数据聚类
由于第1.1.2节的运算中对方案集[D]的应用并不全面,所以获取的大数据自然簇质心的方位与大数据自然簇质心的实质方位必然会存在一定的差距[8]。因此需对大数据自然簇质心的方位实施修改以确定大数据自然簇质心的实质方位。
对比[k]个初始质心的距离,根据最小距离的分类原则,能够将招标方案[D]内剩余的方案样本全部分类到距离最小的簇内。最小距离的分类原则为:
[c=argmaxi-xΔ-xi2] ?(5)
式中,[xi],[xΔ]和[c]分别表示簇[Ci]数据属性的均值、未确定类别的样本属性以及已确定的类别。
依照大数据自然簇质心的实质方位对招标方案集实施划分聚类时,在无指定条件的情况下,通过式(5)中所描述的最小距离的分类原则,按照招标方案与簇质心的距离进行招标大数据聚类。
1.2 ?最优招标方案的选取
通过上述过程实现招标大数据的聚类后,再用投影寻踪方法[9]进行最优招标方案的选取,详细操作过程如下:
设定招标方案聚类后投影寻踪问题的多指标样本集为:
[ei,ji=1,2,…,m;j=1,2,…,n] ? ?(6)
式中,[m]和[n]分别表示大数据样本数量和指标数量。
构建投影寻踪模型:
1) 数据预处理。针对越大越优的指标和越小越优的指标,分别应用[e?i,j=ei,jemaxj]和[e′i,j=1-ei,jemaxj]处理。其中,[emaxj]表示第[j]个指标的最大值。
2) 构造投影指标函数。为获取投影方向优化的规则,构建投影指标函数[Qa],在指标为极大值的情况下,获取最优投影方向。投影指标函数为:
[Qa=Sz×Dz] ? (7)
式中:[Sz]表示类间散开度,等同于[Zi]的标准差,通过式(8)的运算能够得到;[Dz]表示类内密集度,等同于[Zi]的局部密度,通过式(9)的运算能够得到。
[Sz=i=1mZi-Z2m-112] (8)
[Dz=i=1mj=1mR-rij×IR-rij] (9)
式中:[Z],[R]和[rij]分别表示序列[Zi, i=1,2,…,m]的均值、通过招标方案特征获取的局部宽度参数以及点间距。一般情况下,局部宽度参数为[0.1×Sz],[rij=Zi-Zj]。若[rij]不大于[R],则按照类内计算,相反则按照差异类计算;[IR-rij]为单位阶跃函数,若[R≥rij],则函数值为1,相反为0。
3) 确定最优投影方向。对下述的优化模型进行求解运算可以获取最优投影方向,优化模型的目标函数如下:
[max Qa=maxSz×Dz] (10)
2 ?实验分析
实验以某项水利工程的招标为例[10],详细的参考评价指标如表1所示。
为了验证本文提出的基于大数据的最优招标方案选取算法的速度优势,分别使用本文算法、基于OSCK的最优招标方案选取算法和基于直觉模糊集的最优招标方案选取算法对不同规模的招标方案进行最优选取,记录不同算法使用的时间并进行对比,结果如图1所示。对图1进行分析可知,在数据量未达到100 MB时,三种不同算法所需的时间差距较小,均未超过5 s。然而随着数据量的不断增大,本文算法的速度优势逐渐体现出来,当数据量达到2 048 MB时,使用本文算法进行最优招标方案选取花费8.27 s;使用基于OSCK的最优招标方案选取算法花费17.95 s;使用基于直觉模糊集的最优招标方案选取算法花费22.32 s。实验结果表明,使用本文算法进行最优招标方案选取耗时较短,具有一定的速度优势。实验为了测试本文算法的聚类效果,分别使用本文算法、基于OSCK的最优招标方案选取算法和基于直觉模糊集的最优招标方案选取算法对表1中的招标工程进行聚类,得到的误差结果如图2所示。 对图2进行分析能够得到,使用不同算法进行最优招标方案选取时,在数据规模未超过300 MB时,三种算法的聚类效果相差较小,误差均未达到4%。随着数据规模的不断扩大,三种算法之间的聚类误差也逐渐加大,当数据规模达到2 048 MB時,本文算法的聚类误差接近7%,聚类效果最优;基于OSCK的最优招标方案选取算法的聚类误差接近10%,聚类效果次之;基于直觉模糊集的最优招标方案选取算法的聚类误差接近12%,聚类效果误差最大。实验结果表明,使用本文算法进行最优招标方案选取时对招标方案的聚类效果最佳。
实验为了验证本文算法在处理大数据集时的准确性,分别使用本文算法、基于OSCK的最优招标方案选取算法和基于直觉模糊集的最优招标方案选取算法进行100次的最优招标方案选取试验,对比不同算法的准确度,如图3所示。
分析图3可知,使用三种不同算法进行实验时,随着实验次数的增加,三种算法的准确率都在逐渐下降,然而与其他两种算法相比,本文算法准确率下降较平缓。当实验次数达到100次时,本文算法准确率维持在93%,基于OSCK的最优招标方案选取算法的准确率为80%,基于直觉模糊集的最优招标方案选取算法的准确率为76%。实验结果表明,使用本文算法进行最优招标方案选取时的准确率较高,稳定性较好。3 ?结 ?论
本文提出基于大数据的最优招标方案选取算法,对招标方案进行大数据聚类,根据大数据聚类结果构建投影寻踪模型实现最优招标方案的选取。在聚类过程中,通过大数据抽样加快对招标方案大数据处理进程,解决了传统最优招标方案选取算法进行大数据处理过程中存在的效率低、稳定性差等问题。实验结果表明本文算法具有速度快,准确率高等优点。
参考文献
[1] 曹阳,钱晓东.基于局部关键节点的大数据聚类算法[J].计算机工程与科学,2016,38(7):1338?1343.
CAO Yang, QIAN Xiaodong. A big data clustering algorithm based on local key nodes [J]. Computer engineering & science, 2016, 38(7): 1338?1343.
[2] 李晓峰.云平台中大数据并行聚类方法优化研究仿真[J].计算机仿真,2016,33(7):327?330.
LI Xiaofeng. Optimization and simulation research on parallel clustering method of big data in cloud platform [J]. Computer simulation, 2016, 33(7): 327?330.
[3] 史金梅,夏伟.基于大数据分析的学生最优选课方案模型的设计与实现[J].现代电子技术,2017,40(14):30?32.
SHI Jinmei, XIA Wei. Design and implementation of student′s most preferred course project model based on big data analysis [J]. Modern electronics technique, 2017, 40(14): 30?32.
[4] 郭磊,王军,安晓伟.基于直觉模糊集的水利工程评标办法[J].南水北调与水利科技,2016,14(5):189?193.
GUO Lei, WANG Jun, AN Xiaowei. Bidding evaluation model of water conservancy and hydropower project based on theory of intuitionistic fuzzy set [J]. South?to?north water transfers and water science & technology, 2016, 14(5): 189?193.
[5] 丁斅,盛昭瀚,刘慧敏.基于模糊综合分析和Gale?Shaplev理论的重大工程二阶段招投标机制研究[J].中国管理科学,2017,25(2):147?154.
DING Xiao, SHENG Zhaohan, LIU Huimin. A two?stage method for mega projects bidding system based on fuzzy analytic hierarchy process and Gale?Shapley strategy [J]. Chinese journal of management science, 2017, 25(2): 147?154.
[6] 马良,马颖亮,刘新科.基于“招标?投标”策略的舰艇编队协同反导优化[J].火力与指挥控制,2015,40(5):95?98.
MA Liang, MA Yingliang, LIU Xinke. Fleet cooperative anti?missile optimization based on strategy of "invite public bidding" [J]. Fire control & command control, 2015, 40(5): 95?98.
[7] 王应权.长大铁路隧道施工通风方案选择及优化[J].地下空间与工程学报,2015,11(z1):359?366.
WANG Yingquan. The selection and optimization of ventilation scheme for long railway tunnel construction [J]. Chinese journal of underground space and engineering, 2015, 11(S1): 359?366.
[8] LEE S, JIN Y, JANG G, et al. Optimal bidding of a microgrid based on probabilistic analysis of island operation [J]. Energies, 2016, 9(10): 814.
[9] SADEGHI?MOBARAKEH A, MOHSENIAN?RAD H. Optimal bidding in performance?based regulation markets: an MPEC analysis with system dynamics [J]. IEEE transactions on power systems, 2017, 32(2): 1282?1292.
[10] 宋俊芳,陈烽,何磊,等.运动目标最优角点选择算法[J].科学技术与工程,2016,16(12):113?119.
SONG Junfang, CHEN Feng, HE Lei, et al. A new algorithm for selecting optimal corner point of moving target [J]. Science technology and engineering, 2016, 16(12): 113?119.