基于关联规则的招标投标失信行为预警研究
汪浩然 陈辉
摘要:本文基于关联规则挖掘技术,构建了招标投标失信行为预警分析模型,然后结合某省公共资源交易大数据,考察了2015- 2018年该地区招标投标失信行为预警的关联关系。本文的主要结论是:招标投标失信行为的关联挖掘可分为两类:一类是基于采集到的主体信息进行挖掘,对招标人、投标人、评标人、招标代理机构的潜在失信行为进行辨识和失信预警;另一类是将采集到的公共信用信息平台的数据,与招标投标主体信息进行关联,对主体的特征属性与行为信息进行关联,可以起到检验主体特征属性与失信行为之间关联关系的作用,从而为失信行为的分类、预测提供依据。在实际挖掘过程中,招标投标失信行为的关联挖掘,需要基于不同的数据源来设定挖掘目标,并设定最小支持度和最小可信度,以获取有价值的关联规则,进而对参与招标投标活动各类主体的失信行为进行分类预警。
关键词:关联规则 招标投标 失信行为 公共资源
中图分类号:TP311;F284 文献标识码:A
0 引言
招标投标,是现代经济社会公共资源交易择优成交的一种经济行为,是基于市场竞争机制和特定的技术方法,有组织开展的一种交易活动。诚实守信是招标投标的基本原则,当不同主体在参与招标投标活动中出现失信行为时,公平竞争的市场环境便会受到破坏,同时也会带来国家和社会公共利益的损失。2015年7月,国务院办公厅印发的《关于运用大数据加强对市场主体服务和监管的若干意见》提出,各级政府部门要充分运用大数据、云计算等现代信息技术,加强事中事后监管,以维护市场正常秩序,促进市场公平竞争。2017年12月,习近平总书记强调,要运用大数据提升国家治理现代化水平,建立健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新。那么,公共资源交易监督主管部门如何运用大数据技术,加强对招标投标过程的信用管理,以避免招标投标失信行为的发生,则成为招标投标信用监管中一个急需解决的重要问题。
近年来,随着大数据技术的不断发展,一些学者提出可通过大数据构建预测模型,对企业可能发生失信的情况进行预测。如,董鹏(2008)基于整体招标和顺序招标两种机制,提出了基于文本关联的围标、串标行为识别方法[1];程铁信(2018)采用灰色综合关联分析和文本挖掘分析,通过计算投标文件综合相似度,提出了围标、串标行为的识别方法[2]。樊群等(2016)以广州公共资源交易中心招标投标数据为分析对象,借助大数据技术通过建立社团检测模型,对围标、串标行为进行了识别与分析[3]。然而,单纯依靠对投标文件相似度的文本挖掘,或对投标人社团关系的识别,并不足以充分发现潜在的招标投标失信行为。为此,本文基于关联规则挖掘技术,构建招标投标失信行为预警分析模型,以对参与招标投标活动各类主体的失信行为进行关联挖掘和失信预警,以为公共资源交易信用监管提供一种便捷、有效的方法。
1 关联规则及Apriori算法
關联规则挖掘是数据挖掘中的一种重要方法,其主要目的是从给定的交易数据集中发现不同属性数据间的相关关系。关联规则,是Agrawal于1993年首次提出,以在海量数据中发现那些不为人知的信息和规律,并获得一些有关交易特性、行为模式的一般性规则[4]。关联,即指两个或两个以上事物或属性之间存在着某种相关性或规律性,关联挖掘的目的则在于找出事务数据集中隐藏的相关关系。关联规则应用于招标投标大数据挖掘中,不仅可以用来分析招标投标参与主体失信行为产生的诱因和发展趋势,为招标投标信用监管提供辅助决策,还能通过对招标投标信用大数据的分析,掌握各主体之间的关系,得到相关主体间的某些行为规律,为公共资源交易信用监管提供技术上的支持。
依据关联规则挖掘所处理的数据类型的不同,数据挖掘所获得的关联规则可分为不同的类型。一方面,如果交易事务数据集的数据为布尔型数据,所得到的关联规则反映的是项或属性在数据集中存在与否,以及出现的概率的情况;如果交易事务数据集的数据为数值型,则得到的是数值型的关联规则,以反映项或属性间的量化关系。另一方面,如果处理的数据集存在维数的不同,那么得到的关联规则可分为单维以及多维关联规则。比如“投标人A21XX?评标人C”就是单维的,只涉及参与主体这一维。“投标资质=‘一级21XX?评标人=2”则可认为是多维的,因为它涉及的是投标人和评标人两个维度的不同属性。
2 基于关联规则的招标投标失信行为预警分析模型
在公共资源交易中,招标投标失信行为的表现形式是多方面的,涵盖招标人、招标代理机构、投标人和评标人四类主体。为了将招标投标数据组成为交易事务数据集,分析各种相关主体间的复杂关系,首先需要分析一下招标投标失信行为发生的特性。从过程来看,招标投标失信行为是指在某一项招标投标活动中,自招标人(或委托招标代理机构)发布招标公告(或资格预审公告),到投标人制作投标文件、参与投标,再到评标专家进行评标并推荐中标候选人,以及招标人与中标人签署中标合同,中标人履行合同等全过程中所可能发生的违背诚实守信原则,进而排斥竞争、扰乱招标秩序的行为。为方便进行整个招标投标过程失信行为的关联挖掘,需要将每一次招标投标活动全过程所涵盖的招标人、招标代理机构、投标人和评标专家的属性数据加以整合,以形成招标投标交易事务数据集。
在招标投标过程中,由于招标投标所涉及的主体众多,各主体之间可能存在着错综复杂的利益关系,发生失信行为的表现形式各异,也较为隐蔽。如,在招标环节,招标人和招标代理机构发生失信行为的表现常常有:设置排斥竞争条款、限制特定投标人参与投标。在投标评标环节,拥有不同资质、资金实力和技术能力的投标人之间,可能为了中标而相互串通投标报价,或相互约定轮流“坐庄”,进而做出有损诚信、规避竞争的失信行为[5];而在评标过程中,某些评标专家可能在遇到某些投标人或某些招标代理机构时,表现出参与评标次数频繁,评分分值畸高、畸低等失信行为。在关联挖掘过程中,我们可以通过招标人、招标代理机构以及评标专家、中标人同时出现的频率进行挖掘,以发现可能存在的串通招标和中标的失信行为,为公共资源交易监管机构事前监管提供依据。当招标投标大数据不能涵盖以上四类主体及其特征属性时,我们仍然可以通过对主要投标人和评标人同时出现的概率进行关联挖掘,以发现他们之间可能存在的失信行为。
在招标投标失信行为预警模型设计方面,我们通常有两种模型设计方法:一类是个体与个体的关联模型,即招标投标中存在的且可以相互区分的个体,包括招标人、招标代理机构、投标人和评标人,然后,通过将各个个体在每一次招标投标活动中出现的情况进行关联,以挖掘前项和后项之间的关系。如,投标人与评标人的关联、投标人与投标人的关联、招标代理机构与评标人的关联,以及招标人、招标代理机构、投标人和评标人的关联等。另一类是个体与个体属性的关联模型,即个体与个体特征数据的关联,用以反映招标投标活动中某类个体的特征属性与个体失信行为的关联程度[6]。如,评标专家的性别、年龄、从业经历与评标专家评分分值畸异程度的关联;投标人资质、从业经历、业绩水平、资金实力与投标人信用等级(或信用受罚)之间的关联。
失信行为预警模型的设计,即是使用招标投标交易事务数据集,利用关联挖掘工具,根据主体与主体、主体与属性等关联模型方法建立相应的关联关系。在关联挖掘前,我们首先需要根据招标投标失信行为的特点、表现形式,结合所能采集到的数据源,以确定关联挖掘所要实现的目标。其次,基于关联挖掘目标,选择能涵盖招标投标失信行为的主体信息或主体属性数据,以构成招标投标交易事务数据集,并对数据集进行数据清洗,剔除存在错误、缺失或不一致的数据,以形成完整的招标投标事务数据集。然后,选择主体关联模型或主体与属性关联模型,对招标投标事务数据集进行关联挖掘,以获取有价值的关联规则。最后,在具体的模型运用上,还需要结合数据集的大小、质量,来调整关联挖掘的最小支持度和最小置信度,并通过设定前项和后项条件,来提取模型分析目标的关联规则。
3 招标投标失信行为关联挖掘及结果分析
由于当前我国各地区公共资源交易大数据的汇集和应用还处于发展初期,很多时候采集到的数据并不能涵盖所有主体的特征属性(如,投标人注册资本、信用记录),有些数据因为各种原因缺失,并不能构成完整的事务集;有些数据虽然存在(如不良信用记分),但不具有统计学意义,难以满足大数据关联挖掘的数据要求。为此,本文结合笔者所采集到的某省公共资源交易平台的工程建设类招标投标大数据,将投标数据、中标数据与评标专家数据进行匹配,组成招标投标交易事务数据集,以验证关联规则挖掘在招标投标失信行为预警中的有效性。
本文选用的数据集包含tenderee(招标人)、bidder(投标人)、expert(评标专家)和agency(招标代理机构)四类主体参与招标投标活动的数据。在进行关联规则挖掘前,先对采集到的原始數据进行预处理,对存在缺失项的事务集进行剔除,然后将不同数据源的数据按招标项目代码进行匹配,并对每一主体按字符序号进行标识。例如,招标人标识为T1、T2、…Tn,投标人标识为B1、B2、…Bm,评标人标识为E1、E2、…Ei,招标代理机构标识为A1、A2、…Aj。经过数据清洗和数据预处理后,最后得到包含上述四类主体在内的18595条交易事务数据集。
然后,采用R软件arules和arulesViz程序包,对数据集进行关联挖掘,得出频繁项集与强规则。在实际挖掘过程中,设置最小支持度为0.008,最小置信度为0.5,得到134条强关联规则。这里,本文依据提升度从高到低排序提取前10条有效规则加以展示,结果见表1。
从表1的关联规则挖掘结果可以看出,在支持度大于0.008,置信度大于 0.5的情况下,每条关联规则的提升度均显著大于1,说明这些数据项之间存在着强关联关系。从支持度和置信度来看,在成交的交易中,上述投标人、评标人和招标代理机构同时出现的情况较为频繁。具体规则解释如下:
第一,第一条规则中,前项投标人B194、B583和后项投标人B1832同时出现的情况较多,在18595条交易数据中,同时出现的次数达到149次,且在前项B194、B583出现的情况下,后项投标人B1832出现的概率达到74.1%,提升度达到52.52,说明B1832在B194、B583出现的条件下同时出现的概率相较于B1832在总体18595项交易活动中出现的概率提升了约52倍,这三个投标人之间极有可能存在围标、串标的失信行为。
第二,第四条规则中,在投标人B194、B251和评标人E362、招标代理机构A381出现的前提下,投标人B375出现的概率达到73.2%,提升度达到46.22,且这几类主体累计出现的次数达到153次,说明这些投标人、评标人和招标代理机构同时出现的较为频繁,他们之间存在规避公平竞争、干扰评标和串通竞标等失信行为的可能性,公共资源交易信用监督管理部门应对这几类主体重点观察加强监管,对可能发生的失信行为进行预警。
第三,第七条规则中,前项投标人B5937,B8263和评标专家E926,与后项投标人B759同时出现的置信度达到0.842,提升度达到43.77,与上条规则类似,说明这三个投标人和该评标专家同时出现的概率较高,从统计意义上来看他们之间存在着强关联关系,极有可能存在招标代理机构定向选取评标专家,以协助特定投标人中标,以及投标人之间相互串通共同围标的失信现象。
第四,招标人的特殊地位和中标偏好也可能对招标投标行为产生影响,同时招标人的中标偏好与评标专家和中标人之间也产生关联影响,但是数据挖掘没有发现这方面的相应结果。原因可能在于本次交易事务数据集中的招标项目涉及到的招标人众多,未达到模型算法所需的最小支持度及最小置信度,需要进一步补充数据量来进行关联挖掘。同样,评标专家也可能对招标投标的中标结果产生较大影响,但是由于部分交易事务数据集缺少评标专家和中标人信息的数据,所以本文的挖掘结果并未挖掘出评标专家对中标结果的影响。
4 结论及建议
摘要:本文基于关联规则挖掘技术,构建了招标投标失信行为预警分析模型,然后结合某省公共资源交易大数据,考察了2015- 2018年该地区招标投标失信行为预警的关联关系。本文的主要结论是:招标投标失信行为的关联挖掘可分为两类:一类是基于采集到的主体信息进行挖掘,对招标人、投标人、评标人、招标代理机构的潜在失信行为进行辨识和失信预警;另一类是将采集到的公共信用信息平台的数据,与招标投标主体信息进行关联,对主体的特征属性与行为信息进行关联,可以起到检验主体特征属性与失信行为之间关联关系的作用,从而为失信行为的分类、预测提供依据。在实际挖掘过程中,招标投标失信行为的关联挖掘,需要基于不同的数据源来设定挖掘目标,并设定最小支持度和最小可信度,以获取有价值的关联规则,进而对参与招标投标活动各类主体的失信行为进行分类预警。
关键词:关联规则 招标投标 失信行为 公共资源
中图分类号:TP311;F284 文献标识码:A
0 引言
招标投标,是现代经济社会公共资源交易择优成交的一种经济行为,是基于市场竞争机制和特定的技术方法,有组织开展的一种交易活动。诚实守信是招标投标的基本原则,当不同主体在参与招标投标活动中出现失信行为时,公平竞争的市场环境便会受到破坏,同时也会带来国家和社会公共利益的损失。2015年7月,国务院办公厅印发的《关于运用大数据加强对市场主体服务和监管的若干意见》提出,各级政府部门要充分运用大数据、云计算等现代信息技术,加强事中事后监管,以维护市场正常秩序,促进市场公平竞争。2017年12月,习近平总书记强调,要运用大数据提升国家治理现代化水平,建立健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新。那么,公共资源交易监督主管部门如何运用大数据技术,加强对招标投标过程的信用管理,以避免招标投标失信行为的发生,则成为招标投标信用监管中一个急需解决的重要问题。
近年来,随着大数据技术的不断发展,一些学者提出可通过大数据构建预测模型,对企业可能发生失信的情况进行预测。如,董鹏(2008)基于整体招标和顺序招标两种机制,提出了基于文本关联的围标、串标行为识别方法[1];程铁信(2018)采用灰色综合关联分析和文本挖掘分析,通过计算投标文件综合相似度,提出了围标、串标行为的识别方法[2]。樊群等(2016)以广州公共资源交易中心招标投标数据为分析对象,借助大数据技术通过建立社团检测模型,对围标、串标行为进行了识别与分析[3]。然而,单纯依靠对投标文件相似度的文本挖掘,或对投标人社团关系的识别,并不足以充分发现潜在的招标投标失信行为。为此,本文基于关联规则挖掘技术,构建招标投标失信行为预警分析模型,以对参与招标投标活动各类主体的失信行为进行关联挖掘和失信预警,以为公共资源交易信用监管提供一种便捷、有效的方法。
1 关联规则及Apriori算法
關联规则挖掘是数据挖掘中的一种重要方法,其主要目的是从给定的交易数据集中发现不同属性数据间的相关关系。关联规则,是Agrawal于1993年首次提出,以在海量数据中发现那些不为人知的信息和规律,并获得一些有关交易特性、行为模式的一般性规则[4]。关联,即指两个或两个以上事物或属性之间存在着某种相关性或规律性,关联挖掘的目的则在于找出事务数据集中隐藏的相关关系。关联规则应用于招标投标大数据挖掘中,不仅可以用来分析招标投标参与主体失信行为产生的诱因和发展趋势,为招标投标信用监管提供辅助决策,还能通过对招标投标信用大数据的分析,掌握各主体之间的关系,得到相关主体间的某些行为规律,为公共资源交易信用监管提供技术上的支持。


2 基于关联规则的招标投标失信行为预警分析模型
在公共资源交易中,招标投标失信行为的表现形式是多方面的,涵盖招标人、招标代理机构、投标人和评标人四类主体。为了将招标投标数据组成为交易事务数据集,分析各种相关主体间的复杂关系,首先需要分析一下招标投标失信行为发生的特性。从过程来看,招标投标失信行为是指在某一项招标投标活动中,自招标人(或委托招标代理机构)发布招标公告(或资格预审公告),到投标人制作投标文件、参与投标,再到评标专家进行评标并推荐中标候选人,以及招标人与中标人签署中标合同,中标人履行合同等全过程中所可能发生的违背诚实守信原则,进而排斥竞争、扰乱招标秩序的行为。为方便进行整个招标投标过程失信行为的关联挖掘,需要将每一次招标投标活动全过程所涵盖的招标人、招标代理机构、投标人和评标专家的属性数据加以整合,以形成招标投标交易事务数据集。
在招标投标过程中,由于招标投标所涉及的主体众多,各主体之间可能存在着错综复杂的利益关系,发生失信行为的表现形式各异,也较为隐蔽。如,在招标环节,招标人和招标代理机构发生失信行为的表现常常有:设置排斥竞争条款、限制特定投标人参与投标。在投标评标环节,拥有不同资质、资金实力和技术能力的投标人之间,可能为了中标而相互串通投标报价,或相互约定轮流“坐庄”,进而做出有损诚信、规避竞争的失信行为[5];而在评标过程中,某些评标专家可能在遇到某些投标人或某些招标代理机构时,表现出参与评标次数频繁,评分分值畸高、畸低等失信行为。在关联挖掘过程中,我们可以通过招标人、招标代理机构以及评标专家、中标人同时出现的频率进行挖掘,以发现可能存在的串通招标和中标的失信行为,为公共资源交易监管机构事前监管提供依据。当招标投标大数据不能涵盖以上四类主体及其特征属性时,我们仍然可以通过对主要投标人和评标人同时出现的概率进行关联挖掘,以发现他们之间可能存在的失信行为。
在招标投标失信行为预警模型设计方面,我们通常有两种模型设计方法:一类是个体与个体的关联模型,即招标投标中存在的且可以相互区分的个体,包括招标人、招标代理机构、投标人和评标人,然后,通过将各个个体在每一次招标投标活动中出现的情况进行关联,以挖掘前项和后项之间的关系。如,投标人与评标人的关联、投标人与投标人的关联、招标代理机构与评标人的关联,以及招标人、招标代理机构、投标人和评标人的关联等。另一类是个体与个体属性的关联模型,即个体与个体特征数据的关联,用以反映招标投标活动中某类个体的特征属性与个体失信行为的关联程度[6]。如,评标专家的性别、年龄、从业经历与评标专家评分分值畸异程度的关联;投标人资质、从业经历、业绩水平、资金实力与投标人信用等级(或信用受罚)之间的关联。
失信行为预警模型的设计,即是使用招标投标交易事务数据集,利用关联挖掘工具,根据主体与主体、主体与属性等关联模型方法建立相应的关联关系。在关联挖掘前,我们首先需要根据招标投标失信行为的特点、表现形式,结合所能采集到的数据源,以确定关联挖掘所要实现的目标。其次,基于关联挖掘目标,选择能涵盖招标投标失信行为的主体信息或主体属性数据,以构成招标投标交易事务数据集,并对数据集进行数据清洗,剔除存在错误、缺失或不一致的数据,以形成完整的招标投标事务数据集。然后,选择主体关联模型或主体与属性关联模型,对招标投标事务数据集进行关联挖掘,以获取有价值的关联规则。最后,在具体的模型运用上,还需要结合数据集的大小、质量,来调整关联挖掘的最小支持度和最小置信度,并通过设定前项和后项条件,来提取模型分析目标的关联规则。
3 招标投标失信行为关联挖掘及结果分析
由于当前我国各地区公共资源交易大数据的汇集和应用还处于发展初期,很多时候采集到的数据并不能涵盖所有主体的特征属性(如,投标人注册资本、信用记录),有些数据因为各种原因缺失,并不能构成完整的事务集;有些数据虽然存在(如不良信用记分),但不具有统计学意义,难以满足大数据关联挖掘的数据要求。为此,本文结合笔者所采集到的某省公共资源交易平台的工程建设类招标投标大数据,将投标数据、中标数据与评标专家数据进行匹配,组成招标投标交易事务数据集,以验证关联规则挖掘在招标投标失信行为预警中的有效性。
本文选用的数据集包含tenderee(招标人)、bidder(投标人)、expert(评标专家)和agency(招标代理机构)四类主体参与招标投标活动的数据。在进行关联规则挖掘前,先对采集到的原始數据进行预处理,对存在缺失项的事务集进行剔除,然后将不同数据源的数据按招标项目代码进行匹配,并对每一主体按字符序号进行标识。例如,招标人标识为T1、T2、…Tn,投标人标识为B1、B2、…Bm,评标人标识为E1、E2、…Ei,招标代理机构标识为A1、A2、…Aj。经过数据清洗和数据预处理后,最后得到包含上述四类主体在内的18595条交易事务数据集。
然后,采用R软件arules和arulesViz程序包,对数据集进行关联挖掘,得出频繁项集与强规则。在实际挖掘过程中,设置最小支持度为0.008,最小置信度为0.5,得到134条强关联规则。这里,本文依据提升度从高到低排序提取前10条有效规则加以展示,结果见表1。
从表1的关联规则挖掘结果可以看出,在支持度大于0.008,置信度大于 0.5的情况下,每条关联规则的提升度均显著大于1,说明这些数据项之间存在着强关联关系。从支持度和置信度来看,在成交的交易中,上述投标人、评标人和招标代理机构同时出现的情况较为频繁。具体规则解释如下:
第一,第一条规则中,前项投标人B194、B583和后项投标人B1832同时出现的情况较多,在18595条交易数据中,同时出现的次数达到149次,且在前项B194、B583出现的情况下,后项投标人B1832出现的概率达到74.1%,提升度达到52.52,说明B1832在B194、B583出现的条件下同时出现的概率相较于B1832在总体18595项交易活动中出现的概率提升了约52倍,这三个投标人之间极有可能存在围标、串标的失信行为。
第二,第四条规则中,在投标人B194、B251和评标人E362、招标代理机构A381出现的前提下,投标人B375出现的概率达到73.2%,提升度达到46.22,且这几类主体累计出现的次数达到153次,说明这些投标人、评标人和招标代理机构同时出现的较为频繁,他们之间存在规避公平竞争、干扰评标和串通竞标等失信行为的可能性,公共资源交易信用监督管理部门应对这几类主体重点观察加强监管,对可能发生的失信行为进行预警。
第三,第七条规则中,前项投标人B5937,B8263和评标专家E926,与后项投标人B759同时出现的置信度达到0.842,提升度达到43.77,与上条规则类似,说明这三个投标人和该评标专家同时出现的概率较高,从统计意义上来看他们之间存在着强关联关系,极有可能存在招标代理机构定向选取评标专家,以协助特定投标人中标,以及投标人之间相互串通共同围标的失信现象。
第四,招标人的特殊地位和中标偏好也可能对招标投标行为产生影响,同时招标人的中标偏好与评标专家和中标人之间也产生关联影响,但是数据挖掘没有发现这方面的相应结果。原因可能在于本次交易事务数据集中的招标项目涉及到的招标人众多,未达到模型算法所需的最小支持度及最小置信度,需要进一步补充数据量来进行关联挖掘。同样,评标专家也可能对招标投标的中标结果产生较大影响,但是由于部分交易事务数据集缺少评标专家和中标人信息的数据,所以本文的挖掘结果并未挖掘出评标专家对中标结果的影响。
4 结论及建议
