审计预警体系研究
王宏巍 李仁昊
【摘 要】 针对当前地市级供电公司配电网工程中物资管理缺乏有效监督的情况,基于用户画像理论,结合C均值聚类算法、3σ原则、变异系数法、Critic权重确认法等数学方法,使用SQL、Eclipse等信息化工具,通过构建轮廓画像、描绘局部画像、雕琢细节画像三步还原典型工程的物资画像,并计算画像风险系数,以此实现在建工程的物资持续审计。通过“数学工具+信息化手段”可以促进内部审计由被动到主动、由抽样到全量、由事后到事中的转变,实现技术方法创新推动内部审计高质量发展。
【关键词】 物资异常领用; 用户画像; 聚类算法; 持续审计; 风险预警
【中图分类号】 F239.45 ?【文献标识码】 A ?【文章编号】 1004-5937(2020)10-0128-08
一、引言
所谓农配网工程,是指在20kV及以下电网上实施的线路或设备新建、改造、修理工程。近年来,为满足人民日益增长的美好生活需要,国家电网公司每年投入大量资金实施电网建设,其中农配网工程投资一直是一大重头。尤其在地市级供电公司的电网建设中,农配网工程投资的高比重表现得尤为明显。以某地市级供电公司(以下简称某公司)2015—2018年电网建设投资状况(具体见表1)为例分析可知,近4年间农配网工程投资占公司整体投资的比例均在50%以上,年均占比高达约71%,由此可窥农配网工程投资大、占比高的特点。这凸显了加强农配网工程资金使用、物资费用等管控的重要性与紧迫性。
确保工程资金合规合法使用,并合理确定和有效控制工程造价是供电公司内审部门肩负的重要职责。一直以来,对农配网工程甲供物资费用的监控不仅是内部审计的重点,更是难点所在。具体表现有三:一是审计手段相对滞后,对于工程项目尤其是成本项目是否按照甲供物资的审计结果进行退料,缺乏机制上的有效管控;二是工程点多面广,年度涉及的物資条目往往多达数十万条,现场审计人员对甲供物资的审核尤其是零星铁附件等无法做到逐条全覆盖;三是工程物资异常领用风险较高,部分建设单位盲目追求资金预算完成率等指标,通过项目中领用无关物资提高预算完成率的情况甚为普遍。由此,对农配网工程甲供物资进行有效、全面管控已成为基层供电公司内审部门乃至全公司迫切需要解决的重要问题,而管控的核心则是杜绝各类工程未使用的物资有意或无意地截留在施工单位手中。
在此背景下,某公司审计部数字化审计团队基于用户画像理论[ 1 ],以SQLServer、Eclipse为载体,通过3σ原则、C均值聚类算法、变异系数法以及Critic权重确认法等数学算法,描绘出典型农配网工程的物资画像,摸索建立了农配网工程物资异常领用风险审计预警体系,通过前移审计关口,实现了内部审计由主观到客观、由抽样到全体、由事后到事中的转变,是技术方法创新推动内部审计高质量发展的良好实践。本文旨在对某公司已有实践与创新加以理论提炼与经验总结,以期架构可资借鉴的农配网工程物资异常领用风险审计预警体系,有效缓解当前农配网甲供物资难以管控到位的现实困境。
二、审计预警体系构建的理论依据
(一)持续改善理论
信息化技术的日益普及与提高,深刻影响了经济与管理乃至审计领域。随着信息与人类行为实时互动的实现,经济管理与审计对客观对象动态观测和改进的目标有了实现的可能。西方管理实践中形成了管理职能与经营活动良性互动不断改善的局面,对此实务发展理性总结形成持续改善理论。与此相适应,审计也推进到了连续审计阶段,传统的滞后性审计拓展成嵌入经济活动中的实时审计,审计职能因此得以巩固与拓展,对实际经济与管理的保障及促进作用更为直接而有效。在实时审计背景下,自然产生了审计预警功能,即对即将发生的经济与管理基于以往审计掌握的信息,做出过程与结果方面的预判,从而在实际审计工作中对经济与管理发表审计意见,提供分析判断依据。由此决定了审计预警,对于现代审计尤其是本来就与经济管理系统融为一体的内部审计而言,是适应信息化全新技术环境带来挑战的积极应对之举。但目前审计理论对这方面缺乏制度层面的系统研究,相应的做法也处于零打碎敲状况。正是基于此,某公司围绕审计预警制度建设,以工程物资审计工作为抓手,尝试利用信息化先进技术进行审计预警,从而有效提高内部审计工作的质量与水平,其间形成了一些经验性做法与感受。本文对此做出理论总结,以期为中国企业内部审计做好审计预警工作提供有益的参考。
(二)用户画像理论
“画像”技术最早应用于刑事侦查破案,其原理是根据目击者的叙述,将犯罪嫌疑人的外貌特征描绘、复原。近年来,互联网企业利用“画像”技术把数据转化为商业价值,通过用户网络数据行为,还原用户的消费特征、消费喜好和消费需求的“画像”,针对特定画像的用户进行产品推销,从而形成了“用户画像理论”。该理论的运作逻辑可表述为:基于“全样本定量分析”,到“个体特征定性描述”,再“对新样本进行画像描绘”,具体见图1所示。用户画像又称用户角色,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,在各领域得到了广泛应用。在实际操作过程中,往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来,进而形成对用户加以画像描述的标签。
“用户画像理论”同样适用于内部审计工作。随着国家电网信息化、数字化业务系统的不断构建,生产、营销、管理等信息系统不断完善,审计关注的财务、营销、业务数据已经完全信息化。综合利用相关系统,搭建系统数据关联,从海量数据中识别出用于描述审计对象的“标签”,对审计对象进行形象化展示,可帮助审计人员更加客观、科学地进行审计分析和评价,大大提升审计人员的工作效率;同时,使审计工作重心从查错纠弊向提供咨询等增值型服务转变,助力内部审计价值提升。
(三)聚类分析(Clustering)
聚类分析主要研究样品或指标分类问题,不仅是一种统计分析方法,也是数据挖掘的一个重要算法[ 2 ]。用户画像理论的核算就是聚类算法。聚类分析基于“物以类聚,人以群分”的理论思想,起源于分类学。在古老的分类学中,人们主要依靠经验和专业知识来实现分类。随着信息化水平日益提高,人们对分类的精确度要求越来越高,仅仅依靠经验和专业知识已经难以确切地进行分类,把数学工具和分类学进行融合成为必然选择,由此形成了数值分类交叉学科。此后又将多元分析的技术引入到数值分类学,形成了聚类分析或聚类算法。
聚类算法的主要做法是按照特定标准——可理解为按照“用户画像的标签”,把海量数据聚合成不同的类,使同一类内数据特征的相似性尽可能大,亦即把相似的对象分到同一组。聚类算法种类很多,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。本文主要采用模糊C均值聚类算法(即FCM算法)开展研究。该算法是一种基于目标函数的模糊聚类算法,其聚类核心是根据每个数据点对聚类中心的隶属度来实现无监督的模糊聚类[ 3 ]。该算法的目标函数(即FCM目标函数)及其约束条件如公式(1)、(2):
(四)Critic权重确认法
Critic权重确认法又称Critic赋值法,是依据指标客观性进行权重分配的方法。指标客观权数的确定依据有二:一是对比强度,以标准差的形式来表现同一指标各个评价方案取值差距的大小,即标准差的大小表明了在同一指标内各方案取值差距的大小,标准差越大各方案取值差距越大;二是冲突性,即评价指标间的冲突性,是指标间相关性的互补概念,如两个指标之间具有较强的正相关,则两个指标之间的冲突性较低[ 4 ]。第j个指标与其他指标冲突性的量化指标为n i=1(1-rij),其中rij表示指标i和指标j的相关系数。
在Critic权重确认法下,各个指标的客观权重确定就是以对比强度和冲突性来综合衡量的。设Cj表示第j个评价指标所包含的信息量,則Cj的计算公式为:Cj=σjn i=1(1-rij)(其中n为同一指标的评价数量,σj为第j个评价指标的标准差)。一般而言,Cj越大,第j个评价指标所包含的信息量越大,其相对重要性也越大。设Wj为第j个指标的客观权重,则Wj的计算公式为:
其中m为所有指标的数量。
三、审计预警体系构建的逻辑框架
某公司针对农配网工程物资异常领用风险,综合运用用户画像理论以模糊C均值聚类算法、Critic权重确认法等,按照如下逻辑搭建了审计预警体系框架:(1)利用底层数据即近年农配网工程的全样本数据,开展数据清洗,实施用户画像,包括轮廓画像、局部画像和细节画像。(2)构建用户画像,即综合运用模糊C均值聚类算法、变异系数法、3σ原则,计算并确定包括物资费用占总投资费用的比例、出现频次极少的异常物资占项目中物资的比例、同类型项目不同物资的配比关系等指标在内的不同维度的数据,逐步雕琢出发生异常领用的物资的模型。(3)构建异常预警,即通过Critic权重确认法,计算不同维度画像的权重系数,得出预警模型的准确描述。(4)在此基础上,开展实时监控,包括进一步扫描在建工程的实时基础数据,实现对在建工程的疑点筛查,同时将结果进行反馈,进一步修正画像,提高准确性。某公司构建农配网工程物资异常领用风险审计预警体系的逻辑框架,具体如图2所示。
四、审计预警体系的系统搭建
按照图2所示的逻辑框架,某公司依次运用如下步骤系统搭建了农配网工程物资异常领用风险审计预警体系框架。需说明的是,样本数据画像勾勒的前提是充分且必要的基础数据,为方便描述,这里所用例证为配电变压器类项目,样本时间跨度为2015—2018年。
(一)基础数据归集及数据清洗
首先从项目ERP系统中导出2015—2018年公司实施的所有配网工程,将其中配电变压器类工程筛选出来。再根据系统唯一的“项目定义号”即wps码,在物资系统导出项目出库物资清单。同时,在审计系统或财务系统导出项目的总成本、服务费成本(含施工、设计、监理等)、物资成本等项目成本信息。经过清洗,共筛选出配电变压器项目9 551个,项目总投资共计8.62亿元,其中物资费用5.42亿元,涉及物资条目28.42万条。
(二)构建画像
例证中所用的配电变压器类项目物资画像由轮廓画像、局部画像和细节画像三部分组成,三部分在逻辑上不是包含关系,而是不同维度的画像构建。通过对将三类画像定性为“可疑”的标签进行权重计算,定性项目画像整体风险等级。
1.构建轮廓画像
轮廓画像是指较为粗糙的用户画像,即不能精确定位到异常项目,仅在大体轮廓上为定位异常项目提供“可疑”标签,后续需要其他画像一并验证的用户画像。农配网工程中同类型的项目,其使用物资的种类数量、实施的方法工艺等应该大体一致。例证中所用的配电变压器类项目的物资状况为:新安装或更换一台配电变压器,安装此变压器的相关配件,并实施相应的调试,使之具备送电投运的功能。由此可见,物资种类相对单一,安装工作也相对一致,故该类项目的物资费和施工费应呈现出相似的比例。依据这一逻辑,生成轮廓画像的第一个标签,称之为“异常比例”。
物资费占总投资的比例数据应当呈现正态分布或近似正态分布。根据正态分布的3σ原则,不在横轴区间(?滋-3σ,?滋+3σ)内的数据,可以贴为可疑标签。如前所述,该项目总数为9 551个,总投资共计8.62亿元,总物资金额占总投资金额比例为66.61%。据此,可描绘所有项目占比的正态分布曲线和直方图,具体见图3所示。
该正态分布的期望值?滋为66.61%,标准值σ为0.152463,所以(?滋-3σ,?滋+3σ)区间为20.8711%~100%,即物资费占总投资比例小于20.87%的项目为异常项目,需贴上可疑标签。经筛选共有138个项目。
2.描绘局部画像
局部画像是比轮廓画像更精致一些的画像,但不是轮廓画像的精细化,而是由不同维度数据进行的精致描绘。如前所述,类型相同的项目,其建设施工工艺、各类费用占比应呈一定类似比例。梳理9 551个配变项目涉及的28.42万条物资领用条目,仅涉及324个物料编码,即只领用了324种物资,说明同类型项目使用的物资类型也大致一致。本文针对例证中所用配电变压器类项目,描绘其局部画像的逻辑是:如果项目单位通过此类项目虚领物资,达到清仓利库目的,那么虚领物资的类型不由项目实际需要何种类型的物资决定,而是由仓库现在库存了什么物资来决定,而库存物资的类型不一定是项目常用物资。反言之,若项目中出现一定比例的非常用物资,则有可能存在虚领物资的嫌疑。
(1)确定异常物料编码库。异常物料编码库的建立包括两个步骤:第一步,从实际工程建设的角度,将出现频率极低的物料编码定义为异常物料编码。由于“频率极低”无法定量描述,仅能根据经驗值进行判断,则需要第二步对结果进行修正。第二步,将异常物料编码与国网公司颁布的配网工程典型设计中的物料编号进行对比,不在典型设计中的异常物料编码将纳入异常物料编码库。
将28.42万条物资领用条目导入SQLServer数据库,计算每条物资在多少项目中出现过。具体SQL语句如下:
--计算一项物料在整个领用物资项目的占比 物料出现的频次/项目总数
with a as (select 项目定义,物料编码,sum(实发数量) as 物资数量 from[2015-2018年变压器项目导出清单]group by 物料编码,项目定义)
b as (select 物料描述,物料编码,sum(金额)as 金额 from[2015-2018年变压器项目导出清单] group by 物料编码,物料描述)
select a.物料编码,count(a.项目定义) as 频次, cast(round(convert(decimal,(count(a.项目定义)))/(select count(distinct(项目定义)) as 项目数 from ?a where a.物资数量!=0)*100,4) as varchar) +'%' as 百分比,b.物料描述,b.金额
from a left join b on a.物料编码=b.物料编码
where a.物资数量!=0 group by a.物料编码,b.物料描述,b.金额
根据筛查结果,暂定义出现频次小于2.45%①的物资为异常物资,共涉及156个项目编码,涉及金额3 230.5万元。为提高该阈值精度,将这156个项目编码与国网公司颁布的配网工程典型设计中的材料清册进行对比,确定其中的137条物资为异常物资,形成异常物料编码库。
(2)数据筛选及清洗。将异常物料编码库导入SQLServer数据库,结合前期导入数据库的项目数据、物资领用数据,形成两个维度的物资异常领用表现:一是物资异常领用条目数占本项目条目数的比例,二是物资异常领用金额占本项目物资总金额的比例。具体SQL语句如下:
select a.项目定义,cast(round(b.异常物资数量/a.物资数量*100,4) as varchar) +'%' as 异常物料数量占比,cast(round(b.异常金额/a.金额*100,4) as varchar) +'%' as 异常物资金额占比 from
(select 项目定义,sum(实发数量) as 物资数量,sum(金额) as 金额 from[2015-2018年变压器项目导出清单]group by 项目定义) as a inner join
(select 项目定义,sum(实发数量) as 异常物资数量,sum(金额) as 异常金额 from[2015-2018年变压器项目导出清单]where 物料编码 in(select 物料编码 from [ntsj].[dbo].[异常物料编码库]) group by 项目定义) as b
on a.项目定义=b.项目定义
(3)模糊C均值聚类分析。FCM算法的一般步骤为:第一步,确定分类数,指数m的值,确定迭代次数(这是结束的条件,可以根据需求确定,可以多种);第二步,初始化一个隶属度U(必须满足公式(2),总和为1);第三步,根据U计算聚类中心C;第四步,计算目标函数J;第五步,根据C返回去计算U,回到步骤三,一直循环直到结束[ 5 ]。
本文主要借助Python语言编程来实现上述C均值模糊聚类算法公式(3)。为了可视化方便,生成一个二维数据在坐标轴上显示,具体如图4所示。在图4中,横轴代表异常物料占比情况,纵轴代表异常物料金额占比情况。基于聚类实验目的,将数据分为异常物资和正常物资两大类。通过参数实验的调整,设定分类数n_clusters为3。通过对9 951个项目中存在异常物料的3 874个项目进行聚类实验,得到聚类结果。
分析聚类实验结果,可以发现这些项目分成了三类:红色类项目(数量3 356),绿色类项目(数量314),蓝色类项目(数量204)②。据此可以认为,蓝色和绿色类项目远离数量群存在异常。结合图4中横纵坐标可知,一个项目异常物料数量占项目总物料比大于28.5%,或异常物资金额占项目总额比大于32.2%,均可大概率认为其存在异常。按照这一逻辑,本文共发现518个项目存在异常。
3.雕琢细节画像
因局部画像仍不能精准描绘出异常领料的完整逻辑特征,故本文进一步借助不同类型领用物资之间的比值关系,对配电变压器类项目雕琢细节画像。理论上,同类型项目使用的不同类型物资之间应呈一定的比例关系,比如一台变压器配置一台JP柜、一根电杆配置50米的导线等。这里运用变异系数法,通过计算数据之间的相关关系查找不同类型物资配比关系,构建异常逻辑矩阵。