大数据背景下融资企业信用特征分析
王宁 王澍 张江 陶鹏
摘? ?要:国网大数据中心泛在电力物联网建设对电网金融数据分析的范围、模式和方法提出了更高要求。面向大数据样本研究,如何将大样本相比于小样本的独有特征体现在分类模型中值得深入探索。以供应链的金融数据的分布特征为出发点,研究了影响信用风险分类模型的主要因素,进而概括出信用数据的分布特征,并探讨了进一步的解决策略。通过电网供应链金融大数据分布特征的分析,旨在研究出电网全业务数据后隐含的信息,以此来为信用风险模型的构建提供了前提条件。
关键词:泛在电力物联网;供应链金融;信用风险;国网大数据;全业务数据中心;离群点;多维
中图分类号:F276.3? ? ? 文献标志码:A? ? ? 文章编号:1673-291X(2019)35-0131-02
引言
大数据(Big Data,BD)是经济发展到一定阶段的产物,是时代的烙印。尤其是数字时代的今天,它促使具有多重媒介的电网业务数据出现大幅上涨。国际数据公司IDC(International Data Corporation)在《2018—2019年产业发展研究报告》中指出,2018年全球超大规模数据中心为430个,较2017年增长11%;全球业务市场整体规模达到6 253.1亿元人民币,较2017年增长23.6%。大数据的到来在很大程度上改变了电网业务的发展,通过研究电网业务数据来侧面反映出用户行为规律,从而进一步挖掘潜在的商业价值以及社会效益,也创造了更多具有价值的信息。Gantz等描述了包含体积(Volume)、变化(Variety)、速度(Velocity)、准确性(Ve-racity)和价值(Value)五个方面内容构成的大数据5V理论。其在阐述5V理论时指出数据的准确性及价值对于大数据而言是非常重要的,如果没有数据分析出存储、管理等方面的内容的话,它将不会产生更多价值。
一、国家电网供应链金融大数据分析的现状
电网供应链金融是以核心企业为中心的,并通过管理物资流、现金流以及信息流来将其上、下游各级供应商及终端客户紧密联系在一起的一个网络结构。它是国家电网公司落实支持实体经济和小微企业的央企责任的重要手段,有助于优化产业链条生态环境,提高供货的稳定性,降低网省公司经营风险,同时,供应链金融作为新兴信贷服务模式,将成为国家电网公司金融业务新的重要增长点。电网供应链融资比传统的融资模式具有很多的不同点,例如,评价指标动态多样化、资金关系复杂等,这也使得电网供应链融资的风险及风险评价有其独特之处。通过大数据形成的多维评价机制能有效的对融资企业的数据进行准确、客观的分析出其的资信状况,这也在很大程度上为多数风险型的企业提供资金融通,从而推动电网公司与融资企业的和谐发展。
二、融资企业信用数据的分布特征
(一)信用数据的非对称性与不平衡性
信用评估其实可以直接将其看成是一个二元的客户分类问题,信用样本的获取具有涌现性的特征,指的是在众多样本中往往很少发现具有价值的样本点,而且这类样本明显少于其他类样本的集合被称为不均衡样本,总而言之,信用评估问题具有很多特性,譬如类别分布不平衡与不对称等,这些对供应链金融风险评价形成了较大制约。
(二)信用数据噪声和离群点问题
在信用风险评价领域的发展中,噪声和离群点会直接导致信息、周期性的统计误差以及报告偏倚出現错误。噪音离群点又被称为孤立点,它的存在会直接影响分类精度。而引起噪音离群点产生的原因有多种,例如异类、数据变量的固有变化、数据误差等。因此,加强高维空间的数据稀疏问题处理力度,并采用合适的度量方法,能有效促进离群点的发展。
3.3信用数据的非线性多维特征
信用风险评估具有多个特点,如高维、非线性等,而现有的分类方法都是一句数据间的相似度来区分的,但是,如果是在高维的情况下,由于数据比较稀疏,会使得数据间的距离及区域米密度不再明显,再加上高维度的数据对样本数量的要求较高,当数据维度大于样本数量时,就会出现拟合现象,因此,完善高维数据的本质低维结构,就必须首先解决数据低维问题。
三、解决信用数据分布特征的相关策略
(一)非均衡样本的解决策略
1.基于数据分布的调整
数据准备阶段是进行数据分布调整的基础,因此,必须做好数据准备,才能通过数据分组或者数据采样等方式促使类别的平衡,以此来消除类别的不平衡问题。由于利用重抽样算法来扩充少量样本会直接产生拟合问题,无法得到理想的效果,于是Pierri等人就采用了案例控制匹配的Logistic回归、平衡样本的Logistic回归和ROSE(Random Over Sampling)平衡样本回归这三种方法来解决非均衡信用数据所产生的分级问题,并取得了很好的效果。这也同样能适用于供应商的信用评级问题的解决。
2.基于监督模型的策略
随着机器研究的不断发展,非均衡样本通过采用神经网络算法、支持向量机等方法也有了新的发展结果。Li等人通过在子空间与贝叶斯神经网络集成方面采用有别于传统算法的深度方差网络算法,使得非均衡样本分类产生了很好的识别效果。主要区别在于考虑了样本数据的异类以及类间的异构性,从而将贝叶斯模型引入到神经网络学习框架中,将每次得到的特征聚类到与判别相关子空间中,进而使得非平衡训练数据上的同质性以及异质性得到自行调整。
3.基于半监督模型的策略
上述方法都属于监督式分类建模的研究范式,也就是通过研究前进行有效架设,将已存在一定数量的标签样本用于建立风险评价模型中,但是,由于供应链融资具有很强的复杂性,使得在此过程中难以得到大量的准确标签样本,而只能依靠少量的标签数据是难以得到数据分布规律的。肖进等人提出了可在随机子空间的半监督模型,它是通过采用RSS的方法来得到基本分类器,继而从大部分的无类别标签中通过选择性的标记适合的样本加入到原始训练集中,从而在最终的训练集中得出训练分类模型,进而进行有效分类。通过在三个客户信用评估数据集的分析显示RSSCI模型具有监督式集成信用评估模型与半监督协同训练信用评估模型所没有的优势。
4.基于集成处理的策略
实验表明,通过对多个分类器的分类结果进行有效集成,使每个分类模型都发挥自身的优势,比进行单个分类模型更能提高客户信用评估模型的准确性。集成处理策略时通过大量的弱分类器组成的一个强分类器。Sun等人认为,特征选择与非均衡数据处理在信用分析评价中都占据着至关重要的地位,为此提出了以T-test和分支定界(B&B)为基础的动态特征选择模型,并以SSVMS和多重判别分析为基分类器进行集成以处理非均衡样本模型(IOMCE)。通过实验表明IOMCE模型对于处理分均衡信用样本的分类问题具有积极作用,而且通过特征选择模型进行分类数据维度的降低也能很好地提高非均衡信用样本的评价精度。
(二)噪声离群点的解决策略
1.基于统计学的探测方法
偏离平均值μ超过3σ的数据点指的是在正态分布中的一个具有代表性的离群点,由于其与标准差存在很大的差异,对此贾润达等人认为,可通过一种叫做鲁棒M估计的间歇过程离群点检测方法来进行检测,进而将积分方程离散化将问题转换成最小二乘优化问题,并通过Tikhonov正则化方法及鲁棒M估计来减少对参数的影响,然后分析出各个样本点的权值,从进而实现对离群点的检测。研究表明,即使在不确定的市场环境中,创造性的财务与自由裁量权所造成的噪声与违约概率会自然形成同向关系,反之则会形成反向关系。
2.基于聚类的探测方法
聚类的方法使用来检测对象与簇之间的关系的,因此,可将数据集分成类簇,如若出现一个对象不属于任何类簇,可以将其视为基于聚类的离群点。Jiang等[6]人认为可通过两阶段聚类离群检测算法进行检测,这一算法认为可在第一阶段运用K-means算法将所有的数据集转变成若干个干聚类,然后在第二阶段运用多个簇类将其质心代替后形成新的数据库,进而使质心间的距离作为权值成为最小生成树,去掉长边,形成多棵子树,将较少结点的树对应的小簇类可将其视为离群点。
3.基于距离的探测方法
为了弥补以上算法的不足,王习特等[7]人通过新型的分布式计算方法,通过运用BDSP(Balance Driven Spatial Partitioning)空间数据的方法来处理数据,再通过采用BDSP算法引出一种BOD(BDSP-basedOutlierDetection)离群点检测算法得出每个计算结点本地。该算法是通过R树索引从而进行大量过滤得出本地离群点进而得出候选集,然后采用BDSP的快编码规则确定相邻块,从而得出最终结果。
4.基于密度的探测方法
上述关于离群点的含义及剔除都是纵观全局得到的,由于实际数据集结构更加复杂,由此还存在数据观察异常的现象,它被称为局部离群点。Breunig等[8]认为可通过离群点的检测算法,将其邻域的考察数据点与其近邻“密度”的差异来断定其是否是离群点,从而将这种存在的差异点称为局部离群因子(LocalOutlierFactor,LOF)。
结语
综上所述,信贷增量控制导致实体经济缺乏充分发展的条件,尤其是供应商融资方面的影响,国家电网公司的供应链金融发展的实质就是解决发展处于劣势地位的供应商的融资问题,是“三型两网”世界一流能源互联网企业建设的重要探索,是提高金融业务创新活力、推进产融协同、服务公司高质量发展的重要举措。由于供应链融资具有评估指标灵活多样以及资金关系较为复杂等特点,加上我国供应商的密集性、多样性从而使得数据分析方法较为复杂。大数据是通过分析供应商的信用特征,从而梳理出主要影响因素,进而对评估数据中的的内在信息与研究价值进行分析,最终为构建更优越的电网供应链金融平台奠定理论基础。
参考文献:
[1]? 肖进,薛书田,黄静,等.客户信用评估半监督协同训练模型研究[J].中国管理科学,2016,24(6):124-131.
[2]? 賈润达,刘俊豪,毛志忠,等.基于鲁棒M估计的间歇过程离群点检测[J].仪器仪表学报,2013,34(8):1726-1731.
[3]? 王习特,申德荣,白梅,等.BOD:一种高效的分布式离群点检测算法[J].计算机学报,2016,39(1):36-50.