标题 | 基于人工智能的互联网金融信用评分模型研究 |
范文 | 王卓娅 王彬彬 刘源 [摘 要]互联网金融的风控模式不同于传统银行业金融机构的信贷审核机制,缺乏足值抵押,面临的信息不对称问题也有别于传统金融行业。当前,随着大数据的迅猛发展和机器学习算法的普及,人工智能正在兴起。文章基于人工智能算法的互联网金融信用评分模型,对人工智能在互联网金融中的应用及其现实挑战进行了研究,发现基于人工智能的信用评分模型具有独特优势,必将成为未来金融业风险控制的主流选择。 [关键词]人工智能;互联网金融;信用评分;Logit模型 [DOI]10.13939/j.cnki.zgsc.2018.13.039 1 引 言 交易风险是传统银行业金融机构面临的主要风险,商业银行需要对客户还款的履约能力进行风险评估,在评估客户违约可能性的基础上给予恰当的授信额度。[1]传统风险评估中,客户的工作、收入、婚姻状况和财产等背景风险是重要的决策因素,同时还要求一定额度的抵押品,综合授信门槛高,由此导致的金融排斥和金融低效常常受到人们诟病。近年来,互联网金融打破传统金融服务的“二八定律”,依靠大数据和机器学习的算法优势,拥有丰富的真实业务场景,人工智能信用评分模型在互联网金融领域日益普及。[2]文章将对人工智能在互联网金融信用评分模型方面的应用、面临的现实挑战进行分析并给出对策建议。 2 人工智能的信用评分模型 人工智能评分模型日益增多,分析问题的视角也不尽相同,但学习类模型的思路大致相通。首先根据信用评分的真实业务场景建立模型,通过正则化的惩罚项约束过高的模型复杂度,将数据分为训练数据和检测数据,根据最大熵原理进行模型优化,其算法十分丰富:迭代尺度法、梯度下降法、牛顿法、拟牛顿法等。[3]由于训练数据和检测数据永远增加,且模型具有自主调整能力,因此能够持续学习成长。关于人工智能的信用评分模型,具有代表性的主要是以下几种: (1)Logit模型。Logit模型实际上是受限因变量(LDV)分析框架的一种应用。在互联网金融评分模型中,最简单的客户分类就是“好”和“坏”两类,从概率上看只要超过0.5便可以确定其类别属性,因而也是两分类受限因变量的常见处理方式。评分模型实际上是对未知客户的信用水平进行打分,客户的真实信用状况是不可观測的,因而称为潜变量Y*,信用评分实际上就是利用连接函数将潜变量分值转换为可观测的{0,1}两分类结果,人工智能的算法就是要保证找到使信用分值经转换后能最大限度拟合训练数据Y值的模型,进而确定出重点影响因素并对新增客户进行信用打分和预测。LDV的一般框架如下:yit*=x′itβ+εityit=T(yit*),其中yit*是潜变量,yit=T(yit*)是转换函数,它将yit*的取值转换为可观测的结果yit。如果以潜变量是否大于0来对观测结果进行分类,取值概率如下:P(yit=1)=P[T(yit*)]=P(x′itβ+εit≥0)=F(x′itβ)。显然,LDV分析框架下,模型的具体形式就取决于累计分布函数F(x′itβ)的形式,如果是Logistic分布就是Logit模型,连接函数F(x,β)=Flogistic(x′β)=11+e-x′β,因变量取值概率Pr(Y=1|X)=Flogistic(x′β)=11+e-x′β。关于模型评价:一是看拟合优度:R2=lnL1-lnL0lnLmax-lnL0;二是看正确预测百分比,如果概率P≥0.5,取Y_hat=1,预测正确的除以总数就是正确预测百分比;三是看KS曲线,它是好客户和坏客户的累积概率差的最大值,如果坏客户估计值的经验分布与好客户估计值的经验分布存在显著差异,并且坏客户集中于信用评分较低的区域,好客户集中于较高区域,表明模型区分能力较好。 (2)支持向量机。支持向量机(SVM)是机器学习中一个非常重要的分类算法,最早由Cortes和Vapnik于1995年提出并得到广泛运用。它是一种二分类模型,原理是在特征空间中寻找使得间隔最大的线性分类器,算法上表现为对一个凸二次规划问题求解。SVM能够在有限的样本信息条件下,兼顾好训练精度和泛化能力的矛盾关系,因此在解决小样本、非线性及高维模式识别中具有独特优势。在信用评分模型中,通常采用线性可分支持向量机,这种情形下训练数据是线性可分的,并且能够保证最优解是全局唯一的,性质优良。实际应用中,不妨将“违约”“不违约”定义为两分类变量Yi:{-1,+1},则对训练数据集T={T1,T2,…,Tn}来说,就是要寻找使得这些点间隔最大的分离超平面。假设分离超平面由:y=wx+b表示,则这个最优化的分离超平面可由下述最优化问题得到:min12‖w‖2s.t yi(wxi+b)-1≥0,相应决策函数为:f(x)=sign(w*x+b*)。 (3)随机森林。决策树是一种树型结构的分类方法,简单易行,因此也适用于信用评分模型,它从根节点出发,采用“if-then”规则,递归地对每一个实例进行分类直到叶节点,因此保证了分类路径的唯一性。然而,传统的决策树容易引起过拟合的严重问题,现代方法倾向于采用随机森林来解决。所谓随机森林就是以随机方式,采用多个决策树的投票机制,以“多数票”方式来进行过拟合问题的改善。在互联网信用评分模型中,假设采用随机森林的方法,使用了m棵决策树,因此需要生成m个样本数据集来训练每一棵树。显然,全样本训练这m棵决策树是不可取的,并且全局样本容易产生忽视局部规律的问题,这对提升模型泛化能力是有害的。实践中,常常采用Bootstrap自抽样方法,解决了有限样本下大量训练的问题,是一种行之有效的方法。 (4)人工神经网络模型。人类大脑的神经元就是一种最简单的分类器,可以从N个感受器接受到电信号后进行加权判断,决定是否发出电信号。受此启发,信用评分模型总可以用N-1维的超平面分割N维空间,对“好”“坏”客户进行分类。著名的Hebb算法通过逐点调整分离超平面的位置完成模型优化,得到最终的分类结果。然而,现实问题的维度通常很高,难以通过简单线性可分的神经元完成分类要求,因而需要对每一次线性切分的半平面作交、并等运算,相当于上一层的神经元作为下一层神经元的输入,这就构成了人工神经网络模型。人工神经网络模型的训练依靠反向传播算法,从开始输入层输入特征向量,经网络层层计算,如果输入结果与实际分类标签不一致,就会从最后一层进行参数调整,并且层层倒推,直到网络输出的分类结果正确为止。 3 现实挑战 互联网信贷审核和信用风险防控主要依靠互联网金融下的各类信用评分模型,在人工智能发展的日新月异下,各类先进的人工智能算法开始频繁出现于信用评分领域。人工智能的目的是要最终实现自主化和智能化运行,将人们从烦琐低效的传统信贷审核和现场调查中解放出来,节约企业运营成本,提升金融业效率。[4]然而,還存在如下现实挑战: (1)挑战一,模型泛化能力弱化。由于互联网金融信用评分应用场景千差万别,技术人员建模过程过于重视训练效果,或过于重视单一业务数据的拟合效果,导致模型整体泛化能力偏弱,模型对新增业务场景或新增客户的审核缺乏学习和成长能力,模型失效和模型预测不准时有发生,部分公司甚至依靠人工审核进行授信,人工智能评分模型束之高阁,不能适应未来行业发展需求。 (2)挑战二,模型过度复杂,过拟合现象严重。人工智能在多数信用评分问题中都取得了比传统模型更好的性能,这是因为人工智能下的评分模型无须变量分布的严格假设,可以直接从不断更新的训练数据中获得知识并解析规律。与传统的线性评分模型相比,人工智能在处理非线性分类问题时,更加灵活高效。实践中,由于技术人员过于追求训练拟合效果,倾向于采取过度复杂和过度繁多的变量建模,导致过拟合现象严重,预测效果低于预期。 (3)挑战三,交叉验证机制流于形式。人工智能模型获得良好学习能力的一个方法就是要建立正确合理的交叉验证机制,对训练数据和检测数据进行动态调整,不断增强模型的学习机会。然而,由于企业人员的技术能力参差不齐,对模型的理解和执行思路未能有效厘清,许多企业只是简单将数据划分为训练和检测两类,对数据生成机制缺乏深入探索,导致模型训练存在偏误。 (4)挑战四,缺乏行业标准。当前,人工智能模型似乎百花齐放、百家争鸣,一派繁荣景象。然而,繁华之下乱象丛生。近年来人工智能在迅猛发展的同时,也存在行业泡沫,根源是缺乏行业指导和标准。[5]由于人工智能的进入门槛过低,评判标准不清,导致诸多人工智能应用被当作题材概念进行炒作,最终有损行业发展。 4 结论与对策建议 未来,人工智能必将成为未来互联网金融风控的基石。然而,当前互联网金融评分模型还存在模型错用、过拟合现象普遍、泛化能力弱化、泛化误差较大和技术人才稀缺等问题。克服现实挑战:一是加强高校科研院所与互联网金融行业的项目交流机制,引导产学研的深度结合,为人工智能在互联网金融行业的发展提供人才保障;二是建立人工智能互联网金融风控的峰会论坛交流机制,为现实问题寻求行业答案;三是以央行和银监会等监管部门牵头,发布风控行业的人工智能发展指引,颁布数据安全标准,建立基准模型,树立行业规范标准。 参考文献: [1]蔡慧琴.互联网金融的发展及人工智能的应用[J].现代商贸工业,2017(35):36-37. [2]乔海曙,王鹏,谢姗珊.金融智能化发展:动因、挑战与对策[J].南方金融,2017(6):3-9. [3]谢水园.基于布朗运动欧拉离散化模拟的VaR在股票市场中的应用研究[J].特区经济,2017(5):110-112. [4]刘源.“一带一路”沿线国家的金融监管架构——国际比较与经验借鉴[J].沈阳工业大学学报:社会科学版,2017,10(3):210-220. [5]刘源.互联网金融对高校金融教育影响的SWOT分析[J].大学教育,2017(10):8-10. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。