基于SVM的P2P网贷平台风险评价体系构建

    卢华阳

    

    

    

    摘要:本文以支持向量机(SVM)作为学习器,运用机器学习技术,构建基于支持向量分类机的评估模型来识别p2p网贷平台借款人的违约风险。构建模型时采用因子分析法进行特征抽取,选择公共因子。通过人人贷的交易数据进行的实证研究结果表明:SUM法对借款人违约状况的预测结果具有较高的准确性,适用于P2P网贷借款人违约风险识别。同时还发现,SVM方法的分类效率受到学习样本中正常样本与违约样本的构成比例影响。与比例失衡的样本相比,比例均衡的样本具有更高的分类精度。本研究对P2P网贷的违约风险评判具有应用参考意义。

    关键词:P2P网贷;支持向量机;信用风险;机器学习

    0 引言

    P2P网络借贷,自2005年在英国出现后迅速向全球蔓延。P2P网络平台迅猛发展要归因于其拥有传统金融平台无法比拟的优点:为融资者提供了更简便、快捷的融资服务;为投资者开辟了一条新的投资渠道;有效消解中小企业以及个人贷款难题。

    但是,在P2P网贷平台迅速发展的同时,也面临多种风险,诸如政策风险、操作风险、监管风险、网络风险和信用风险等(卢馨和李慧敏,2015),其中信用风险尤为突出,也是导致“跑路”、倒闭频频出现的主要原因。

    具体来说,P2P网贷平台信用风险可分为两部分:平台信用风险与借款人信用风险。本文侧重于研究借款人信用风险。借款人信用风险源自于借贷双方信息不对称。在进行借贷活动之前,平台负责对借款者信用进行评估。但平台无法对借款者提供的所有信息进行全部核实,难以保证借款者信息的真实性,也就难以保证信用评估的有效性。在借贷交易完成之后,投资者与平台都无法对借款人的行为有效监督,借款人有可能从事高风险活动或者恶意逾期,最终导致贷款无法偿还。同时,P2P网贷借款门槛低,且无需抵押,这就使借款人的违约风险问题更加严重(沈良辉和陈莹,2014)。因此,在当前形势下,针对P2P网贷平台信用风险建立更准确的风险识别模型,对网贷行业健康稳定发展具有十分重要的现实意义。

    本文针对于P2P网贷平台的借款人信用风险,运用机器学习方法构建基于SVM的P2P网贷平台信用风险识别模型。文章第二部分对相关的研究成果进行回顾与评述,第三部分简述SVM原理,第四部分运用人人贷的数据进行实证研究,最后一部分则是结论与建议。

    1 文献回顾

    1.1 国外信用风险评估方法

    传统统计学方法在线性、正态性等方面有严格的假设。而现实数据往往不满足这些假设,限制了统计学方法在实践中的应用。目前,有很多风险识别方面的研究都开始运用突破这些严格的假设的方法。Hunt等人于1966年首次提出决策树的概念,后来的学者在此概念的基础上加以改进。Chitra&Subashini;(2013)对学习过程有无监督进行了区分,指出可以将SVM方法应用在识别银行的信用欺诈领域,但并未得到严格的最优算法。在统计学习理论的基础上,Vapnik提出了支持向量机机器学习方法。SVM可以完美地解决线性可分间题,针对线性不可分的样本,SVM的解决思路是将原始样本空间映射到更高维的特征空间中,使其变成线性可分间题。而高维空间的运算可以通过原始样本空间的内积运算进行,免去了高维空间运算的复杂性。正是由于SVM在处理非线性问题上的优越性,使得SVM算法越来越受到重视。

    1.2 国内信用风险评估方法

    国内学者对P2P网贷平台信用风险识别的研究大部分仍然基于傳统统计学方法。肖曼君等(2015)通过构建排序选择模型甄别影响平台信用风险的因素,研究发现信用变量、历史记录、借款信息、借款人信息都是网贷信用风险的显著因素。廖理等(2014)通过回归分析得出投资者可以依据借款人的公开信息识别违约风险的结论。将机器学习应用到P2P网贷平台信用识别的研究成果比较少。

    1.3 现有文献评述

    可以看出,国外的信用风险识别运用的方法较为多样,而国内依然沿袭了传统商业银行风险识别方法。而为数不多的运用机器学习研究P2P网贷平台风险的研究成果中,仍有一部分学者沿用着商业银行的风险识别指标。

    2 支持向量机原理

    SVM的原理可以看作是寻找一个满足相应分类条件的超平面,要求该超平面在实现样本类分离的同时满足距离超平面最近的样本点到超平面的距离最大,即在约束下最大化样本与超平面间距的条件。

    最优分类超平面可以将不同类的样本数据准确分开意味着经验风险最小,而最大化分类间隔距离则意味着最小化推广性的界的置信范围,以此可求得最优分类平面。

    在二分类线性可分间题中,分类器是一个超平面f(x)=ωx+b,若f(x)>0则该点属于1类,f(x)<0,则该点属于-1类。SVM构造的最优分割超平面是使得1类中的点到超平面的最短距离和-1类中的点到超平面的最短距离这两者的最大值达到最大,对应于求解如下优化间题,最终解得权重ω和偏移量b:

    s.t.yi(ω*xi+b)≥1 i=1,2,3.....,n(2)

    通过拉格朗日乘数法,该间题可以转化为以下的对偶问题:

    在处理线性不可分间题时,支持向量机的核心是通过核函数将非线性变量映射到更高位的空间中去,使他们变得线性可分。这样支持向量机就避开了求解非线性映射形式和高维数空间运算的困难。

    3 实证研究

    3.1 研究方法与工具

    本文采用机器学习的建模方式测度P2P网贷平台信用风险。搜集“人人贷”平台投资标的中所有可得到的变量信息,通过因子分析进行特征提取,随后将因子与分类变量组合为新数据集进行机器学习。

    本文实证工具采用SPSS 22通过因子分析完成特征提取过程,用Matlab 2015b进行SVM学习与预测。

    3.2 数据来源与指标说明

    受数据可得性限制,本文用于实证分析的数据取自于2010年10月到2014年12月“人人贷”的借款数据,共计301235条记录,去除明显无关变量(诸如贷款申请时间、认证时间、贷款序号、贷款人姓名等)之后包括:贷款类型、贷款总额、利率、还款期限、抓取时状态、保障方式、提前还款率、还款方式、月还本息、性别、年龄、学历、婚姻、公司行业、公司规模、工作城市、工作时间、收入范围、房产、房贷、车产、车贷、工作类型、信用等级、申请借款、成功还款、还清笔数、信用额度、借款总额、待还本息、逾期金额、逾期次数、严重逾期、信用报告、身份认证、工作认证、收入认证、房产认证、购车认证、结婚认证、学历认证共计41个变量。

    3.3 数据预处理

    3.3.1 指标量化与缺失值处理

    指标量化主要是将定性指标进行分类,并将每一类量化为一个数值以示区分。量化过程如下:

    将抓取时状态作为判断借款人是否违约的标志,样本数据中的抓取时状态分为已逾期、还款中、已垫付、已还清、已流标五种状态。平台会为信用评级高于E级的借款人垫付,所以上述状态中已逾期和已垫付表示借款人已经发生违约,已还清表示借款人未发生违约。对于还款中和已流标的状态无法判断,故将数据集中已流标和还款中的记录删去,剩余10304条有效记录。贷款类型区分为信、保、实三种;保障方式区分为本金保障、本金+利息保障;在10304条有效记录中,还款方式仅剩按月还款/等额本息一种方式,故将该指标删去;性别区分为男、女;学历区分为高中及以下、大专、本科、研究生及以上;婚姻区分为未婚、已婚、离异、丧偶;公司行业区分为一类行业、二类行业、三类行业;公司规模区分为10人以下、10-100人、100-500人、500人以上;工作城市按照工作城市所属省份划分为东部地区、中部地区、西部地区;工作时间区分为1年(含)以下、1-3年(含)、3-5年(含)、5年以上;收入范围区分为1000元以下、1001-2000元、2000-5000元、5000-10000元、,10000-20000元、20000-50000元.50000元以上;房产、房贷、车产、车贷区分为有、无;工作类型区分为工薪阶层、私营企业主、网络商家、其他;信用等级区分为AA、A、B、C、D、E、HR;身份认证、工作认证、收入认证、房产认证、购车认证、结婚认证、学历认证区分为认证通过、未认证。剔除变量缺失记录。

    经上述处理之后,保留有效记录为7859条,变量40个。变量名称与缩写如表1所示:

    3.3.2 因子分析法特征提取

    本文研究选取的是借款标的全部变量,这些变量反映的信息会包含无用信息和重复信息。因此,对变量进行筛选,保留且仅保留一组有用信息对提高模型的预测精确度很有必要。因此本文采用因子分析法对数据进行降维。

    (1)样本标准化处理与相关性检验

    由于SPSS 22在做因子分析时会自动对数据进行标准化处理,因此可以省略该步骤。直接对数据做KMO检验与巴特利球度检验,看数据是否适合做因子分析。结果如图1:

    结果显示,巴特利球度检验卡方值为366016.59(p=0.000),KMO值为0.798,说明样本适合做因子分析。

    (2)因子提取

    从结果来看,前11个因子的解释能力已经达到72.772%,说明因子中包含了原始变量中72%的信息,既达到了浓缩指标的目的,也保留了原始变量中的大部分信息。可以看到自第十一个主成分开始,后续主成分的特征值开始小于1,说明后续的主成分对应变量解释能力不强,因此选择11个主成分是合适的。

    为了更好地对公因子进行解释,本文采用方差最大旋转法进行旋转。经旋转后变量与因子之间的关系较为明显,选取系数绝对值最大的前几个变量为代表变量,归纳因子含义,据此对因子进行解释。见表20

    因此可以看到,网贷平台借款人信用风险评价应当从上述十一个方面进行。

    (3)样本转化根据主成分系数

    通过旋转后的成分矩阵将原始样本转化为因子样本地加入应变量后可以生成一个新样本,并将该样本用于SVM模型。

    3.4 模式应用与结果展示

    将新样本按照7:3的比例分割为学习集和测试集。考虑到样本中违约样本仅有200条占总样本的2.5%左右,因此需要将违约样本与非违约样本分别分割。得到学习样本5501条,测试样本2358条。

    本部分实证使用matlab 2015b和python 3.6,采用libsvm-3.22和grid.py工具进行。经参数寻优得到模型最优参数c为128,最优参数g为0.03125。

    预测结果中,正常样本预测准确率与违约样本预测准确率如表3所示。

    在确定样本适合做因子分析后,采用主成分分析法,可以得到因子解释原有变量总方差的情况,如图2所示:

    可以看到,违约样本预测准确率较低,且预测集的准确率仅有55%左右,效果不理想。其原因可能是因为违约样本过少,正常样本过多,出现了过学习的现象。正常样本过多,正常类别的支持向量也相应的增多,会使得分类超平面出现偏离。

    通过人为控制学习样本中正常样本与违约样本比例,按照违约样本/正常样本=1/3的比例重新组织学习样本。重组学习样本量为560条,其中正常样本420条,违约样本140条,占新学习样本总量的比例为25%。将原因子样本都作为预测样本重复之前实证过程后发现,违约样本的预测准确率升高到100%,如表4所示。

    根据预测结果可以看出,在提高学习样本集中违约样本所占比例之后,违约样本预测精度确实出现了大幅提高,正常樣本预测准确率略有下降,这主要是因为学习样本较少(420条),而预测样本太大(7659条)的缘故。通过上述实证可以证明,违约样本的预测准确率偏低是由于学习样本中违约样本与正常样本比例失衡,正常样本出现过学习现象,分类平面出现偏离所致。

    4 結论与建议

    本文通过机器学习的建模方式,选取“人人贷”标的信息中所有变量作为研究样本,通过人工判断与因子分析将变量浓缩为十一个因子指标,并用SVM构建借款人信用风险识别模型。模型预测准确率达到96.3354%,能够较好地识别不同类别的借款人信用风险,表明该方法可以应用于P2P网贷平台信用风险识别,且效果较好。但在应用时应当注意几个方面:

    (一)对P2P网贷平台信用风险识别应当从借款基本信息、借款人历史借款信息、借款人信息可靠程度、借款人负债压力、借款人偿债能力、借款人历史信用状况、借款人固定资产状况、借款人收入稳定性、借款人事业发展前景、借款人收入和身份认证这十一个方面进行综合考量,选取相应数据作为变量体系,从而全面反应借款人的整体信用状况。

    (二)P2P网贷平台信用风险识别具有一定的特殊性。该变量体系所需信息大体上与传统商业银行信贷模式所需信息吻合。但P2P网贷平台的信用风险识别的侧重点多出了借款人信息可靠程度和身份认证,原因在于,传统商业银行信贷模式需要借款人提供相应信息与纸质证明,且银行信息渠道广泛核实成本较低。而网络贷款发生于虚拟空间,借款人身份、借款人相关信息相对容易伪造,网贷平台信息核查成本较高。这就要求监管部门对P2P网贷平台开放信息渠道,同时加大借款人信息不实的处罚力度,以减小网络贷款信用风险识别与银行贷款信用风险识别之间的差异。

    (三)在采用支持向量机机器学习方法构建P2P网贷平台信用风险识别体系时应当注意选取的样本中正常样本与违约样本的构成比例,避免因比例失衡而引起的过学习现象。

    参考文献:

    [1]卢馨,李慧敏.P2P网络借货的运行模式与风险管控[J].改革,2015,(2):60-68.

    [2]沈良辉,陈莹.美国P2P网货信用风险管理经验及时我国的启示[J].征信,2014,(6):61-65.

    [3]肖曼君,欧缘媛,李颖.我国P2P网络借货信用风险影响因素研究——基于排序选择模型的实证分析[J].财经理论与实践,2015,(1):2-6.

    [4]廖理,李梦然,王正位.《聪明的投资者:非完全市场化利率与风险识别——来自P2P网络借贷的证据》.《经济研究》第7期,2014,(7):125-137.

    [5]Chitra K.,B. Subashini, 2013, "Data Mining Techniques and itsApplications in Banking Sector",International Journal of EmergingTechnology and Advanced Engineering, 3, pp. 219-226.

    [6]Hunt E.B.,J. Marin, P.J. Stone, "Experiments in induction",American Journal of Psychology, 80(4), 1966, pp. 17-19.